BeszédÜberChart

Mivel se az infositeon se a wikin nem volt egy táblázat fontos adatokról, létrehoztunk egyet. Bővítsétek, mert nektek is jó! Pecc, Neu

Hangok osztályozása gerjesztés szerint

zöngés: az összes magánhangzó, b, d, g, gy, v, j, m, n, ny, l, r
zörejes: p, t, ty, k, c, cs, f, sz, s, j*, h
kevert: dz, dzs, z, zs

Hangok osztályozása szerkezet szerint

Egyszerű: az összes magánhangzó, v, f, z, sz, zs, s, j, h, m, n, l
Összetett: b, p, d, t, g, k, gy, ty, c, cs, dz, dzs, ny, r

Hangok osztályozása illeszkedésük szerint

Stabil: gy, ty, j, n, ny, r
Kölcsönösen illeszkedő: b,p, d, t, dz, c, dzs, cs, v, f, z, sz, zs, s, h, m, l, az összes magánhangzó (?)
Erősen illeszkedő: g, k

Osztályozás vizuálisoknak

https://wiki.sch.bme.hu/pub/Infoalap/BeszedUberPuska/besz_hang_osztalyozas.jpg

Mássalhangzók osztályozása hangképzés szerint

Nazális: m, n, ny, ng
Likvida: l, j
Pergő: r
Felpattanó zárhang: t,d,p,b,k,g,ty,gy
Réshang: f,v,s,zs,sz,z,h
Zár-réshang (affrikáta): c,cs,dz,dzs

Magánhangzók formánsai

(A CD-ről kimásolva)

https://wiki.sch.bme.hu/pub/Infoalap/BeszedUberPuska/mgh_F1_F2.png

Mássalhangzók formánsai, zörejgócai

(A CD-ről kimásolva)

https://wiki.sch.bme.hu/pub/Infoalap/BeszedUberPuska/msh_F_Z.png

Gépi beszédfelismerők jellemzése

Mőködési elv:

Szabálybázisú
Statisztikai alapú: HMM, ANN
Sablon alapú: DTW (Dynamic Time Warping)

Használat módja:

Spontán beszéd (folyamatos beszéd, pl diktáló rendszerek)
Parancsmódú vezérlés (izolált szavas)
Dialógusvezérlés (kapcsolt szavas, a szavak közötti szünetek minimálisak)

Méret:

Kicsi: párszáz szó
Közepes
Nagy: 20-80 ezer szo

Beszédfelismerő rendszereket minősitési szempontok

statisztikai alapú (HMM, ANN) vagy szabálybázis/tudásalapú
beszélıfüggetlen, beszélıfüggı vagy adaptív (avagy beszélık száma alapján)
akusztikus környezet alapján: robusztus (zajos környezetben is használható), távbeszélı minıséggel vagy kiváló hangminıséggel mőködik csak
szociolingvisztika: dialektusra, korra és nemre érzékeny e
artikuláció alapján: izolált szavas, kapcsolt szavas vagy folytonos (diktáló) rendszer
szótárméret: kis (<100 szó), közepes vagy nagy (>20.000 szó)
beszédstílus: spontán, parancsmódú vagy dialógus-menüszerő
nyelvfüggés-nyelvazonosítás
alkalmazói környezet: szakembereknek vagy laikusoknak, egyfelhasználós vagy sokfelhasználós

Prozódia

A prozódia a beszéddallam, a hangsúly, a ritmus, a hangero, a tempó és a hangszínezet nyelvi használata, a beszédképzés szupraszegmentális szintjének része. [forrás: Beszéd CD, 7.oldal]

Komponensei:

Dallam
Hangsúly (ezen belül alkomponensek: alapfrekvencia, intenzitás, idıtartam)
Ritmus
Hangszín (?)

Jellemző beszédfrekvenciák

A folyamatos beszéd átlagos F0 alapfrekvenciái [Hz]:

férfiaknál: 100-200
nőknél: 150-300
gyerekeknél: 250-600

forrás: beszedakusztika_gyak_2005.pdf

Triádos megoldósdi

Egy triádos adatbázisú, hullámforma-összefűzéses szintetizátorral a következő mondatot állítjuk elő: "Miért 40% a határ?". Írja le milyen feldolgozási lépések valósulnak meg a példamondaton, amíg a szövegből a végleges hullámforma előáll! (Volt ZH kérdés is - 2009 ősz)

Első lépés: Graféma->Graféma konverziók, avagy a különféle jelölések feloldása, hogy csak betű legyen az output, mégpedig: "Miért negyven százalék a határ?"

Graféma->Fonéma konverziók avagy a g és y nem külön g és y hanem "gy". Karakterek helyett beszédhangokat írunk. Ezt valami SAMPA átírással lehetne jól leírni.

Fonéma->Fonéma konverziók avagy nem negyven-nek ejtjük ezt a szót így, hanem netyven-nek. Hasonulások, összeolvadások, rövidülések, kivetések. Eredmény (SAMPA-ban lenne ildomos írni): Mi(j)ért netyven százalék a határ?

Mindezekkel párhuzamosan fontos a prozódia mondatszintű, szószintű stb lebontása, relatív megadása. Ugyanígy intenzitással is. Amennyire lehetséges, hangsúlyhatárokat is bejelöljük (pl vessző előtt felmegy).

Ha mindez megvan, egy adatmátrixot kapunk, melyben a szöveg minden lényeges elemét hangokra lebontva megadtuk, ami a kiejtéshez kell.

Ezek főbb vonalakban: frázishatárok, szünetek, hangsúly, időtartam, F0, F0 töréspont, intenzitás. Utóbbi 4-et %-ban célszerű megadni.

Ezt az adatmátrixot kapja meg a triádos beszédgenerátor.

A beszédgenerátor veszi a hangkódokat a jelölésnek megfelelően. CVC helyzetbe triádot keres, egyéb helyzetekben pedig diádot.

Ezek hangosságát, frekvenciaszerkezetét és periódusidejét megváltoztatja a megadott százalékoknak stb. megfelelően.
A szükséges helyekre megfelelő nagyságú szünetet illeszt be.
Az egyes elemeket simító algoritmusokkal összefűzi.
Utolsó lépés: a profit!

Definiciók és kiskérdések

Majdnem abc sorrendben..

Aliasing

Ez a jelenség azt eredményezi, hogy a mintavételezett hullámforma torzulni fog visszaállításkor. Pl.: a Nyquist kritérium szerint 10 000 Hz mintavételezési frekvencia mellett az 5000 Hz feletti frekvenciájú hangkomponensek torzulni fognak visszaállításkor. Ezt úgy kezelik, hogy egy alul áteresztő anti-aliasing filterrel kiszűrik az 5000 Hz feletti komponenseket.

Alapfrekvencia (pitch)

Az alapfrekvencia, azaz F0. A PSOLA (Pitch Synchronous Overlap Add Method) eljárás az alapfrekvenciát változtatja a beszéd dallamának változtatása érdekében.

Akusztikus vs nyelvi mód

Az akusztikus modell az egyes beszédhangokra ad egy referencia-jellemzővektorokat, míg a nyelvi modell a beszédhangok kombinációs lehetőségeit adja meg szótárak segítségével, illetve akár a ragozáshoz nyújt megfelelő szabálybázist.

Artikulációs sebesség Milyen érték jellemző a magyarra? Mi a beszédsebesség?

Az artikulációs sebesség az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül. A magyar beszédnél tipikus értéke 13 hang/s. A beszédsebesség a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s) artikulációs sebesség <= beszédsebesség

Akusztikai dB és a Phon érték kapcsolata

A Phon görbe az azonos hangosságérzetű görbék serege, ahol a referencia-frekvencia az 1 kHz. Azaz 1kHz-es hangok esetén a Phon érték megegyezik az akusztikai dB-el.

Beszédkódolók

PCM: Pulse Code Modulation (logaritmikus), ezen belül van az A-law (EU) és -law (USA). Lineáris kvantálás. LPC - lineáris predikció. MPEG (layer 3).

DTMF

Dual Tone MultiFrequency, DTMF jelek esetén nincs beszédjel, így zavarja az érthetıséget, mert 2 szinusz hang szólal csak meg, így a jel spektrumában könnyen felismerhetı lesz a 2 kiugró amplitudó

F2 és B2? HOgyan határozhatóak meg?

F2 a beszédjel második formánsa, avagy az akusztikum második legkisebb felerısített felhangnyalába, a B2 pedig ennek a formánsnak a sávszélessége. F2 meghatározható a jel spektrumából, ez a második legkisebb erısítési hely (lokális maximum), a

B2- t pedig ezen a maximum alatt 3 dB-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki.

ITU P.800?

Az ETSI egyik szubjektív beszédminısítı szabványa. Minısíthetünk abszolút módon, elıre definiált skála alapján (ACR) 'jelenség' észlelési tesztek romlás megfigyelése eredetihez képest (DCR) referencia rendszerrel összehasonlítás (MNRU)

ergodikus

A folyamat tulajdonsága. Ha a folyamat ergodikus, akkor 1 folyamat is magában hordozza a sokaság tulajdonságait.

F1

Az első formáns. Magánhangzók jellemzéséhez a formánsokat használjuk. Az alapfrekvencia az F0, ennek egészszámú többszörösei a formánsok. F1 az F0-hoz legközelebb eső formáns.

HMM

Hidden Markov Model - Rejtett Markov Model. Statisztikai alapú beszédfelismerési módszer.

Hanning-ablak és a szonogram kapcsolata?

Ha gördülő spektrumot avagy szonogramot szeretnénk készíteni, akkor az időben folytonos jelünket bizonyos kis szeletekben mintavételeznünk kell. A kis kivágott időintervallumokból akkor kapunk jó spektrumot, ha azt megfelelően kiablakozzuk és nem csak simán kivágjuk egy négyzetes ablakkal. Egy ilyen jól bevált ablakozó függvény a Hanning ablak, melynek képlete: ***** fix me *****

LPC

Lineáris predikció. Bizonyos esetekben ha nem a mintát, hanem a minták különbségét kvantáljuk, akkor kevesebb biten tudjuk átvinni ugyanazt az információt (tömörítés).

Locus, az F2 és F0 kapcsolata?

A CV átmenet jellegzetessége a locus: megfigyelték, hogy pl. a d után ejtett magánhangzók felfutó szakaszait, ha visszafelé meghosszabbítjuk, ezek egy pontban metszik egymást – a legtöbb mássalhangzó az őt követő magánhangzó vagy őt megelőző magánhangzó második formánsát (F2) a szóban forgó mássalhangzót jellemző frekvenciára kényszeríti, ezek a locusok. Az F2 pedig nem más, mint a hangszalagoknál képzett gerjesztő jel alapfrekvenciájából (F0) a vokális traktusban felerősített, második legkisebb felhang-nyaláb (Fn).

Néma fázis. Sorolja fel az összes beszédelemet, amelyre vonatkozhat!*

Néma fázis: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát. A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs.

Négyszögletes ablak. Mi a szerepe a beszédfeldolgozásban?

A Fourier-integrálás során egy kis idıkeret analízise úgy történhet meg, hogy az idıben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis idıszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendo

Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható?

Kempelen Farkas, *1791*-ben. Ma az MTA Nyelvtudományi Intézetében látható. (legalábbis ajánlom neki h ottlegyen..) Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre? Bánó Miklós, *1916*-ban.

MP3

MPEG-1 Audio Layer 3. (nem MPEG-3) Veszteséges tömörítés. Az emberi fül számára nem hallható hangokat eldobja. Részletesebben: Érzeti (részsávos kódolás) percetptual (subband) coding Frekvenciamaszkolási jelenség (elfedés a frekvenciatartományban)

 1)minden sávra megállapítjuk, hogy milyen energiájú összetevok vannak a jelben
 2)az elfedett összetevok kihagyása
 3)a kvantálási zaj növelésének lehetősége: úgy kvantálunk, hogy a kvantálási zaj ne legyen nagyobb, mint az elfedési szint (itt a tömörítési lehetőség)

Mintaillesztési eljárások

Szabályalapú, statisztikai alapú (HMM - Hidden Markov Model és ANN - Artificial Neuro Network ) illetve sablon alapú (DTW).

Megfigyelési valósznűség

Azt az értéket adja meg, hogy mennyi annak a valószínűsége, hogy egy HMM rendszer x állapotában j jellemzővektort figyeljünk meg.

VXML

Voice eXtended Markup Language - dialógusok leírására alkalmas

Mi a VXML, a SUI és a DTMF kapcsolata a beszédinformációs rendszerekkel?

Mindegyik a beszédinformációs rendszerek felépítését segíti, illetve annak egy eleme. A VXML avagy Voice eXtensible Markup Language interaktív dialógusok leírását és tervezését könnyíti meg ember és számítógép között. A SUI avagy Speech User Interface az ember-gép kapcsolatot beszéd és hangok által teremti meg. A DTMF avagy Dual Tone Multi Frequency egy jeltovábbítási megoldás avagy mechanizmus a normál telefonvonalon keresztül, ahol 2 frekvencia együttes megszólaltatásával összesen 16 különböző jelet generálhatunk (4*4=16).

Relatív hangosság. Hányszorosa a hangosság a 40 phon hangnak?

Képlettel: N = 2 ^ [(L - 40) / 10] L: phon , hangosságérzet. 40 phon = 1 son, 50 phon = 2 son , 60 phon = 4 son stb.

SAMPA. Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával?

SAMPA: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel. A SAMPA-val a beszédhangok egyértelmően leírhatók, segíthet a beszédértésben. Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon.

SNR

Snr = 1.74 + 6.02 * 16 bit = 98.06dB

Screen reader és TTS kapcsolata

A screen reader csak egy illesztı alkalmazás a képernyı és a TTS között, a képernyın található információt adja át felolvasásra a TTS számára.

Spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát.

Spektrális átlapolódás: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen. Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás) Példát mindenki remélem tud adni ezek alapján :]

Triád

Egy triádos adatbázisban három hosszú hangkombinációkra tároljuk a hullámformákat. A tárolt adatok mennyisége ezért a fonémák köbével arányos. A tárolt hang az első fonéma közepénél kezdődik és a harmadik közepénél fejeződik be.

Elınyei: A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt. Természetesebb hangzás Könnyebb szövegtervezés
Hátrányai: Sok munkát jelent a felvétel Sok memóriát foglal Sok szöveget kell felolvastatni Diádokat és egyéb elemeket is igényel az adatbázis

Teljesítmény sűrűség spektrum

Az akusztikai dB-ből visszakövetkeztethetünk a hangjel amplitudójára (10-es hatványraemelés), az így kapott időjel négyzete a teljesítmény sűrűség spektrum. (ha jól mondom :] )

VOT A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással!

VOT: Voice Onset Time avagy zöngekezdési idő felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ. A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem)