Beszed vizsga 20060602
A VIK Wikiből
Feladatsor:
- A csoport
- B csoport
A csoport
1. feladat
- Milyen jellel mérjük a beszédátviteli rendszerek minőségét?
- Természetes emberi beszéddel, de érdektelen felvételeket kell felolvastatni az alanyokkal! (nem vagyok teljesen biztos h ezt kérdezik..)
- Az objektív minősítő rendszer hatékonyságát mihez képest mérjük?
- Az objektív minősítés célja a szubjektív minősítés közelítése, tehát azt nézzük, hogy mennyire egyezik az eredménye az egyéni véleményekkel.
- Ha a gépi minősítés a szubjektív minősítéshez képest egyes méréseknél lényegesen jobb, más méréseknél lényegesen rosszabb eredményt ad, akkor a minősítő mely komponensét kell módosítani?
- A pszichoakusztikus modellt, esetleg a belső távolság számításának a módszerét (amivel a referenciafelvételtől való eltérést mérjük, számítjuk)
- A csomagkapcsolt beszédátviteli rendszerek (pl. VoIP) mely tulajdonsága okozza a legnagyobb nehézséget a beszédminőség mérése során?
- (A hálózat paramétereinek nem stabil volta. Teljesen más minőséget kapunk ha kis illetve szélessávon mérünk, illetve változatos kapcsolat (műholdas, kábel, adsl) esetén is jelentős eltéréseket tapasztalhatunk a beszéd minőségében, a hálózatforgalmi szituációkat nem is említve (pl. ha közben töltünk is).) Nem a rizsára voltak kíáncsiak. A válasz: Jitter (késleltetés-ingadozás). Bővebben: jegyzet
2. feladat
- Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható?
- Kempelen Farkas
- 1791-ben.
- Az egyetlen megmaradt példány ma a müncheni Deutsches Museumban van. Forrás: http://hu.wikipedia.org/wiki/Kempelen_Farkas
- Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre?
- Bánó Miklós
- 1916-ban.
- Mi az artikulációs sebesség? Milyen érték jellemző a magyarra? Mi a beszédsebesség?
- Az artikulációs sebesség az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül.
- A magyar beszédnél tipikus értéke 13 hang/s.
- A beszédsebesség a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s)
- artikulációs sebesség <= beszédsebesség
- Mi a VOT? A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással!
- *VOT*: Voice Onset Time avagy zöngekezdési idő
- felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő
- Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ.
- A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem)
- Mi a spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát.
- *Spektrális átlapolódás*: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen.
- Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás)
- Példát mindenki remélem tud adni ezek alapján :]
- Mi a néma fázis? Sorolja fel az összes beszédelemet, amelyre vonatkozhat!
- *Néma fázis*: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát.
- A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs.
3. feladat
3.1
- HAMIS. Nem fonémasorozatot kell előállítania, hanem egy olyan 10-40 dimenziós vektort, melyeknek kicsi az intraindividuális és az interindividuális jellemzője.
- IGAZ.
- HAMIS. Semmi köze a prozódiához, a beszéd kisebb egységeinek kezelésében segíti munkánkat.
- HAMIS. No comment :)
3.2
- IGAZ. Kicsit furán van megfogalmazva, de szerintem jó.
- IGAZ.
- HAMIS. A mintaillesztés egyik lényege hogy a különböző ritmusú ejtések között is tudjon mintailleszteni.
- HAMIS. Igaz csak sablonalapú és a legegyszerűbb fajta, de mintaillesztési eljárás.
3.3
- IGAZ.
- HAMIS. Valószínűségekkel dolgozik a HMM, így teljes biztonsággal sosem tudja megmondani, hogy egy megfigyelés adott állapothoz tartozik vagy éppen nem tartozik.
- HAMIS. Legnagyobb valószínűségi útvonalat keres.
- HAMIS. Mert lineárisan, lásd dinamikus programozás.
4. feladat
- Mi az LPC? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e és hogyan a jel spektrumával?
- Linear Prediction Coding / Coefficients. Lineáris elõrejelzés. Olyan matematikai eljárás, amellyel a megelõzõ mintákból jósolni lehet a következõ mintát. LPC segítségével az akusztikus jelbõl meghatározható például az artikulációs üregrendszer átviteli karakterisztikája is.
- ??? (Ha jól meghatározhatók az LPC együtthatók, jobban érthetők a hangok?) A formánsokat jól lehet vele követni.
- Igen, a LPC analízis is egyfajta spektrumát adja meg a jelnek. (ide még lehetne írni)
- Mi az F0 ill. F1? Hogyan határozhatók meg?
- F0 az alapfrekvencia, azaz a hangforrás gerjesztésének frekvenciája. F1 pedig a legkisebb (első) formáns azaz felerősített felhangnyaláb.
- F0 meghatározható a zöngés hangok periódusidejéből (megegyezik azokkal). F1 pedig a jel spektrumára illesztett burkológörbe első (lokális) maximumhelye.
- Mi a Hamming-ablak és mi a szerepe a beszédfeldolgozásban?
- A Hamming-ablakot a jelre illesztve egy véges időtartományban kell csak elvégezni a Fourier-integrálást. A szerepe az, hogy adott időpillanatban releváns frekvenciákat felerősítse, a távoliakat gyengítse hogy adott időpillanatra jó spektrumot kapjunk a Fourier-integrálás után.
- Mi a screen reader és a TTS kapcsolata?
- A screen reader csak egy illesztő alkalmazás a képernyő és a TTS között, a képernyőn található információt adja át felolvasásra a TTS számára.
5. feladat
5 specifikációs szempont:
- Nyelv
- Operációs rendszer
- Beszéd minősége : érthetőség, természetesség
- Milyen hangokon szólaljon meg (ffi/női)
- Mennyire legyen paraméterezhető: hangmagasság, sebesség, szünetek hossza, stb.
- Vezérlési felület, API
- Bővítési, továbbfejleszthetőségi lehetőségek
- ...
5 felhasználási lehetőség:
- Emailek felolvasása telefonon keresztül
- Vakok és gyengénlátók számára
- Rendszerüzenetek, ajánlatok természetesebb közlése
- Előfizetési információk közlése emailen keresztül
- Gyerekek számára
- Call Center IVR (telefonos menürendszer) elemeinek dinamikus létrehozása, esetleg nagy kiterjedésű hiba esetén az 'üdvözlőszöveg' amiben bemondják hogy tudnak a hibáról és javítás alatt van, felolvasó nélkül beállítható
- ...
6. feladat
Működési elv:
- Szabálybázisú
- Statisztikai alapú: HMM, ANN
- Sablon alapú: DTW (Dynamic Time Warping)
Használat módja:
- Spontán beszéd (folyamatos beszéd, pl diktáló rendszerek)
- Parancsmódú vezérlés (izolált szavas)
- Dialógusvezérlés (kapcsolt szavas, a szavak közötti szünetek minimálisak)
Méret:
- Kicsi: párszáz szó
- Közepes
- Nagy: 20-80 ezer szó
B csoport
csak az eltérő kérdésekre kitérve:
3. feladat
Adjon meg min 5 specifikációs szempontot egy távközlési szolgáltató számára tervezett SMS felolvasó rendszerhez! Adjon meg min. 5 felhasználási lehetőséget is!
A szempontok kb ugyanazok, a felhasználási lehetőségek:
- Előfizetési információk természetesebb közlése
- Vakok és gyengénlátók segítése
- Idős felhasználók segítése, akik nem tudnak/akarnak kis képernyőn olvasni
- Autóval való közlekedés során is elolvashatjuk SMS-einket
- Email-eket SMSben továbbítva, azokat elolvashatjuk
- Minden olyan helyzetben előnyt jelenthet, amikor a nyomógombok használata vagy a kijelzőn megjelenő szöveg olvasása nem megoldható.
4. feladat
- Mi a SAMPA? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával?
- *SAMPA*: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel.
- A SAMPA-val a beszédhangok egyértelműen leírhatók, segíthet a beszédértésben.
- Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon.
- lásd A csoport, 4/d.
- Mi a négyszögletes ablak és mi a szerepe a beszédfeldolgozásban?
- A Fourier-integrálás során egy kis időkeret analízise úgy történhet meg, hogy az időben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis időszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendű beszédfeldolgozás fontos alapeleme.
- Mi a triád? Előnyei? Hátrányai? Mennyi egy nyelv lefedéséhez szükséges elemszám?
- Triád: Olyan hangkapcsolat, amelyben a középső hang egészben, a két szélső pedig részben van jelen. Beszédszintézisnél használják, elsősorban a magánhangzók szerepelnek középső helyzetben.
- Előnyei:
- A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt.
- Természetesebb hangzás
- Könnyebb szövegtervezés
- Hátrányai:
- Sok munkát jelent a felvétel
- Sok memóriát foglal
- Sok szöveget kell felolvastatni
- Diádokat és egyéb elemeket is igényel az adatbázis
- Szükséges elemszám: , ennél némileg kevesebb mivel nem fordul elő minden hármas + a szükséges diádok: (szerintem a tisztán triádos adatbázis egyszerűen a fonémák köbével arányos. Az már a kevert adatbázis ahol diádok is vannak. Vagy? )