Beszed vizsga 20060602

A VIK Wikiből
A lap korábbi változatát látod, amilyen Kiskoza (vitalap | szerkesztései) 2013. október 15., 09:02-kor történt szerkesztése után volt. (Kiskoza átnevezte a(z) 2006 június 2-i vizsga megoldása lapot Beszed vizsga 20060602 lapra átirányítás nélkül)

Feladatsor:


A csoport

1. feladat

Milyen jellel mérjük a beszédátviteli rendszerek minőségét?
Természetes emberi beszéddel, de érdektelen felvételeket kell felolvastatni az alanyokkal! (nem vagyok teljesen biztos h ezt kérdezik..)
Az objektív minősítő rendszer hatékonyságát mihez képest mérjük?
Az objektív minősítés célja a szubjektív minősítés közelítése, tehát azt nézzük, hogy mennyire egyezik az eredménye az egyéni véleményekkel.
Ha a gépi minősítés a szubjektív minősítéshez képest egyes méréseknél lényegesen jobb, más méréseknél lényegesen rosszabb eredményt ad, akkor a minősítő mely komponensét kell módosítani?
A pszichoakusztikus modellt, esetleg a belső távolság számításának a módszerét (amivel a referenciafelvételtől való eltérést mérjük, számítjuk)
A csomagkapcsolt beszédátviteli rendszerek (pl. VoIP) mely tulajdonsága okozza a legnagyobb nehézséget a beszédminőség mérése során?
(A hálózat paramétereinek nem stabil volta. Teljesen más minőséget kapunk ha kis illetve szélessávon mérünk, illetve változatos kapcsolat (műholdas, kábel, adsl) esetén is jelentős eltéréseket tapasztalhatunk a beszéd minőségében, a hálózatforgalmi szituációkat nem is említve (pl. ha közben töltünk is).) Nem a rizsára voltak kíáncsiak. A válasz: Jitter (késleltetés-ingadozás). Bővebben: jegyzet

2. feladat

Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható?
Kempelen Farkas
1791-ben.
Az egyetlen megmaradt példány ma a müncheni Deutsches Museumban van. Forrás: http://hu.wikipedia.org/wiki/Kempelen_Farkas
Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre?
Bánó Miklós
1916-ban.
Mi az artikulációs sebesség? Milyen érték jellemző a magyarra? Mi a beszédsebesség?
Az artikulációs sebesség az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül.
A magyar beszédnél tipikus értéke 13 hang/s.
A beszédsebesség a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s)
artikulációs sebesség <= beszédsebesség
Mi a VOT? A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással!
*VOT*: Voice Onset Time avagy zöngekezdési idő
felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő
Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ.
A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem)
Mi a spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát.
*Spektrális átlapolódás*: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen.
Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás)
Példát mindenki remélem tud adni ezek alapján :]
Mi a néma fázis? Sorolja fel az összes beszédelemet, amelyre vonatkozhat!
*Néma fázis*: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát.
A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs.

3. feladat

3.1

  1. HAMIS. Nem fonémasorozatot kell előállítania, hanem egy olyan 10-40 dimenziós vektort, melyeknek kicsi az intraindividuális és az interindividuális jellemzője.
  2. IGAZ.
  3. HAMIS. Semmi köze a prozódiához, a beszéd kisebb egységeinek kezelésében segíti munkánkat.
  4. HAMIS. No comment :)

3.2

  1. IGAZ. Kicsit furán van megfogalmazva, de szerintem jó.
  2. IGAZ.
  3. HAMIS. A mintaillesztés egyik lényege hogy a különböző ritmusú ejtések között is tudjon mintailleszteni.
  4. HAMIS. Igaz csak sablonalapú és a legegyszerűbb fajta, de mintaillesztési eljárás.

3.3

  1. IGAZ.
  2. HAMIS. Valószínűségekkel dolgozik a HMM, így teljes biztonsággal sosem tudja megmondani, hogy egy megfigyelés adott állapothoz tartozik vagy éppen nem tartozik.
  3. HAMIS. Legnagyobb valószínűségi útvonalat keres.
  4. HAMIS. Mert lineárisan, lásd dinamikus programozás.

4. feladat

Mi az LPC? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e és hogyan a jel spektrumával?
Linear Prediction Coding / Coefficients. Lineáris elõrejelzés. Olyan matematikai eljárás, amellyel a megelõzõ mintákból jósolni lehet a következõ mintát. LPC segítségével az akusztikus jelbõl meghatározható például az artikulációs üregrendszer átviteli karakterisztikája is.
??? (Ha jól meghatározhatók az LPC együtthatók, jobban érthetők a hangok?) A formánsokat jól lehet vele követni.
Igen, a LPC analízis is egyfajta spektrumát adja meg a jelnek. (ide még lehetne írni)
Mi az F0 ill. F1? Hogyan határozhatók meg?
F0 az alapfrekvencia, azaz a hangforrás gerjesztésének frekvenciája. F1 pedig a legkisebb (első) formáns azaz felerősített felhangnyaláb.
F0 meghatározható a zöngés hangok periódusidejéből (megegyezik azokkal). F1 pedig a jel spektrumára illesztett burkológörbe első (lokális) maximumhelye.
Mi a Hamming-ablak és mi a szerepe a beszédfeldolgozásban?
A Hamming-ablakot a jelre illesztve egy véges időtartományban kell csak elvégezni a Fourier-integrálást. A szerepe az, hogy adott időpillanatban releváns frekvenciákat felerősítse, a távoliakat gyengítse hogy adott időpillanatra jó spektrumot kapjunk a Fourier-integrálás után.
Mi a screen reader és a TTS kapcsolata?
A screen reader csak egy illesztő alkalmazás a képernyő és a TTS között, a képernyőn található információt adja át felolvasásra a TTS számára.

5. feladat

5 specifikációs szempont:

  • Nyelv
  • Operációs rendszer
  • Beszéd minősége : érthetőség, természetesség
  • Milyen hangokon szólaljon meg (ffi/női)
  • Mennyire legyen paraméterezhető: hangmagasság, sebesség, szünetek hossza, stb.
  • Vezérlési felület, API
  • Bővítési, továbbfejleszthetőségi lehetőségek
  • ...

5 felhasználási lehetőség:

  • Emailek felolvasása telefonon keresztül
  • Vakok és gyengénlátók számára
  • Rendszerüzenetek, ajánlatok természetesebb közlése
  • Előfizetési információk közlése emailen keresztül
  • Gyerekek számára
  • Call Center IVR (telefonos menürendszer) elemeinek dinamikus létrehozása, esetleg nagy kiterjedésű hiba esetén az 'üdvözlőszöveg' amiben bemondják hogy tudnak a hibáról és javítás alatt van, felolvasó nélkül beállítható
  • ...

6. feladat

Működési elv:

  • Szabálybázisú
  • Statisztikai alapú: HMM, ANN
  • Sablon alapú: DTW (Dynamic Time Warping)

Használat módja:

  • Spontán beszéd (folyamatos beszéd, pl diktáló rendszerek)
  • Parancsmódú vezérlés (izolált szavas)
  • Dialógusvezérlés (kapcsolt szavas, a szavak közötti szünetek minimálisak)

Méret:

  • Kicsi: párszáz szó
  • Közepes
  • Nagy: 20-80 ezer szó

B csoport

csak az eltérő kérdésekre kitérve:

3. feladat

Adjon meg min 5 specifikációs szempontot egy távközlési szolgáltató számára tervezett SMS felolvasó rendszerhez! Adjon meg min. 5 felhasználási lehetőséget is!

A szempontok kb ugyanazok, a felhasználási lehetőségek:

  • Előfizetési információk természetesebb közlése
  • Vakok és gyengénlátók segítése
  • Idős felhasználók segítése, akik nem tudnak/akarnak kis képernyőn olvasni
  • Autóval való közlekedés során is elolvashatjuk SMS-einket
  • Email-eket SMSben továbbítva, azokat elolvashatjuk
  • Minden olyan helyzetben előnyt jelenthet, amikor a nyomógombok használata vagy a kijelzőn megjelenő szöveg olvasása nem megoldható.

4. feladat

Mi a SAMPA? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával?
*SAMPA*: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel.
A SAMPA-val a beszédhangok egyértelműen leírhatók, segíthet a beszédértésben.
Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon.
lásd A csoport, 4/d.
Mi a négyszögletes ablak és mi a szerepe a beszédfeldolgozásban?
A Fourier-integrálás során egy kis időkeret analízise úgy történhet meg, hogy az időben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis időszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendű beszédfeldolgozás fontos alapeleme.
Mi a triád? Előnyei? Hátrányai? Mennyi egy nyelv lefedéséhez szükséges elemszám?
Triád: Olyan hangkapcsolat, amelyben a középső hang egészben, a két szélső pedig részben van jelen. Beszédszintézisnél használják, elsősorban a magánhangzók szerepelnek középső helyzetben.
Előnyei:
A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt.
Természetesebb hangzás
Könnyebb szövegtervezés
Hátrányai:
Sok munkát jelent a felvétel
Sok memóriát foglal
Sok szöveget kell felolvastatni
Diádokat és egyéb elemeket is igényel az adatbázis
Szükséges elemszám: , ennél némileg kevesebb mivel nem fordul elő minden hármas + a szükséges diádok: (szerintem a tisztán triádos adatbázis egyszerűen a fonémák köbével arányos. Az már a kevert adatbázis ahol diádok is vannak. Vagy? )