„Beszed vizsga 20060602” változatai közötti eltérés
A VIK Wikiből
Új oldal, tartalma: „{{GlobalTemplate|Infoalap|BeszedVizsga20060602Megoldas}} Feladatsor: [http://info.sch.bme.hu/document.php?cmd=download_proc&tmp_page=&doc_id=12067 InfoSite - 2006…” |
Nincs szerkesztési összefoglaló |
||
(2 közbenső módosítás ugyanattól a felhasználótól nincs mutatva) | |||
1. sor: | 1. sor: | ||
Feladatsor: | |||
* A csoport | |||
** [[Media:beszed_vizsga_20060702_A1.JPG|Első rész]] | |||
** [[Media:beszed_vizsga_20060702_A2.JPG|Második rész]] | |||
* B csoport | |||
** [[Media:beszed_vizsga_20060702_B1.JPG|Első rész]] | |||
** [[Media:beszed_vizsga_20060702_B2.JPG|Második rész]] | |||
=A csoport= | =A csoport= | ||
8. sor: | 12. sor: | ||
==1. feladat== | ==1. feladat== | ||
; Milyen jellel mérjük a beszédátviteli rendszerek minőségét? | |||
: Természetes emberi beszéddel, de érdektelen felvételeket kell felolvastatni az alanyokkal! (nem vagyok teljesen biztos h ezt kérdezik..) | |||
; Az objektív minősítő rendszer hatékonyságát mihez képest mérjük? | |||
: Az objektív minősítés célja a szubjektív minősítés közelítése, tehát azt nézzük, hogy mennyire egyezik az eredménye az egyéni véleményekkel. | |||
; Ha a gépi minősítés a szubjektív minősítéshez képest egyes méréseknél lényegesen jobb, más méréseknél lényegesen rosszabb eredményt ad, akkor a minősítő mely komponensét kell módosítani? | |||
: A pszichoakusztikus modellt, esetleg a belső távolság számításának a módszerét (amivel a referenciafelvételtől való eltérést mérjük, számítjuk) | |||
; A csomagkapcsolt beszédátviteli rendszerek (pl. VoIP) mely tulajdonsága okozza a legnagyobb nehézséget a beszédminőség mérése során? | |||
:(A hálózat paramétereinek nem stabil volta. Teljesen más minőséget kapunk ha kis illetve szélessávon mérünk, illetve változatos kapcsolat (műholdas, kábel, adsl) esetén is jelentős eltéréseket tapasztalhatunk a beszéd minőségében, a hálózatforgalmi szituációkat nem is említve (pl. ha közben töltünk is).) Nem a rizsára voltak kíáncsiak. A válasz: Jitter (késleltetés-ingadozás). Bővebben: jegyzet | |||
==2. feladat== | ==2. feladat== | ||
; Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható? | |||
: Kempelen Farkas | |||
: 1791-ben. | |||
: Az egyetlen megmaradt példány ma a müncheni Deutsches Museumban van. Forrás: http://hu.wikipedia.org/wiki/Kempelen_Farkas | |||
; Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre? | |||
: Bánó Miklós | |||
: 1916-ban. | |||
; Mi az artikulációs sebesség? Milyen érték jellemző a magyarra? Mi a beszédsebesség? | |||
: Az '''artikulációs sebesség''' az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül. | |||
: A magyar beszédnél tipikus értéke '''13 hang/s'''. | |||
: A '''beszédsebesség''' a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s) | |||
: artikulációs sebesség <= beszédsebesség | |||
; Mi a VOT? A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással! | |||
: *VOT*: Voice Onset Time avagy zöngekezdési idő | |||
: felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő | |||
: Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ. | |||
: A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem) | |||
; Mi a spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát. | |||
: *Spektrális átlapolódás*: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen. | |||
: Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás) | |||
: Példát mindenki remélem tud adni ezek alapján :] | |||
; Mi a néma fázis? Sorolja fel az összes beszédelemet, amelyre vonatkozhat! | |||
: *Néma fázis*: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát. | |||
: A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs. | |||
==3. feladat== | ==3. feladat== | ||
===3.1=== | ===3.1=== | ||
60. sor: | 73. sor: | ||
==4. feladat== | ==4. feladat== | ||
; Mi az LPC? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e és hogyan a jel spektrumával? | |||
: '''Linear Prediction Coding / Coefficients'''. Lineáris elõrejelzés. Olyan matematikai eljárás, amellyel a megelõzõ mintákból jósolni lehet a következõ mintát. LPC segítségével az akusztikus jelbõl meghatározható például az artikulációs üregrendszer átviteli karakterisztikája is. | |||
: ??? (Ha jól meghatározhatók az LPC együtthatók, jobban érthetők a hangok?) A formánsokat jól lehet vele követni. | |||
: Igen, a LPC analízis is egyfajta spektrumát adja meg a jelnek. (ide még lehetne írni) | |||
; Mi az F0 ill. F1? Hogyan határozhatók meg? | |||
: F0 az alapfrekvencia, azaz a hangforrás gerjesztésének frekvenciája. F1 pedig a legkisebb (első) formáns azaz felerősített felhangnyaláb. | |||
: F0 meghatározható a zöngés hangok periódusidejéből (megegyezik azokkal). F1 pedig a jel spektrumára illesztett burkológörbe első (lokális) maximumhelye. | |||
; Mi a Hamming-ablak és mi a szerepe a beszédfeldolgozásban? | |||
: A Hamming-ablakot a jelre illesztve egy véges időtartományban kell csak elvégezni a Fourier-integrálást. A szerepe az, hogy adott időpillanatban releváns frekvenciákat felerősítse, a távoliakat gyengítse hogy adott időpillanatra jó spektrumot kapjunk a Fourier-integrálás után. | |||
; Mi a screen reader és a TTS kapcsolata? | |||
: A screen reader csak egy illesztő alkalmazás a képernyő és a TTS között, a képernyőn található információt adja át felolvasásra a TTS számára. | |||
==5. feladat== | ==5. feladat== | ||
5 specifikációs szempont: | 5 specifikációs szempont: | ||
* Nyelv | * Nyelv | ||
94. sor: | 106. sor: | ||
==6. feladat== | ==6. feladat== | ||
Működési elv: | Működési elv: | ||
* Szabálybázisú | * Szabálybázisú | ||
115. sor: | 126. sor: | ||
==3. feladat== | ==3. feladat== | ||
Adjon meg min 5 specifikációs szempontot egy távközlési szolgáltató számára tervezett SMS felolvasó rendszerhez! Adjon meg min. 5 felhasználási lehetőséget is! | Adjon meg min 5 specifikációs szempontot egy távközlési szolgáltató számára tervezett SMS felolvasó rendszerhez! Adjon meg min. 5 felhasználási lehetőséget is! | ||
A szempontok kb ugyanazok, a felhasználási lehetőségek: | A szempontok kb ugyanazok, a felhasználási lehetőségek: | ||
* Előfizetési információk természetesebb közlése | * Előfizetési információk természetesebb közlése | ||
121. sor: | 133. sor: | ||
* Idős felhasználók segítése, akik nem tudnak/akarnak kis képernyőn olvasni | * Idős felhasználók segítése, akik nem tudnak/akarnak kis képernyőn olvasni | ||
* Autóval való közlekedés során is elolvashatjuk SMS-einket | * Autóval való közlekedés során is elolvashatjuk SMS-einket | ||
* Email-eket | * Email-eket SMSben továbbítva, azokat elolvashatjuk | ||
* Minden olyan helyzetben előnyt jelenthet, amikor a nyomógombok használata vagy a kijelzőn megjelenő szöveg olvasása nem megoldható. | * Minden olyan helyzetben előnyt jelenthet, amikor a nyomógombok használata vagy a kijelzőn megjelenő szöveg olvasása nem megoldható. | ||
==4. feladat== | ==4. feladat== | ||
; Mi a SAMPA? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával? | |||
: *SAMPA*: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel. | |||
: A SAMPA-val a beszédhangok egyértelműen leírhatók, segíthet a beszédértésben. | |||
: Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon. | |||
; lásd A csoport, 4/d. | |||
; Mi a négyszögletes ablak és mi a szerepe a beszédfeldolgozásban? | |||
: A Fourier-integrálás során egy kis időkeret analízise úgy történhet meg, hogy az időben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis időszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendű beszédfeldolgozás fontos alapeleme. | |||
; Mi a triád? Előnyei? Hátrányai? Mennyi egy nyelv lefedéséhez szükséges elemszám? | |||
: Triád: Olyan hangkapcsolat, amelyben a középső hang egészben, a két szélső pedig részben van jelen. Beszédszintézisnél használják, elsősorban a magánhangzók szerepelnek középső helyzetben. | |||
: Előnyei: | |||
:: A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt. | |||
:: Természetesebb hangzás | |||
:: Könnyebb szövegtervezés | |||
: Hátrányai: | |||
:: Sok munkát jelent a felvétel | |||
:: Sok memóriát foglal | |||
:: Sok szöveget kell felolvastatni | |||
:: Diádokat és egyéb elemeket is igényel az adatbázis | |||
: Szükséges elemszám: <math> beszedhangok \cdot maganhangzok \cdot beszedhangok </math>, ennél némileg kevesebb mivel nem fordul elő minden hármas + a szükséges diádok: <math> beszedhangok \cdot beszedhangok </math> (szerintem a tisztán triádos adatbázis egyszerűen a fonémák köbével arányos. Az már a kevert adatbázis ahol diádok is vannak. Vagy? ) | |||
[[Category:Infoalap]] | [[Category:Infoalap]] |
A lap jelenlegi, 2013. október 15., 09:07-kori változata
Feladatsor:
- A csoport
- B csoport
A csoport
1. feladat
- Milyen jellel mérjük a beszédátviteli rendszerek minőségét?
- Természetes emberi beszéddel, de érdektelen felvételeket kell felolvastatni az alanyokkal! (nem vagyok teljesen biztos h ezt kérdezik..)
- Az objektív minősítő rendszer hatékonyságát mihez képest mérjük?
- Az objektív minősítés célja a szubjektív minősítés közelítése, tehát azt nézzük, hogy mennyire egyezik az eredménye az egyéni véleményekkel.
- Ha a gépi minősítés a szubjektív minősítéshez képest egyes méréseknél lényegesen jobb, más méréseknél lényegesen rosszabb eredményt ad, akkor a minősítő mely komponensét kell módosítani?
- A pszichoakusztikus modellt, esetleg a belső távolság számításának a módszerét (amivel a referenciafelvételtől való eltérést mérjük, számítjuk)
- A csomagkapcsolt beszédátviteli rendszerek (pl. VoIP) mely tulajdonsága okozza a legnagyobb nehézséget a beszédminőség mérése során?
- (A hálózat paramétereinek nem stabil volta. Teljesen más minőséget kapunk ha kis illetve szélessávon mérünk, illetve változatos kapcsolat (műholdas, kábel, adsl) esetén is jelentős eltéréseket tapasztalhatunk a beszéd minőségében, a hálózatforgalmi szituációkat nem is említve (pl. ha közben töltünk is).) Nem a rizsára voltak kíáncsiak. A válasz: Jitter (késleltetés-ingadozás). Bővebben: jegyzet
2. feladat
- Mikor és ki készítette az első beszédkeltő gépet a világon? Hol látható?
- Kempelen Farkas
- 1791-ben.
- Az egyetlen megmaradt példány ma a müncheni Deutsches Museumban van. Forrás: http://hu.wikipedia.org/wiki/Kempelen_Farkas
- Mikor és ki adta be a világ első szabadalmát tetszőleges szöveg felolvasására alkalmas beszélőgépre?
- Bánó Miklós
- 1916-ban.
- Mi az artikulációs sebesség? Milyen érték jellemző a magyarra? Mi a beszédsebesség?
- Az artikulációs sebesség az időegység alatt ejtett hasznos beszédhangok száma folyamatos ejtésnél, szünetek nélkül.
- A magyar beszédnél tipikus értéke 13 hang/s.
- A beszédsebesség a beszéd hangzásának teljes idejében, szünetekkel, időegység alatt elhangzott beszédhangok száma, a nem hasznos beszédjeleket is beleértve. (Magyar beszédnél 14 hang/s)
- artikulációs sebesség <= beszédsebesség
- Mi a VOT? A beszédjel mely részén mérhető? Adjon 5 konkrét példát indoklással!
- *VOT*: Voice Onset Time avagy zöngekezdési idő
- felpattanó zárhangok esetén a zár felpattanása és az azt követő magánhangzó megszólalása között eltelt idő
- Tipikusan a beszéd azon helyen mérhető, ahol gerjesztésváltás történik, és zöngétlen hangot zöngés hang követ.
- A fentiek fényében a VOT pl. p után 8ms, t után 15ms, k után 26ms. (Ide lényegesen többet nem tudok írni, főleg az indoklás részét nem értem)
- Mi a spektrális átlapolódás oka mintavételezéskor? Hogyan előzhető meg? Adjon példát.
- *Spektrális átlapolódás*: ha a hang mintavételezésénél a mintavételezési frekvencia kisebb, mint a legnagyobb frekvenciakomponens kétszerese, a visszaállításnál nemkívánatos jelek kerülnek visszaállításra, a jel nem állíthatő elő egyértelműen/hűségesen.
- Megelőzhető megfelelő karakterisztikájú aluláteresztő szűrővel a bemeneten. (Sávkorlátozás)
- Példát mindenki remélem tud adni ezek alapján :]
- Mi a néma fázis? Sorolja fel az összes beszédelemet, amelyre vonatkozhat!
- *Néma fázis*: A zárhangok azon része, amelyben nincs hangképzés. A tüdőből kiáramló levegő a toldalékcsőben képzett akadály miatt feltorlódik és a zárfelpattanásig levegőáram nem hagyja el az artikulációs csatornát.
- A fentiek alapján néma fázis található a zöngétlen zár- és zárréshangoknál így: p, t, k, ty, c, cs.
3. feladat
3.1
- HAMIS. Nem fonémasorozatot kell előállítania, hanem egy olyan 10-40 dimenziós vektort, melyeknek kicsi az intraindividuális és az interindividuális jellemzője.
- IGAZ.
- HAMIS. Semmi köze a prozódiához, a beszéd kisebb egységeinek kezelésében segíti munkánkat.
- HAMIS. No comment :)
3.2
- IGAZ. Kicsit furán van megfogalmazva, de szerintem jó.
- IGAZ.
- HAMIS. A mintaillesztés egyik lényege hogy a különböző ritmusú ejtések között is tudjon mintailleszteni.
- HAMIS. Igaz csak sablonalapú és a legegyszerűbb fajta, de mintaillesztési eljárás.
3.3
- IGAZ.
- HAMIS. Valószínűségekkel dolgozik a HMM, így teljes biztonsággal sosem tudja megmondani, hogy egy megfigyelés adott állapothoz tartozik vagy éppen nem tartozik.
- HAMIS. Legnagyobb valószínűségi útvonalat keres.
- HAMIS. Mert lineárisan, lásd dinamikus programozás.
4. feladat
- Mi az LPC? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e és hogyan a jel spektrumával?
- Linear Prediction Coding / Coefficients. Lineáris elõrejelzés. Olyan matematikai eljárás, amellyel a megelõzõ mintákból jósolni lehet a következõ mintát. LPC segítségével az akusztikus jelbõl meghatározható például az artikulációs üregrendszer átviteli karakterisztikája is.
- ??? (Ha jól meghatározhatók az LPC együtthatók, jobban érthetők a hangok?) A formánsokat jól lehet vele követni.
- Igen, a LPC analízis is egyfajta spektrumát adja meg a jelnek. (ide még lehetne írni)
- Mi az F0 ill. F1? Hogyan határozhatók meg?
- F0 az alapfrekvencia, azaz a hangforrás gerjesztésének frekvenciája. F1 pedig a legkisebb (első) formáns azaz felerősített felhangnyaláb.
- F0 meghatározható a zöngés hangok periódusidejéből (megegyezik azokkal). F1 pedig a jel spektrumára illesztett burkológörbe első (lokális) maximumhelye.
- Mi a Hamming-ablak és mi a szerepe a beszédfeldolgozásban?
- A Hamming-ablakot a jelre illesztve egy véges időtartományban kell csak elvégezni a Fourier-integrálást. A szerepe az, hogy adott időpillanatban releváns frekvenciákat felerősítse, a távoliakat gyengítse hogy adott időpillanatra jó spektrumot kapjunk a Fourier-integrálás után.
- Mi a screen reader és a TTS kapcsolata?
- A screen reader csak egy illesztő alkalmazás a képernyő és a TTS között, a képernyőn található információt adja át felolvasásra a TTS számára.
5. feladat
5 specifikációs szempont:
- Nyelv
- Operációs rendszer
- Beszéd minősége : érthetőség, természetesség
- Milyen hangokon szólaljon meg (ffi/női)
- Mennyire legyen paraméterezhető: hangmagasság, sebesség, szünetek hossza, stb.
- Vezérlési felület, API
- Bővítési, továbbfejleszthetőségi lehetőségek
- ...
5 felhasználási lehetőség:
- Emailek felolvasása telefonon keresztül
- Vakok és gyengénlátók számára
- Rendszerüzenetek, ajánlatok természetesebb közlése
- Előfizetési információk közlése emailen keresztül
- Gyerekek számára
- Call Center IVR (telefonos menürendszer) elemeinek dinamikus létrehozása, esetleg nagy kiterjedésű hiba esetén az 'üdvözlőszöveg' amiben bemondják hogy tudnak a hibáról és javítás alatt van, felolvasó nélkül beállítható
- ...
6. feladat
Működési elv:
- Szabálybázisú
- Statisztikai alapú: HMM, ANN
- Sablon alapú: DTW (Dynamic Time Warping)
Használat módja:
- Spontán beszéd (folyamatos beszéd, pl diktáló rendszerek)
- Parancsmódú vezérlés (izolált szavas)
- Dialógusvezérlés (kapcsolt szavas, a szavak közötti szünetek minimálisak)
Méret:
- Kicsi: párszáz szó
- Közepes
- Nagy: 20-80 ezer szó
B csoport
csak az eltérő kérdésekre kitérve:
3. feladat
Adjon meg min 5 specifikációs szempontot egy távközlési szolgáltató számára tervezett SMS felolvasó rendszerhez! Adjon meg min. 5 felhasználási lehetőséget is!
A szempontok kb ugyanazok, a felhasználási lehetőségek:
- Előfizetési információk természetesebb közlése
- Vakok és gyengénlátók segítése
- Idős felhasználók segítése, akik nem tudnak/akarnak kis képernyőn olvasni
- Autóval való közlekedés során is elolvashatjuk SMS-einket
- Email-eket SMSben továbbítva, azokat elolvashatjuk
- Minden olyan helyzetben előnyt jelenthet, amikor a nyomógombok használata vagy a kijelzőn megjelenő szöveg olvasása nem megoldható.
4. feladat
- Mi a SAMPA? Van-e szerepe a beszédértésben? Kapcsolatba hozható-e a jel spektrumával?
- *SAMPA*: Speech Assessment Methods Phonetic Alphabet. Beszédhangok jelölése 7 bites ASCII karakterekkel.
- A SAMPA-val a beszédhangok egyértelműen leírhatók, segíthet a beszédértésben.
- Szerintem nem hozható kapcsolatba a jel spektrumával. Vagy csak nagyon összetett, indirekt módon.
- lásd A csoport, 4/d.
- Mi a négyszögletes ablak és mi a szerepe a beszédfeldolgozásban?
- A Fourier-integrálás során egy kis időkeret analízise úgy történhet meg, hogy az időben folyamatos jelet egymással átlapolódó négyszögletes ablakokkal kiablakozzuk. Így kis időszakaszokra megkaphatjuk a jel spektrumát, ami a magasabbrendű beszédfeldolgozás fontos alapeleme.
- Mi a triád? Előnyei? Hátrányai? Mennyi egy nyelv lefedéséhez szükséges elemszám?
- Triád: Olyan hangkapcsolat, amelyben a középső hang egészben, a két szélső pedig részben van jelen. Beszédszintézisnél használják, elsősorban a magánhangzók szerepelnek középső helyzetben.
- Előnyei:
- A magánhangzóknál nem lép fel torzítás a formánsok megtörése miatt.
- Természetesebb hangzás
- Könnyebb szövegtervezés
- Hátrányai:
- Sok munkát jelent a felvétel
- Sok memóriát foglal
- Sok szöveget kell felolvastatni
- Diádokat és egyéb elemeket is igényel az adatbázis
- Szükséges elemszám: , ennél némileg kevesebb mivel nem fordul elő minden hármas + a szükséges diádok: (szerintem a tisztán triádos adatbázis egyszerűen a fonémák köbével arányos. Az már a kevert adatbázis ahol diádok is vannak. Vagy? )