Raw
A VIK Wikiből
Melyik állítás(ok) igaz(ak)?
- Beszédre csak lineáris kvantálást használunk.
- LPC-10 kódoló csak a zöngés részt kódolja.
- MP3 kódolás veszteségmentesen visszaállítható beszéd esetén.
- A-törvényű kvantálás lineáris.
- A beszédkódolók minősége nem csak a bitsebességtől függ.
- Logaritmikus kvantálás veszteségmentesen visszaállítható.
Mely beszélőszerv(ek) szükséges(ek) zönge képzéshez?
- Hangszalagok.
- Szájüreg.
- Orrüreg.
- Garat.
- Tüdő.
- Nyelv.
A "Novemberben havazott." mondatot szeretnénk elemösszefűzéses szövegolvasóval előállítani. Hány diád és/vagy CVC triád elem felhasználásával valósítható ez meg?
- 7 triád.
- 15 diád.
- 19 diád.
- 5 diád + 7 triád.
- 10 diád + 10 triád.
- 3 diád + 8 triád.
Melyik koszinusz jelnek a legkisebb az intenzitása?
- 7000Hz/65phon
- 1kHz/60 dB
- 1000Hz/61phon
- 20Hz/59phon
- 500Hz/120dB
- 18kHz/99dB
PSOLA eljárással módosítjuk a "túsz" szó alapfrekvenciáját 250 Hz-ről 200 Hz-re. A szó 100+100+100=300 ms hosszú. Mennyi lesz a módosított szó időtartama, ha az időváltozást nem kompenzáljuk?
- 375 ms
- 280 ms
- 350 ms
- 325 ms
- 200 ms
- 240 ms
Egy beszédrészlet elemzésekor vonalas spektrumot látunk. Melyik állítás(ok) lehet(nek) biztosan igaz(ak)?
- Magánhangzót látunk.
- Zajt látunk.
- Zöngétlen hangot látunk.
- Zárhangot látunk.
- Mássalhangzót látunk.
- Zöngés hangot látunk.
Egy 100Hz-es alapfrekvenciájú férfi beszélő esetén melyek NEM lehetnek az első két formáns értékei?
- 1670 Hz
- 600 Hz
- 2980 Hz
- 500 Hz
- 550 Hz
- 100 Hz
Egy magánhangzó hangnyomás-idó függvényének amplitudóját egységesen felére csökkentjük számítógéppel. Hány dB-lel fog változni a hang intenzitása?
- -1
- -2
- -6
- -3
- -4
- -5
Jelölje meg, hogy melyik hanghármasban van összetett szerkezetű beszédhang és ezzel egyidőben ugyanabban a hangban fojtott zönge!
- egó
- lás
- sen
- átp
- csók
- rak
Milyen időközönként helyez el a PSOLA algoritmus zöngeszinkron jeleket az Én! hangsorban, ha azt egy nő ejti ki?
- 200 ms
- 1 ms
- 100 μs
- 4 ms
- 40 ms
- 400 μs
Egy telefonos rendszerben n következő felharmonikusokat sikerül kimérnünk: 750 Hz, 1000 Hz, 1500 Hz. Mennyi lehet az alapfrekvencia?
- 200 Hz
- 25 Hz
- 400 Hz
- 100 Hz
- 125 Hz
- 250 Hz
A magyar beszéd dallamformáira bemutatott modellben milyen frekvencián van a kijelentés végén az alapfrekvencia, ha a beszélő egy átlagos hangmagasságú nő?
- kb. 140 Hz
- kb. 200 Hz
- kb. 70 Hz
- kb. 220 Hz
- kb. 320 Hz
- kb. 35 Hz
Milyen hosszú a következő mondat, ha egy átlagos beszédtempójú ember mondja ki? "A beszéd bonyolult jelenség, noha ezt nem érzékeljük, hisz mindannyian tudunk beszélni."
- 5900 μs
- 900 ms
- 2500 μs
- 30 s
- 45 s
- 5800 ms
Melyik állítás(ok) igaz(ak) a PSOLA algoritmusra?
- Módosíthatja a hangidőtartamot.
- MFCC paramétereket számolunk vele.
- Pitch Synchronous Overlap and Add-nek a rövidítése.
- Megszünteti a frekvenciaelfedés jelenségét.
- Módosítható vele a mintavételi frekvencia.
- Beszédfelismerésben használt.
Mi a WaveNet?
- Egy HMM alapú hullámforma generáló rendszer.
- Egy beszédfelismerő rendszer.
- Beszéd alapú helymeghatározási megoldás.
- Egy mély neurális háló (DNN) alapú hullámforma generáló rendszer.
- Egy beszédátvitelt szabványosító szervezet.
- Ultrahangos beszédrögzítő készülék.
LPC analízisnél előállított maradéjelre mi jellemző?
- Több biten kvantálható, mint az eredeti jel.
- Az a jel a maradékjel, ami nem fért bele az analízisablakba.
- LPC szintézis megvalósíható az eredeti maradékjel nélkül is.
- Eldobható, az eredeti jel enélkül is visszaállítható.
- Nagyobb az energiája az eredeti jelnél.
- Kinyerhető belőle a formánsfrekvencia értékek.
Melyik hang(ok) zöngétlen(ek)? (A hangokat közelítő betűképükkel jelöltük.)
- g
- zs
- d
- dz
- z
- k
10 dB-es hangnyomásszintet mértünk. Mi lehetett a hangforrás?
- Benzinmotoros fűnyíró 1,5 méterről.
- Sugárhajtású repülő hajtóműve 15 méterről.
- Suttogó beszéd 10 méterről.
- Normál beszéd 1 méterről.
- Sírás 1 méterről.
- Kiabálás 15 méterről.
60 dB-es hangnyomásszintet mértünk. Mi lehetett a hangforrás?
- Benzinmotoros fűnyíró 1,5 méterről.
- Sugárhajtású repülő hajtóműve 15 méterről.
- Suttogó beszéd 10 méterről.
- Normál beszéd 1 méterről.
- Sírás 1 méterről.
- Kiabálás 15 méterről.
Mi a Tacotron 2?
- Egy HMM alapú hullámforma generáló rendszer.
- Egy beszédfelismerő rendszer.
- Beszéd alapú helymeghatározási megoldás.
- Egy mély neurális háló alapú hullámforma generáló rendszer.
- Egy beszédátvitelt szabványosító szervezet.
- Ultrahangos beszédrögzítő készülék.
Egy nyelv ábécéje 24 hangot (6 mgh, 18 msh) tartalmaz. Miminum hány diád és CVC triád elem kell a nyelv minden hangkapcsolatának lefedéséhez?
- 6^2+18^2
- 24^2+18*5^2
- 24^3
- 6*18*24
- 24^2
- 24^2+6*18^2
Folyamatos, nagyszótáras, beszélőfüggetlen beszédfelismerő betanításához készülő beszédadatbázist készítünk. Mi igaz ebben az esetben?
- Csak CVC hangkapcsolatokat tartalmaz az adatbázis.
- Azonos életkorú beszélőkkel készítjük a felvételeket.
- Változatos körülmények (mikrofon, emberek) között rögzítjük a beszédadatbázist.
- Kevés jól megválasztott szó felolvasása is elegendő.
- Különböző korú és nemű emberrel is érdemes felvételt készíteni. Sok beszélő szükséges.
- Csak studió körülmények között felvett beszédet lehet használni.
Nagyságrendileg hány felharmonikus komponens van egy férfi által előállított normálisan ejtett zöngehangban a 2000 Hz-es frekvenciáig?
- 40
- 20
- 100
- 200
- 8
- 4
Egy nyelv ábécéje 26 hangot (7 mgh, 19 msh) tartalmaz. Miminum hány diád elem kell a nyelv minden hangkapcsolatának lefedéséhez?
- 7^2+19^2
- 26^2+19*7^2
- 26^3
- 7*19*26
- 26^2
- 26^2+7*19^2
Milyen intenzitással hallgatható zene tartósan és élvezhetően, halláskárosodás nélkül?
- 76-80 dBA
- 800 dBA
- 0 dBA
- 18 dBA
- -18 dBA
- 138 dBA
- 8 dBA
Melyik frekvenciatartományban legintenzívebb az 'ő' hang spektruma?
- 20Hz-30Hz
- 20kHZ-30kHz
- 10Hz-20Hz
- 15khZ-20kHz
- 50Hz-5kHz
- 5kHz-10kHz
A "képpont" szó átlagos köznyelvi kiejtésében a "p" hangra milyen tulajdonságok jellemzőek?
- A "p" hang nem változik meg szó közepén a rövid verzióhoz képest.
- Nagy energiájú hang lesz.
- Felpattanás a hang elejére kerül.
- Több mint 100 ms hosszú hang a "p" hang.
- A "p" hang megváltozik szó közepén a rövid verzióhoz képest.
- Folytott zönge legalább 100 ms lesz.
Nagyságrendileg hány felharmonikus komponens van egy nő által előállított normálisan ejtett zöngehangban a 4000 Hz-es frekvenciáig?
- 40
- 20
- 100
- 200
- 8
- 4
Mi a jellemző a formánsokra?
- Nem csak az F0 egész számú többszöröse lehet.
- Értékük független a beszélő nemétől.
- Az F2 meghatározza a mgh hangrendjét.
- Az alapfrekvenciánál nagyobb az értékük.
- A mghzóknak 1440 db formánsa van.
- A hang spektrumából meghatározható.
Nagyságrendileg hány felharmonikus komponens van egy nő által előállított normálisan ejtett zöngehangban a 1600 Hz-es frekvenciáig?
- 40
- 20
- 100
- 200
- 8
- 4
Melyik frekvenciatartományban legintenzívebb az 'sz' hang spektruma?
- 20Hz-30Hz
- 20kHZ-30kHz
- 10Hz-20Hz
- 3khZ-10kHz
- 50Hz-5kHz
- 5kHz-10kHz
A "kéttannyelvű" szó átlagos köznyelvi kiejtésben a "t" hangra milyen tulajdonságok jellemzőek?
- A "t" hang nem változik meg szó közepén a rövid verzióhoz képest.
- Nagy energiájú hang lesz.
- Felpattanás a hang elejére kerül.
- Több mint 100 ms hosszú hang a "t" hang.
- A némafázisa nem hosszabb, mint 100 μs.
- Folytott zönge legalább 100 ms lesz.
Beszédet tömörítünk LPC-10 kódolóval: ehhez az F0 értékeket 10 biten, a maradékjel energiáját és az LP együtthatókat 10-10 biten tároljuk 25ms-os szegmensenként. Mekkora lesz a bitsebesség?
- 10000 bps
- 480 bps
- 4800 bps
- 1000 bps
- 48 bps
- 10 bps
Mi a jellemző a μ-law kódolásra?
- HMM beszédfelismerés előfeldolgozója.
- μ meredekségű lineáris kvantálás.
- Négyzetes kvantálású.
- 8 bites lineáris kvantálás.
- Nagy amplitudú esetén ritkább a kvantálás.
- MFCC paraméterei.
Mi jellemző a "p" hangra?
- Zöngés.
- Zárhang.
- Felpattanás a hang elején található.
- F2 értéke magas.
- Nazális.
- Folytott zöngét tartalmaz.
Melyik állítás igaz az alábbiakból a dinamikus idővetemítésre (DTW)?
- Két egymásnak megfelelő összesített bemondás összehasonlítására szolgál kizárólagosan, azaz vagy az "alma" és "alma" vagy a "körte" és "körte" bemondáspárok hasonlósága számítható, de ezek nem keverhetőek.
- A beszéd gépi generálásánál a természetesen beszédritmikát állítja elő.
- Az einsteini általános relativitás elméletnek megfelelően a gyorsabban beszélők számára lassabban telik az idő.
- Ha már tudjuk, mi a helyes beszédfelismerési eredmény, csak akkor használható az időbeli illesztés elvégzésére.
- Két tetszőleges hangszakasz közötti összesített távolságminimum meghatározására szolgál, azaz pl. az "alma" és "körte" bemondások hasonlósága számítható.
- .
160 kHz-en mintavételezek 8 kHz-es ideális alul áteresztő szűrővel egy beszédjelet. Mi lesz a jellel?
- Érthetetlen lesz az átlapolódás miatt.
- Csak a mássalhangzók maradnak meg.
- Veszteségmentesen tárolható.
- Alig érthető marad a beszéd.
- Csak az alapfrekvencia marad meg.
- Majdnem tökéletesen megmarad a beszéd.
Egy telefonos jelnél 2400 Hz-es F2-őt mértünk. Mennyi az F0?
- 2400 Hz.
- 12 Hz.
- 600 Hz.
- 120 Hz.
- 1200 Hz.
- Nem tudjuk megállapítani.
Milyen hosszú egy szó, amely egy diád, 2 triád és még egy diádból áll. A szüneteket nem számoljuk.
- 4 hang.
- 6 hang.
- 9 hang.
- 5 hang.
- 12 hang.
- 8 hang.