Beszed vizsga 20060522
Fealdatsor: 2006-05-22
1. feladat
Mondjon 3-3 példát arra, hogy milyen tényezők okozzák az akusztikai paraméterek variáltságát, egy személyen belül és a személyek között.
Személyen belül:
- érzelmi állapot (nem sikerült beszédvizsga, lediplomáztam, lemerült a telóm)
- egészségügyi állapot (rekedt, megfázott, csuklik)
- szituáció (családi ebéd, szónoklat, történetmesélés)
- ...
Személyek közötti:
- nem (női hang magasabb, ffi mélyebb)
- ritmus (hadar, dadog, megfontolt)
- beszédhibák (selypít, raccsol)
- ...
2. feladat
/a
- Erősen illeszkedő: pl a g,k hang erősen illeszkedik a szomszédos magánhangzóhoz
- Kölcsönösen illeszkedő: sok hang, pl b,p,d,t kölcsönösen hatással van a szomszédos magánhangzókkal egymás formánsmozgásaira
- Stabil: gy, ty hangra kevés hatással van a környezet
/b
- dz, c: 4000-5000 5500-7000Hz
- dzs, cs: 3700-8000Hz
- v, f : 1000-10000Hz
- z, sz: 4000-4500, 5000-8000Hz
- zs, s: 3700-8000Hz
a mintavételezés és a helyes antialiasing-szűrő megválasztásánál szükéges tudni a zörejgócokat és frekvenciatartományokat, hogy érthető maradjon a beszéd az átvitel során
/c
- iF1: 250-350Hz, iF2: 2300-2500Hz
- uF1: 250-350Hz, uF2: 500- 600Hz
- áF1: 700-800Hz, áF2: 1300-1400Hz
(ebből remélem mindenki fel tudja rajzolni egy két dimenziós térben a hangokat + a spektrumot)
/d
a formánsszerkezet megmaradna, de a suttogás miatt a teljes frekvenciatartományban megjelennek kisebb komponensek, a spektrumképen a teljes frekvenciatartomány kicsit "beszürkülne".
Különbség abban rejlik hogy suttogó beszédben nincs zöngés gerjesztés, így alapfrekvencia és formánsok sem, tehát a magánhangzók vonalas színképe helyett is folytonos színképet kapunk spektrális elemzésnél.
(ehhez még lehetne sztem írni)
3. feladat
3.1
- IGAZ
- IGAZ (bár az hogy egyértelműen, abba bele lehet kötni, aki tudja hogy mire gondoltak, az erősítsen meg/cáfoljon!)
- HAMIS, konkrét beszédhangokat nem rendel a jelhez
- HAMIS, no komment :)
3.2
- HAMIS, vektorsorozatokat illesztünk a hálózathoz, és fonémasorozatot várunk a kimeneten
- HAMIS, mert létezik, pl Viterbi algoritmus a HMMhez
- HAMIS, mert a vektorok távolságát is figyelembe veszi (megfigyelési valószínűség!)
- HAMIS, nemlineáris időillesztést hajt végre..
3.3
- HAMIS, a rejtett éppen abban különbözik a sima Markov lánctól hogy nem lehet azonosítani az állapotot
- IGAZ, modulszerűen felépíthetőek a felismerendő szavak, kifejezések
- HAMIS, a legvalószínűbb útvonalat keressük 2 pont között, de ez a legnagyobb összsúlyú útvonal, nem a legkisebb
- IGAZ, thx Peti - 2006.06.06.
4. feladat
- Dual Tone MultiFrequency, DTMF jelek esetén nincs beszédjel, így zavarja az érthetőséget, mert 2 szinusz hang szólal csak meg, így a jel spektrumában könnyen felismerhető lesz a 2 kiugró amplitudó
- F2 a beszédjel második formánsa, avagy az akusztikum második legkisebb felerősített felhangnyalába, a B2 pedig ennek a formánsnak a sávszélessége. F2 meghatározható a jel spektrumából, ez a második legkisebb erősítési hely (lokális maximum), a B2-t pedig ezen a maximum alatt 3 dB-lel meghúzott vonal és a burkológörbe metszéspontja jelöli ki.
- ITU P.800: az ETSI egyik szubjektív beszédminősítő szabványa. Minősíthetünk
- abszolút módon, előre definiált skála alapján (ACR)
- 'jelenség' észlelési tesztek
- romlás megfigyelése eredetihez képest (DCR)
- referencia rendszerrel összehasonlítás (MNRU)
- Mindegyik a beszédinformációs rendszerek felépítését segíti, illetve annak egy eleme.
- VXML: Voice eXtensible Markup Language (http://en.wikipedia.org/wiki/VXML) - dialógusok tervezését segítő leírónyelv
- SUI: Speech User Interface, avagy beszédalapú felhasználói felület
- SAPI: Speech Application Programming Interface (http://en.wikipedia.org/wiki/Speech_Application_Programming_Interface) - a Microsoft beszédalapú felhasználói felület API-ja. Ezzel még nem dolgoztam, de például Symbian-ban van egy tts() függvény, amibe csak berakod a stringet, és a telefon elvégzi a beszédszintézist
(/c-nél mire gondolhattak "a beszéd mely jellemzőire vonatkozik" alatt?!)
5. feladat
- Nem kiváló a hangminőség, robosztus rendszer kell
- Nem lehet emiatt diktáló rendszer, maximum kapcsolt szavas felismerő
- Beszélőfüggetlen kell legyen
- Előzőek miatt kis-közepes szótárnagyság a reális
- A rossz körülmények miatt fel kell készíteni spontán beszéd felismerésére
- Egyértelműen statisztikai alapú felismerő jön szóba (ilyenek működnek is, rossz a hangminőség és sok a beszélő)
(Mégvalami?)
- Mivel a GPS-nek ez nem a fő funkciója, fontos szempont hogy olcsó legyen a megvalósítása
- Ne kelljen a túlzott társzükséglet miatt növelni a készülék fizikai méreteit (bár nem tudom hogy ez ma még felmerülhet-e egyáltalán)
6. feladat
- Egy gombbal lehet indítani a rendszert, ezzel együtt esetleg nyelvet is ki lehet választani, így nem kell nyelvadaptációt és beszéddetekciót végeznünk
- A felhasználót megfelelően üdvözöli a rendszer, majd megkérdezi hogy milyen szakra, szakpárra kíváncsi
- A következő bemenetet várja: [A] {szak}/{szakpár} [ra/re vagyok kíváncsi]/[után érdeklődök] (a kérdéssel jól behatároltuk az adható válasz formáját!)
- Amennyiben a rendszer nem biztos a szakban, felsorolná a 10 legvalószínűbb szakot, amit mondhatott a felhasználó, és felszólítaná h válasszon közülül vagy mondja be újra
- A felismerő HMM alapú, robosztus, közepes nagyságú, beszélőfüggetlen.
- A válasz következő formátumban generálódna: A {szak}/{szakpár}t a következő egyetemek indítják: ( [egyetem], [kar] )*
- Ha a felhasználót nem érdekli az adott egyetem, "tovább" vagy "vissza" szavakkal léptethet (gyorsabban) közöttük (gombbal is)
- Ha felkelti érdeklődését valamelyik, a "címe", "felvételi (feltételek)", "pontszámítás", "korábbi évek" paranccsal kérheti le az őt érdeklő adatokat a karról (gombbal is választhat)
- Cím esetén: "A(z) {egyetem} {kar} címe [város] {közterület neve} [közterület] {házszám}, {irányítószám}
- Felvételi feltételek: [adott kar feltételei], a paraméterszerű adatokat dinamikusan generálja
- Pontszámítás: [pontszámítás menete], paraméterszerű számokat, adatokat dinamikusan
- Korábbi évek: [évben] [a ponthatár] {szám} [pont volt, a felvettek száma] {szám} [fő, a jelentkezők száma:] {szám} [fő] stb.
- Vegyes felolvasó rendszert használunk: TTS+kötött
- a [] elemek kötöttszótáras módon, előre felvéve vannak letárolva, a {} részek generálása pedig triádos szövegfelolvasó rendszer feladat*a
- A felhasználó a "lista" paranccsal tér vissza a megfelelő egyetemek listáájához (gombbal is)
- "Köszönöm" esetén vagy 1 perc tétlenség után a rendszer alaphelyzetbe áll
/b
- Szórendre, dátumra, számok felolvasására kell figyelni
- Teljesen más lehet a felsőoktatás menete, pontszámítási módszerek, ezeket is megfelelően át kell alakítani
- A felismerés során más sorrendben adja meg az adatokat a felhasználó
- Más temperamentumú beszéd, más beszédstílus: újra kell paraméterezni a felismerőt, nem csak a felismerendő szavakat kell kicserélni
- A spanyolok sziesztáznak (koradu. lekapcsolhat a rendszer) //ez csak poén, senki ne vegye komolyan!
- ...?
- A katalán és a spanyol nyelv eltér, érdemes a nyelvek közé mindkettőt felvenni (spanyol rendszer esetén) -- Gergő - 2006.06.12.
-- RGabo - 2006.05.31.
-- Maco - 2010.01.06.