KoopKerdesekOssz01

A VIK Wikiből
Ugrás a navigációhoz Ugrás a kereséshez

Ez az oldal a korábbi SCH wiki-ről lett áthozva. Az eredeti változata itt érhető el.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor kérlek javíts rajta egy rövid szerkesztéssel.

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót


Összegyűjtött kérdések a Zhig 01

Daraboltam, így könyebb a szerkeztése, és a latex-ek is megjelennek.


Kérlek javítsátok, és bővítsétek, azért lett wikilap, mert egy doc-ot mindenki lusta bővíteni, és javítani.

Nagy része a KTR_tanuls.docx-ből, és itt lévő Zh-kból. Sokszor több kérdés egybe van véve, mert nem ugyanazt kérdezik más szóval, hanem mert egy adott témára úgy kérdez rá, hogy átfedés van köztük.

Adja meg az Adaline iteratív tanuló eljárását! Adja meg azokat a feltételeket is, amelyek fennállta esetén az iteratív megoldás konvergens lesz! Adja meg, hogy milyen kritérium függvény alapján fogalmazzuk meg az optimumfeladatot!

  • Az Adaline optimális súlyvektorának meghatározására mind az analitius összefüggés, mint az iteratív tanuló eljárás létezik. Adja meg a kétféle meghatározás összefüggését, és azokat, a feltételeket, amelyek fennállta esetén az iteratív megoldás az analitikus eredményéhez tart! Azt is adja meg, hogy milyen kritériumfüggvény alapján fogalmazzuk meg az optimumfeladatot!*

Származtassa az LMS algoritmust és adja meg a konvergencia feltételeit! Mi a sajátérték fizikai jelentése?

LMS (Least Mean Sqare): Olyan iteratív eljárás, amely mindig a pillanatnyi négyzetes hiba csökkentésének irányába módosítja az aktuális paramétervektort.

[math] w(k+1) = w(k) + 2 \mu \epsilon (k) x (k) [/math]

ahol a [math] w [/math] súlyvektor értéke, a [math] \mu [/math] a bátorsági tényező, az [math] \epsilon [/math] a hiba értéke és az [math] x [/math] a bemenet.

A konvergencia feltétele:

[math] 0 \lt \mu \lt \frac{1}{{\lambda}_{max}} [/math]

Ahol a [math] \lambda_{max} [/math] az [math] R [/math] legnagyobb sajátértéke, ahol az [math] R [/math] a bemenet autokorrelációs mátrixa. Ezt [math] \lambda_{max} [/math] -ot Adaline esetében vagy tudjuk, vagy a felső becslését tudjuk.

A sajátérték fizikai jelentése: Minél nagyobb egy sajátérték, annál nagyobb a hibafelület adott irány menti meredekség-változása azaz a görbülete.

A két megoldás összefüggése: Ez nem lett meg, valaki?


Hasonlítsa össze a Perceptron-t és az Adaline-t felépítés, képesség, tanítási algoritmus szempontjából!

  • A két neuron felépítése lényegében azonos: a bemeneti [math] (x_1, x_2, ..., x_N) [/math] vektort kiegészítjük egy [math] x_0 = 1 [/math] elemmel (ez azért kell, hogy a csupa nulla bemenő vektorra is tudjunk nemnulla kimenetet generálni), majd az így kapott [math] \underline{x} [/math] vektort beszorozzuk a súlyokat tartalmazó [math] \underline{w}^T [/math] vektorral. Az [math] s = \underline{w}^T \underline{x} [/math] értéket pedig küszöbözzük: [math] y = sgn(\underline{w}^T \underline{x}) [/math] (pozitív s-re 1, negatívra -1 lesz a kimenet).
  • A perceptron tanításához a neuron kimenetét (y) vetjük össze a kívánt kimenettel (d). Egy tanítópont hibája: [math] \varepsilon = d - y [/math], a súlyvektor módosítása: [math] \underline{w}' = \underline{w} + \alpha \varepsilon \underline{x} [/math] (alfa a tanítási tényező). Sorra vesszük a tanítópontokat, és addig ismételgetjük a korrekciót, amíg mindegyik tanítópontra megfelelő lesz a kimenet. Csak lineárisan szeparálható pontok osztályozására működik (azaz, ha létezik a pontokat tartalmazó N-dimenziós térben olyan hipersík, aminek egyik oldalán van az összes +1-es kimenetű pont, a másik oldalán a többi). Ez esetben belátható, hogy véges lépésben egy jó súlyvektorhoz konvergál az eljárás.
  • Az adaline tanítása annyiban más, hogy nem y-nal vetjük össze d-t, hanem s-sel, vagyis a küszöbözés előtti súlyozott összeggel. Egy tanítópont hibája: [math] \varepsilon = d - s [/math], az összes pont átlagos négyzetes hibája:

[math] \frac{1}{P} \sum_{i=0}^P (d_i - \underline{w}^T \underline{x}_i)^2 = \frac{1}{P}(\underline{d} - \underline{\underline{X}}\underline{w})^T (\underline{d} - \underline{\underline{X}}\underline{w}) [/math]

És mi ezt akarjuk minimalizálni. (P a tanítópontok száma, X a vektoraikból mint sorvektorokból képzett mátrix, d a kivánt kimenetekből képzett oszlopvektor). A minimumhelyén a gradiense (a súlyvektor függvényében) 0 kell legyen, innen kifejezve a súlyvektort: [math] \underline{w} = (\underline{\underline{X}}^T \underline{\underline{X}})^{-1} \underline{\underline{X}}^T \underline{d} [/math] Itt nincs iteráció (bár a gradiens nullhelyének meghatározása nagyméretű mátrixok esetén iteratív módszerekkel célszerűbb), és nem csak lineárisan szeparálható pontoknál működik, viszont semmi garancia nincs arra, hogy jól fog minden pontot osztályozni, mert csak a lineáris rész négyzetes hibáját minimalizáltuk, nem a rosszul osztályzott pontok számát. (Ez az analitikus megoldás). Kicsit pontosabban, az Adaline minden esetben tud adni megoldást. Egy olyan esetben, amikor a pontok lineárisan nem szeparálhatóak a perceptron nem tud megoldást adni, az Adaline tud, mind analitikus módszerrel, mind iteratív. Az analitikus módszer esetében is a kvadratikus hibafelület minimumát fogja adni, ami lineárisan nem szeparálható pontok esetén azt jelenti, hogy a legjobb osztályozást adja, viszont nem minden pont lesz a hipersík megfelelő oldalán.


Mi a Wiener-Hopf összefüggés, és milyen esetben alkalmazható egy tanuló architektúra szabad paramétereinek meghatározására? Pontosan fogalmazza meg azokat az általános feltételeket, amelyek mellett az összefüggés alkalmazható, és az összefüggés minden elemét pontosan definiálja! Optimális megoldást ad-e az eljárás? Ha igen, milyen értelemben, ha nem, miért nem?

Lehet-e analitikus tanítást alkalmazni az alábbi neurális hálózatoknál, ha az összes tanítópont a rendelkezésünkre áll és négyzetes hibafüggvényt alkalmazunk: lineáris kimeneti rétegekkel rendelkező egyrétegű MLP, RBF, CMAC? Ha igen, adja meg az analitikus összefüggéseket, ha nem indokolja meg, hogy miért nem!

  • Egyes bázisfüggvényes hálózatoknál (RBF, CMAC) lehetőség van a súlyvektor(ok) analitikus meghatározására is. Adja meg az analitikus összefüggéseket, és azt is, hogy milyen feltételei vannak az adott összefüggések alapján történő súlymeghatározásnak!*
  • MLP: nem, a hibafelület nem kvadratikus, a gradiens kvadratikusát felhasználó analitikus megoldás így nem alkalmazható. Nem tökéletes, de ér pár pontot
  • RBF: lehet analitikus tanítást alkalmazni. Összefüggés [math] w^{*} = G^{-1} d = ( G ^{T}G )^{-1} G^{T} d [/math]. A feltétele, hogy ismernünk kell az összes tanítópontot.
  • CMAC: lehet analitikus tanítás, mert: A CMAC súlyainek meghatározásához a következő egyenletet kell megoldani [math] \underline {\underline A} \underline w = \underline d [/math], ahol a w a súlyok oszlopvektora, d a tanítópontokban kívánt kimenetekből álló oszlopvektor. Az A mátrix azt írja le, melyik tanítópont melyik neuronokat aktiválja (vagyis melyik tartományba esik bele). Az i. sor j. elem adja meg, hogy az i. tanítópont j. neuront aktiválja-e, a baloldalon álló szorzat a tanítópontok tényleges aktivációinak oszlopvektora. [math] w^{*} = A^{-1} d = ( A^{T} A) ^{-1} A^{T} d [/math] valamint [math] y = T w^{*} = T A ^{T} ( A A ^{T})^{-1} d = T A^{T}B d [/math]. E feltétel ehhez, hogy a tanítópontok egyenletesen, egymástól pontosan egységnyi távolságra helyezkednek el.

Mi a szoft margó(margin, tartaléksáv) jelentése, szerepe és a jelentősége az SVM-nél? Hogyan kell értelmezni a margót nemlineáris osztályozási feladatnál?

  • Mi a margó(margin, tartaléksáv) szerepe és jelentősége az SVM-nél? Hogyan kell értelmezni a margót a nemlineáris osztályozási feladatnál? Hogyan módosul ez a szerep, ha az SVM származtatásnál gyengítő (slack) változót is használunk?*

Szupport vektor gépeknél osztályozási feladat esetén mi biztosítja, hogy az elválasztandó osztályok között egy biztonsági sáv alakuljon ki? Adja meg azt a matematikai összefüggést, ami biztosítja a biztonsági sávot. Hogyan biztosítható, hogy a biztonsági sáv maximális értéket vegyen fel? Mit lehet tenni, ha a tanítópontok elhelyezkedése olyan, hogy a két osztály pontjai között nem lehet biztonsági sávot kialakítani?

  • Mi a szerepe a gyengítő változóknak Szupport Vektor Gépeknél? Adja meg a nemlineáris osztályozási feladat optimalizálandó kritériumfüggvényét, ha gyengítő változót is használ!*

SVM: A szupport vektor gépek olyan kernel gépek, melyek a statisztikus tanuláselmélet eredményeit is hasznosítják. Alapváltozatuk lineáris szeparálásra képes, amely azonban kiterjeszthető nemlineáris szeparálásra és nemlineáris regressziós feladatokra is. A lineáris kétosztályos osztályozási feladat megoldását adó szupport vektor gép ezt az „optimális" elválasztó felületet határozza meg. A vektorgépek a lineárisan szeparálható feladatoknál olyan optimális megoldásra törekednek, melyek az osztályozásnál az osztályozó hipersíktól az átlagos tanítópont távolság maximális legyen.

Margin: Optimális lineáris szeparálásnak azt a megoldást tekintjük, amikor az elválasztó egyenes (sík, hipersík) a két osztályba tartozó tanítópontok között a pontoktól a lehető legnagyobb távolságra helyezkedik el. A pontok között középre elhelyezett szeparáló felületet a tanító pontoktól egy margó (margin), azaz egy biztonsági sáv választja el, ezért az így megoldható feladatokat maximális tartalékot vagy maximális margót biztosító lineárisan szeparálható osztályozási feladatoknak is nevezzük. A lineárisan nem szeparálható osztályozási feladatoknál a margin helyett szoft-margint értelmezünk.

Soft Margin: Ha megengedjük, hogy a biztonsági sávban is legyenek tanítópontok, miközben továbbra is cél a lehető legnagyobb margó biztosítása, ún. lágy vagy szoft margójú megoldásról beszélünk. Azoknál a pontoknál amelyek a biztonsági sávon kívül helyezkednek le a maximális margójú osztályozást biztosító [math] d_{i} (w^{T} x_i + b ) \geq 1 [/math] egyenlőség áll fenn. Az ilyen mintapontokra vonatkozó, az előző egyenlőtlenségnek megfelelő formális kapcsolat ún. gyengítő [math] \epsilon [/math] változók bevezetésével lehetséges. A gyengítő változók bevezetése lehetővé teszi, hogy a fenti összefüggés az egyes tanítópontoknál különböző mértékben gyengítve érvényesüljön. Ennek megfelelően az összes pontra most a következő egyenlőtlenség ítható fel: [math] d_i (w^{T} x_i + b ) \geq 1 - {\epsilon}_i [/math]

Azon tanítópontoknál, ahol [math] \epsilon = 0 [/math] visszakapjuk az alapfeladatot. Ha [math] 0 \lt \epsilon \lt 1 [/math] , az adott tanítópont a hipersík megfelelő oldalán, de a biztonsági sávban helyezkedik el, ha [math] \epsilon \gt 1 [/math]

az adott tanítópont a sík ellenkező (hibás) oldalán van. Saját szavakkal: Egy plusz tanítóponthoz kötött változó segítségével elértük, hogy az eredeti képletünk újra minden tanítópontban igaz legyen.

-- Tsiga - 2012.05.15.