KoopKerdesekZHOssz01

Ez az oldal a korábbi SCH wikiről lett áthozva.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor, kérlek, javíts rajta egy rövid szerkesztéssel!

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót.

Összegyűjtött kérdések a Zhig 01

Daraboltam, így könnyebb a szerkesztése, és a latex-ek is megjelennek.

Kérlek javítsátok, és bővítsétek, azért lett wikilap, mert egy doc-ot mindenki lusta bővíteni, és javítani.

Nagy része a KTR_tanuls.docx-ből, és itt lévő Zh-kból. Sokszor több kérdés egybe van véve, mert nem ugyanazt kérdezik más szóval, hanem mert egy adott témára úgy kérdez rá, hogy átfedés van köztük.

Adja meg az Adaline iteratív tanuló eljárását! Adja meg azokat a feltételeket is, amelyek fennállta esetén az iteratív megoldás konvergens lesz! Adja meg, hogy milyen kritérium függvény alapján fogalmazzuk meg az optimumfeladatot!

$w (k + 1) = w (k) + μ (- \underline{\nabla} (k))$

A konvergencia feltétele: $0 < μ < \frac{1}{λ_{m a x}}$

$μ$ bátorsági tényező, tanulási faktor, $λ_{m a x}$ az autokorrelációs mátrix legnagyobb sajátértéke

Az Adaline optimális súlyvektorának meghatározására mind az analitikus összefüggés, mint az iteratív tanuló eljárás létezik. Adja meg a kétféle meghatározás összefüggését, és azokat, a feltételeket, amelyek fennállta esetén az iteratív megoldás az analitikus eredményéhez tart! Azt is adja meg, hogy milyen kritériumfüggvény alapján fogalmazzuk meg az optimumfeladatot!

Analitikus meghatározás: Wiener-Hopf egyenlet ${\underline{w}}^{*} = {\underline{\underline{R}}}^{- 1} \cdot \underline{p}$

$\underline{\underline{R}}$ autokorrelációs mátrix

Értelmezés sikertelen (formai hiba): {\displaystyle \\ \underline{p}} keresztkorrelációs vektor

Iteratív megoldás: $w (k + 1) = w (k) + μ (- \underline{\nabla} (k))$

Származtassa az LMS algoritmust és adja meg a konvergencia feltételeit! Mi a sajátérték fizikai jelentése?

LMS (Least Mean Sqare): Olyan iteratív eljárás, amely mindig a pillanatnyi négyzetes hiba csökkentésének irányába módosítja az aktuális paramétervektort.

$w (k + 1) = w (k) + 2 μ ϵ (k) x (k)$

ahol a $w$ súlyvektor értéke, a $μ$ a bátorsági tényező, az $ϵ$ a hiba értéke és az $x$ a bemenet.

A konvergencia feltétele:

$0 < μ < \frac{1}{λ_{m a x}}$

Ahol a $λ_{m a x}$ az $R$ legnagyobb sajátértéke, ahol az $R$ a bemenet autokorrelációs mátrixa. Ezt $λ_{m a x}$ -ot Adaline esetében vagy tudjuk, vagy a felső becslését tudjuk.

A sajátérték fizikai jelentése: Minél nagyobb egy sajátérték, annál nagyobb a hibafelület adott irány menti meredekség-változása azaz a görbülete.

A kritériumfüggvény: $C (w) = \frac{1}{P} \sum_{i = 1}^{P} {(d_{i} - f (w, x_{i}))}^{2}$ A lineáris kapcsolat miatt az $f (w, x) = w^{T} x$ . Vagyis az átlagos négyzetes hiba felírható a következő formában is: $C (w) = (d - X w)^{T} (d - X w)$ . Ahol d a tanítópontokbeli kívánt válaszokból épített p elemű oszlopvektor, X a bemeneti vektorokból képzett mátrix, w pedig a keresett paramétervektor. A megoldás itt aztán a $d = X w$ , máshogyan $w = X^{- 1} d$ , valamint pszeudoinverz alkalmazásával $w^{*} = X^{†} d = (X^{T} X)^{- 1} X^{T} d$ . Az összefüggés legfontosabb része, hogy ugyanerre a megoldásra jutunk, hogyha kritériumfüggvény (amit az iteratív eljáráshoz alkalmazott kritériumfüggvény átalakítottja, vagyis nem a szummás, hanem amelyik függvény utána van) gradiens nulla értéket biztosító paraméterét határozzuk meg: $\frac{\partial C (w)}{\partial w} = - 2 X^{T} d + 2 X^{T} X w = 0$ Ekkor ezt kapjuk: $X^{T} X w = X^{T} d$ , ami átalakítva $w^{*} = (X^{T} X)^{- 1} X^{T} d$ (ismerős?)

Hasonlítsa össze a Perceptron-t és az Adaline-t felépítés, képesség, tanítási algoritmus szempontjából!

A két neuron felépítése lényegében azonos: a bemeneti $(x_{1}, x_{2}, . . ., x_{N})$ vektort kiegészítjük egy $x_{0} = 1$ elemmel (ez azért kell, hogy a csupa nulla bemenő vektorra is tudjunk nemnulla kimenetet generálni), majd az így kapott $\underline{x}$ vektort beszorozzuk a súlyokat tartalmazó ${\underline{w}}^{T}$ vektorral. Az $s = {\underline{w}}^{T} \underline{x}$ értéket pedig küszöbözzük: $y = s g n ({\underline{w}}^{T} \underline{x})$ (pozitív s-re 1, negatívra -1 lesz a kimenet).
A perceptron tanításához a neuron kimenetét (y) vetjük össze a kívánt kimenettel (d). Egy tanítópont hibája: $ε = d - y$ , a súlyvektor módosítása: ${\underline{w}}^{'} = \underline{w} + α ε \underline{x}$ (alfa a tanítási tényező). Sorra vesszük a tanítópontokat, és addig ismételgetjük a korrekciót, amíg mindegyik tanítópontra megfelelő lesz a kimenet. Csak lineárisan szeparálható pontok osztályozására működik (azaz, ha létezik a pontokat tartalmazó N-dimenziós térben olyan hipersík, aminek egyik oldalán van az összes +1-es kimenetű pont, a másik oldalán a többi). Ez esetben belátható, hogy véges lépésben egy jó súlyvektorhoz konvergál az eljárás.
Az adaline tanítása annyiban más, hogy nem y-nal vetjük össze d-t, hanem s-sel, vagyis a küszöbözés előtti súlyozott összeggel. Egy tanítópont hibája: $ε = d - s$ , az összes pont átlagos négyzetes hibája:

$\frac{1}{P} \sum_{i = 0}^{P} (d_{i} - {\underline{w}}^{T} {\underline{x}}_{i})^{2} = \frac{1}{P} (\underline{d} - \underline{\underline{X}} \underline{w})^{T} (\underline{d} - \underline{\underline{X}} \underline{w})$

És mi ezt akarjuk minimalizálni. (P a tanítópontok száma, X a vektoraikból mint sorvektorokból képzett mátrix, d a kivánt kimenetekből képzett oszlopvektor). A minimumhelyén a gradiense (a súlyvektor függvényében) 0 kell legyen, innen kifejezve a súlyvektort: $\underline{w} = ({\underline{\underline{X}}}^{T} \underline{\underline{X}})^{- 1} {\underline{\underline{X}}}^{T} \underline{d}$ Itt nincs iteráció (bár a gradiens nullhelyének meghatározása nagyméretű mátrixok esetén iteratív módszerekkel célszerűbb), és nem csak lineárisan szeparálható pontoknál működik, viszont semmi garancia nincs arra, hogy jól fog minden pontot osztályozni, mert csak a lineáris rész négyzetes hibáját minimalizáltuk, nem a rosszul osztályzott pontok számát. (Ez az analitikus megoldás). Kicsit pontosabban, az Adaline minden esetben tud adni megoldást. Egy olyan esetben, amikor a pontok lineárisan nem szeparálhatóak a perceptron nem tud megoldást adni, az Adaline tud, mind analitikus módszerrel, mind iteratív. Az analitikus módszer esetében is a kvadratikus hibafelület minimumát fogja adni, ami lineárisan nem szeparálható pontok esetén azt jelenti, hogy a legjobb osztályozást adja, viszont nem minden pont lesz a hipersík megfelelő oldalán.

Mi a Wiener-Hopf összefüggés, és milyen esetben alkalmazható egy tanuló architektúra szabad paramétereinek meghatározására? Pontosan fogalmazza meg azokat az általános feltételeket, amelyek mellett az összefüggés alkalmazható, és az összefüggés minden elemét pontosan definiálja! Optimális megoldást ad-e az eljárás? Ha igen, milyen értelemben, ha nem, miért nem?

Wiener-Hopf összefüggés: $w^{*} = R^{- 1} p$ , ahol $w^{*}$ az optimális súlyvektor, ahol $R = E {x x^{T}}$ a bemenet autokorrelációs mátrixa ( ahol az x a bemeneti vektor), és a $p = E {d x}$ pedig egy olyan oszlopvektort jelöl, amely a kívánt kimenet és a bemenet közötti keresztkorreláció.

Kritériumok: $d_{i}$ a kívánt válaszok és az $x_{i}$ a bemenetek statisztikai jellemzői, valamint R és p ismertek. Ha R és p nem ismertek, akkor ezeket becsülni kell véges számú mintapont alapján.

Optimális megoldást ad olyan értelemben, hogy a hibafelület minimumát adja, ily módon a legkisebb hibával megadja egy lineárisan nem szeparálható feladat minimumát Adaline esetében, de ettől még az Adaline hibásan fog osztályozni.

Lehet-e analitikus tanítást alkalmazni az alábbi neurális hálózatoknál, ha az összes tanítópont a rendelkezésünkre áll és négyzetes hibafüggvényt alkalmazunk: lineáris kimeneti rétegekkel rendelkező egyrétegű MLP, RBF, CMAC? Ha igen, adja meg az analitikus összefüggéseket, ha nem indokolja meg, hogy miért nem!

Egyes bázisfüggvényes hálózatoknál (RBF, CMAC) lehetőség van a súlyvektor(ok) analitikus meghatározására is. Adja meg az analitikus összefüggéseket, és azt is, hogy milyen feltételei vannak az adott összefüggések alapján történő súlymeghatározásnak!

MLP: nem, a hibafelület nem kvadratikus, a gradiens kvadratikusát felhasználó analitikus megoldás így nem alkalmazható. Nem tökéletes, de ér pár pontot
RBF: lehet analitikus tanítást alkalmazni. Összefüggés $w^{*} = G^{- 1} d = (G^{T} G)^{- 1} G^{T} d$ . A feltétele, hogy ismernünk kell az összes tanítópontot.
CMAC: lehet analitikus tanítás, mert: A CMAC súlyainak meghatározásához a következő egyenletet kell megoldani $\underline{\underline{A}} \underline{w} = \underline{d}$ , ahol a w a súlyok oszlopvektora, d a tanítópontokban kívánt kimenetekből álló oszlopvektor. Az A mátrix azt írja le, melyik tanítópont melyik neuronokat aktiválja (vagyis melyik tartományba esik bele). Az i. sor j. elem adja meg, hogy az i. tanítópont j. neuront aktiválja-e, a baloldalon álló szorzat a tanítópontok tényleges aktivációinak oszlopvektora. $w^{*} = A^{- 1} d = (A^{T} A)^{- 1} A^{T} d$ valamint $y = T w^{*} = T A^{T} (A A^{T})^{- 1} d = T A^{T} B d$ . A feltétel ehhez, hogy a tanítópontok egyenletesen, egymástól pontosan egységnyi távolságra helyezkednek el.

Mi a szoft margó(margin, tartaléksáv) jelentése, szerepe és a jelentősége az SVM-nél? Hogyan kell értelmezni a margót nemlineáris osztályozási feladatnál?

Mi a margó(margin, tartaléksáv) szerepe és jelentősége az SVM-nél? Hogyan kell értelmezni a margót a nemlineáris osztályozási feladatnál? Hogyan módosul ez a szerep, ha az SVM származtatásnál gyengítő (slack) változót is használunk?

Szupport vektor gépeknél osztályozási feladat esetén mi biztosítja, hogy az elválasztandó osztályok között egy biztonsági sáv alakuljon ki? Adja meg azt a matematikai összefüggést, ami biztosítja a biztonsági sávot. Hogyan biztosítható, hogy a biztonsági sáv maximális értéket vegyen fel? Mit lehet tenni, ha a tanítópontok elhelyezkedése olyan, hogy a két osztály pontjai között nem lehet biztonsági sávot kialakítani?

Mi a szerepe a gyengítő változóknak Szupport Vektor Gépeknél? Adja meg a nemlineáris osztályozási feladat optimalizálandó kritériumfüggvényét, ha gyengítő változót is használ!

SVM: A szupport vektor gépek olyan kernel gépek, melyek a statisztikus tanuláselmélet eredményeit is hasznosítják. Alapváltozatuk lineáris szeparálásra képes, amely azonban kiterjeszthető nemlineáris szeparálásra és nemlineáris regressziós feladatokra is. A lineáris kétosztályos osztályozási feladat megoldását adó szupport vektor gép ezt az „optimális" elválasztó felületet határozza meg. A vektorgépek a lineárisan szeparálható feladatoknál olyan optimális megoldásra törekednek, melyek az osztályozásnál az osztályozó hipersíktól az átlagos tanítópont távolság maximális legyen.

Margin: Optimális lineáris szeparálásnak azt a megoldást tekintjük, amikor az elválasztó egyenes (sík, hipersík) a két osztályba tartozó tanítópontok között a pontoktól a lehető legnagyobb távolságra helyezkedik el. A pontok között középre elhelyezett szeparáló felületet a tanító pontoktól egy margó (margin), azaz egy biztonsági sáv választja el, ezért az így megoldható feladatokat maximális tartalékot vagy maximális margót biztosító lineárisan szeparálható osztályozási feladatoknak is nevezzük. A lineárisan nem szeparálható osztályozási feladatoknál a margin helyett szoft-margint értelmezünk.

Soft Margin: Ha megengedjük, hogy a biztonsági sávban is legyenek tanítópontok, miközben továbbra is cél a lehető legnagyobb margó biztosítása, ún. lágy vagy szoft margójú megoldásról beszélünk. Azoknál a pontoknál amelyek a biztonsági sávon kívül helyezkednek le a maximális margójú osztályozást biztosító $d_{i} (w^{T} x_{i} + b) \geq 1$ egyenlőség áll fenn. Az ilyen mintapontokra vonatkozó, az előző egyenlőtlenségnek megfelelő formális kapcsolat ún. gyengítő $ϵ$ változók bevezetésével lehetséges. A gyengítő változók bevezetése lehetővé teszi, hogy a fenti összefüggés az egyes tanítópontoknál különböző mértékben gyengítve érvényesüljön. Ennek megfelelően az összes pontra most a következő egyenlőtlenség írható fel: $d_{i} (w^{T} x_{i} + b) \geq 1 - ϵ_{i}$

Azon tanítópontoknál, ahol $ϵ = 0$ visszakapjuk az alapfeladatot. Ha $0 < ϵ < 1$ , az adott tanítópont a hipersík megfelelő oldalán, de a biztonsági sávban helyezkedik el, ha $ϵ > 1$

az adott tanítópont a sík ellenkező (hibás) oldalán van. Saját szavakkal: Egy plusz tanítóponthoz kötött változó segítségével elértük, hogy az eredeti képletünk újra minden tanítópontban igaz legyen.

-- Tsiga - 2012.05.16.