KoopKerdesekZHOssz05

Ez az oldal a korábbi SCH wikiről lett áthozva.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor, kérlek, javíts rajta egy rövid szerkesztéssel!

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót.

Származtassa a CMAC hálózat súlyvektorának analitikus megoldását. Mutassa meg, hogy a megoldás megfeleltethető a Wiener-Hopf egyenlet megoldásának. Adja meg a két összefüggés kapcsolatát!

A CMAC súlyainak meghatározásához a következő egyenletet kell megoldani: $\underline{\underline{A}} \underline{w} = \underline{d}$ , ahol w a súlyok oszlopvektora, d a tanítópontokban kívánt kimenetekből álló oszlopvektor. Az A mátrix azt írja le, melyik tanítópont melyik neuronokat aktiválja (vagyis melyik tartományokba esik bele). Az i. sor j. eleme adja meg, hogy az i. tanítópont a j. neuront aktiválja-e, a baloldalon álló szorzat a tanítópontok tényleges aktivációinak oszlopvektora.
Az egyenletet általános esetben nem oldható meg egzaktul, viszont megkereshető az a súlyvektor, amire a legkisebb lesz a négyzetes hiba:

${| | \underline{\underline{A}} \underline{w} - \underline{d} | |}^{2} = (\underline{\underline{A}} \underline{w} - \underline{d})^{T} (\underline{\underline{A}} \underline{w} - \underline{d})$ A minimum megkereséséhez tekintsük a kifejezést w elemei függvényének, és keressük meg azt a helyet, ahol a gradiens 0. Belátható, hogy a gradiens $2 {\underline{\underline{A}}}^{T} \underline{\underline{A}} \underline{w} - 2 {\underline{\underline{A}}}^{T} \underline{d}$ , a nullhelyben pedig $\underline{w} = ({\underline{\underline{A}}}^{T} \underline{\underline{A}})^{- 1} {\underline{\underline{A}}}^{T} \underline{d}$ .

Hasonlítsa össze a CMAC és az RBF hálózatot a tanulás módja, az approximációs képesség és a háló komplexitása tekintetében!

A hálól egyszerűsítése érdekében gyakran alkalmaznak pruning eljárásokat. A pruningolás elősegítésére az alábbi kritériumfüggvényt használhatjuk: $C (w) = {(d - y)}^{2} + \frac{1}{2} \sum_{i} {| | w i | |}^{2}$ , ahol i végigfut a háló összes súlyvektorán. Feltételezve, hogy ezt a kritérium függvényt alkalmazza, határozza meg egy kimenetű MLP kimeneti súlyvektorának tanító összefüggését és egy rejtett rétegbeli súlyvektor tanító összefüggését

(A pruning az a folyamat, amikor megpróbáljuk eltávolítani a hálónkból a redundanciát, vagyis a felesleges súlyokat, illetve processzáló elemeket.)

Nem mondom, hogy 100% biztos megoldás de közelít a valósághoz Normális esetben a kritériumfüggvényünk így néz ki: $C (w) = (d - k)^{2}$ , de nekünk, most így néz ki: $C (w) = {(d - y)}^{2} + \frac{1}{2} \sum_{i} {| | w i | |}^{2}$ , ami nagyon hasonlít egy sima pruning kritériumfüggvényhez (ez a példa a könyvből van: $C_{r} (w) = C (w) + λ \sum_{i, j} | w_{i j} |$ ahol $λ$ a büntető tag relatív súlya). Vagyis észrevehetjük, hogy a pruning büntető tag jelen esetben a $\frac{1}{2} \sum_{i} {| | w i | |}^{2}$ . Hogy a könyvet idézzem a súly módosítás a deriválás elvégzése után $△ w = μ (- \frac{\partial C (w)}{\partial w}) - μ λ s g m (w)$ . Na és akkor ez hogyan néz ki rejtett rétegnél, és nem rejtettnél: Rejtett: Valaki?

RBF hálóknál a bázisfüggvények általában rendelkeznek beállítható paraméterekkel. Gauss bázisfüggvény esetén milyen paraméterek meghatározására van szükség, és milyen eljárásokat ismer ezen paraméterek meghatározására?

A Gauss függvénynek két paramétere van: a középpontja és a szórása. Ez utóbbi lehet skalár, vagy többdimenziós esetben vektor is (különböző dimenziók mentén más lehet a függvények szórása). (Megjegyzés: magának a hálónak további paramétere, hogy hány bázisfüggvényt használunk.)
A középpontok meghatározására használható az ortogonális least squares (OLS) és a K-means módszer. Előbbi kiindul egy egy pontot tartalmazó RBF-ből, majd azt iteratívan bővíti, ha nem elég jó a tanulóképessége (a hozzáveendő középpontokat az ismert tanítópontok közül választja). A K-means csoportokba próbálja osztani a tanítópontokat, és a csoportokhoz egy-egy középpontot illetve bázisfüggvényt rendel.
Állítható a szórás értéke is; általában elég tág határok közt változtatható a tanulási képesség rontása nélkül. . Jól használható az adott középpontú bázisfüggvény szórásának, ha vesszük a középponthoz legközelebbi R (R=2-3) másik középpontot, és ezek távolságainak átlagát számoljuk. Ha mindegyik függvényhez azonos szórást akarunk használni, erre is használható a fenti kifejezés (véletlenszerűen kijelölve egy középpontot).
Végül mind a középpontok, mind a szórások meghatározására alkalmazhatóak az ellenőrzött tanítási módszerek, pl. gradiens alapú keresés.

Egy MLP rejtett rétegében lévő neuron súlyvektorának tanító összefüggését származtassa! Hogyan választja meg a tanításnál a "bátorsági faktort"? Meghatározhatók-e analitikus úton is a rejtett neuronok súlyértékei?

Mi a keresztkiértékelés és mikor használjuk? Milyen változatait ismeri?

Mekkora a CMAC háló rejtett rétegének komplexitása (a háló súlyainak száma) egydimenziós és N dimenziós esetben, ha C a háló paramétere (az asszociációs vektorban az aktív bitek száma) és $r_{i}$ az i-edik bemeneti dimenziónál a lehetséges diszkrét bemeneti értékek száma és bemeneti dimenziótól függetlenül C-szeres lefedést alkalmazunk?

Egydimenziós esetben $R = 2^{r_{1}}$ a lehetséges bemenetek száma, többdimenziós esetben meg $R^{i} = 2^{r_{i}}$ , összesen tehát $R = \prod_{i}^{N} R^{i} = 2^{r_{i}}$ . Természetesen, ha mindenhol a kvantálás mondjuk b, akkor $R = 2^{N b}$ (<- ez a képlet ami a könyvben is szerepel).
C aktív bit mellet, egy dimenziónál az asszociációs vektor hossza $M = R + C - 1$ .
N dimenziós esetében, amikor lejes a lefedés, vagyis $C^{N}$ -szeres, akkor ez $M = \prod_{i}^{N} (r_{i} + C - 1)$ , ami meglehetősen nagy. De a kérdés nem erre vonatkozott, hanem arra, amikor C-szeres lefedés van. Ebben az esetben $M_{C} = ⌊ \frac{1}{C^{N - 1}} \prod_{i}^{N} (r_{i} + C - 1) ⌋$ , meg kell említeni, hogy ez is elég nagy.

Mutassa meg, hogy az EXOR probléma megoldható egy olyan RBF hálózattal, melynek két Gauss rejtett neuronja van, ahol a bázisfüggvények középpontjai [0 0] és [1 1]

Meghatározható-e egy egykimenetű RBF háló súlyvektora a Wiener-Hopf egyenlet megfelelő változatával? Ha igen, adja meg a megfelelő Wiener-Hopf egyenletet, ha nem, indokolja meg, hogy miért nem.

Származtassa a CMAC hálózat súlyvektorának analitikus megoldását.

Osztályozásnál gyakori, hogy négyzetes hibafüggvény $C (w) = \frac{1}{p} \sum_{i = 0}^{p} (d_{i} - y_{i})^{2}$ helyett a keresztentrópia hibafüggvényt a $C (w) = - \sum_{i = 0}^{p} (d_{i} l n (y_{i}) - (1 - d_{i}) l n (1 - y_{i}))$ alkalmazzák. Itt $d_{i}$ a kívánt kimenet, $y_{i} = s g m (w^{T} x_{i}) = s g m (s_{i}) = \frac{1}{1 + e^{- s_{i}}}$ (az ott lent $e^{- s_{i}}$ )és $p$ a tanítópontok száma. Határozza meg egy fenti leképzést megvalósító elemi neutron súlyvektorának tanító összefüggését, ha a gradiens módszert és pillanatnyi hiba tanulást alkalmaz!

Milyen szerepet játszik a C együttható és a $ϵ$ (epszilon) változó egy osztályzás SVM konstrukciójánál, és milyen szempontok alapján lehet C-t megválasztani?

Milyen alapvető különbségek vannak egy NOE, és egy NARX architektúra között? Mikor melyiket alkalmazná? Egyes dinamikus neuronháló architektúra tanítására alkalmas az időben kiterítéses alapú BPTT módszer. A NOE és a NARX architektúra közül melyik (melyek) tanítására alkalmas a módszer. Írja le a BPTT tanítási eljárás lépéseit.

-- Tsiga - 2012.05.16.