„KoopKerdesekZHOssz02” változatai közötti eltérés

24. sor:

<math> \varphi (x )^{T} \varphi ( x_i ) = K_i ( \varphi ( x )) = K (x , X_i ) {} </math>

~~Amit~~ az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami az első szummás kifejezés szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.

Amint az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami az első szummás kifejezés szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.

'''Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal.Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?'''

'''Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal. Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?'''

Az NFIR konstrukciónál egy FIR-MLP-t készítenék, amely lényegében egy tetszőleges számú rejtett réteggel, és azokban tetszőleges számú perceptronnal működő hálózat, azonban a súlyokat (kivéve az eltolás súlyokat) egy FIR szűrőre cserélem, ezzel kész is a háló. A tanítás során a súlymódosításnál használhatom az idő szerinti kiterítést, azonban ez sok számítást vesz igénybe, így inkább a hatékonyabb temporális hiba visszaterjesztési eljárást alkalmazom, ahol az eredő gradienst az eredő hiba kimeneti parciálisa szerint kapok meg.

37. sor:

'''Mi a Hebb tanulási szabály és milyen hálók tanításánál van szerepe? Milyen módon származtatható az Oja szabály a Hebb szabályból?'''

*Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!*

'''Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!'''

A Hebb tanulást a mesterséges neurális hálók tanításánál alkalmazzák. Ez a tanítás eljárás a biológiai tanulás folyamatát utánozza. A neurális hálók elemei közötti kapcsolat erőssége az elemeket aktivitásának szorzatával arányos. A kapcsolat erőssége alatt az elemek közötti súlytényezőt kell érteni.

A Hebb-szabály:

Ahol a "k" jelenti az egyik időpillanatot, "k+1" pedig a következőt. A w[ij] jelenti az i. és a j. processzáló elem közötti súlytényezőt. A <math>\nu</math> jelenti a bátorsági faktort, az y[i] és az y[j], pedig az i. és a j. processzáló elem kimenetének értéke. A képlet lehet ez is:

<math>w[ij] (k+1) = w[ij](k) + \nu * x[i](k) * y[j](k) </math>, ahol az x[i] az i. bemenetet jelenti.

Oja szabály Hebb-ből: http://mialmanach.mit.bme.hu/neuralis/ch10s04 10.4.2. rész

'''Milyen két fő elv alkalmazásával származtatható a GHA (Sanger-algoritmus)-t felhasználó PCA háló? Írja le a GHA algoritmus fő lépéseit! (Ha az összefüggéseket is meg tudja adni, írja le azokat is, ha nem, akkor a gondolatmenetet írja le!)'''

__TODO__

'''Egy olyan MLP hálót szeretne tanítani, melyben minden neuronnál a szokásos szigmoid függvény helyett annak -1-szeresét alkalmazza. Alkalmazható-e ez a háló a szokásos feladatok megoldására? Ha igen, hogyan alakul a tanítása, ha nem, indokolja meg, hogy miért nem!'''

48. sor:

61. sor:

* Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.

* Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math>

* Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math> mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.

mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math>

az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math> mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá

-- [[RynkiewiczAdam|Tsiga]] - 2012.05.16.

--asztalosdani 2013. június 6., 08:45 (UTC)

[[Category:Infoszak]]

@@ 24. sor: / 24. sor: @@
 <math> \varphi (x )^{T} \varphi ( x_i ) = K_i ( \varphi ( x )) = K (x , X_i ) {} </math>
- Amit az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami az első szummás kifejezés szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.
+Amint az a második összefüggésből is látszik a kerneles reprezentáció a tanítópontoknak megfelelő számú (P) kernel függvény-érték súlyozott összegeként áll elő, függetlenül attól, hogy az implicit módon definiált jellemzőtér dimenziója (M) mekkora. A kernel függvény megválasztásától függően a jellemzőtér dimenziója nagyon nagy, akár végtelen is lehet, ami az első szummás kifejezés szerinti kimenet előállítást nagyon megnehezítené, sőt akár lehetetlenné is tenné, miközben a kernel reprezentáció komplexitása a tanítópontok száma által mindenképpen korlátozott. Minthogy a kernel térbeli megoldás ekvivalens a jellemzőtérbeli megoldással, a kernel módszerekkel azt tudjuk elérni, hogy a megoldás komplexitását akkor is korlátozni tudjuk, ha egyébként a megfelelő jellemzőtérbeli megoldás extrém módon komplex lenne. A kernel függvények bevezetésének ezt a hatását kernel trükknek (kernel trick) nevezzük.
-'''Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal.Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?'''
+'''Egy idősor-előrejelzési feladatot szeretne megoldani NFIR vagy NARX hálózattal. Írja le a háló konstrukciójának lépéseit és azt is, hogy az egyes lépéseknél szükséges feladatok hogyan oldhatók meg. Mi a különbség a kétféle architektúra között?'''
 Az NFIR konstrukciónál egy FIR-MLP-t készítenék, amely lényegében egy tetszőleges számú rejtett réteggel, és azokban tetszőleges számú perceptronnal működő hálózat, azonban a súlyokat (kivéve az eltolás súlyokat) egy FIR szűrőre cserélem, ezzel kész is a háló. A tanítás során a súlymódosításnál használhatom az idő szerinti kiterítést, azonban ez sok számítást vesz igénybe, így inkább a hatékonyabb temporális hiba visszaterjesztési eljárást alkalmazom, ahol az eredő gradienst az eredő hiba kimeneti parciálisa szerint kapok meg.
@@ 37. sor: / 37. sor: @@
 '''Mi a Hebb tanulási szabály és milyen hálók tanításánál van szerepe? Milyen módon származtatható az Oja szabály a Hebb szabályból?'''
-*Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!*
+'''Adja meg a Hebb tanulási szabályt és a Hebb tanulás szerepét a Kohonen háló tanításánál!'''
+A Hebb tanulást a mesterséges neurális hálók tanításánál alkalmazzák. Ez a tanítás eljárás a biológiai tanulás folyamatát utánozza. A neurális hálók elemei közötti kapcsolat erőssége az elemeket aktivitásának szorzatával arányos. A kapcsolat erőssége alatt az elemek közötti súlytényezőt kell érteni.
+A Hebb-szabály:
+<math> w[ij](k+1) = w[ij](k) + \nu * y[i](k) * y[j](k) </math>
+Ahol a "k" jelenti az egyik időpillanatot, "k+1" pedig a következőt. A w[ij] jelenti az i. és a j. processzáló elem közötti súlytényezőt. A <math>\nu</math> jelenti a bátorsági faktort, az y[i] és az y[j], pedig az i. és a j. processzáló elem kimenetének értéke. A képlet lehet ez is:
+<math>w[ij] (k+1) = w[ij](k) + \nu * x[i](k) * y[j](k) </math>, ahol az x[i] az i. bemenetet jelenti.
+Oja szabály Hebb-ből: http://mialmanach.mit.bme.hu/neuralis/ch10s04 10.4.2. rész
 '''Milyen két fő elv alkalmazásával származtatható a GHA (Sanger-algoritmus)-t felhasználó PCA háló? Írja le a GHA algoritmus fő lépéseit! (Ha az összefüggéseket is meg tudja adni, írja le azokat is, ha nem, akkor a gondolatmenetet írja le!)'''
+__TODO__
 '''Egy olyan MLP hálót szeretne tanítani, melyben minden neuronnál a szokásos szigmoid függvény helyett annak -1-szeresét alkalmazza. Alkalmazható-e ez a háló a szokásos feladatok megoldására? Ha igen, hogyan alakul a tanítása, ha nem, indokolja meg, hogy miért nem!'''
@@ 48. sor: / 61. sor: @@
 * Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.
-* Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math>
+* Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math>  mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.
- mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math>
- az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math>  mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá
 -- [[RynkiewiczAdam|Tsiga]] - 2012.05.16.
+--asztalosdani 2013. június 6., 08:45 (UTC)
 [[Category:Infoszak]]