„KoopKerdesekZHOssz02” változatai közötti eltérés

(Egy közbenső módosítás ugyanattól a felhasználótól nincs mutatva)

29. sor:

Az NFIR konstrukciónál egy FIR-MLP-t készítenék, amely lényegében egy tetszőleges számú rejtett réteggel, és azokban tetszőleges számú perceptronnal működő hálózat, azonban a súlyokat (kivéve az eltolás súlyokat) egy FIR szűrőre cserélem, ezzel kész is a háló. A tanítás során a súlymódosításnál használhatom az idő szerinti kiterítést, azonban ez sok számítást vesz igénybe, így inkább a hatékonyabb temporális hiba visszaterjesztési eljárást alkalmazom, ahol az eredő gradienst az eredő hiba kimeneti parciálisa szerint kapok meg.

NARX hálózat esetében olyan hálózatot csinálok, melynek a bemeneti oldalán készítek bemeneteket, amikre az előző időpont bemeneteit, valamint az előző bemenethez tartozó kívánt kimenetet is beadom. A tanítás normális módon hálótól függően visszaterjesztéses módszerrel (ezek nem előrecsatolt hálózatok, a FIR hálókkal ellentétben, amik viszont igen). ''Ez a rész itt már lehet, hogy bődületes nagy hülyeség. Szóval a tesztelést NOE hálózattal végezném, hiszen ez a bemenetén felhasználja a régebbi kimenetek is a régi bemenetek ~~mellet~~.''

NARX hálózat esetében olyan hálózatot csinálok, melynek a bemeneti oldalán készítek bemeneteket, amikre az előző időpont bemeneteit, valamint az előző bemenethez tartozó kívánt kimenetet is beadom. A tanítás normális módon hálótól függően visszaterjesztéses módszerrel (ezek nem előrecsatolt hálózatok, a FIR hálókkal ellentétben, amik viszont igen). ''Ez a rész itt már lehet, hogy bődületes nagy hülyeség. Szóval a tesztelést NOE hálózattal végezném, hiszen ez a bemenetén felhasználja a régebbi kimenetek is a régi bemenetek mellett.''

'''Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett ~~régetű~~ MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!'''

'''Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett rétegű MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!'''

Az MLP paraméterekben nemlineáris leképezése miatt a hibafelület nem kvadratikus. Ez még akkor is igaz, ha az MLP-nél is lineáris kimeneti réteget alkalmazunk. A felületen létezhetnek lokális minimumok, sőt a globális minimum sem egyértelmű: a súlyok megfelelő permutációjával különböző, de egyenértékű megoldásokhoz juthatunk. A lokálisak, mint láttuk a háló tanításánál (a gradiens alapú tanuló eljárásoknál) okozhatnak komoly nehézséget.

61. sor:

* Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.

* ~~Percreptonnál~~ a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math> mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.

* Perceptronnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math> mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.

-- [[RynkiewiczAdam|Tsiga]] - 2012.05.16.

@@ 29. sor: / 29. sor: @@
 Az NFIR konstrukciónál egy FIR-MLP-t készítenék, amely lényegében egy tetszőleges számú rejtett réteggel, és azokban tetszőleges számú perceptronnal működő hálózat, azonban a súlyokat (kivéve az eltolás súlyokat) egy FIR szűrőre cserélem, ezzel kész is a háló. A tanítás során a súlymódosításnál használhatom az idő szerinti kiterítést, azonban ez sok számítást vesz igénybe, így inkább a hatékonyabb temporális hiba visszaterjesztési eljárást alkalmazom, ahol az eredő gradienst az eredő hiba kimeneti parciálisa szerint kapok meg.
-NARX hálózat esetében olyan hálózatot csinálok, melynek a bemeneti oldalán készítek bemeneteket, amikre az előző időpont bemeneteit, valamint az előző bemenethez tartozó kívánt kimenetet is beadom. A tanítás normális módon hálótól függően visszaterjesztéses módszerrel (ezek nem előrecsatolt hálózatok, a FIR hálókkal ellentétben, amik viszont igen). ''Ez a rész itt már lehet, hogy bődületes nagy hülyeség. Szóval a tesztelést NOE hálózattal végezném, hiszen ez a bemenetén felhasználja a régebbi kimenetek is a régi bemenetek mellet.''
+NARX hálózat esetében olyan hálózatot csinálok, melynek a bemeneti oldalán készítek bemeneteket, amikre az előző időpont bemeneteit, valamint az előző bemenethez tartozó kívánt kimenetet is beadom. A tanítás normális módon hálótól függően visszaterjesztéses módszerrel (ezek nem előrecsatolt hálózatok, a FIR hálókkal ellentétben, amik viszont igen). ''Ez a rész itt már lehet, hogy bődületes nagy hülyeség. Szóval a tesztelést NOE hálózattal végezném, hiszen ez a bemenetén felhasználja a régebbi kimenetek is a régi bemenetek mellett.''
-'''Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett régetű MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!'''
+'''Lehet-e lokális minimum egy lineáris kimeneti réteggel rendelkező egy rejtett rétegű MLP és egy RBF (vagy CMAC) esetén, ha a súlyokat tanítjuk és egy négyzetes hibafüggvényt alkalmazunk? Válaszát indokolja!'''
 Az MLP paraméterekben nemlineáris leképezése miatt a hibafelület nem kvadratikus. Ez még akkor is igaz, ha az MLP-nél is lineáris kimeneti réteget alkalmazunk. A felületen létezhetnek lokális minimumok, sőt a globális minimum sem egyértelmű: a súlyok megfelelő permutációjával különböző, de egyenértékű megoldásokhoz juthatunk. A lokálisak, mint láttuk a háló tanításánál (a gradiens alapú tanuló eljárásoknál) okozhatnak komoly nehézséget.
@@ 61. sor: / 61. sor: @@
 * Tanulás közben általában azt tudjuk megállapítani a rendszerről, hogy egy adott bemenetre a kimenet mennyire és milyen irányba tér el a megkívánttól. A hiba és a hálózatot leíró függvény alapján tudjuk, milyen irányba érdemes változtatni a paramétereket, de azt általában nem, hogy mennyire. Azt, hogy milyen "bátran" lépjünk a megfelelő irányba, a bátorsági tényező szabja meg. Erősen befolyásolja a "jó" rendszerhez való konvergencia sebességét, illetve azt, hogy egyáltalán konvergálunk-e.
-* Percreptonnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math>  mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.
+* Perceptronnál a tanulás konvergens a bátorsági tényező értékétől függetlenül, de nagyobbnak kell lennie nullánál, és az értéke befolyásolja a konvergencia sebességét. Adaline esetében túl nagy érték okozhat divergenciát; a konvergencia biztosításához az <math> x^{T}x {} </math> mátrix legnagyobb sajátértékének reciprokánál kisebbre kell választani, valamint nullánál nagyobbra. Ez egyenletben kifejezve a jól ismert <math> {\lambda}_{max} {} </math> az R legnagyobb sajátértéke, ahol az R a bemenet autokorrelációs mátrixa, ami egyenlő a fentebb írt <math> X^{T}X {} </math>  mátrixxal. Léteznek módszerek a tényező tanulás közbeni adaptív változtatására is, amik alapvetően gyorsítják a konvergenciát, azonban ugyanezek a feltételek érvényesek rá.
 -- [[RynkiewiczAdam|Tsiga]] - 2012.05.16.