Kooperatív és tanuló rendszerek - vizsga 2012-05-29

← Vissza az előző oldalra – Kooperatív és tanuló rendszerek

Első részből (1-6) legalább 16 pontot, a második részből (7-11) legalább 8 pontot kell szerezni!!

1. Egy (Rosenblatt) perceptronnal kell megtanítania a három (bináris) bemenetű többségi döntés függvényt. Meg tudja tanulni a perceptron a feladatot? Mi a helyzet, ha ugyanezt a feladatot egy Adaline-nak tanítja? Mindkét esetben adjon indoklást is! (4p): Bemenet: $x_{1}, x_{2}, x_{3} ϵ {0, 1}$ (lehetne {-1,1} is, nem tudom itt melyikre gondoltak, de gondolom mindkettővel elfogadják)

Helyes kimenet:

y = {\begin{cases} - 1 & ha x_{1} + x_{2} + x_{3} \leq 1 \\ + 1 & ha x_{1} + x_{2} + x_{3} \geq 2 \end{cases}

Másképp írva:

y = {\begin{cases} - 1 & ha x_{1} + x_{2} + x_{3} < 1.5 \\ + 1 & ha x_{1} + x_{2} + x_{3} > 1.5 \end{cases}

Az

x_{1} + x_{2} + x_{3} = 1.5

lineáris felület helyesen szeparálja a tanítópontokat, tehát a perceptron és az adaline is meg tudja tanulni a feladatot (mert azok lineárisan szeparálható osztályozási problémákra jók).

2. Alkalmazhat-e gradiens-alapú tanító eljárást a következő neurális hálóknál: Rosenblatt perceptron, adaline, egy vagy több rejtett rétegű MLP, RBF, CMAC, SVM, ha a súlyokat tanítjuk, és folytonos hibafüggvényt alkalmazunk? Indokolja meg válaszát! (5p)

3. Dinamikus hálók konstrukciójánál fontos részfeladat a regresszorvektor megválasztása. Mit jelent ez a feladat és mi a regresszorvektor meghatározásának a két fő lépése? A két fő lépés közül melyiknél és mely dinamikus modellosztályok esetében használható a Lipschitz index? Értelmezze a Lipschitz index $L q^{(N)} = (\prod_{k = 1}^{p} \sqrt{N} q^{(N)} (k))^{1 / p}$ összefüggését, benne a jelöléseket is!(8p)

Amit találtam erről:

Egy általános nemlineáris dinamikus rendszermodell által megvalósított be-kimeneti kapcsolat − diszkrét idejű rendszerek esetében − az alábbi általános formában adható meg:

y (k) = f (ϕ, φ (k))

Az

f (ϕ, φ (k))

kapcsolat a modell struktúráját rögzíti, ahol

φ (k))

az ún. regresszorvektor, k az időindex,

ϕ

pedig a rendszer paramétereit összefoglaló vektor. A regresszorvektor feladata megadni, hogy a kimenet előállításában a modellezendő rendszer, folyamat milyen régebbi bemeneti és kimeneti adatait használjuk fel.

Többi itt: http://www.mit.bme.hu/books/neuralis/ch08s01

Lipschitz: http://www.mit.bme.hu/books/neuralis/ch08s06

Regresszorvektor meghatározásának a két fő lépése (+?): A regresszorvektor-választás egyfelől a nemlineáris dinamikus modellosztály megválasztását jelenti (NFIR, NARX (ezek kitüntetettek, mert előrecsatoltak) +NOE, NARMAX...), másfelől a modell-fokszám meghatározását is igényli. A bemenet-kimenet reprezentációk mellett a modell-fokszám a regresszorvektor konstrukciójánál figyelembe vett régebbi bemeneti és/vagy kimeneti, stb. értékek számát jelenti. Mivel a modell-fokszám előzetesen általában nem ismert, célszerű különböző modell-fokszámok mellett különböző komplexitású modellek létrehozása és valamilyen kritérium szerinti kiértékelése.

Lipschitz index jelölések:

$q^{(N)} (k)$ a

$q_{i j}^{(N)} = \frac{| y (i) - y (j) |}{| x (i) - x (j) |}$ ahol Értelmezés sikertelen (formai hiba): {\displaystyle i\neq j; i,j=1,2, …,P}

Lipschitz hányadosok közül a k-adik legnagyobb érték, N a bemeneti változók száma (a regresszorvektor dimenziója), p pedig egy alkalmasan megválasztott pozitív szám, rendszerint p = 0,01P ~ 0,02P. (P a szokásos jelölésnek megfelelően a tanítópontok száma).

4. Az alábbi két bemenetű - egy kimenetű visszacsatolt hálót szeretné BPTT módszerrel tanítani. Milyen kiterített hálót kap, ha 3 időlépésre kell elvégeznie a kiterítést. Adja meg a szaggatott vonallal jelzett súly (w) tanítási összefüggését. (10p): info: http://www.mit.bme.hu/books/neuralis/ch08s04

5. Mit jelentenek a szupportvektorok egy osztályozós SVM-nél? Lehet-e valamit mondani (pl. legalább alsó és felső korlátokat) egy N-változós osztályozási feladatnál, ha a tanító pontok száma P, a szupport vektorok számára hard margós (gyengítő változó nélküli) ( $⋆$ ) lineáris és ( $⋆ ⋆$ ) nem lineáris esetben? Indokolja a választ! (5p)

Egy hosszú bevezetés a szupportvektorokhoz:

A lineáris kétosztályos osztályozási feladat megoldását adó szupport vektor gép az "optimális" elválasztó felületet határozza meg (a két osztályba tartozó tanítópontok között, a tanítópontoktól a lehető legnagyobb távolságra helyezkedik el a "felület"). Ennek a meghatározásához a következő kell:

d_{i} (w^{* T} x_{i} + b^{*}) \geq 1

A feladatot feltételes szélsőérték-keresési problémaként tudjuk megfogalmazni, ahol a feltételek egyenlőtlenségek formájában vannak megadva. A feltételes szélsőérték-keresési feladat megoldását egy Lagrange kritérium megoldásával kereshetjük:

L (w, b, α) = \frac{1}{2} w^{T} w - \sum_{i = 1}^{P} α_{i} [d_{i} (w^{T} x_{i} + b) - 1]

Az optimalizálási feladat megoldásához a Karush-Kuhn-Tucker (KKT) elmélet szerint a fenti Lagrange kritériumot kell minimalizálni w és b szerint és maximalizálni

α_{i}

szerint, vagyis a Lagrange kritérium által definiált kritériumfelület nyeregpontját (saddle point) kell meghatározni.

A feltételes optimalizálási feladat megoldásához felírható annak duális alakja, melyben már csak az

α_{i}

Lagrange multiplikátorok az ismeretlenek. ... A linkben a 6.41-es képlet, majd: Azokat a tanítópontokat, amelyek résztvesznek a megoldás kialakításában, amelyekhez tartozó Lagrange multiplikátorok értéke nem nulla, szupport vektoroknak (support vectors) nevezzük. A szupport vektor gépek tehát olyan kernel gépek, ahol a kernel tér tényleges dimenziója nem a tanítópontok számával (P), hanem a szupport vektorok számával (Ps) egyezik meg.

Bővebben erről: http://www.mit.bme.hu/books/neuralis/ch06s03

A második kérdés nem valami pontos, de utólag megtekintésről kiderült, hogy a szupport vektorok számára kell korlát. Alsó korlát 2, felső korlát P, azaz a tanítópontok száma. Lineáris és nem lineáris esetben is (nem lineáris esetben ugye transzformáljuk magunkat és lineáris lesz).

6. Meg lehet-e határozni a CMAC háló gradiens alapú iteratív tanításnál a konvergenciát biztosító tanulási tényezőt ( $μ$ (mü) bátorsági faktor), ha az összes tanító pontot ismeri és nem alkalmaz tömörítő leképezést? Ha igen, adja meg $μ$ (mü) összefüggését, ha nem indokolja meg, hogy miért nem. (8p)

Röviden most így pótvizsga előtt:

A lényeg, hogy CMAC kimenetében Adaline-ok vannak, amikre tudjuk, hogy 0<mű<1/lambda_max akkor konvergens. Na de itt az autokorrelációs mátrix (Adaline-nál R), nem x*xtranszponált várható értékéből jön, hanem az asszociációs vektorból valahogy. Ez a valahogy talán az A mátrixokból létrehozott új auto korrelációs mátrix lesz.

7. Mi a szemantikailag specifikált KQML lényege? (4p)

8. Beszéltünk mesterséges intelligenciában racionális ágensekről. Mit takar a "beszéd aktus, mint racionális cselekvés" megközelítés? (4p)

9. Az elosztott problémamegoldás körében fellépő konfliktusok feloldására milyen elemi protokollokat alakítottak ki? Mi a szerepük konfliktusfeloldás szempontjából? (4p)

10. Mi a Nash-egyensúly? Hogyan jelentkezik a fogoly paradoxonnál? (4p)

11. Mi a Borda-szavazás lényege és mi a fő problémája? (4p): Jean-Charles de Borda javasolta 1770-ben a Borda-számlálást a Francia Tudományos Akadémia tagjainak megválasztására. A Borda-számlálás egy egyszerű rangsorolásos módszer, ahol az alternatívákat pontozzák a rangsorolásuk szerint. A hasonló módszereket együtt pozíciós szavazórendszernek nevezik. $k$ darab jelöltünk van, mindenki rangsorol, alternatívánként összegzés. Eredmény az alternatívák teljes, tranzitív szociális rendezése.