Szövegbányászat - ZH, 2006. ősz
A VIK Wikiből
Ez az oldal a korábbi SCH wikiről lett áthozva.
Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor, kérlek, javíts rajta egy rövid szerkesztéssel!
Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót.
- Optimalizálja a keresőkifejezést invertált index esetén! A válaszhoz pontos indoklást kell adni! (8 pont)
=(csoportosítás AND bigram) OR ((osztályozás AND döntési-fa) AND NOT pszeudokód)=Szó Dokumentumok száma csoportosítás 15000 döntési-fa 40000 bigram 2000 pszeudokód 3000 osztályozás 22000 összes 200000 Lépésenként ki kellett fejteni, hogy mennyi volt a lépésszám és a keletkező dokumentumhalmaz mérete.
- Adja meg a tömörített index tárigényét 2 millió, átlagosan 500 szót tartalmazó korpusz esetén! A jelölők tárigényének számításához adja meg a tömörítés módját is, használja a Zipf-törvényt! A szótár esetén elegendő közelítő nagyságrendi becslés megadása. (12 pont)
Le kellett írni a Zipf-törvény, a különbségi kódolás és a γ-kódolás definícióját is. A szótárat lehet pl. hosszú stringben tárolni, ilyenkor kell számolni a szótár és a pointerek méretével is. A számolás nagyon hosszú lenne, nem érdemes részletesen kifejteni. - Milyen módszert alkalmazna, ha különböző nyelvű dokumentumokat kellene egymástól megkülönböztetni? Milyen szövegreprezentációt használna és miért? Mennyiben különbözik a feladat, ha ismertek a lehetséges nyelvek, illetve ha nem? (12 pont)
Definiálni kellett az n-gramokat, megemlíteni, hogy nem feltétlenül az összeset használják. Hogyan hasonlítható össze két profil? Ha nem ismertek a nyelvek, csoportosítási feladatot kell megoldani, ilyenkor ki kell választani egy konkrét algoritmust és leírni a működését. - Ismertesse a terminus alapú vektortér modellt! Adjon meg legalább 3 súlyozási sémát képlettel! Milyen feladattípusoknál illetve eljárásoknál hatékony a dimenziócsökkentés? (12 pont)
Keresésnél használnak „stop szavakat”. Naiv Bayes algoritmusban binomiális esetben szükséges a dimenziócsökkentés, multinomiális esetben nem. - Ismertesse a Rocchio osztályozó működését! (8 pont)
Le kellett írni a képletet a két Σ különbségével. Figyelembe veszi a negatív tanulóadatokat is. Hogyan tanul? Hogyan épít profilokat? Hogyan osztályoz?
-- Peti - 2006.12.07.