„Tartalomelemzés” változatai közötti eltérés
A VIK Wikiből
Nincs szerkesztési összefoglaló |
|||
(Egy közbenső módosítás, amit egy másik szerkesztő végzett, nincs mutatva) | |||
20. sor: | 20. sor: | ||
# Naiv Bayes osztályozó | # Naiv Bayes osztályozó | ||
## Milyen képleten alapul; hogyan lehet a tényezőit becsülni? | ## Milyen képleten alapul; hogyan lehet a tényezőit becsülni? | ||
## | ## Hogyan alkalmazható többcímkés osztályozásra? | ||
## Milyen a tanulás és tesztelés időigénye, és miért? | ## Milyen a tanulás és tesztelés időigénye, és miért? | ||
# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve? | # Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve? <br/> '''Megoldás:''' Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata). | ||
# Mi a szó-dokumentum mátrix használatának hátránya? | # Mi a szó-dokumentum mátrix használatának hátránya? <br/> '''Megoldás:''' A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes. | ||
# Milyen hibát véthet egy szótövező? | # Milyen hibát véthet egy szótövező? <br/> '''Megoldás:''' <br/> '''Alultövezés''': két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel. <br/> '''Túltövezés''': két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli. <br/> '''Félreértelmezés''': olyan végződést vág le az algoritmus, ami valójában a tő része. | ||
# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)? | # Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)? <br/> '''Megoldás:''' Zipf törvény: <math>P_n = 1 / n^a</math>. <br/> 2. leggyakoribb szó esetén <math>P_2 = 1/2 = r</math> <br/> 4. leggyakoribb szó esetén <math>P_4 = 1/4 = r/2</math> | ||
# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban. | # Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban. <br/> '''Megoldás:''' <br/> Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.) <br/> Szavakat és szótöveiket tartalmazó szótárt használó módszerek. <br/> Egyéb eljárások, pl. statisztikai módszerek alkalmazása. | ||
# Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke? | # Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke? | ||
# Mi az a CRF és mire használható? | # Mi az a CRF és mire használható? | ||
==Ponthatárok== | |||
17-20 pont: 5 <br/> | |||
15-16 pont: 4 <br/> | |||
13-14 pont: 3 <br/> | |||
10-12 pont: 2 <br/> | |||
0-9 pont: 1 | |||
{{Lábléc - Médiainformatika szakirány}} | {{Lábléc - Médiainformatika szakirány}} |
A lap jelenlegi, 2015. november 16., 11:43-kori változata
ZH (2014. tavasz)
- Naiv Bayes osztályozó
- Milyen képleten alapul; hogyan lehet a tényezőit becsülni?
- Hogyan alkalmazható többcímkés osztályozásra?
- Milyen a tanulás és tesztelés időigénye, és miért?
- Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve?
Megoldás: Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata). - Mi a szó-dokumentum mátrix használatának hátránya?
Megoldás: A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes. - Milyen hibát véthet egy szótövező?
Megoldás:
Alultövezés: két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel.
Túltövezés: két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli.
Félreértelmezés: olyan végződést vág le az algoritmus, ami valójában a tő része. - Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága r. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)?
Megoldás: Zipf törvény: .
2. leggyakoribb szó esetén
4. leggyakoribb szó esetén - Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban.
Megoldás:
Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.)
Szavakat és szótöveiket tartalmazó szótárt használó módszerek.
Egyéb eljárások, pl. statisztikai módszerek alkalmazása. - Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?
- Mi az a CRF és mire használható?
Ponthatárok
17-20 pont: 5
15-16 pont: 4
13-14 pont: 3
10-12 pont: 2
0-9 pont: 1
1. félév (tavasz) | |
---|---|
2. félév (ősz) | |
3. félév (tavasz) | |
Egyéb |