„Tartalomelemzés” változatai közötti eltérés

(Egy közbenső módosítás, amit egy másik szerkesztő végzett, nincs mutatva)

20. sor:

# Naiv Bayes osztályozó

## Milyen képleten alapul; hogyan lehet a tényezőit becsülni?

## ~~Hogy~~ alkalmazható többcímkés osztályozásra?

## Hogyan alkalmazható többcímkés osztályozásra?

## Milyen a tanulás és tesztelés időigénye, és miért?

# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve?

# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve? '''Megoldás:''' Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata).

# Mi a szó-dokumentum mátrix használatának hátránya?

# Mi a szó-dokumentum mátrix használatának hátránya? '''Megoldás:''' A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes.

# Milyen hibát véthet egy szótövező?

# Milyen hibát véthet egy szótövező? '''Megoldás:''' '''Alultövezés''': két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel. '''Túltövezés''': két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli. '''Félreértelmezés''': olyan végződést vág le az algoritmus, ami valójában a tő része.

# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)?

# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)? '''Megoldás:''' Zipf törvény: <math>P_n = 1 / n^a</math>. 2. leggyakoribb szó esetén <math>P_2 = 1/2 = r</math> 4. leggyakoribb szó esetén <math>P_4 = 1/4 = r/2</math>

# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban.

# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban. '''Megoldás:''' Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.) Szavakat és szótöveiket tartalmazó szótárt használó módszerek. Egyéb eljárások, pl. statisztikai módszerek alkalmazása.

# Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?

# Mi az a CRF és mire használható?

==Ponthatárok==

17-20 pont: 5

15-16 pont: 4

13-14 pont: 3

10-12 pont: 2

0-9 pont: 1

@@ 20. sor: / 20. sor: @@
 # Naiv Bayes osztályozó
 ## Milyen képleten alapul; hogyan lehet a tényezőit becsülni?
-## Hogy alkalmazható többcímkés osztályozásra?
+## Hogyan alkalmazható többcímkés osztályozásra?
 ## Milyen a tanulás és tesztelés időigénye, és miért?
-# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve?
+# Hogy segíthet a tokenizálásnál, ha ismert a dokumentum nyelve? <br/> '''Megoldás:''' Ha ismert a dokumentum nyelve, akkor a tokenizáláskor figyelembe tudjuk venni az adott nyelv sajátosságait (pl. ékezetek és írásjelek használata, van-e szóköz, dátumok, mértékek használata).
-# Mi a szó-dokumentum mátrix használatának hátránya?
+# Mi a szó-dokumentum mátrix használatának hátránya? <br/> '''Megoldás:''' A mátrix nagyon nagy lehet, ezért nehéz felépíteni és a műveletek elvégzése is időigényes.
-# Milyen hibát véthet egy szótövező?
+# Milyen hibát véthet egy szótövező? <br/> '''Megoldás:''' <br/> '''Alultövezés''': két szóhoz, melyek jelentése ekvivalens a feldolgozás szempontjából, az algoritmus két külön tövet rendel. <br/> '''Túltövezés''': két szóhoz, melyek jelentése különböző, az algoritmus ugyanazt a tövet rendeli. <br/> '''Félreértelmezés''': olyan végződést vág le az algoritmus, ami valójában a tő része.
-# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)?
+# Egy korpuszban a második leggyakrabban előforduló szó relatív gyakorisága ''r''. Mennyi a 4. leggyakoribb szó relatív gyakorisága, ha a korpuszban előforduló szavak eloszlására igaz a Zipf-törvény (alfa = 1 esetén)? <br/> '''Megoldás:''' Zipf törvény: <math>P_n = 1 / n^a</math>. <br/> 2. leggyakoribb szó esetén <math>P_2 = 1/2 = r</math> <br/> 4. leggyakoribb szó esetén <math>P_4 = 1/4 = r/2</math>
-# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban.
+# Melyek a szótövező eljárások 3 nagy típusa? Mutassa be őket egy-két mondatban. <br/> '''Megoldás:''' <br/> Algoritmikus, nyelv-specifikus átírószabályokat alkalmazó módszerek. (pl. Porter, Snowball, Lovins, stb.) <br/> Szavakat és szótöveiket tartalmazó szótárt használó módszerek. <br/> Egyéb eljárások, pl. statisztikai módszerek alkalmazása.
 # Egy osztályozó mért pontossága (presision) ⅔. Milyen határok között lehet az F1 mértéke?
 # Mi az a CRF és mire használható?
+==Ponthatárok==
+-20 pont: 5 <br/>
+-16 pont: 4 <br/>
+-14 pont: 3 <br/>
+-12 pont: 2 <br/>
+-9 pont: 1
 {{Lábléc - Médiainformatika szakirány}}