„Médiatartalom-kezelő rendszerek kidolgozás 2012” változatai közötti eltérés

Szikszayl (vitalap | szerkesztései)
aNincs szerkesztési összefoglaló
Szotsaki (vitalap | szerkesztései)
 
94. sor: 94. sor:


==Információ keresés és feltárás==
==Információ keresés és feltárás==
* információ visszakeresés (infromation retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon
* információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon


===Információ keresés típusai===
===Információ keresés típusai===
108. sor: 108. sor:
* relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
* relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
* fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
* fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
* R = TP/TP+FN
** R = TP/TP+FN
* pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
* pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
* P = TP/TP+FP
** P = TP/TP+FP
* rangsorolás (ranking): a relevancia szerinti rendezés
* rangsorolás (ranking): a relevancia szerinti rendezés
* term: egy kulcsszó a rendszerben
* term: egy kulcsszó a rendszerben
117. sor: 117. sor:


===IR modellek===
===IR modellek===
* *Boolean modell*: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
* Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
** Előnyök
** Előnyök
*** logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
*** logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
** Hátrányok
** Hátrányok
*** a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
*** a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
*** nem lehet a dokumentumok hasonlósága szerint rangsorolni az ereményhalmazt (a hasonlósági függvény bináris)
*** nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris)
*** nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni  
*** nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni  
* *Vektor modell*: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
* Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
** célja: hogy tudjuk mérni a részleges illeszkedést is
** célja: hogy tudjuk mérni a részleges illeszkedést is
* Kiterjesztett Boolean-modell
* Kiterjesztett Boolean-modell