„Médiatartalom-kezelő rendszerek kidolgozás 2012” változatai közötti eltérés
A VIK Wikiből
Új oldal, tartalma: „==Alapfogalmak== * adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hoz…” |
|||
(2 közbenső módosítás, amit egy másik szerkesztő végzett, nincs mutatva) | |||
1. sor: | 1. sor: | ||
{{vissza|Médiatartalom-kezelő rendszerek}} | |||
==Alapfogalmak== | ==Alapfogalmak== | ||
* adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5) | * adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5) | ||
92. sor: | 94. sor: | ||
==Információ keresés és feltárás== | ==Információ keresés és feltárás== | ||
* információ visszakeresés ( | * információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon | ||
===Információ keresés típusai=== | ===Információ keresés típusai=== | ||
106. sor: | 108. sor: | ||
* relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt | * relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt | ||
* fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer | * fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer | ||
** R = TP/TP+FN | |||
* pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns | * pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns | ||
** P = TP/TP+FP | |||
* rangsorolás (ranking): a relevancia szerinti rendezés | * rangsorolás (ranking): a relevancia szerinti rendezés | ||
* term: egy kulcsszó a rendszerben | * term: egy kulcsszó a rendszerben | ||
115. sor: | 117. sor: | ||
===IR modellek=== | ===IR modellek=== | ||
* Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével) | |||
** Előnyök | ** Előnyök | ||
*** logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza) | *** logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza) | ||
** Hátrányok | ** Hátrányok | ||
*** a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni | *** a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni | ||
*** nem lehet a dokumentumok hasonlósága szerint rangsorolni az | *** nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris) | ||
*** nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni | *** nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni | ||
* Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat | |||
** célja: hogy tudjuk mérni a részleges illeszkedést is | ** célja: hogy tudjuk mérni a részleges illeszkedést is | ||
* Kiterjesztett Boolean-modell | * Kiterjesztett Boolean-modell | ||
145. sor: | 147. sor: | ||
-- Main.ssophie - 2012.01.04. | -- Main.ssophie - 2012.01.04. | ||
[[ | [[Kategória:Mérnök informatikus MSc]] |
A lap jelenlegi, 2014. április 27., 21:21-kori változata
Alapfogalmak
- adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5)
- információ: értelmezett adat; (pl. 5 cm)
- tudás: az ember által kontextusba helyezett információ (pl. Pisti haja 5 cm hosszú, és tudom ki Pisti)
- adatkezelés: a nyers adatok tárolása, lekérdezése, manipulálása
- információmenedzsment: az információk előállítása, rendszerezése, értékelése és visszakeresése
- tudásmenedzsement: a szervezeti tudástőke növelését célzó törekvések
Adatmodellek
- strukturált adatok: a tárolás struktúrája jól illeszkedik az információ struktúrájához (pl. adatbázis)
- félstrukturált adatok: nem jól illeszkedik (pl. táblázat a HTML oldalban)
- strukturálatlan adatok: nem strukturálható, az adat egésze hordozza az információt (pl. arcképet ábrázoló pixelek)
A félstrukturált adatok tulajdonságai
- szabálytalan adatstruktúra (új elemek, változó típusok)
- implicit struktúra (tag-ek a HTML-ben a formázást adják meg általában)
- részleges struktúra: vannak nem strukturálható részek (pl. képek egy HTML szöveges elemzésekor)
- csak a posteriori sémainformáció: adatbetöltés után lehet kinyerni a sémát
A félstrukturált séma tulajdonságai
- nagy
- változékony
- laza (opcionális és alternatív adatelemek)
- böngészhetőnek kell lennie
Jelölő nyelvek
SGML - Standard Generalized Markup Language
- Előnyök
- Tartalom és forma szétválasztása (szöveges adatbázis)
- Független (hardver, oprendszer, szoftver verzió)
- Sokféle médiumra dolgozhat (www, CD, papír, WAP)
- Hátrányok
- Bonyolult, nehezen integrálható
- Körülményes terjesztés
- Speciális szaktudást igényel
- Drága
- A megjelenítéshez külön modulok kellenek
Tudásmenedzsment
Tudásmenedzsment
- Egy olyan megközelítés, mely lehetővé teszi személyek, csoportok, szervezetek számára, hogy tudást rendszerezetten és kollektívan létrehozzanak, megosszanak és alkalmazzanak üzleti céljaik elérése érdekében.
Tudás fajtái
- Tacit tudás
- Az egyén személyes tudása
- Tapasztalat
- Know-how
- Nem megfogható
- Explicit tudás
- Formalizált
- Strukturált
- Kódolt
- Leírható
- Könnyen átadható
Tudásteremtés és konverzió
MIVÉ? | |||
Tacit tudás | Explicit tudás | ||
MIBŐL? | Hallgatólagos (tacit) tudás | Szocializáció | Externalizáció |
Kifejezett (explicit) tudás | Internalizáció | Kombináció |
Tudásmenedzsment megközelítések
- Kodifikációs - dokumentált tudás újrafelhasználása (rendszerező)
- Perszonalizációs - munkatársak fejében levő tudás felhasználása (kapcsolati)
Tudástérkép
- dokumentumokra, emberekre és adatbázisokra si utalhatnak
- segítségükkel könnyebb eljutni tudásforrásokhoz
Tudástranszfer
- Tudásátvitel két lehetséges módja:
- Információ
- szavakba öntött információt ad át
- független az egyéntől
- statikus
- gyors
- nem kodifikálta
- könnyű a tömeges terjesztés
- Hagyományos
- szavakon túl képességeket ad át
- egyéntől függ
- dinamikus
- lassú
- nem kodifikált
- nehéz a tömeges terjesztés
- Információ
Információ keresés és feltárás
- információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon
Információ keresés típusai
- ad hoc visszakeresés: meglévő dokumentumokon
- filtering: értesítés újonnan érkező releváns dokumentumokról
- böngészés
- push-típusú keresés
- pull-típusú keresés
Információ keresés minősége
- IR célja: felhasználói igények minél teljesebb és pontosabb kielégítése
- relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
- fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
- R = TP/TP+FN
- pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
- P = TP/TP+FP
- rangsorolás (ranking): a relevancia szerinti rendezés
- term: egy kulcsszó a rendszerben
- normalizált term frekvencia (tf): egy term milyen relatív gyakorisággal fordul elő egy dokumentumban (a dokumentum leggyakoribb termjére nézve)
- inverz dokumentum frekvencia (idf): annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai között, Együtt: tf-idf
IR modellek
- Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
- Előnyök
- logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
- Hátrányok
- a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
- nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris)
- nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni
- Előnyök
- Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
- célja: hogy tudjuk mérni a részleges illeszkedést is
- Kiterjesztett Boolean-modell
- Valószínűségi modellek
- Klasszikus valószínűségi modell
- Következtetési háló modell (Inference Network)
- Valószínűségi háló modell (Belief Network)
Keresési algoritmusok
PageRank és HITS különbségek
PageRank | HITS |
A bejárható összes weblapból számítják kérdezés előtt) | Egy lekérdezett weblap-készleten számolják, minden kérdésre. |
Csak hitelességet számít. | Hitelességet és hub-értéket számít. |
Nem triviális kiszámolni. | Könnyű számolni, de valós idejű elvégzése nehéz. |
-- Main.ssophie - 2012.01.04.