Médiatartalom-kezelő rendszerek kidolgozás 2012
A VIK Wikiből
Alapfogalmak
- adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5)
- információ: értelmezett adat; (pl. 5 cm)
- tudás: az ember által kontextusba helyezett információ (pl. Pisti haja 5 cm hosszú, és tudom ki Pisti)
- adatkezelés: a nyers adatok tárolása, lekérdezése, manipulálása
- információmenedzsment: az információk előállítása, rendszerezése, értékelése és visszakeresése
- tudásmenedzsement: a szervezeti tudástőke növelését célzó törekvések
Adatmodellek
- strukturált adatok: a tárolás struktúrája jól illeszkedik az információ struktúrájához (pl. adatbázis)
- félstrukturált adatok: nem jól illeszkedik (pl. táblázat a HTML oldalban)
- strukturálatlan adatok: nem strukturálható, az adat egésze hordozza az információt (pl. arcképet ábrázoló pixelek)
A félstrukturált adatok tulajdonságai
- szabálytalan adatstruktúra (új elemek, változó típusok)
- implicit struktúra (tag-ek a HTML-ben a formázást adják meg általában)
- részleges struktúra: vannak nem strukturálható részek (pl. képek egy HTML szöveges elemzésekor)
- csak a posteriori sémainformáció: adatbetöltés után lehet kinyerni a sémát
A félstrukturált séma tulajdonságai
- nagy
- változékony
- laza (opcionális és alternatív adatelemek)
- böngészhetőnek kell lennie
Jelölő nyelvek
SGML - Standard Generalized Markup Language
- Előnyök
- Tartalom és forma szétválasztása (szöveges adatbázis)
- Független (hardver, oprendszer, szoftver verzió)
- Sokféle médiumra dolgozhat (www, CD, papír, WAP)
- Hátrányok
- Bonyolult, nehezen integrálható
- Körülményes terjesztés
- Speciális szaktudást igényel
- Drága
- A megjelenítéshez külön modulok kellenek
Tudásmenedzsment
Tudásmenedzsment
- Egy olyan megközelítés, mely lehetővé teszi személyek, csoportok, szervezetek számára, hogy tudást rendszerezetten és kollektívan létrehozzanak, megosszanak és alkalmazzanak üzleti céljaik elérése érdekében.
Tudás fajtái
- Tacit tudás
- Az egyén személyes tudása
- Tapasztalat
- Know-how
- Nem megfogható
- Explicit tudás
- Formalizált
- Strukturált
- Kódolt
- Leírható
- Könnyen átadható
Tudásteremtés és konverzió
MIVÉ? | |||
Tacit tudás | Explicit tudás | ||
MIBŐL? | Hallgatólagos (tacit) tudás | Szocializáció | Externalizáció |
Kifejezett (explicit) tudás | Internalizáció | Kombináció |
Tudásmenedzsment megközelítések
- Kodifikációs - dokumentált tudás újrafelhasználása (rendszerező)
- Perszonalizációs - munkatársak fejében levő tudás felhasználása (kapcsolati)
Tudástérkép
- dokumentumokra, emberekre és adatbázisokra si utalhatnak
- segítségükkel könnyebb eljutni tudásforrásokhoz
Tudástranszfer
- Tudásátvitel két lehetséges módja:
- Információ
- szavakba öntött információt ad át
- független az egyéntől
- statikus
- gyors
- nem kodifikálta
- könnyű a tömeges terjesztés
- Hagyományos
- szavakon túl képességeket ad át
- egyéntől függ
- dinamikus
- lassú
- nem kodifikált
- nehéz a tömeges terjesztés
- Információ
Információ keresés és feltárás
- információ visszakeresés (infromation retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon
Információ keresés típusai
- ad hoc visszakeresés: meglévő dokumentumokon
- filtering: értesítés újonnan érkező releváns dokumentumokról
- böngészés
- push-típusú keresés
- pull-típusú keresés
Információ keresés minősége
- IR célja: felhasználói igények minél teljesebb és pontosabb kielégítése
- relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
- fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
* R = TP/TP+FN
- pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
* P = TP/TP+FP
- rangsorolás (ranking): a relevancia szerinti rendezés
- term: egy kulcsszó a rendszerben
- normalizált term frekvencia (tf): egy term milyen relatív gyakorisággal fordul elő egy dokumentumban (a dokumentum leggyakoribb termjére nézve)
- inverz dokumentum frekvencia (idf): annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai között, Együtt: tf-idf
IR modellek
- *Boolean modell*: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
- Előnyök
- logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
- Hátrányok
- a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
- nem lehet a dokumentumok hasonlósága szerint rangsorolni az ereményhalmazt (a hasonlósági függvény bináris)
- nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni
- Előnyök
- *Vektor modell*: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
- célja: hogy tudjuk mérni a részleges illeszkedést is
- Kiterjesztett Boolean-modell
- Valószínűségi modellek
- Klasszikus valószínűségi modell
- Következtetési háló modell (Inference Network)
- Valószínűségi háló modell (Belief Network)
Keresési algoritmusok
PageRank és HITS különbségek
PageRank | HITS |
A bejárható összes weblapból számítják kérdezés előtt) | Egy lekérdezett weblap-készleten számolják, minden kérdésre. |
Csak hitelességet számít. | Hitelességet és hub-értéket számít. |
Nem triviális kiszámolni. | Könnyű számolni, de valós idejű elvégzése nehéz. |
-- Main.ssophie - 2012.01.04.