Médiatartalom-kezelő rendszerek kidolgozás 2012

A VIK Wikiből


Alapfogalmak

  • adat: a valóság nem értelmezett (de értelmezhető) tükörképe; nyers (feldolgozatlan) tény, ami valakinek vagy valaminek a jellemzéséhez hozzásegít (pl. 5)
  • információ: értelmezett adat; (pl. 5 cm)
  • tudás: az ember által kontextusba helyezett információ (pl. Pisti haja 5 cm hosszú, és tudom ki Pisti)
  • adatkezelés: a nyers adatok tárolása, lekérdezése, manipulálása
  • információmenedzsment: az információk előállítása, rendszerezése, értékelése és visszakeresése
  • tudásmenedzsement: a szervezeti tudástőke növelését célzó törekvések

Adatmodellek

  • strukturált adatok: a tárolás struktúrája jól illeszkedik az információ struktúrájához (pl. adatbázis)
  • félstrukturált adatok: nem jól illeszkedik (pl. táblázat a HTML oldalban)
  • strukturálatlan adatok: nem strukturálható, az adat egésze hordozza az információt (pl. arcképet ábrázoló pixelek)

A félstrukturált adatok tulajdonságai

  • szabálytalan adatstruktúra (új elemek, változó típusok)
  • implicit struktúra (tag-ek a HTML-ben a formázást adják meg általában)
  • részleges struktúra: vannak nem strukturálható részek (pl. képek egy HTML szöveges elemzésekor)
  • csak a posteriori sémainformáció: adatbetöltés után lehet kinyerni a sémát

A félstrukturált séma tulajdonságai

  • nagy
  • változékony
  • laza (opcionális és alternatív adatelemek)
  • böngészhetőnek kell lennie

Jelölő nyelvek

SGML - Standard Generalized Markup Language

  • Előnyök
    • Tartalom és forma szétválasztása (szöveges adatbázis)
    • Független (hardver, oprendszer, szoftver verzió)
    • Sokféle médiumra dolgozhat (www, CD, papír, WAP)
  • Hátrányok
    • Bonyolult, nehezen integrálható
    • Körülményes terjesztés
    • Speciális szaktudást igényel
    • Drága
    • A megjelenítéshez külön modulok kellenek

Tudásmenedzsment

Tudásmenedzsment

  • Egy olyan megközelítés, mely lehetővé teszi személyek, csoportok, szervezetek számára, hogy tudást rendszerezetten és kollektívan létrehozzanak, megosszanak és alkalmazzanak üzleti céljaik elérése érdekében.

Tudás fajtái

  • Tacit tudás
    • Az egyén személyes tudása
    • Tapasztalat
    • Know-how
    • Nem megfogható
  • Explicit tudás
    • Formalizált
    • Strukturált
    • Kódolt
    • Leírható
    • Könnyen átadható

Tudásteremtés és konverzió

MIVÉ?
Tacit tudás Explicit tudás
MIBŐL? Hallgatólagos (tacit) tudás Szocializáció Externalizáció
Kifejezett (explicit) tudás Internalizáció Kombináció

Tudásmenedzsment megközelítések

  • Kodifikációs - dokumentált tudás újrafelhasználása (rendszerező)
  • Perszonalizációs - munkatársak fejében levő tudás felhasználása (kapcsolati)

Tudástérkép

  • dokumentumokra, emberekre és adatbázisokra si utalhatnak
  • segítségükkel könnyebb eljutni tudásforrásokhoz

Tudástranszfer

  • Tudásátvitel két lehetséges módja:
    • Információ
      • szavakba öntött információt ad át
      • független az egyéntől
      • statikus
      • gyors
      • nem kodifikálta
      • könnyű a tömeges terjesztés
    • Hagyományos
      • szavakon túl képességeket ad át
      • egyéntől függ
      • dinamikus
      • lassú
      • nem kodifikált
      • nehéz a tömeges terjesztés

Információ keresés és feltárás

  • információ visszakeresés (information retrieval, IR): a felhasználó információs igényének minél pontosabb kielégítése; általában félstrukturált és strukturálatlan adatokon

Információ keresés típusai

  • ad hoc visszakeresés: meglévő dokumentumokon
  • filtering: értesítés újonnan érkező releváns dokumentumokról
  • böngészés
  • push-típusú keresés
  • pull-típusú keresés


Információ keresés minősége

  • IR célja: felhasználói igények minél teljesebb és pontosabb kielégítése
  • relevancia, releváns dokumentum: kielégíti az adott információ visszakeresési feladatban megfogalmazott információs igényt
  • fedés (recall - R): a releváns dokumentumok hány százalékát adja vissza a rendszer
    • R = TP/TP+FN
  • pontosság (precision P): a visszaadott dokumentumok hány százaléka releváns
    • P = TP/TP+FP
  • rangsorolás (ranking): a relevancia szerinti rendezés
  • term: egy kulcsszó a rendszerben
  • normalizált term frekvencia (tf): egy term milyen relatív gyakorisággal fordul elő egy dokumentumban (a dokumentum leggyakoribb termjére nézve)
  • inverz dokumentum frekvencia (idf): annak az inverze, hogy milyen gyakran szerepel egy term a rendszer dokumentumai között, Együtt: tf-idf

IR modellek

  • Boolean modell: megmondjuk, hogy melyik szavak legyenek benne a válaszként visszaadott dokumentumokban, és melyikek ne (diszjunktív normálforma (ÉS-ek VAGY-a) segítségével)
    • Előnyök
      • logikailag tiszta (felhasználó könnyen megértheti, hogy miért pont azt a válaszhalmazt kapta vissza)
    • Hátrányok
      • a tipikus felhasználónak nehézséget okoz kérdését Boolean-formulában megfogalmazni
      • nem lehet a dokumentumok hasonlósága szerint rangsorolni az eredményhalmazt (a hasonlósági függvény bináris)
      • nem lehet csak részlegesen illeszkedő dokumentumokat válaszként kapni
  • Vektor modell: a dokumentum term-vektora és a keresés termvektora által bezárt szög koszinusza alapján sorrendezzük a válaszokat
    • célja: hogy tudjuk mérni a részleges illeszkedést is
  • Kiterjesztett Boolean-modell
  • Valószínűségi modellek
    • Klasszikus valószínűségi modell
    • Következtetési háló modell (Inference Network)
    • Valószínűségi háló modell (Belief Network)

Keresési algoritmusok

PageRank és HITS különbségek

PageRank HITS
A bejárható összes weblapból számítják kérdezés előtt) Egy lekérdezett weblap-készleten számolják, minden kérdésre.
Csak hitelességet számít. Hitelességet és hub-értéket számít.
Nem triviális kiszámolni. Könnyű számolni, de valós idejű elvégzése nehéz.

-- Main.ssophie - 2012.01.04.