Információs tárházak feladatai, mediátor és integrálási feladatok

A VIK Wikiből
A lap korábbi változatát látod, amilyen Unknown user (vitalap) 2012. október 21., 21:37-kor történt szerkesztése után volt. (Új oldal, tartalma: „{{GlobalTemplate|Infoszak|IntegrIntRendszFejlInfoTarhazak}} ==információs tárházak== Építsünk rendszert, amellyel le tudjuk kérdezni az információt a forrá…”)
(eltér) ← Régebbi változat | Aktuális változat (eltér) | Újabb változat→ (eltér)

Ez az oldal a korábbi SCH wikiről lett áthozva.

Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor, kérlek, javíts rajta egy rövid szerkesztéssel!

Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót.


információs tárházak

Építsünk rendszert, amellyel le tudjuk kérdezni az információt a forrásokból: adatbázisokból, webről, mindenhonnan (heterogén források), és a felhasználó egységesen lássa az adatokat – egységes nézet kell az adatokhoz.

információ integrálás szükségessége

  • elosztott heterogén információk weben
  • nagy cég -> több információs rendszer (hogy ne 1től függjön a működés) -> össze kell hozni őket

integrálandó információ lehet:

  • strukturált (adatbázis)
    • itt könnyebb az integráció, de ez is okoz nehézségeket: többféle adatbázis van, ugyanaz a cimke mást jelenthet, specifikálni kell
  • félig strukturált (XML)
  • strukturálatlan (szöveges)

integráció formái / irányai:

  • virtuális integráció (csak „linkelés”) (adatbázisoknál: virtuális nézetek)
    • pl.: webáruház
    • előny: nem kell felesleges adatokat betölteni, kisebb adatforgalom -> olcsóbb, rugalmasabb, könnyebb módosítani (integrációs programot kell átírni)
  • valódi (materializált) integráció (adatbázisoknál: valódi nézetek)
    • pl. nagyvállalat
    • kell hozzá gép, karbantartás, sok adat (adattárházak)
    • sok adat begyűjtése esetén ez a gyorsabb
  • wrapper nem módosítja tartalmilag a lokális nézetet (ugyanaz az információ, de a struktúra más). De pl. szöveges infóból tartalomkinyerés kell


mediátor feladatok

  • lekérdezés fordítás folyamata:
    • mediátor kap a felhasználótól a felhasználói nézetből egy lekérdezést
    • nem mindegy, hogy melyik forrásokhoz nyúlok először, hogyan join-olok -> optimalizálás
  • lekérdezési terv (lépésenként, időbecsléssel)
  • források változásával ne kelljen felhasználói nézetet változtatni és kicsit kelljen csak a rendszert hangolni
  • nem triviális, hogy egy lekérdezésre minden lehetséges választ megkapjak (nehéz a lekérdezést úgy átalakítani, hogy a lokális nézetekből minden adatot visszahozzon, főleg ha a források nem jól ismertek). Vagy pl. lehet olyan a forrás, hogy nem DB, hanem csak 1 választ ad mindig..
  • minden elérhető forrásból az információk elérése, „értelmezése” a cél - ez a szemantikus web megközelítés a másik oldalról: vagyis hogyan dolgozzuk fel a szemantikus web által nyújtott adatokat? Fix téma, adott témakör -> mediátor dolga


alkalmazások:

  • www (pl. InfoMaster)
    • összehasonlításra képes vásárlóportálok -> depo.hu heterogén infókat nem képes dinamikusan kezelni, kiskerarak.hu -> csak megmutat
    • B2B, elektronikus piacterek
    • portálok több adatforrással
  • tudomány és kultúra
    • géninformációk
    • asztrofizikai adatok
    • kulturális adatbázisok egységes elérése
  • vállalati adatintegráció
    • bonyolult jelentések az 50 adatbázisból
    • modell alapú leírás kellene? Metaadat leírás xml-ben

Google kevés, mert dokumentumonként keres, nem integrál több dokumentumból adatokat

InfoMaster

  • integrátor: sok szabályt tartalmaz (dim. Átváltások) (hierarchiában következtetés)
  • Regal: szolgáltató, Payless: vásárló (majd tovább eladja)
  • a Payless a Regal áruit árulja tovább, pl árak $-ból £-ba konvertálva
    • pl. tudjuk, hogy a Regal csak aluminium és rozsdamentes acélból gyárt árukat
    • a Payless a Regal-tól 33 terméket ajánl
    • a Regal nem azt adja meg, hogy miből van... (terméken hiányzik az info)
      • csak alu -> 0
      • csak acél -> 0
      • alu vagy acél -> 33 termék : feljebbmegy a hierarchiában
    • meta-adatokat, kategória adatokat is tárol. Webes felületek a metaadatok megadására.
    • attribútumok, értékkészletek.

Try

  • ontológia szerű
  • szabályok: adott szintaktika, alap és meta-szint keverésére


-- Gegman - 2009.01.27.