Állomásoztató terület tervezése - az ETL egyes fontosabb kérdései
Ez az oldal a korábbi SCH wikiről lett áthozva.
Ha úgy érzed, hogy bármilyen formázási vagy tartalmi probléma van vele, akkor, kérlek, javíts rajta egy rövid szerkesztéssel!
Ha nem tudod, hogyan indulj el, olvasd el a migrálási útmutatót.
ETL: Data Warehouse acquisition processes of Extracting, Transforming (or Transporting) and Loading (ETL) data from source systems into the data warehouse.
Adatkinyerés (Data acquisition)
Célunk, hogy a forrásrendszert lehetőleg minimálisan terheljük, ugyanakkor adatot ne veszítsünk és ne sérüljün az átvétel közben. Lehetőség van teljes vagy inkrementális, kezdeti vagy rendszeres adatkinyerésre. A begyűtendő adat tárolási módszere fájl, adatbázis, hordozható táblatér lehet. Kérdés milyen metaadattal rendelkezünk, ezek vezérelhetők-e. A kinyerés gyakorisága és a tipikus forrás elemek fontolandók meg a tervezés során.
Az adatkinyerés a fejlesztési erőfeszítések 60%-át adja. A megfelelő adatelemek kiválasztaása a változások észlelése kiemelt feladat.
adatkinyerés módja | előnyök | hátrányok |
időközönként egyedi tábla másolat (Full snapshot) | egyszerű nincs forrásrendszer módosítás időzíthető terhelés |
erőforrásigényes információ vesztés késlelteés |
időközönként egyedi tábla változások | forrásrendszer terhelése időzíthető kisebb információ vesztés |
forrásrendszer módosítása nem mindig megvalósítható nagy késleltetés |
változások eseményvezérelt kinyerése táblánként | kitüntetett adatokra kis késleltetés csökken az információ vesztés valószínűsége |
viszonylag költséges folyamatos többletterhelés a forrásnak nem mindig megvalósítható forrásrendszert igazítani kell hozzá |
változások eseményvezérelt kinyerése a teljes tranzakciós kontextusra | nincs információ vesztés nincs késleltetés |
költséges bonyolult |
Az információvesztés oka: mire az egyik táblát kimentjük, és elkezdjük a másikat, addigra abban már esetleg módosítottak (?)
Az adatkinyerés fajtái
Gyakoriság alapján:
- kezdeti: az adattárház üzembehelyezésekor eszközölt első feltöltés, tarthat nagyon sokáig is
- rendszeres: normál működés során
Az érintett forrásadatok mennyisége alapján
- teljes: az egész forrás-adatbázis áttöltése
- inkrementális: csak a változások töltése
Állomásoztatás (Staging)
Ez a DW "boszorkánykonyhája", itt sok hozzáadott érték van.
backup vs. archiválás:
- backup: adatmentés visszaállítás céljából, ezt egy esetleges rendszerhiba után kell megtenni
- archive: öreg adatok félretétele
CSONK folytköv.
adatminőség javítása
Külön tudomány.
pl: címek javítása a Posta cím-adatbázisa segítségével.
CSONK folytköv.
job vezérlés
CSONK folytköv.
mentések
CSONK folytköv.
betöltési lépések
CSONK folytköv.
-- adamo - 2007.11.26.