Unknown user: Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}} TOC ==Üzleti életciklus== Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”

2012-10-21T20:34:53Z

Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}} __TOC__ ==Üzleti életciklus== Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”

Új lap

{{GlobalTemplate|Infoszak|InfoMenDWModszert}}

__TOC__

==Üzleti életciklus==

Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását, fázisokat definiálnak.

* [http://www.hadden-kelly.com/methodology.html Hadden-Kelly]: Preparing - Planning - Building - Operating
* HP Open Warehouse
* Oracle Warehouse Methodology
* [http://www.kimballgroup.com/ Ralph Kimball]
* [http://www.sas.com/ SAS]

==Data Warehouse readiness Litmus test==

Nagy adattárház gyakorlattal rendelkező szakértők állították össze, választ ad arra a kérdésre, hogy adott helyzetben, adott cégnek van-e szüksége DW használatára. {{InLineFileLink|Infoszak|InfoMenDWModszert|Lolopop.Readiness.Test.pdf|Lolopop.Readiness.Test.pdf}}

* Do You Have A Strong Business Management Sponsor?
* Is There A Compelling Business Motivation?
* Is There A Strong Information Systems (IT)/Business Partnership?
* What Is Your Current Analytic Culture?
* What Is The Feasibility For Undertaking A Data Warehouse Project?

A kérdéscsoprtok súlya: 60-15-5-5-15, 1-5-ös skála szerint kell osztályozni. A DW bevezetése célszerű, ha négynél nagyobb, három és négy között: nem rossz eredmény, de érdemes odafigyelni a 3-nál kisebb tételekre. Kettő és három közti érték esetén határeset, érdemes a céget fejleszteni olyan irányba, hogy jobb választ lehessen adni ezekre a kérdésekre. Kérdéses, hogy ez megéri-e. Kettőnél kisebb átlag elérése esetén egyáltalán nem ajánlott DW bevezetése a vizsgált környezetbe.

A teszt iránymutatásnak jó, a DW bevezethetőségét nem feltétlenül ez alapján érdemes eldönteni.

==Pénzügyi megfontolások==

A ROI '''(Return of Investment)''' határoz meg mindent. Költségek közt számolni kell a SW/HW vásárlásokkal, belső fejlesztésekkel, külső erőforrásokat veszünk igénybe, támogatással (support) és a növekedéssel (üzleti folyamatok optimalizálása, átalakítása). Ezek mennyiség és eloszlása igen jó becsülhető. Haszonként ezért cserébe bevételnövekedést (gyorsabb piacra jutás, forgalomnövekedés a jobb termék pozicionálás eredményeképp) és költségcsökkenést érhetünk el.

==A projekt résztvevői==

Heterogén csapat kialakítása a feladat:
* projektmanager
* főmérnök - architect (a technika összeálljon egy egésszé)
* üzleti analitikus (a folyamatokat átlássa)
* biztonság tervező (kritikus, üzleti titkok kezelése)
* adatgondnok (naprakész infó az adatok jelentéséről, elérhetőségéről... -> humán kiegészítésű metaadattár)
* (Adatgondnok == [http://en.wikipedia.org/wiki/Data_steward data steward]?)
* adatmodellező (adatmodellezés a szemantikus modellektől kezdve az adatbázis adatmodellig, normalizálási, integritási és hatékonysági elemek meghatározása)
* betöltés tervező (ismerik adatforrások logikai és fizikai felépítését, betöltés során felmerülő konvertálási, adattisztítási feladatok megoldása)
* front-end tervező (végfelhasználók kiszolgálása)
* adatminőség biztosító ("rubish in - rubish out")
* oktatók (belső fejlesztő gárda szakmai képzése, a felhasználók oktatása)
* stb.

==Követelmények összegyűjtése==

===alapelvek===

Indirekt kérdezzünk rá a dolgokra, segíteni kell a stratégiai kezdeményezések felismerését. Meg kell határozni sikerességi mutatókat. Azokat a legfontosabb üzleti folyamatokat kell kiválasztani, melyeknek javítása jelentős kihatással jár (például a legtöbb pénzt mozgató folyamatok).

===interjúk lebonyolítása===

Az interjúkészítőnek beszélgető partnernek kell lenni: legyen tapaszalt és a tárgyterülettel kellően tisztában. Ugyanakkor az üzlethez kell érteni, nem a technológiához. Ismerje hogy milyen módszerrel állhat neki, milyen kérdéseket érdemes feltennie, milyen sorrendben. Az ötletelésnek nincs helye (drága a partner ideje...). Kiket kérdezzünk meg? A legfelsőbb vezetőket (stratégiai kérdésekben), üzleti kulcsszereplőket (a folyamatokról), a középvezetőket (ők a földön járnak...), az IT részleget (a környezet előkészítettsége rajtuk áll), illetve végül, akiket muszáj megkérdezni politikai okokból (megéri, különben kerékkötője lesz a projektnek).

===szokásos kérdések egy interjún===

* az adott vezető szervezetének mi a helye a cégben, a vezetőnek mi a felelőssége?
* az adott vezető szervezetének mi az üzleti célja?
* hogyan és milyen gyakran szokták mérni az eredményességet személyre, szervezetre vonatkozóan?
* milyen problémáik vannak?
* a tapasztalataik szerint mi akadályozza legfőképpen a céljaik elérésében?
* milyen rutinszerű analíziseket használnak ténylegesen?
* szoktak-e kérni ad-hoc elemzéseket?
* milyen akadályai vannak, hogy a megfelelő információkhoz hozzájussanak?
* milyen régi infókhoz szoktak hozzányúlni, minek van értelme, mennyire karakterisztikus a jövőre?
* milyen üzleti lehetőségekhez fogna, ha megfelelő infók állnának a rendelkezésre?

===Sikerkritériumok meghatározása===

Az adattárház folyamatosan fejlesztendő rendszer ("egy adattárház addig él, amíg változtatnak rajta"), ugyanis a környezet is folyamatosan változik. A folyamatos változás miatt a kezdeti elképzelés változhat. Bizonyos analízistípusokat le tud-e szállítani, célszerű ellenőrizni, hogy adott idő alatt lefut-e az analízis? Mennyi megfelelően transzformált adat áll a rendelkezésre? Ténylegesen hányan használják a rendszert?

* teljesítési, megvalósítási mérték: x db különböző lekérdezést lehet beadni a rendszernek
* használati mérték: x ember használja
* szolgálati szint, rendelkezésre állás: napi x órában elérhető
* adatminőség: x% adathiba bizonyos adatmennyiségen

===konszolidálás, priorizálás, konszenzus kialakítása===

Az igényeket érdemes csoportosítani és prioritásokat felállítani. Mit, mi mentén akarunk elemezni. A prioritás meghatározásának szempontjai
* érintett pénzvolumen
* milyen adatok, milyen rendszerekből szükségesek (a rendszerek legyenek jól dokumentáltak illetve a dokumentáció legyen konzisztens a valósággal).
* mennyire komplex, mekkora adatmennyiség

===DW architektúra===
nem feltétlenül formalizált

Feladatok:
* front-end manager (Mc Donald's-ban a pultos, eladó): kapcsolattartás a végfelhasználókkal
* back-end: a termékek előállítása, átmeneti tárolóba töltése

==Dimenziós modellezés==

===előnyök===

* lekérdezés könnyen optimalizálható
* a modell bővítése egyszerű, nem kell átstrukturálni az adatbázist, ha új adatot veszünk fel
* laikusok által is könnyen lekérdezhető
* a lekérdezést nem kell megváltoztatni, ha az adattárház bővül

===négylépéses dimenziós modellezés===

* 1. '''üzleti folyamat azonosítása'''
<br />Példák:
** szolgáltatás használata
** hitelek igénylése, felvétele
** bevéltelek alakulása
** kinnlévőségek
** rendelések
** személyzeti ügyek
** számlázás
** javítások és reklamációk
* 2. '''tényadat granularitásának megválasztása''' - milyen részletes adatok tárolását támogatjuk
** túl részletes (sok adat, nagy diszk-, CPU-igény)
** nem elég részletes (elemzéseket akadályozhat meg)
** le kell írni a tényrekord pontos jelentését
* 3. '''dimenziók azonosítása''' - mi alapján akarunk rendezni, lekérdezni, csoportosítani a tényadatokat?
** sok és részletes dimenzió => változatosabb analízisek, sok erőforrásigény
** az igényeket szembesíteni kell az üzleti lehetőségekkel
* 4. '''tények azonosítása''' - általában numerikusak és folytonos értékkészletűek pl.: eladott áru darabszáma, eladási ár forintban, átlagos kisker ár

===dimenziós tervezési elvek===

Ismerjük meg és értsük pontosan a kezelt adatokat.

====ténytáblák====

A '''ténytáblában''' legyenek rövid rekordok (lehető legkisebb granularitás), kódokkal teli, rendelkezzen azonosítókkal.
* ''additív'' tényadatok: általában összegezhető adatokat kell választani
* ''nem additív'' tényadatok: egyáltalán nem összegezhetőek, egyetlen dimenzió mentén sem
* ''szemi-additív'' tényadatok: minden dimenzió szerint összegezhető, kivéve az időt. (általánosabban: egyes dimenziók szerint összegezhető, mások szerint nem).

'''Ténynélküli ténytáblák'''
Előfordulhat, hogy a ténytáblának csak egy tény-oszlopa lenne, amiben csak egy 1-es van, pl. egy sor a ténytáblában azt jelenti, hogy a diák látogatott egy órát, de ehhez nem tartozik mennyiség, hiszen csak egyszer lehet egy órát meglátogatni, a külső kulcs mutatja, h melyik órát. Ilyenkor felesleges felvenni ezt a tény-oszlopot.<br>
Ezek valójában klasszikus több-több kapcsolatok, pl.:
* óralátogatási szokás ( ==időpont, tárgy, terem, diák, tanár== ) vagy
* egy termék-kampány lefedettségi táblái ( ==eladás, termék, bolt, idő, kampányjellemzők== )<br>
Ez utóbbi viszont nem ad választ arra, hogy mit nem adtak el abból, amiről a kampány szólt. Hogy ezt az információt kinyerhessük, szükségünk van egy másik ténytáblára, melynek rekordjai a kampányban való részvételt jelentik.

Az esemény-tények egyetlen időponthoz köthetőek, az állapot tény viszont két időponthoz (kezdet+vég). Itt azonban új tényrekord beszúrása egy másik lezárásával jár, ez egyrészt alacsonyabb hatékonyságú másrészt valószínűsíthető az információveszteség. Ugyanakkor egymásba átalakíthatók.

Pl. tárolhatjuk egy szerződésről
* a megkötésének és felbontásának idejét külön sorokban (esemény): betöltésre optimalizált, lassabb lekérdezni
* a szerződés fennállását egy sorban (állapot): lekérdezésre optimalizált, lassabb betölteni

====dimenziós táblák====

A '''dimenziós táblákban''' foglalnak helyet a leíró attribútumok (a rekordok hossza kevésbé kritikus, akár igen sok mezője is lehet). Ha lehet, konform dimenziókat használjunk, azaz több ténytáblához alkalmazzuk ugyanazt a dimenziós táblát, ha ezt a típusok lehetővé teszik. (Pl több tánytáblához egy idő dimenziós táblát.)
A felesleges dimenziók teljesítményveszteséget eredményeznek. A dimenziós adatok nem feltétlenül nyerhetők ki valamely forrásrendszerből. Az ==idő, termék, hely és ügyfél== a leggyakoribb dimenziók.

Minden dimenzió rendelkezzen egy '''surrogate kulccsal''' , mely anonym, kiegészítő, jelentés nélküli, mesterséges. A '''surrogate kulcs''' használatával elég jó méretcsökkentést tudunk elérni a ténytáblákban. A forrásrendszeri kulcs változásaitól függetlenek lesz a rendszerünk, sőt az entitások időbeli változásait is le tudjuk így írni. Hátránya ugyanakkor, hogy a tény és dimenziós rekordok újrakulcsolával jelentős betöltési overheadet kapunk.

* '''Role-playing dimenziók''' többféle jelentést is hordozhatnak a tényadathoz kapcsolódóan, például egyetlen fizikai idődimenzió több kulccsal kapcsolódhat a tényrekordhoz (Számlázás ideje, fizetés ideje, szállítás ideje)
* '''Degenerált dimenziók''' olyan leíró (rövid dimenziós jellegű) adatok, melyeket a ténytáblában helyezünk el különösebben kapcsolódó dimenzió nélkül. Például egy dokumentumunk egyedi sorszáma, számlaszám. Velük a forrásrendszerben könnyen lehet azonosítani valamit, így egyedi megfontolásból kerülnek be.
* '''Junk dimenziók''' - egyes elemek nem mindig szervezhetők dimenziókba, egy vagy néhány jelentés nélküli dimenziót alkotó elemeket nevezzük így, melyeket a ténytáblában nem célszerű elhelyezni: flag-ek, szöveges leírók.
* '''idővel változó dimenziók''' SCD (slowly changeing dimensions) kezelésére három módszert használhatunk:
** ''felülírás'' : egyszerűen megvalósítható, de adatvesztéssel jár.
** ''old mező létrehozása'' : szintén gyorsan implementálható, de korlátozott history.
** ''új dimenziós rekord beillesztése'' : teljes history építhető fel vele, nehézkesebb keresési műveletek.

==Összegzések tervezése==
Összegzésnek nevezzük azokat az előre kiszámított speciális lekérdezéseket, melyekben a ténytábla tényadatait összegezzük bizonyos feltételek mentén. Azaz a dimenziókban lévő hierarchiákat összenyomjuk és a tényadatokat ennek megfelelően összegezzük. Ezáltal elérhetjük a meglévő teljesítményi korlátok betartását. Egyszerre akár 1000 összegzés is létezhet. Ehhez azonban mind a fizikai adatszervezést, mind az összegzéseket terveznünk kell, illetve a lekérdezést a végletekig optimalizálnunk.

Az összegzéseket új ténytáblákban ildomos tárolni, ehhez azonban új dimenziós táblák is kellenek (+ a hozzájuk tartozó surrogate kulcsok). Az új ténytáblák és dimenziós táblák (granularitás csökkentésével) szerkezetének kialakításakor a már meglévőkből is képezhetjük. Pédldául ==termékek== helyett ==márkákra== aggregálunk. Ezáltal egy új ==márka== kulcs jön létre.

Az összegzések méretezésekor célszerű legalább 10:1 arányú rekordszámcsökkenést eszközölni. Ennek mérőszámai a dimenzió '''kompressziója''' és az '''együttes előfordulási gyakoriság''' (density). Az előző példánál maradva
* ha egy márkához átlagosan 50 termék tartozik, akkor a márkán definiált összegzés 50x kompresszióval bír
* ==termék, bolt, nap== előfordulási gyakoriság: egy adott boltban, azon a meghatározott napon a termékek 10%át adták el átlagosan
* ==márka, bolt, nap== előfordulási gyakoriság: egy adott boltban, azon a meghatározott napon a márkák 50%át adták el átlagosan

Az összegzések közti navigációt egy külön rétegnek kell kiszolgálnia, mely meghatározza, hogy melyik a legalkalmasabb összegzés a felhasználói lekérdezés kiszolgálására, ezáltal növelve a rendszer teljesítőképességét és kényelmes használhatóságát. Igyekezni kell kerülni a túl sok összegzés definiálását, hiszen nem mindegyik összegzés fogja jelentősen csökkenteni a lekérdezett sorok számát. Ennek kiszámítása futás-idejű feladat.

-- [[AdamO|adamo]] - 2007.11.26.

-- [[MatyasZsoltLevente|habib]] - 2008.01.08. - javítgatta, (belekavart :))

[[Category:Infoszak]]

Adattárház módszertanok - Laptörténet

Unknown user: Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}} __TOC__ ==Üzleti életciklus== Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”

Unknown user: Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}} TOC ==Üzleti életciklus== Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”