<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="hu">
	<id>https://vik.wiki/index.php?action=history&amp;feed=atom&amp;title=Adatt%C3%A1rh%C3%A1z_m%C3%B3dszertanok</id>
	<title>Adattárház módszertanok - Laptörténet</title>
	<link rel="self" type="application/atom+xml" href="https://vik.wiki/index.php?action=history&amp;feed=atom&amp;title=Adatt%C3%A1rh%C3%A1z_m%C3%B3dszertanok"/>
	<link rel="alternate" type="text/html" href="https://vik.wiki/index.php?title=Adatt%C3%A1rh%C3%A1z_m%C3%B3dszertanok&amp;action=history"/>
	<updated>2026-05-16T18:01:12Z</updated>
	<subtitle>Az oldal laptörténete a wikiben</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://vik.wiki/index.php?title=Adatt%C3%A1rh%C3%A1z_m%C3%B3dszertanok&amp;diff=139184&amp;oldid=prev</id>
		<title>Unknown user: Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}}   __TOC__  ==Üzleti életciklus==  Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”</title>
		<link rel="alternate" type="text/html" href="https://vik.wiki/index.php?title=Adatt%C3%A1rh%C3%A1z_m%C3%B3dszertanok&amp;diff=139184&amp;oldid=prev"/>
		<updated>2012-10-21T20:34:53Z</updated>

		<summary type="html">&lt;p&gt;Új oldal, tartalma: „{{GlobalTemplate|Infoszak|InfoMenDWModszert}}   __TOC__  ==Üzleti életciklus==  Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását,…”&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Új lap&lt;/b&gt;&lt;/p&gt;&lt;div&gt;{{GlobalTemplate|Infoszak|InfoMenDWModszert}}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
__TOC__&lt;br /&gt;
&lt;br /&gt;
==Üzleti életciklus==&lt;br /&gt;
&lt;br /&gt;
Az egyes módszerek közös pontja, hogy iteratívan képzeli el a DW kialakítását, fázisokat definiálnak. &lt;br /&gt;
&lt;br /&gt;
* [http://www.hadden-kelly.com/methodology.html Hadden-Kelly]: Preparing - Planning - Building - Operating &lt;br /&gt;
* HP Open Warehouse&lt;br /&gt;
* Oracle Warehouse Methodology&lt;br /&gt;
* [http://www.kimballgroup.com/ Ralph Kimball]&lt;br /&gt;
* [http://www.sas.com/ SAS]&lt;br /&gt;
&lt;br /&gt;
==Data Warehouse readiness Litmus test==&lt;br /&gt;
&lt;br /&gt;
Nagy adattárház gyakorlattal rendelkező szakértők állították össze, választ ad arra a kérdésre, hogy adott helyzetben, adott cégnek van-e szüksége DW használatára. {{InLineFileLink|Infoszak|InfoMenDWModszert|Lolopop.Readiness.Test.pdf|Lolopop.Readiness.Test.pdf}}&lt;br /&gt;
&lt;br /&gt;
* Do You Have A Strong Business Management Sponsor?&lt;br /&gt;
* Is There A Compelling Business Motivation?&lt;br /&gt;
* Is There A Strong Information Systems (IT)/Business Partnership?&lt;br /&gt;
* What Is Your Current Analytic Culture?&lt;br /&gt;
* What Is The Feasibility For Undertaking A Data Warehouse Project?&lt;br /&gt;
&lt;br /&gt;
A kérdéscsoprtok súlya: 60-15-5-5-15, 1-5-ös skála szerint kell osztályozni. A DW bevezetése célszerű, ha négynél nagyobb, három és négy között: nem rossz eredmény, de érdemes odafigyelni a 3-nál kisebb tételekre. Kettő és három közti érték esetén határeset, érdemes a céget fejleszteni olyan irányba, hogy jobb választ lehessen adni ezekre a kérdésekre. Kérdéses, hogy ez megéri-e. Kettőnél kisebb átlag elérése esetén egyáltalán nem ajánlott DW bevezetése a vizsgált környezetbe.&lt;br /&gt;
&lt;br /&gt;
A teszt iránymutatásnak jó, a DW bevezethetőségét nem feltétlenül ez alapján érdemes eldönteni.&lt;br /&gt;
&lt;br /&gt;
==Pénzügyi megfontolások==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
A ROI &amp;#039;&amp;#039;&amp;#039;(Return of Investment)&amp;#039;&amp;#039;&amp;#039; határoz meg mindent. Költségek közt számolni kell a SW/HW vásárlásokkal, belső fejlesztésekkel, külső erőforrásokat veszünk igénybe, támogatással (support) és a növekedéssel (üzleti folyamatok optimalizálása, átalakítása). Ezek mennyiség és eloszlása igen jó becsülhető. Haszonként ezért cserébe bevételnövekedést (gyorsabb piacra jutás, forgalomnövekedés a jobb termék pozicionálás eredményeképp) és költségcsökkenést érhetünk el.  &lt;br /&gt;
&lt;br /&gt;
==A projekt résztvevői==&lt;br /&gt;
&lt;br /&gt;
Heterogén csapat kialakítása a feladat:&lt;br /&gt;
* projektmanager&lt;br /&gt;
* főmérnök - architect (a technika összeálljon egy egésszé)&lt;br /&gt;
* üzleti analitikus (a folyamatokat átlássa)&lt;br /&gt;
* biztonság tervező (kritikus, üzleti titkok kezelése)&lt;br /&gt;
* adatgondnok (naprakész infó az adatok jelentéséről, elérhetőségéről... -&amp;gt; humán kiegészítésű metaadattár)&lt;br /&gt;
* (Adatgondnok == [http://en.wikipedia.org/wiki/Data_steward data steward]?)&lt;br /&gt;
* adatmodellező (adatmodellezés a szemantikus modellektől kezdve az adatbázis adatmodellig, normalizálási, integritási és hatékonysági elemek meghatározása)&lt;br /&gt;
* betöltés tervező (ismerik adatforrások logikai és fizikai felépítését, betöltés során felmerülő konvertálási, adattisztítási feladatok megoldása)&lt;br /&gt;
* front-end tervező (végfelhasználók kiszolgálása)&lt;br /&gt;
* adatminőség biztosító  (&amp;quot;rubish in - rubish out&amp;quot;)&lt;br /&gt;
* oktatók (belső fejlesztő gárda szakmai képzése, a felhasználók oktatása)&lt;br /&gt;
* stb.&lt;br /&gt;
&lt;br /&gt;
==Követelmények összegyűjtése==&lt;br /&gt;
&lt;br /&gt;
===alapelvek===&lt;br /&gt;
&lt;br /&gt;
Indirekt kérdezzünk rá a dolgokra, segíteni kell a stratégiai kezdeményezések felismerését. Meg kell határozni sikerességi mutatókat. Azokat a legfontosabb üzleti folyamatokat kell kiválasztani, melyeknek javítása jelentős kihatással jár (például a legtöbb pénzt mozgató folyamatok).&lt;br /&gt;
&lt;br /&gt;
===interjúk lebonyolítása===&lt;br /&gt;
&lt;br /&gt;
Az interjúkészítőnek beszélgető partnernek kell lenni: legyen tapaszalt és a tárgyterülettel kellően tisztában. Ugyanakkor az üzlethez kell érteni, nem a technológiához. Ismerje hogy milyen módszerrel állhat neki, milyen kérdéseket érdemes feltennie, milyen sorrendben. Az ötletelésnek nincs helye (drága a partner ideje...). Kiket kérdezzünk meg? A legfelsőbb vezetőket (stratégiai kérdésekben), üzleti kulcsszereplőket (a folyamatokról), a középvezetőket (ők a földön járnak...), az IT részleget (a környezet előkészítettsége rajtuk áll), illetve végül, akiket muszáj megkérdezni politikai okokból (megéri, különben kerékkötője lesz a projektnek).&lt;br /&gt;
&lt;br /&gt;
===szokásos kérdések egy interjún===&lt;br /&gt;
&lt;br /&gt;
* az adott vezető szervezetének mi a helye a cégben, a vezetőnek mi a felelőssége?&lt;br /&gt;
* az adott vezető szervezetének mi az üzleti célja?&lt;br /&gt;
* hogyan és milyen gyakran szokták mérni az eredményességet személyre, szervezetre vonatkozóan?&lt;br /&gt;
* milyen problémáik vannak?&lt;br /&gt;
* a tapasztalataik szerint mi akadályozza legfőképpen a céljaik elérésében?&lt;br /&gt;
* milyen rutinszerű analíziseket használnak ténylegesen?&lt;br /&gt;
* szoktak-e kérni ad-hoc elemzéseket?&lt;br /&gt;
* milyen akadályai vannak, hogy a megfelelő információkhoz hozzájussanak?&lt;br /&gt;
* milyen régi infókhoz szoktak hozzányúlni, minek van értelme, mennyire karakterisztikus a jövőre?&lt;br /&gt;
* milyen üzleti lehetőségekhez fogna, ha megfelelő infók állnának a rendelkezésre?&lt;br /&gt;
&lt;br /&gt;
===Sikerkritériumok meghatározása===&lt;br /&gt;
&lt;br /&gt;
Az adattárház folyamatosan fejlesztendő rendszer (&amp;quot;egy adattárház addig él, amíg változtatnak rajta&amp;quot;), ugyanis a környezet is folyamatosan változik. A folyamatos változás miatt a kezdeti elképzelés változhat. Bizonyos analízistípusokat le tud-e szállítani, célszerű ellenőrizni, hogy adott idő alatt lefut-e az analízis? Mennyi megfelelően transzformált adat áll a rendelkezésre? Ténylegesen hányan használják a rendszert?&lt;br /&gt;
&lt;br /&gt;
* teljesítési, megvalósítási mérték: x db különböző lekérdezést lehet beadni a rendszernek&lt;br /&gt;
* használati mérték: x ember használja&lt;br /&gt;
* szolgálati szint, rendelkezésre állás: napi x órában elérhető&lt;br /&gt;
* adatminőség: x% adathiba bizonyos adatmennyiségen&lt;br /&gt;
&lt;br /&gt;
===konszolidálás, priorizálás, konszenzus kialakítása===&lt;br /&gt;
&lt;br /&gt;
Az igényeket érdemes csoportosítani és prioritásokat felállítani. Mit, mi mentén akarunk elemezni. A prioritás meghatározásának szempontjai&lt;br /&gt;
* érintett pénzvolumen&lt;br /&gt;
* milyen adatok, milyen rendszerekből szükségesek (a rendszerek legyenek jól dokumentáltak illetve a dokumentáció legyen konzisztens a valósággal).&lt;br /&gt;
* mennyire komplex, mekkora adatmennyiség&lt;br /&gt;
&lt;br /&gt;
===DW architektúra===&lt;br /&gt;
nem feltétlenül formalizált&lt;br /&gt;
&lt;br /&gt;
Feladatok:&lt;br /&gt;
* front-end manager (Mc Donald&amp;#039;s-ban a pultos, eladó): kapcsolattartás a végfelhasználókkal&lt;br /&gt;
* back-end: a termékek előállítása, átmeneti tárolóba töltése&lt;br /&gt;
&lt;br /&gt;
==Dimenziós modellezés==&lt;br /&gt;
&lt;br /&gt;
===előnyök===&lt;br /&gt;
&lt;br /&gt;
* lekérdezés könnyen optimalizálható&lt;br /&gt;
* a modell bővítése egyszerű, nem kell átstrukturálni az adatbázist, ha új adatot veszünk fel&lt;br /&gt;
* laikusok által is könnyen lekérdezhető&lt;br /&gt;
* a lekérdezést nem kell megváltoztatni, ha az adattárház bővül&lt;br /&gt;
&lt;br /&gt;
===négylépéses dimenziós modellezés===&lt;br /&gt;
&lt;br /&gt;
* 1. &amp;#039;&amp;#039;&amp;#039;üzleti folyamat azonosítása&amp;#039;&amp;#039;&amp;#039;&lt;br /&gt;
		&amp;lt;br /&amp;gt;Példák: &lt;br /&gt;
** szolgáltatás használata&lt;br /&gt;
** hitelek igénylése, felvétele&lt;br /&gt;
** bevéltelek alakulása&lt;br /&gt;
** kinnlévőségek&lt;br /&gt;
** rendelések&lt;br /&gt;
** személyzeti ügyek&lt;br /&gt;
** számlázás&lt;br /&gt;
** javítások és reklamációk&lt;br /&gt;
* 2. &amp;#039;&amp;#039;&amp;#039;tényadat granularitásának megválasztása&amp;#039;&amp;#039;&amp;#039; - milyen részletes adatok tárolását támogatjuk&lt;br /&gt;
** túl részletes  (sok adat, nagy diszk-, CPU-igény)&lt;br /&gt;
** nem elég részletes (elemzéseket akadályozhat meg)&lt;br /&gt;
** le kell írni a tényrekord pontos jelentését&lt;br /&gt;
* 3. &amp;#039;&amp;#039;&amp;#039;dimenziók azonosítása&amp;#039;&amp;#039;&amp;#039; - mi alapján akarunk rendezni, lekérdezni, csoportosítani a tényadatokat?&lt;br /&gt;
** sok és részletes dimenzió =&amp;gt; változatosabb analízisek, sok erőforrásigény&lt;br /&gt;
** az igényeket szembesíteni kell az üzleti lehetőségekkel&lt;br /&gt;
* 4. &amp;#039;&amp;#039;&amp;#039;tények azonosítása&amp;#039;&amp;#039;&amp;#039; - általában numerikusak és folytonos értékkészletűek pl.: eladott áru darabszáma, eladási ár forintban, átlagos kisker ár&lt;br /&gt;
&lt;br /&gt;
===dimenziós tervezési elvek===&lt;br /&gt;
&lt;br /&gt;
Ismerjük meg és értsük pontosan a kezelt adatokat.&lt;br /&gt;
&lt;br /&gt;
====ténytáblák====&lt;br /&gt;
&lt;br /&gt;
A &amp;#039;&amp;#039;&amp;#039;ténytáblában&amp;#039;&amp;#039;&amp;#039; legyenek rövid rekordok (lehető legkisebb granularitás), kódokkal teli, rendelkezzen azonosítókkal. &lt;br /&gt;
* &amp;#039;&amp;#039;additív&amp;#039;&amp;#039; tényadatok: általában összegezhető adatokat kell választani&lt;br /&gt;
* &amp;#039;&amp;#039;nem additív&amp;#039;&amp;#039; tényadatok: egyáltalán nem összegezhetőek, egyetlen dimenzió mentén sem&lt;br /&gt;
* &amp;#039;&amp;#039;szemi-additív&amp;#039;&amp;#039; tényadatok:  minden dimenzió szerint összegezhető, kivéve az időt. (általánosabban: egyes dimenziók szerint összegezhető, mások szerint nem).&lt;br /&gt;
&lt;br /&gt;
&amp;#039;&amp;#039;&amp;#039;Ténynélküli ténytáblák&amp;#039;&amp;#039;&amp;#039; &lt;br /&gt;
Előfordulhat, hogy a ténytáblának csak egy tény-oszlopa lenne, amiben csak egy 1-es van, pl. egy sor a ténytáblában azt jelenti, hogy a diák látogatott egy órát, de ehhez nem tartozik mennyiség, hiszen csak egyszer lehet egy órát meglátogatni, a külső kulcs mutatja, h melyik órát. Ilyenkor felesleges felvenni ezt a tény-oszlopot.&amp;lt;br&amp;gt;&lt;br /&gt;
Ezek valójában klasszikus több-több kapcsolatok, pl.: &lt;br /&gt;
* óralátogatási szokás ( ==időpont, tárgy, terem, diák, tanár== ) vagy &lt;br /&gt;
* egy termék-kampány lefedettségi táblái ( ==eladás, termék, bolt, idő, kampányjellemzők== )&amp;lt;br&amp;gt;&lt;br /&gt;
Ez utóbbi viszont nem ad választ arra, hogy mit nem adtak el abból, amiről a kampány szólt. Hogy ezt az információt kinyerhessük, szükségünk van egy másik ténytáblára, melynek rekordjai a kampányban való részvételt jelentik.&lt;br /&gt;
&lt;br /&gt;
Az esemény-tények egyetlen időponthoz köthetőek, az állapot tény viszont két időponthoz (kezdet+vég). Itt azonban új tényrekord beszúrása egy másik lezárásával jár, ez egyrészt alacsonyabb hatékonyságú másrészt valószínűsíthető az információveszteség. Ugyanakkor egymásba átalakíthatók. &lt;br /&gt;
&lt;br /&gt;
Pl. tárolhatjuk egy szerződésről&lt;br /&gt;
* a megkötésének és felbontásának idejét külön sorokban (esemény): betöltésre optimalizált, lassabb lekérdezni&lt;br /&gt;
* a szerződés fennállását egy sorban (állapot): lekérdezésre optimalizált, lassabb betölteni&lt;br /&gt;
&lt;br /&gt;
====dimenziós táblák====&lt;br /&gt;
&lt;br /&gt;
A &amp;#039;&amp;#039;&amp;#039;dimenziós táblákban&amp;#039;&amp;#039;&amp;#039; foglalnak helyet a leíró attribútumok (a rekordok hossza kevésbé kritikus, akár igen sok mezője is lehet). Ha lehet, konform dimenziókat használjunk, azaz több ténytáblához alkalmazzuk ugyanazt a dimenziós táblát, ha ezt a típusok lehetővé teszik. (Pl több tánytáblához egy idő dimenziós táblát.)  &lt;br /&gt;
A felesleges dimenziók teljesítményveszteséget eredményeznek. A dimenziós adatok nem feltétlenül nyerhetők ki valamely forrásrendszerből. Az ==idő, termék, hely és ügyfél== a leggyakoribb dimenziók.&lt;br /&gt;
&lt;br /&gt;
Minden dimenzió rendelkezzen egy &amp;#039;&amp;#039;&amp;#039;surrogate kulccsal&amp;#039;&amp;#039;&amp;#039; , mely anonym, kiegészítő, jelentés nélküli, mesterséges. A &amp;#039;&amp;#039;&amp;#039;surrogate kulcs&amp;#039;&amp;#039;&amp;#039; használatával elég jó méretcsökkentést tudunk elérni a ténytáblákban. A forrásrendszeri kulcs változásaitól függetlenek lesz  a rendszerünk, sőt az entitások időbeli változásait is le tudjuk így írni. Hátránya ugyanakkor, hogy a tény és dimenziós rekordok újrakulcsolával jelentős betöltési overheadet kapunk.&lt;br /&gt;
&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Role-playing dimenziók&amp;#039;&amp;#039;&amp;#039; többféle jelentést is hordozhatnak a tényadathoz kapcsolódóan, például egyetlen fizikai idődimenzió több kulccsal kapcsolódhat a tényrekordhoz (Számlázás ideje, fizetés ideje, szállítás ideje)&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Degenerált dimenziók&amp;#039;&amp;#039;&amp;#039; olyan leíró (rövid dimenziós jellegű) adatok, melyeket a ténytáblában helyezünk el különösebben kapcsolódó dimenzió nélkül. Például egy dokumentumunk egyedi sorszáma, számlaszám. Velük a forrásrendszerben könnyen lehet azonosítani valamit, így egyedi megfontolásból kerülnek be.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;Junk dimenziók&amp;#039;&amp;#039;&amp;#039; - egyes elemek nem mindig szervezhetők dimenziókba, egy vagy néhány jelentés nélküli dimenziót alkotó elemeket nevezzük így, melyeket a ténytáblában nem célszerű elhelyezni: flag-ek, szöveges leírók.&lt;br /&gt;
* &amp;#039;&amp;#039;&amp;#039;idővel változó dimenziók&amp;#039;&amp;#039;&amp;#039;  SCD (slowly changeing dimensions) kezelésére három módszert használhatunk:&lt;br /&gt;
** &amp;#039;&amp;#039;felülírás&amp;#039;&amp;#039; : egyszerűen megvalósítható, de adatvesztéssel jár.&lt;br /&gt;
** &amp;#039;&amp;#039;old mező létrehozása&amp;#039;&amp;#039; : szintén gyorsan implementálható, de korlátozott history. &lt;br /&gt;
** &amp;#039;&amp;#039;új dimenziós rekord beillesztése&amp;#039;&amp;#039; : teljes history építhető fel vele, nehézkesebb keresési műveletek.&lt;br /&gt;
&lt;br /&gt;
==Összegzések tervezése==&lt;br /&gt;
Összegzésnek nevezzük azokat az előre kiszámított speciális lekérdezéseket, melyekben a ténytábla tényadatait összegezzük bizonyos feltételek mentén. Azaz a dimenziókban lévő hierarchiákat összenyomjuk és a tényadatokat ennek megfelelően összegezzük. Ezáltal elérhetjük a meglévő teljesítményi korlátok betartását. Egyszerre akár 1000 összegzés is létezhet. Ehhez azonban mind a fizikai adatszervezést, mind az összegzéseket terveznünk kell, illetve a lekérdezést a végletekig optimalizálnunk.&lt;br /&gt;
&lt;br /&gt;
Az összegzéseket új ténytáblákban ildomos tárolni, ehhez azonban új dimenziós táblák is kellenek (+ a hozzájuk tartozó surrogate kulcsok). Az új ténytáblák és dimenziós táblák (granularitás csökkentésével) szerkezetének kialakításakor a már meglévőkből is képezhetjük. Pédldául ==termékek== helyett ==márkákra== aggregálunk. Ezáltal egy új ==márka== kulcs jön létre.&lt;br /&gt;
&lt;br /&gt;
Az összegzések méretezésekor célszerű legalább 10:1 arányú rekordszámcsökkenést eszközölni. Ennek mérőszámai a dimenzió &amp;#039;&amp;#039;&amp;#039;kompressziója&amp;#039;&amp;#039;&amp;#039; és az &amp;#039;&amp;#039;&amp;#039;együttes előfordulási gyakoriság&amp;#039;&amp;#039;&amp;#039; (density). Az előző példánál maradva&lt;br /&gt;
* ha egy márkához átlagosan 50 termék tartozik, akkor a márkán definiált összegzés 50x kompresszióval bír&lt;br /&gt;
* ==termék, bolt, nap==  előfordulási gyakoriság: egy adott boltban, azon a  meghatározott napon a termékek 10%át adták el átlagosan&lt;br /&gt;
* ==márka, bolt, nap==  előfordulási gyakoriság: egy adott boltban, azon a  meghatározott napon a márkák 50%át adták el átlagosan&lt;br /&gt;
&lt;br /&gt;
Az összegzések közti navigációt egy külön rétegnek kell kiszolgálnia, mely meghatározza, hogy melyik a legalkalmasabb összegzés a felhasználói lekérdezés kiszolgálására, ezáltal növelve a rendszer teljesítőképességét és kényelmes használhatóságát. Igyekezni kell kerülni a túl sok összegzés definiálását, hiszen nem mindegyik összegzés fogja jelentősen csökkenteni a lekérdezett sorok számát. Ennek kiszámítása futás-idejű feladat.&lt;br /&gt;
&lt;br /&gt;
-- [[AdamO|adamo]] - 2007.11.26.&lt;br /&gt;
&lt;br /&gt;
-- [[MatyasZsoltLevente|habib]] - 2008.01.08. - javítgatta, (belekavart :))&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
[[Category:Infoszak]]&lt;/div&gt;</summary>
		<author><name>Unknown user</name></author>
	</entry>
</feed>