Adatbányászati technológiák

A VIK Wikiből
A lap korábbi változatát látod, amilyen Szikszay László (vitalap | szerkesztései) 2014. szeptember 3., 20:01-kor történt szerkesztése után volt.

Adatbányászati technológiák - Jegyzet

A következő félévben (2008/2009. őszi félév) indul egy új tárgy, amelyet Gáspár-Papanek Csaba tart, akit az Adatbányászati alkalmazások tárgyról már ismerhetnek néhányan. Ezen új tárgy keretében adatbányászati és elemzési feladatokat ismerhettek meg testközelből, megtanulhatjátok hogyan használjátok a világ elemző szoftvereit valós üzleti problémák megoldására.

Bővebb információk:

Vélemények

Levente 2013/2014

Ajánlás

Mit kezd a Google azzal a halom adattal? Hogyan becsülhető meg a jövő a múltból? Hogyan működnek a webes ajánlórendszerek (pl. Amazon.com-on)?
Többek között ezekre a kérdésekre kapunk választ a kurzus során. Az anyag az alapoktól indul, és jól követhetően, fokozatosan mélyül el a félév során,
ezért azok számára is ajánlott a tárgy, akik először hallanak az adatbányászat fogalmáról. Aki a programozástól fél, annak sem kell aggódnia :)
Az oktatók fiatalok, lelkesek és segítőkészek. Bátran lehet tőlük kérdezni!
Teljesíthetőség:

Szoftverek

  • RapidMiner
  • SAS Enterprise Miner
  • SAS Enterprise Guide
  • SPSS Modeler (Clementine)

Követelmények

  • Katalógus: nincs, de erősen ajánlott bejárni
  • Szorgalmi időszak: 2 házi (különböző szoftverekkel)
  • Vizsgaidőszak: 1 nagyobb házi (tetszőleges szoftverrel)

A házi egy-egy adatelemzős és modellezős feladat, amelyet a gyakorlatokon való részvétel nagyban segít.
Az eredményekhez néhány oldalas jegyzőkönyvet kell készíteni, ezzel együtt a kisházik elkészítése kb. 3,
a nagyházi elkészítése kb. 5 laza nap. És mint mindig: ne hagyjátok az utolsó napokra! ;)

Címszavak: adatbányászat, big data, prediktív analitika, osztályozás, klaszterezés, regresszió, gépi tanulás, adatmodell

Zsuzsa 2008

Általában

A tárgy során 3-4 adatbányászati szoftverrel, és a nagyobb adatbányászati feladatokkal ismerkedhetsz meg. Ha bármikor is szeretnél statisztikával, adatbányászattal foglalkozni a munkád során, az itt megismert szoftverek közül legalább egyel biztosan fogsz találkozni. A tárgy nem ad a szoftverek működésébe mély betekintést, mivel ehhez kevés egy félév, de ha ezután szembekerülsz egy adatbányászati, statisztikai feladattal, el tudod majd dönteni, hogy melyiket érdemes használni. Nekem személy szerint is jól jött a munkahelyemen, hogy ismertem egy szabad felhasználású szoftvert is, mert ennek hatására a cég is ilyen irányban mozdult el egyes projektekben.

Számonkérések

Van minden szoftver ismertetése után egy házi, ami nem túl nehéz, a gyakorlatok alapján egyszerű megcsinálni. Ha megcsinálod a házikat, részt veszel egy létraversenyen is, ami a vizsgánál jelent könnyebbséget. A vizsga szintén egy gyakorlati feladat, amit már egy általad választott szoftverrel oldhatsz meg.

Összességében a tárgy nem nehéz, megmutatja az egyes szoftverek előnyeit, hátrányait, alkalmazhatóságukat.

-- Zsuzsa - 2009.09.03.

H.Balázs 2008/2009/ősz

A tárgy valódi adatbányászati problémák megoldásán keresztül mutatja be a legelterjedtebb adatbányászati szoftvereket. Ezek a 2008/2009 őszi félévben (sorrendben) az SPSS Clementine, a SAS Enterprise Miner, az Oracle Date Miner és a RapidMiner voltak. Az időbeli keretek miatt persze csak a szoftverek alapjait lehetett megismerni, de ez bőven elég az egyszerűbb feladatok megoldásához, illetve a későbbi egyéni továbbtanuláshoz.
A tárgy maga úgy épült fel, hogy minden héten volt egy előadás és (az első és utolsó hét kivételével) egy laboratóriumi gyakorlat. Az előadásokon nem volt kötelező a részvétel, de aki bejárt, többet megtudhatott az egyes szoftverek mögött meghúzódó elvekről, azok felépítéséről, néha érdekes anekdoták is előfordultak:) A laborokon kötelező volt a jelenlét (azaz a TVSZ szerinti 70%-ot kellett teljesíteni), itt az aktuális laborvezető utasításai alapján megismerhettük a szoftvereket.
A félév - mint azt már írtam - négy részre volt osztva a négy szoftver szerint és minden egyes ilyen blokkot egy kisHF zárt. Ezek megoldására néhány hetet kaptunk, de a legtöbb egy délután alatt igényesen megoldható volt. A megoldások automatikusan indultak egy létraversenyen, és a jó helyezések plusszokat jelentettek a vizsgán.
ZH nem volt, az előadásokon leadott anyagot semmilyen formában nem kérték számon (de sokat segít(het) a szoftverek mögötti logika megértésében).
NagyHF-ként 8 feladat közül lehetett kiválasztani a szimpatikusat, a megoldáshoz használt szoftver is bármelyik lehetett a négy közül (akár többet is fel lehetett használni). Ezek a feladatok kicsit nehezebbek voltak a kisfeladatoknál, de két délután alatt bőven megoldhatóak voltak. A "vizsga" (elővizsga volt az utolsó labor időpontjában) igazából a nagyHF megoldás ismertetése/megvédése volt (ha elmondtad, hogy mit miért csináltál, és nem követtél el szarvashibát a megoldás során, akkor egy 5-10 perces beszélgetés után megkaptad az ötöst). A végleges jegy a (kisHF-ek átlaga + nagyHF)/2 képlet szerint adódott.
Az oktatók rendesek és segítőkészek voltak, és a tárgy is könnyen teljesíthető. Ettől függetlenül én azt javaslom, hogy akkor vedd fel a tárgyat, ha már van valami fogalmad arról, hogy mivel foglalkozik az adatbányászat (nem szükséges hozzá elvégezni persze sem az Adatbányászati alkalmazások, se az Adatbányászati algoritmusok tárgyat, de egy kicsit érdemes utána nézni, hogy mi is ez az egész (neten, könyvekben)). Ezt azért gondolom így, mert bár az előadásokon elhangzanak a főbb adatbányászati feladatok és néhány alkalmazási terület, de több hallgatón is láttam, hogy bár meg tudta csinálni az adott feladatot, nem igazán értette, hogy miért csinálja. Úgy pedig nem sok értelme van...
Hogy legyen valami negatívum is: amikor én végeztem a tárgyat, nem sikerült megállapodni a SAS-sal, hogy a hallgatóknak adjon licence-et az Enterprise Minerhez, ezért ezt otthon nem lehetett telepíteni (többen keresték, de torrenten sem volt fent:) ), így a kisfeladatot is csak a laborban lehetett megoldani (igaz nagyon rugalmasan, lényegében akkor ülhettél be, amikor akartál). Remélhetőleg ezt a problémát azóta orvosolták.
Összességében könnyen teljesíthető és érdekes tárgy. Ajánlom mindazoknak, akik érdeklődnek a téma iránt, azoknak, akik pedig adatbányászattal akarnak foglalkozni a jövőben szinte kötelező:)

-- H.Balázs - 2009.09.03.