Mérési adatok vizuális elemzése

A VIK Wikiből
Mérési adatok vizuális elemzése
Tárgykód
VIMIAV16
Általános infók
Szak
villany és infó
Kredit
2
Tanszék
MIT
Követelmények
NagyZH
nincs
Házi feladat
1db
Vizsga
nincs
Elérhetőségek

Érdekel, hogyan lesz az adatból információ? Mire jó egy dashboard, mit lehet mondani néhány ezer féle mért adat kapcsolatáról, hogyan találjuk meg a tűt a szénakazalban, mi okoz mi? Hogyan lehet érdekes összefüggéseket megtalálni akár a saját szoftvered működésével kapcsolatban?

Manapság a hűtőgéptől az autóig, az okos épületektől a városüzemeltetésen keresztül a sokgépes szerverparkokig mindenütt gyűjtenek adatokat, azonban sok esetben a gyűjtött adatot soha senki nem használja hasznos célokra. Ennek oka, hogy az adatokat értelmezni és tisztítani kell, a gyakori vagy éppen ritka mintákat és összefüggéseket pedig validálni kell a valós, mért adatok alapján.

Automatizált módszerekkel számos összefüggés kinyerhető, de ezeket átlátni és a tapasztalatokat levonni pusztán számok alapján nehéz. Ezt támogatják a vizuális elemzési módszerek.

A tárgy gyakorlatias megközelítésben tárgyalja az adatfeldolgozás és elemzés kérdéseit, elsősorban olyan területekre fókuszálva, mint a gyártáselemzés és -optimalizálás, informatikai rendszerek teljesítményének tervezése és megfigyelése, felhő alapú kritikus szolgáltatások összehasonlítása, blockchain architektúra kiértékelése, szűk keresztmetszet keresése banki folyamatok végrehajtásában, termékek gyártásból származó tesztadatok elemzése, stb. Célunk átadni a "statisztika" és a "data science" eszköztárából azokat az alapokat, amik elsősorban vizuális elemzéshez és a diagramok értelmezéséhez kellenek.


Követelmények

a. A szorgalmi időszakban: egy házi feladat elkészítése.

A házi feladat egy önállóan elkészített, saját mérésből vagy publikus adatforrás(ok)ból származó adatkészleten elvégzett, elsősorban vizuális technikákra építő, megismételhető elemzés, megfelelően dokumentálva.

b. A vizsgaidőszakban: -

c. Elővizsga: -

Előtanulmányi rend

  • Ezekre épít a tárgy:Alapvető statisztikai/valószínűségszámítási ismeretek, számítógépes rendszerek, hálózatok és operációs rendszerek alapfogalmai. Adatbázisok/táblázatkezelés alapismeretei.

A szorgalmi időszakban

A szorgalmi időszakban: egy házi feladat elkészítése Házi feladat: a pótlási héten pótolható (különeljárási díj ellenében).


Tematika

1. hét: Statisztikai és metrológiai alapok. Statisztikai alapfogalmak, mértékek fajtái, mérésekkel szembeni tipikus követelmények. Adattípusok és adatszerkezetek. Adatok közti függőségek: korreláció, asszociáció, kauzalitás. Előzetes (a priori) ismeretek felhasználása.

2. hét: Vizuális elemzés alapok. Feltáró/megerősítő (Exploratory/Confirmatory) analízis. Főbb plot típusok (1, 2, n dimenzió) és felhasználásuk.

3. hét: Interaktív technológiák, data tours (esettanulmány). Egyedi vizualizáció példák, eloszlások megjelenítése, ötszámos jellemzés (five-number summary), nemparametrikus statisztika. Kihívások: interaktivitás, skálázhatóság (információ és megjelenítés), megismételhető/kollaboratív elemzés.

4. hét: Vizuális elemzés technológiai támogatása: szkript nyelvek (R, Python), vizuális folyamattervező eszközök (Knime, RapidMiner, TensorFlow, Orange, ...), hagyományos „BI" eszközök felhasználása (Microsoft PowerBI, Tableau, ...). Felhő alapú analitika (Microsoft Cortana Analytics, IBM Watson Analytics). Vizuális megjelenítő könyvtárak: JS alapú megoldások (D3.js, Processing, chart könyvtárak), Dashboard keretrendszerek (Graphite, CGP, ...). Eltérés a célokban, beágyazott heurisztikák torzító hatása, implicit feltételezések feltárása, az egyes technológiák összehasonlítása.

5. hét: Mérnöki modellek felhasználása adatelemzésben: Oksági kapcsolatok, topologikus korreláció, sorrendiség és viselkedésmodellek figyelembevétele, változószelekció. Minőségi modellek (Qualitative Reasoning).

6. hét: Kezdeti vizuális kiértékelés (esettanulmány), az eddig ismertetett módszerek bemutatása néhány reprezentatív példán (pl. felhő alapú rendszerek teljesítménymérése).

7. hét: Adatgyűjtés és -tisztítás: szakterület-specifikus adatszótár, adathiba taxonómia megalkotása, általános adatminőségi metrikák, felműszerezés, mintavételezés stb. informatikai rendszerekben. Szenzor adatforrások szemantikus leírása: az SSN szabvány.

8. hét: Adatforrások csatolása. Tipikus mérési adatforrások: relációs adatbázisok, kulcs-érték adatbázisok, oszlopadatbázisok, gráfadatbázisok. Ontológia alapú tárolás, online adatforrások (REST,JSON, ...). R, Python terminológia.

9. hét: Adatvezérelt modellalkotás. Klaszterezés és PCA támogatása. Klasszifikáció és csoportba sorolás. Kísérleti modellek validációja, kísérlettervezés.

10-11. hét: A vizuális elemzés alkalmazási területeinek sajátosságai. Kiberfizikai rendszerek (CPS) elemzése, különböző domének (kiber, fizikai) kapcsolatának feltárása. Dashboard tervezés informatikai rendszerek felügyeletére, "SCADA". Szolgáltatásbiztonság és teljesítőképesség elemzése. Szoftver teljesítmény hangolás. Biztonságkritikus rendszerek fejlesztési folyamatának vizsgálata.

12. hét: Vizuális elemzés használata rendszertervezésben. Fogalmi egységesítés. Mérés és benchmark tervezés. Informatikai modellek szimulációjának hatékony kiértékelése. Reprezentáció transzformálása.

13. hét: Rendszerek kiértékelés vizuális módszerekkel. Teszt- és tesztkészlet-kiértékelés támogatása. Logelemzés és eseményfeldolgozás komplex, felhő alapú rendszerekben. Kiugró értékek (outlier) keresése.

14. hét: Komplex esettanulmány.

Segédanyagok

  • Chen, Chun-houh, Wolfgang Karl Härdle, and Antony Unwin, eds. Handbook of data visualization. Springer Science & Business Media, 2007.
  • Theus, Martin, and Simon Urbanek. Interactive graphics for data analysis: principles and examples. CRC Press, 2008.
  • Antal Péter (szerk.). Intelligens adatelemzés. Typotex Kiadó, 2014. Elektronikusan elérhető jegyzet.
  • Imre Kocsis, Ágnes Salánki, and A. Pataricza, "Measurement-based identification of infrastructures for TCPS," in Trustworthy Cyber-Physical Systems Engineering, A. Romanovsky and Fuyuki Ishikawa, Eds. Chapman and Hall/CRC, 2016.
  • Pataricza, András, et al. "Empirical Assessment of Resilience." Software Engineering for Resilient Systems. Springer Berlin Heidelberg, 2013. 1-16.
  • További eszközspecifikus segédanyagok (pl. Adam Aspin, „High Impact Data Visualization with Power View, Power Map, and Power BI", Apress, 2014), online segédanyagok, példák.

Kedvcsináló

Előadásokra be kell járni, viszont akit érdekel a téma annak egy nagyon hasznos tárgy. Jórészt gyakorlatiasan zajlanak az előadások, heti 1 alkalommal. Egy házit kell megcsinálni, ami nem nehéz, bármiből lehet dolgozni, az előadó GL mindenkinek személyesen segít. "ingyen kredit" kategóriába (konfliktuskez és társai) mellé nem sorolható, viszont korrekt időbefektetéssel 2 kredit 5ösre simán hozható. Csak ajánlani tudom. SZJ