<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="hu">
	<id>https://vik.wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Ocsi01</id>
	<title>VIK Wiki - Felhasználó közreműködései [hu]</title>
	<link rel="self" type="application/atom+xml" href="https://vik.wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Ocsi01"/>
	<link rel="alternate" type="text/html" href="https://vik.wiki/Speci%C3%A1lis:Szerkeszt%C5%91_k%C3%B6zrem%C5%B1k%C3%B6d%C3%A9sei/Ocsi01"/>
	<updated>2026-05-15T22:59:29Z</updated>
	<subtitle>Felhasználó közreműködései</subtitle>
	<generator>MediaWiki 1.43.8</generator>
	<entry>
		<id>https://vik.wiki/index.php?title=%E2%80%98Big_Data%E2%80%99_elemz%C3%A9si_eszk%C3%B6z%C3%B6k_ny%C3%ADlt_forr%C3%A1sk%C3%B3d%C3%BA_platformokon&amp;diff=173133</id>
		<title>‘Big Data’ elemzési eszközök nyílt forráskódú platformokon</title>
		<link rel="alternate" type="text/html" href="https://vik.wiki/index.php?title=%E2%80%98Big_Data%E2%80%99_elemz%C3%A9si_eszk%C3%B6z%C3%B6k_ny%C3%ADlt_forr%C3%A1sk%C3%B3d%C3%BA_platformokon&amp;diff=173133"/>
		<updated>2013-11-25T17:42:46Z</updated>

		<summary type="html">&lt;p&gt;Ocsi01: /* 2013/2014 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Szabvál&lt;br /&gt;
|nev=‘Big Data’ elemzési eszközök&amp;lt;br&amp;gt;nyílt forráskódú platformokon&lt;br /&gt;
|kredit=2&lt;br /&gt;
|tárgykód=BMEVITMAV15&lt;br /&gt;
|tanszék=TMIT&lt;br /&gt;
|kiszh=nincs&lt;br /&gt;
|nagyzh=1 db&lt;br /&gt;
|vizsga=nincs&lt;br /&gt;
|hf=van&lt;br /&gt;
|jelenlét=ajánlott (nincs jegyzet)&lt;br /&gt;
|minmunka=kis utánaolvasás&lt;br /&gt;
|tad=https://www.vik.bme.hu/kepzes/targyak/VITMAV15/&lt;br /&gt;
|targyhonlap=http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
A tárgy célja, hogy megismertesse a hallgatókkal a big data elemzésére alkalmas módszereket és algoritmusokat, különös tekintettel a széles körben elterjedt nyílt forráskódú technológiákra. A példák és a házi feladatok a Hadoop keretrendszerhez és más hozzá kapcsolódó technológiákhoz nyújtanak gyakorlati ismereteket. A hallgatók képesek lesznek nagy adatok elemzésére alkalmas rendszerek megtervezésére, létrehozására és elemzési feladatok megvalósítására.&lt;br /&gt;
&lt;br /&gt;
__TOC__&lt;br /&gt;
&lt;br /&gt;
== Követelmények ==&lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Jelenlét:&#039;&#039;&#039; Ajánlott mert nincs jegyzet&lt;br /&gt;
*&#039;&#039;&#039;NagyZH:&#039;&#039;&#039; TODO&lt;br /&gt;
*&#039;&#039;&#039;Házi:&#039;&#039;&#039; TODO&lt;br /&gt;
&lt;br /&gt;
&amp;quot;A tárgy jegyének megszerzéséhez a ZH legalább elégséges teljesítése szükséges, valamint egy házi feladat elkészítése és megvédése. Az érdemjegyet a ZH illetve a házifeladat érdemjegyének átlagával számítjuk ki, a 0.5-re végződő eredményeket felfele kerekítjük. ZH a 8. vagy a 9. héten, pótZH és házifeladat bemutatása a 14. héten lesz.&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==Számonkérések==&lt;br /&gt;
&lt;br /&gt;
===Házifeladat===&lt;br /&gt;
Részletesen: http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013Hazi&lt;br /&gt;
&lt;br /&gt;
====Feladatok és eszközök kiválasztása====&lt;br /&gt;
Az alábbi feladatok közül a használt eszközök fényében kell néhány darabot kiválasztani. A használható eszközök és a megoldandó feladatok száma:&lt;br /&gt;
* Java MapReduce programozás: 1 feladat&lt;br /&gt;
* Hadoop Streaming programozás más programnyelven (Python, R, stb.): 2 feladat&lt;br /&gt;
* Hive és Pig: 3 feladat &lt;br /&gt;
Ha tehát valaki Hive-ban és Pig-ben akar dolgozni, akkor az alábbi feladatok közül 3-at is meg kell oldania és mindkét eszközt használnia kell, tehát mondjuk 2 feladat Hive-ban, 1 feladat Pig-ben. Ezzel szemben ha valaki Java programozással akar MapReduce elemzést csinálni, akkor az alábbiak közül elegendő egyetlen szabadon választott feladat megoldása. Hadoop Streaming esetén 2 feladat megoldása szükséges. &lt;br /&gt;
&lt;br /&gt;
====Választható feladatok====&lt;br /&gt;
* &#039;&#039;&#039;HTML lapletöltések hisztogramja&#039;&#039;&#039;: az adatokból egy olyan grafikont kell kirajzolni, mely bemutatja, hogy hány olyan kliens (host) volt, aki 0 darab html oldalt töltött le, hány olyan aki 1-et, 2-t, stb. Az elemzés kimenete tehát egy két oszlopot tartalmazó tábla (html letöltésszám, hostok száma), illetve egy grafikon, amely bármely megjelenítő programmal (pl. Excel) előállítható. &lt;br /&gt;
* &#039;&#039;&#039;Utolsó 2 letöltött HTML oldal&#039;&#039;&#039;: minden egyes kliens (host) esetén ki kell gyűjteni az (időben) utolsó 2 letöltött HTML oldalt. Az eredmény tehát egy három oszlopot tartalmazó tábla (host, utolsó html oldal, utolsó előtti html oldal). Ha egy kliens (host) nem töltött le két html oldalt, akkor a megfelelő mezők üresen maradjanak.&lt;br /&gt;
* &#039;&#039;&#039;Napi egyedi látogatók (hosztok) száma&#039;&#039;&#039;: számítsuk ki minden napra, hogy hány egyedi látogató (host) volt aznap az oldalon, majd ezt ábrázoljuk grafikonon. &lt;br /&gt;
* &#039;&#039;&#039;Visszatérő látogatók (hosztok) listája&#039;&#039;&#039;: Visszatérő látogatónak tekintjük azt a hostot, ami két (vagy több) különböző napon is meglátogatta az oldalt és a legkorábbi és legkésőbbi lapletöltése között legalább 6 óra telt el. Ezzel kiszűrjük azokat a látogatókat, akik éjfél előtt és éjfél után közvetlenül látogatják meg az oldalt. A megoldás ezen látogatók listája és darabszáma.&lt;br /&gt;
&lt;br /&gt;
===Zárthelyi===&lt;br /&gt;
* Előrevetíti: konkrét elemzési feladat (pl átlag) megvalósítása mapredben. Joinolni nem kell tudni. Akármilyen nyilazós sémás dologgal is megoldható nem kell java kódot írni. Pl:&lt;br /&gt;
&lt;br /&gt;
 Kell: minden nap hány külöböző sessionid volt egy nap?&lt;br /&gt;
    SELECT date, COUNT(DISTINCT sessionid) FROM table GROUP BY date&lt;br /&gt;
 M:(sorid,sor)-&amp;gt;(date+session, 1)&lt;br /&gt;
 R:(date+session,list(1))-&amp;gt;(date+sessionid,1)&lt;br /&gt;
 M:(date+sessionid,1)-&amp;gt;(date,1)&lt;br /&gt;
 R:(date, list(1))-&amp;gt;(date,sum)&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* TODO&lt;br /&gt;
&lt;br /&gt;
== Segédanyagok ==&lt;br /&gt;
&lt;br /&gt;
A kurzusok anyagai a TMIT honlapján:&lt;br /&gt;
* [http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013 2013/2014 ősz]&lt;br /&gt;
&lt;br /&gt;
== Tapasztalatok ==&lt;br /&gt;
&lt;br /&gt;
=== 2013/2014 ===&lt;br /&gt;
A tárgy először 2013/2014 őszén került meghirdetésre.&lt;br /&gt;
&lt;br /&gt;
Én MapReduce-os házit csináltam, az egyáltalán nem volt gáz. A kiadott VM-en minden megvan ami kell, csak legyen min futtatni magát a VM-et. Ha elég jól megy a Java és megvan, hogy elvben mit csinál a Map és mit a Reduce, akkor hamar meg lehet csinálni.&lt;br /&gt;
&lt;br /&gt;
=== 2013/2014 ===&lt;br /&gt;
Pontositas: Kiadott VM = Hortonworks hivatalos Sandbox. Nekem volt azert szivas vele, de a 2.X versio mar ment jol. Egy i5 os laptopot 4 GB rammal azert elegge leterhel, de meg kezelheto. &lt;br /&gt;
En a Pig/Hive hazit csinaltam, ahhoz nagy segitseg volt a webes UI. Viszont minnel tobb eszkozt hasznalsz, annal nehezebb a hibauzeneteket ertelmezni. Sokszor belefutottam semmit mondo exceptionbe.&lt;br /&gt;
&lt;br /&gt;
[ocsi]&lt;br /&gt;
[[Category:Gazdhuman]]&lt;/div&gt;</summary>
		<author><name>Ocsi01</name></author>
	</entry>
	<entry>
		<id>https://vik.wiki/index.php?title=%E2%80%98Big_Data%E2%80%99_elemz%C3%A9si_eszk%C3%B6z%C3%B6k_ny%C3%ADlt_forr%C3%A1sk%C3%B3d%C3%BA_platformokon&amp;diff=173132</id>
		<title>‘Big Data’ elemzési eszközök nyílt forráskódú platformokon</title>
		<link rel="alternate" type="text/html" href="https://vik.wiki/index.php?title=%E2%80%98Big_Data%E2%80%99_elemz%C3%A9si_eszk%C3%B6z%C3%B6k_ny%C3%ADlt_forr%C3%A1sk%C3%B3d%C3%BA_platformokon&amp;diff=173132"/>
		<updated>2013-11-25T17:42:17Z</updated>

		<summary type="html">&lt;p&gt;Ocsi01: /* 2013/2014 */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Szabvál&lt;br /&gt;
|nev=‘Big Data’ elemzési eszközök&amp;lt;br&amp;gt;nyílt forráskódú platformokon&lt;br /&gt;
|kredit=2&lt;br /&gt;
|tárgykód=BMEVITMAV15&lt;br /&gt;
|tanszék=TMIT&lt;br /&gt;
|kiszh=nincs&lt;br /&gt;
|nagyzh=1 db&lt;br /&gt;
|vizsga=nincs&lt;br /&gt;
|hf=van&lt;br /&gt;
|jelenlét=ajánlott (nincs jegyzet)&lt;br /&gt;
|minmunka=kis utánaolvasás&lt;br /&gt;
|tad=https://www.vik.bme.hu/kepzes/targyak/VITMAV15/&lt;br /&gt;
|targyhonlap=http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
A tárgy célja, hogy megismertesse a hallgatókkal a big data elemzésére alkalmas módszereket és algoritmusokat, különös tekintettel a széles körben elterjedt nyílt forráskódú technológiákra. A példák és a házi feladatok a Hadoop keretrendszerhez és más hozzá kapcsolódó technológiákhoz nyújtanak gyakorlati ismereteket. A hallgatók képesek lesznek nagy adatok elemzésére alkalmas rendszerek megtervezésére, létrehozására és elemzési feladatok megvalósítására.&lt;br /&gt;
&lt;br /&gt;
__TOC__&lt;br /&gt;
&lt;br /&gt;
== Követelmények ==&lt;br /&gt;
&lt;br /&gt;
*&#039;&#039;&#039;Jelenlét:&#039;&#039;&#039; Ajánlott mert nincs jegyzet&lt;br /&gt;
*&#039;&#039;&#039;NagyZH:&#039;&#039;&#039; TODO&lt;br /&gt;
*&#039;&#039;&#039;Házi:&#039;&#039;&#039; TODO&lt;br /&gt;
&lt;br /&gt;
&amp;quot;A tárgy jegyének megszerzéséhez a ZH legalább elégséges teljesítése szükséges, valamint egy házi feladat elkészítése és megvédése. Az érdemjegyet a ZH illetve a házifeladat érdemjegyének átlagával számítjuk ki, a 0.5-re végződő eredményeket felfele kerekítjük. ZH a 8. vagy a 9. héten, pótZH és házifeladat bemutatása a 14. héten lesz.&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==Számonkérések==&lt;br /&gt;
&lt;br /&gt;
===Házifeladat===&lt;br /&gt;
Részletesen: http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013Hazi&lt;br /&gt;
&lt;br /&gt;
====Feladatok és eszközök kiválasztása====&lt;br /&gt;
Az alábbi feladatok közül a használt eszközök fényében kell néhány darabot kiválasztani. A használható eszközök és a megoldandó feladatok száma:&lt;br /&gt;
* Java MapReduce programozás: 1 feladat&lt;br /&gt;
* Hadoop Streaming programozás más programnyelven (Python, R, stb.): 2 feladat&lt;br /&gt;
* Hive és Pig: 3 feladat &lt;br /&gt;
Ha tehát valaki Hive-ban és Pig-ben akar dolgozni, akkor az alábbi feladatok közül 3-at is meg kell oldania és mindkét eszközt használnia kell, tehát mondjuk 2 feladat Hive-ban, 1 feladat Pig-ben. Ezzel szemben ha valaki Java programozással akar MapReduce elemzést csinálni, akkor az alábbiak közül elegendő egyetlen szabadon választott feladat megoldása. Hadoop Streaming esetén 2 feladat megoldása szükséges. &lt;br /&gt;
&lt;br /&gt;
====Választható feladatok====&lt;br /&gt;
* &#039;&#039;&#039;HTML lapletöltések hisztogramja&#039;&#039;&#039;: az adatokból egy olyan grafikont kell kirajzolni, mely bemutatja, hogy hány olyan kliens (host) volt, aki 0 darab html oldalt töltött le, hány olyan aki 1-et, 2-t, stb. Az elemzés kimenete tehát egy két oszlopot tartalmazó tábla (html letöltésszám, hostok száma), illetve egy grafikon, amely bármely megjelenítő programmal (pl. Excel) előállítható. &lt;br /&gt;
* &#039;&#039;&#039;Utolsó 2 letöltött HTML oldal&#039;&#039;&#039;: minden egyes kliens (host) esetén ki kell gyűjteni az (időben) utolsó 2 letöltött HTML oldalt. Az eredmény tehát egy három oszlopot tartalmazó tábla (host, utolsó html oldal, utolsó előtti html oldal). Ha egy kliens (host) nem töltött le két html oldalt, akkor a megfelelő mezők üresen maradjanak.&lt;br /&gt;
* &#039;&#039;&#039;Napi egyedi látogatók (hosztok) száma&#039;&#039;&#039;: számítsuk ki minden napra, hogy hány egyedi látogató (host) volt aznap az oldalon, majd ezt ábrázoljuk grafikonon. &lt;br /&gt;
* &#039;&#039;&#039;Visszatérő látogatók (hosztok) listája&#039;&#039;&#039;: Visszatérő látogatónak tekintjük azt a hostot, ami két (vagy több) különböző napon is meglátogatta az oldalt és a legkorábbi és legkésőbbi lapletöltése között legalább 6 óra telt el. Ezzel kiszűrjük azokat a látogatókat, akik éjfél előtt és éjfél után közvetlenül látogatják meg az oldalt. A megoldás ezen látogatók listája és darabszáma.&lt;br /&gt;
&lt;br /&gt;
===Zárthelyi===&lt;br /&gt;
* Előrevetíti: konkrét elemzési feladat (pl átlag) megvalósítása mapredben. Joinolni nem kell tudni. Akármilyen nyilazós sémás dologgal is megoldható nem kell java kódot írni. Pl:&lt;br /&gt;
&lt;br /&gt;
 Kell: minden nap hány külöböző sessionid volt egy nap?&lt;br /&gt;
    SELECT date, COUNT(DISTINCT sessionid) FROM table GROUP BY date&lt;br /&gt;
 M:(sorid,sor)-&amp;gt;(date+session, 1)&lt;br /&gt;
 R:(date+session,list(1))-&amp;gt;(date+sessionid,1)&lt;br /&gt;
 M:(date+sessionid,1)-&amp;gt;(date,1)&lt;br /&gt;
 R:(date, list(1))-&amp;gt;(date,sum)&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
* TODO&lt;br /&gt;
&lt;br /&gt;
== Segédanyagok ==&lt;br /&gt;
&lt;br /&gt;
A kurzusok anyagai a TMIT honlapján:&lt;br /&gt;
* [http://adatbanyaszat.tmit.bme.hu/twiki/bin/view/Targyak/BigData2013 2013/2014 ősz]&lt;br /&gt;
&lt;br /&gt;
== Tapasztalatok ==&lt;br /&gt;
&lt;br /&gt;
=== 2013/2014 ===&lt;br /&gt;
A tárgy először 2013/2014 őszén került meghirdetésre.&lt;br /&gt;
&lt;br /&gt;
Én MapReduce-os házit csináltam, az egyáltalán nem volt gáz. A kiadott VM-en minden megvan ami kell, csak legyen min futtatni magát a VM-et. Ha elég jól megy a Java és megvan, hogy elvben mit csinál a Map és mit a Reduce, akkor hamar meg lehet csinálni.&lt;br /&gt;
&lt;br /&gt;
=== 2013/2014 ===&lt;br /&gt;
Pontositas: Kiadott VM = Hortonworks hivatalos Sandbox. Nekem volt azert szivas vele, de a 2.X versio mar ment jol. Egy i5 os laptopot 4 GB rammal azert elegge leterhel, de meg kezelheto. &lt;br /&gt;
En a Pig/Hive hazit csinaltam, ahhoz nagy segitseg volt a webes UI. Viszont minnel tobb eszkozt hasznalsz, annal nehezebb a hibauzeneteket ertelmezni. Sokszor belefutottam semmit mondo exceptionbe.&lt;br /&gt;
&lt;br /&gt;
[[Category:Gazdhuman]]&lt;/div&gt;</summary>
		<author><name>Ocsi01</name></author>
	</entry>
</feed>