Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2011.01.23. 17:00 Makrai Gábor

Első adatbányászati Meetup összefoglaló

Címkék: meetup 2011

 

Engedjétek meg, hogy bemutatkozzak, mielőtt a lényegre térnék. A Budapesti Műszaki és Gazdaságtudományi Egyetem végzős, mesterképzéses informatikus hallgatója vagyok. Diplomamunkám során kerültem kapcsolatba Prekopcsák Zoltánnal és Gáspár-Papanek Csabával, ahol az adatbányászat alapjaival kezdtem ismerkedni. Szeptember óta már gyakornokként mélyítem tovább az adatbányászati ismereteimet. Így történt tehát, hogy múlt héten én is meghívást kaptam az első adatbányászati Meetupra.

 

Be kell vallanom, hogy először nem tudtam pontosan mit takar a Meetup kifejezés. Néhány percnyi keresés után természetesen könnyen rá lehet találni néhány ilyen eseményre. (például a http://www.meetup.com/ szervező oldalon "Budapest" városra keresve) Ezek a Meetupok tartalmilag két részre bonthatóak. Az első kötöttebb jellegű, ahol kevés számú rövid (maximum 10 perces) projektoros előadás alkalmával ismerkedhetünk meg az előadók jelenlegi munkájukról, kutatásikról, ötleteikről. Ezek után pedig egy kötetlenebb beszélgetés következik, mely során az összegyűlt hallgatóság teljesen szabadon társaloghat, akár az elhangzottaktól teljesen más témában.

 

Ezen a Meetupon két előadó vállalta az előadást: Sidló Csaba, aki azonosság feloldásról (entity resolution) várhattunk egy előadást, illetve Gáspár-Papanek Csaba, aki pedig annak az eshetőségét járta körbe, hogy mi történne, ha egyszerre több egy piacon jelenlévő vállalattól állnának rendelkezésre adatok. Némi késéssel érkeztem meg, a terembe belépve meglepődve tapasztaltam a jelenlévők nagy számát. Amint sikerült helyet foglalnom azonnal kezdetét is vette az első része a Meetupnak. Árpad, a rendezvény szervezője az elsőként megkérte az előadókat, hogy ne korlátozzák magukat 10 percre, nyugodtan mondják el véleményüket, legyen ez egy „slow meetup”.

 

Az első előadás témája tehát azonosság feloldás volt. Picit akadémiai stílusú volt a prezentáció, viszont nagyon mélyen, átfogóan hallhattunk a témáról. Ma egy nagyon közkedvelt téma ez, viszont Csaba kiemelte, hogy nincsenek a témában nagy, nyílt adatforrások, így általában a kutatások első lépése, hogy egy tiszta adathalmazt valamilyen módon „elrontanak”, majd ezen az adaton elemzik ki az eljárásokat. Csaba szkeptikus volt ezzel az kapcsolatban, ami teljesen jogos, hiszen, ha tudjuk hogyan rontottuk el az adatokat, arra könnyen tudunk jó eredményt elérő algoritmust kreálni. A kutatásokban szereplő algoritmusok többségében számítási időben a bemenet nagyságával négyzetesen növekednek, így tehát hamar elérhetjük a rendelkezésre álló kapacitás határait. Vannak már kutatások számítási idő több nagyságrendű csökkentésével kapcsolatban, azonban ezek mind rendelkeznek valamilyen hátránnyal. Illetve vannak kutatások amelyek az algoritmust nem változtatják, hanem ezt próbálják sok számítógépen elosztott módon megvalósítani. Csaba a második megközelítést szintén szkeptikusan kezelte, hiszen azok még nagyon kezdetleges fázisban vannak. Nagyon tetszett az előadásban viszont, hogy nem egy termék promócióját hallhattuk, hanem a jelenlegi munkájába engedett betekintést, amely az előnyei mellett természetesen hátrányokkal is rendelkezik!

 

Egy rövid szünet után következett a második Csaba előadása. Itt, ahogyan azt már korábban is említettem egy kísérleti dologról hallhattunk. Az előadás mindenki figyelmét felkeltette, hiszen egy olyan dologról szólt, ami nagyon sok csak elméletben létező dolgot követel meg, viszont mivel még senki sem próbálta, ezért egészen új dolgok születhetnek belőle. Először egy rövid elméleti ismertetés következett. Itt megtudtuk, hogy adatok helyett a vállalatok modelleket adnának át egymásnak, melyet beépítenének a saját kiértékelési fázisukba. Itt már sok kérdés merült fel, alapvetően azért, mert egy modell attribútumai árulkodhatnak a rendelkezésre álló adatokról. Csaba a modell átadás gondolatmenetét használta fel és készített egy tesztet, ahol azt szerette volna megtudni, hogy ez milyen hatékonyságra képes. Egy korábbi versenyen rendelkezésre álló adathalmazt használt fel, ahol Brazíliában található hitelezés bank adatait kapták a versenyzők. Ezt az adathalmazt próbálta meg szétvágni, hogy előálljon a két különböző adathalmaz. Ezzel kapcsolatban is kérdések merültek fel, ugyanis a probléma szempontjából nehéz az adathalmazt jól szétvágni. Az eredmények viszont nagyon kiábrándítóak voltak, Csaba minimálisan jobb modellről beszélt. Viszont a hallgatóságot nagyon megmozgatta a dolog, hiszen ekkorra már sok hozzászólás és kérdés merült fel a témával kapcsolatban.

A második előadás után a kötöttebb jellegű rész lezáródott, és kezdetét vette a kötetlen beszélgetés. Sajnos ezen a részen már sokan nem vettek részt, ez talán az előző rész időbeli túlnyúlásának volt köszönhető. Nagyon ötletesnek találtam azt, hogy érkezéskor egy üres kitűzőt kaptunk, ahová három minket érdeklő témát lehetett felírni, így egy beszélgetés nagyon könnyen el tudott indulni!

Az esemény végéig maradtam, ahol a végére egy szűkkörű, de egészen hangulatos beszélgetés alakult ki! Sajnos azonban képeket nem sikerült szereznem, amit a legközelebbi alkalommal nem fogok elmulasztani!

 

Remélem a következő Meetup is ilyen hasznos lesz és mindenki hasonlóan így vélekedik erről!

 

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr282607676

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása