Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2011.01.23. 17:00 Makrai Gábor

Első adatbányászati Meetup összefoglaló

Címkék: meetup 2011

 

Engedjétek meg, hogy bemutatkozzak, mielőtt a lényegre térnék. A Budapesti Műszaki és Gazdaságtudományi Egyetem végzős, mesterképzéses informatikus hallgatója vagyok. Diplomamunkám során kerültem kapcsolatba Prekopcsák Zoltánnal és Gáspár-Papanek Csabával, ahol az adatbányászat alapjaival kezdtem ismerkedni. Szeptember óta már gyakornokként mélyítem tovább az adatbányászati ismereteimet. Így történt tehát, hogy múlt héten én is meghívást kaptam az első adatbányászati Meetupra.

 

Be kell vallanom, hogy először nem tudtam pontosan mit takar a Meetup kifejezés. Néhány percnyi keresés után természetesen könnyen rá lehet találni néhány ilyen eseményre. (például a http://www.meetup.com/ szervező oldalon "Budapest" városra keresve) Ezek a Meetupok tartalmilag két részre bonthatóak. Az első kötöttebb jellegű, ahol kevés számú rövid (maximum 10 perces) projektoros előadás alkalmával ismerkedhetünk meg az előadók jelenlegi munkájukról, kutatásikról, ötleteikről. Ezek után pedig egy kötetlenebb beszélgetés következik, mely során az összegyűlt hallgatóság teljesen szabadon társaloghat, akár az elhangzottaktól teljesen más témában.

 

Ezen a Meetupon két előadó vállalta az előadást: Sidló Csaba, aki azonosság feloldásról (entity resolution) várhattunk egy előadást, illetve Gáspár-Papanek Csaba, aki pedig annak az eshetőségét járta körbe, hogy mi történne, ha egyszerre több egy piacon jelenlévő vállalattól állnának rendelkezésre adatok. Némi késéssel érkeztem meg, a terembe belépve meglepődve tapasztaltam a jelenlévők nagy számát. Amint sikerült helyet foglalnom azonnal kezdetét is vette az első része a Meetupnak. Árpad, a rendezvény szervezője az elsőként megkérte az előadókat, hogy ne korlátozzák magukat 10 percre, nyugodtan mondják el véleményüket, legyen ez egy „slow meetup”.

 

Az első előadás témája tehát azonosság feloldás volt. Picit akadémiai stílusú volt a prezentáció, viszont nagyon mélyen, átfogóan hallhattunk a témáról. Ma egy nagyon közkedvelt téma ez, viszont Csaba kiemelte, hogy nincsenek a témában nagy, nyílt adatforrások, így általában a kutatások első lépése, hogy egy tiszta adathalmazt valamilyen módon „elrontanak”, majd ezen az adaton elemzik ki az eljárásokat. Csaba szkeptikus volt ezzel az kapcsolatban, ami teljesen jogos, hiszen, ha tudjuk hogyan rontottuk el az adatokat, arra könnyen tudunk jó eredményt elérő algoritmust kreálni. A kutatásokban szereplő algoritmusok többségében számítási időben a bemenet nagyságával négyzetesen növekednek, így tehát hamar elérhetjük a rendelkezésre álló kapacitás határait. Vannak már kutatások számítási idő több nagyságrendű csökkentésével kapcsolatban, azonban ezek mind rendelkeznek valamilyen hátránnyal. Illetve vannak kutatások amelyek az algoritmust nem változtatják, hanem ezt próbálják sok számítógépen elosztott módon megvalósítani. Csaba a második megközelítést szintén szkeptikusan kezelte, hiszen azok még nagyon kezdetleges fázisban vannak. Nagyon tetszett az előadásban viszont, hogy nem egy termék promócióját hallhattuk, hanem a jelenlegi munkájába engedett betekintést, amely az előnyei mellett természetesen hátrányokkal is rendelkezik!

 

Egy rövid szünet után következett a második Csaba előadása. Itt, ahogyan azt már korábban is említettem egy kísérleti dologról hallhattunk. Az előadás mindenki figyelmét felkeltette, hiszen egy olyan dologról szólt, ami nagyon sok csak elméletben létező dolgot követel meg, viszont mivel még senki sem próbálta, ezért egészen új dolgok születhetnek belőle. Először egy rövid elméleti ismertetés következett. Itt megtudtuk, hogy adatok helyett a vállalatok modelleket adnának át egymásnak, melyet beépítenének a saját kiértékelési fázisukba. Itt már sok kérdés merült fel, alapvetően azért, mert egy modell attribútumai árulkodhatnak a rendelkezésre álló adatokról. Csaba a modell átadás gondolatmenetét használta fel és készített egy tesztet, ahol azt szerette volna megtudni, hogy ez milyen hatékonyságra képes. Egy korábbi versenyen rendelkezésre álló adathalmazt használt fel, ahol Brazíliában található hitelezés bank adatait kapták a versenyzők. Ezt az adathalmazt próbálta meg szétvágni, hogy előálljon a két különböző adathalmaz. Ezzel kapcsolatban is kérdések merültek fel, ugyanis a probléma szempontjából nehéz az adathalmazt jól szétvágni. Az eredmények viszont nagyon kiábrándítóak voltak, Csaba minimálisan jobb modellről beszélt. Viszont a hallgatóságot nagyon megmozgatta a dolog, hiszen ekkorra már sok hozzászólás és kérdés merült fel a témával kapcsolatban.

A második előadás után a kötöttebb jellegű rész lezáródott, és kezdetét vette a kötetlen beszélgetés. Sajnos ezen a részen már sokan nem vettek részt, ez talán az előző rész időbeli túlnyúlásának volt köszönhető. Nagyon ötletesnek találtam azt, hogy érkezéskor egy üres kitűzőt kaptunk, ahová három minket érdeklő témát lehetett felírni, így egy beszélgetés nagyon könnyen el tudott indulni!

Az esemény végéig maradtam, ahol a végére egy szűkkörű, de egészen hangulatos beszélgetés alakult ki! Sajnos azonban képeket nem sikerült szereznem, amit a legközelebbi alkalommal nem fogok elmulasztani!

 

Remélem a következő Meetup is ilyen hasznos lesz és mindenki hasonlóan így vélekedik erről!

 

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr492607676

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.