Adatbányászat Blog

A dmlab szakmai blogja: dmlab.hu

A dmlab üzleti oldala:
promo.dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (3) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) agy (2) ajánló (10) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (1) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) bi (13) BI (3) Bi (1) bi-trek (1) biconsulting (7) bigdata (19) big data (4) Big Data (2) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (13) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) data mining (1) data science (4) diplomamunka (1) dmlab (10) döntési fák (1) drill (1) e-commerce (1) előadás (21) élő közvetítés (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (2) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (3) google (6) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (2) hálózatkutatás (1) hálózatok (2) hazai (1) hiba (3) hírlevél (1) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (3) jmp (2) kaggle (1) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (1) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (5) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (10) mellékspecializáció (1) mém (2) memóriacentrikus (1) menedzsment (2) metaadat (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (18) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (3) publikáció (1) python (8) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (39) RapidMiner (1) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (8) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (4) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (18) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2016.03.24. 18:10 Gáspár Csaba

Etika a big data világában

Néhány hete egy Python kurzus végén beszélgettem egy lelkes kollégával, akinek lelkesen újságoltam milyen izgalmas adatelemzési projektet indítottunk egy új partnernél. A partner neve hallatán ő egyáltalán nem lett lelkes - sőt kijelentette, hogy ennek társaságnak ő sosem dolgozna. Régi gondolatokat ébresztett fel bennem ez a történet.

Korábban nem volt annyira érdekes a civil szférában, hogy egy adatelemző adta eredmény mennyire szól bele az egyén életébe. Egyszerűen nem voltak a legyűjtött adatok olyan részletesek, hogy olyan erős modellt tudjunk építeni, ami alapján valakinek az életébe túlzottan beleszóljunk. 

a_4.jpgAztán szép lassan egyre mélyebbre ásott a szakma, mígnem szinte előjel nélkül eljött a data science etika fekete napja, ami egyértelműen a Target.com körül kitört botrány: az árurendelési és böngészési szokásokból nagy pontossággal tudták kimutatni, hogy mikor esett teherbe egy ügyfelük. Ennek birtokában célzottan keresték meg prospektusokkal a kismamákat, akik gyakran még a hírt nem is közölték környezetükkel. Sőt, később kiderült, hogy bizonyos esetekben a Target.com magánál az ügyfélnél is hamarabb tudta meg az új fejleményt, a hatalmas adatmennyiségből olyan termékeket tudtak azonosítani, amik az első trimeszterben levő kismamák figyelmét önkéntelenül felkeltik.

Az eset hirtelen rávilágított azokra a kérdésekre, meddig felelős egy elemző az általa végzett elemzésért, mettől felelős az elemzési eredményekre támaszkodó üzleti oldal, mennyiben kell odafigyelni az elemzésünk lelkiismereti vonatkozásaira?

Napjainkban még csak a dilemmát látjuk, nem annyira a megoldást. Jogos igényünk, hogy legyenek világos szabályok, amik alapján mindig meg lehet mondani, hogy amit teszünk, az etikus (függetlenül attól, hogy a jog mit mond a dologról). Személyes véleményem szerint nem alkotható meg a jó szabályrendszer, minduntalan fogunk pro és kontra ellenpéldákat találni. Ez azonban nem azt jelenti, hogy nem kell próbálkozni a kérdés tisztázásával.

Az én felelősségem abból a szempontból is nagyobb, mert mind a Műegyetemen, mind a cégeknél folyó on-site képzések kapcsán sok ember tőlem hall először erről a dilemmáról, az etikai aggályokról. Egyenlőre nem tudok többet tenni, mint néhány konkrét esetet felvázolva elgondolkodtatom őket arról, hogy ők hogyan döntenének hasonló esetekben, elmondom az én személyes állásfoglalásomat - de nem gondolom, hogy ezt kellene mindenkinek követnie. Ezekkel a sztorikkal szembesítem őket:

  • Régi amerikai hitelbírálati esetek, mikor a hitelfelvevő bőrszínét, majd ennek tiltása után a szomszédban lakók bőrszínét kérdezték meg a jelentkezőtől
  • Megkérdezem, mi a véleményük a keresés tényétől változó repülőjegyárak mechanizmusáról
  • Felvázolom nekik a már említett Target.com történetet az elemző és a marketinges aspektusából
  • Végigbeszélünk egy egészségügyi adatelemzős esetet, mikor műtéti kockázatok számításáról és felhasználásáról gondolkodunk
  • A társkereső oldalakba épített adatelemzési algoritmusok sajátosságai kapcsán feszegetjük a kérdést, hogy ezen oldalak célja a hosszú előfizetési időszak elérése, ami egy idő után már ellentétes lehet azzal, hogy hamar megtalálja a hozzá passzoló lehetséges partnereket.

Tudtok olyan sztorikat még, ami ezen a területen érdekes lehet? 

 

Szólj hozzá!

2016.01.31. 10:08 Gáspár Csaba

Féléves nyitott data science kurzus a BME-n

Címkék: oktatás tmit 2016 BME adatelemzési platformok

UPDATE: Az idei félévre lezártuk a jelentkezést. Köszönjük a rekordszámú érdeklődést. Ha valakinek kérdése van hozzánk, akkor a komment szekcióban bátran keressetek minket.

Az előző félév ismételten bizonyította, hogy nagyon népszerűek a BME-n futó, külsősök számára is megnyitott data science és big data képzéseink. Előző félévben közel 50 külsős szakember jelentkezett be a tárgyainkra, az Ericssonnal kötött megállapodás kapcsán például az onnan érkező kollégák közül 27-en a zárthelyit is megírták.

a.jpgFolytatjuk a hagyományt, ebben a félévben a data science világába bevezető tárgyunkat nyitjuk meg. Hetente szerdánként 10h15-től és minden második csütörtökön 8h15-től lesznek ezek az órák megtartva. Az első alkalom február 17-én, szerdán, 10h15-kor kezdődik.

Téma szempontjából az adatelemzés alapjait vesszük át: adatmodell, CRISP-DM, felügyelt és nem felügyelt tanulási eljárások, adatbányászati modellezés, és sok alkalmazási példa: elvándorlás-előrejelzés, kockázatbecslés, szegmentáció, idősorok előrejelzése. Az első hetekben RapidMiner 6-tal dolgozunk, majd a python adatelemzős alapjait sajátítjuk el gyakorlati alkalmak keretében. Mindenkitől azt kérjük, hogy a gyakorlati órákra majd hozzon saját számítógépet, amire a megfelelő programcsomagokat telepítette (az ingyenes verziókkal dolgozunk).

A tárgyhoz házifeladat is tartozik, ami egy felügyelt tanulási feladat lesz valós adathalmazon - sőt a kaggle.com rendszerén keresztül egy zárt adatbányászati versenyen is megversenyeztetjük majd a házifeladatra adott megoldásokat. A helyszínről és a pontos beosztásról a jelentkezés után, annak elfogadása esetén tájékoztatunk. 

Már most látszik, hogy elég sok külsős hallgató jelentkezése várható, ezért némi korlátozással is élnünk kell majd. Egyrészt a szokásosnál nagyobb kooperációt kérünk majd tőletek, hogy továbbra is az egyetemi hallgatók körül foroghasson ez a tárgy, ténylegesen rájuk tudjunk koncentrálni a munka során - a külsős hallgatók az ő vendégeik, tartsuk ezt tiszteletben. A külsős hallgatók létszámát korlátozzuk, illetve ugyanazon cégtől csak kivételes esetben fogunk nagy számú jelentkezést befogadni. 

Várunk benneteket!

Jelentkezés az "Adatelemzési platformok" című tárgyra - LEZÁRVA az jelenlegi félévre.

Egyedi tematikájú képzések

a_3.jpgFelhívjuk a figyelmet arra, hogy szívesen dolgozunk ki személyre vagy cégre szabott tematikát is, ha gyorsabb haladásra és hatékonyabb tanulásra van szükség. Itt sokkal jobban tudunk igazodni a már meglévő kompetenciátokhoz, a képzést gyakorlatai során akár a saját adataitokon végezzük az elemzést. Ezúton más technológiákat is szívesen tanítunk, Python, R, RapidMiner, SPSS Modeler, SAS, Oracle, KNime környezetben is szívesen oktatunk, de big data technológiákhoz is vannak jó képzési javaslataink. Az elmúlt évben több mint tíz ilyen képzést tartottunk, keressetek meg bátran, ha ilyen kérdés merül fel benneteket, a tematika rögzítése után gyorsan tudunk árajánlatot adni, a speciális igényeitekhez igazodni.

Ha érdekes, írj néhány sort: Gáspár Csaba - gaspar.csaba@dmlab.hu

Szólj hozzá!

2016.01.29. 18:46 Gáspár Csaba

Az első hazai sportanalitikai konferencia

Címkék: ajánló konferencia 2016 sportanalitika

a_1.jpgTanszékünk volt kollégái által gründolt U1 Research csapata a sportanalitika területén tart konferenciát 2016 február 25.-én. Ismereteim szerinte ez az első hazai ilyen típusú kezdeményezés, érdemes rá odafigyelni, a belépő ára is igen kedvező. 

Kedvcsinálónak idemásolom a konferencia felvezetőben megfogalmazott kérdéseket - azt hiszem ez nemcsak az adatelemzők, hanem a sport után érdeklődők szívét is megdobogtatja majd:

  • Mennyiben járult hozzá az adatelemzés a foci Eb-re való kijutáshoz?
  • Vajon segített volna több sportolót az olimpiára való kijutásban az adatelemzés?
  • Hogyan lehet a rendelkezésre álló adatokat a sport szolgálatába állítani?
  • Hogyan lehet maximalizálni a teljesítményt?
  • Hogyan lehet minimalizálni a sportsérüléseket?
  • Hogyan lehet növelni a bevételeket?

U1 Sport Data Analytics Summit - 2016

2016 február 25. - Boscolo Hotel, Budapest

Csak remélni tudjuk, hogy a hazai sport is nyitni fog az analitika iránt, és a hazai szakmai közegnek is jut ebből feladat. Az első fecskék már megjelentek, de én még sok élő példát nem ismerek. A BME-n levő tanszékünkön squash ütőkbe rejtett szenzorok elemzésébe folyik, külföldön élő hallgatóm a munkahelyén folyó munka kapcsán kanadai hoki csapatok mozgását elemezte, és nemrég találkoztunk egy nagy tanácsadó céggel, aki itthonról szolgáltat sportanalitikát európai futballcsapatoknak. Ha tudtok más hazai sportanalitikai projektről, bátran osszátok meg velünk kommentben.

(Kép forrása)

Szólj hozzá!

2016.01.28. 09:18 István Nagy

Versenyek kora

Címkék: verseny magyar telekom telekommunikáció bigdata

Talán nem kell bemutatnuk a csapatot abból a szempontból, hogy mindig is elég sok időt szántunk arra, hogy a különböző adatbányászati versenyeken elinduljunk és azokon minél jobb helyezéseket érjünk el. Nagyon hasznosnak tartjuk ezeket a versenyeket és a csapatunkban is elég nagy motiváló erővel bír az, hogy ilyen versenyeken elindulni nem csak megtűrt, hanem egyenesen támogatott dolog.

Emiatt nagy öröm számunkra, hogy itthon is egyre több verseny indul el, ahol nem csak a szervezők magyarok, de maga a probléma is (és így az adat is) hazai cégektől származik. Jó példa volt erre a BKK és SZTAKI által közösen kiírt Mol Bubi Challenge, vagy a Magyar Telekom és a Kitchen Budapest által életre hívott Big data contest. Ez utóbbi verseny egy ötletpályázat volt, amire konkrét, megvalósítható koncepciókat, prototípusokat vagy már működő megoldásokat vártak a kiírók, melyek telekommunikációs adatok Big Data módszerekkel történő kreatív felhasználásán alapulnak.

Csapatunk három ötletet is nevezett a versenyre, amiből kettő bejutott a tegnap délután tartott döntőbe is, ahol a Telekom héttagú zsűrije előtt kellett felvázolni az ötleteket egy pitchverseny keretein belül. Az első ötletünk a lemorzsolódás előrejelzésének megújítása volt. Az alapötletet az a gondolat adta, hogy lehet hogy egy pre-paid ügyfél számot cserél, de barátokat nem, ezért a hívásgráfok elemzésével azonosíthatóak azok az ügyfelek, akik igazából nem hagyták ott a cégünket, hanem csak új entitásként tértek vissza. 

A másik ötletünk az volt, hogy tegyük személyre szabottá azt, hogyan kommunikálunk az ügyfelekkel, akik valamilyen oknál fogva nem fizették be a szolgáltatásokért járó díjat. A projekt tapasztalatainkból jól látszik, hogy azzal, hogy az ügyfeleket a megfelelő csatornán, a megfelelő üzenettel, valamint a megfelelő kontextusban (tér és időbeli egyaránt) célozzuk meg, növelhető az akció (ez esetben a befizetési pontosság) hatékonysága. Ez utóbbi ötletet választotta a zsűri a legjobbnak, ezzel sikerült elhoznunk a verseny egymillió forintos fődíját.

Szólj hozzá!

2016.01.24. 11:35 Gáspár Csaba

Év eleji újratervezés

Címkék: évforduló menedzsment 2016

A világ állandóan változik, és Darwin óta tudjuk, hogy nem a legokosabb, nem a legerősebb, 
de nem is a legügyesebb lesz az, aki ezekből a változásokból a legjobban jön ki. 
Hanem az, aki legjobban 
alkalmazkodik a változáshoz.

Az évzáró megbeszélésünk elején közösen összegyűjtöttük, hogy melyik hónapban mi történt velünk az elmúlt évben. Ezt a táblázatot nézegettem a napokban, és azon morfondíroztam, hogy mennyivel léptünk előrébb egy év alatt, mi az amivel többet állíthatunk magunkról 2015 januárjához képest. A legkiemelkedőbb pontként a gyors tanulási görbe és az adaptációs képesség jelent meg idén.

comp_norb.pngAzért is érdekes ez, mert míg minden csapattagunktól ezt a tulajdonságot  magától érthető módon elvárjuk, addig egy cégtől általában azt követeljük meg, hogy egy-egy témához felkészülés nélkül értsen. Egyszerűen sután hangzik, ha azt mondom egy bemutatkozó találkozón magunkról, hogy gyorsan meg tudunk tanulni egy-egy új területet: ugyanis nehéz megkülönböztetni magunkat a mindent bevállaló fiatal lelkes srácoktól, miközben a gyors tanulás tulajdonsága mégiscsak az egyik legerősebb dolog ebben a gyorsan változó, napról-napra új technológiákat hozó data science világban. 

Természetesen személyesen önmagunkra lebontva is érdemes rácsodálkozni, miben jutottunk előre egy év alatt. Tapasztalataim szerint ezen az úton a legmesszebbre az Éviránytű mozgalom remek kis füzetével lehet  eljutni, javaslom ezt mindenkinek függetlenül attól, milyen területen tevékenykedik. Ez egy ingyenesen letölthető, kb. húsz oldalas munkafüzet jópofa feladatokkal az előző és a következő évre vonatkozóan. A korábbi évek tapasztalatai alapján mindenki le volt nyűgözve, aki belefektetett ebbe a belső munkába, és rászánt két óra nyugodt időt a kitöltésére. Az igazi kísérletezőknek pedig javaslom, csinálják meg a kérdőívet a saját cégükre is vonatkoztatva.

Változásokban gazdag Új Évet mindenkinek!

Éviránytű - www.yearcompass.com

"Zárd le 2015-öt. Tervezd meg 2016-ot."

Szólj hozzá!

2015.11.20. 20:02 Gáspár Csaba

Startup || Kultúra - Meghívó egy szokatlan előadásra

Címkék: előadás startup tmit 2015 BME

A startup szó sajátos csengést kapott a szakmai közösségekben. Egyszerre az egyik legmenőbb dolgok egyike, és egyszerre érezzük egyes esetekben kínosan magunkat egy-egy startup képviselőjének megnyilvánulásaitól. Csodálattal olvassuk a nagy felvásárlások után kiálló alapítók izgalmas sikertörténeteit, míg máskor fanyalogva értetlenkedünk azon, hogyan tudtak egy-egy ötlet mögé annyi tőkét bevonni. 

startup.jpgA startupokkal magam is sajátos viszonyt ápolok. A Radoop és az Enbrite.ly valóságát igen közelről láthathatom - egy irodában ülünk -, a szárnyaik bontogatásában közvetlenül nekem is volt szerepem, jó barátaim, kollégáim ülnek ezekben a csapatokban, így mindkettőben van üzletrészem. Kicsi ez a hazai szakmai közeg, mint egyetemi ember sok-sok volt hallgatót, egyetemi kollégát ismerek, kik szerencsét próbáltak és olykor megcsinálták a szerencséjüket a startupok világában. Nem utolsó sorban egy új startup kezdeményezésbe próbálunk a Dmlabbal életet lehelni, szóval nem vagyok nevezhető kívülállónak - de startupernek sem.

Ezért is volt elsőre (és sokadszorra) furcsa, hogy felkértek a Tanszékünk szervezte eseménysorozat kapcsán arra, hogy a startupokról alkotott véleményemről meséljek előadásban. Kétségkívül BME szűkebb berkein belül az egyik legtöbbet látott ember vagyok a területen, de a hazai startup közösségben egyáltalán nem vagyok egy véleményadó szereplő.

Hetek óta gyűjtöm a gondolataimat arról, mit lehetne egy rövid esti előadásban elmondani. Ma állt talán össze a fejembe minden ahhoz, hogy bátran hívjam meg a blog közösségét is erre a nyilvános előadásra, amit most csütörtökön, november 26.-én 18 órai kezdettel tartok a Műegyetem "I", mint Informatika épületébe, az IB019 terembe (belépve az épületbe jobbra, a porta mögötti klubterem). 

51014460282176d94aeaf544b8050ac3ef53c4d5ea0d9.pngHogy mire számíthattok tőlem? A startup világ és a kultúra világának párhuzamára fogom felfűzni azokat az erős véleményeket, melyeket összemazsoláztam az elmúlt években erről a területről. Sok sztorit és néhány elfogadott mondás mögött megbúvó féligazság leleplezését várhatjátok tőlem. Egyszerre leszek lelkesítő és kijózanító, izgalmas és unalmas - kicsit attól függően, hogy te mennyire merültél eddig ebben a világban. Egy biztos, én ezzel az előadással nagyon ki fogok lépni a komfortzónámból, és egy kicsit Téged is erre akarlak majd rávenni. 

Várlak szeretettel.

BME-TMIT Szeminárium: 

Gáspár Csaba: Tech startup kultúra sajátosságai

2015. november 26. csütörtök    18h-19h15

Budapest XI. kerület - Magyar tudósok körútja 2. BME I. épület IB019

Facebook esemény (köszönjük, ha itt jelzed érkezésed)

(Első kép forrása)

Szólj hozzá!

2015.10.27. 14:00 Gáspár Csaba

Mindeközben - A Kürt Akadémia nyílt napja - Pókfoci - [UPDATED]

Címkék: oktatás live twitter képzés vizualizáció bigdata kürt akadémia

[LIVE]

a_1.pngÉppen a Kürt Akadémia Data Scientist képzésének nyílt napján adunk elő Nagy István kollégámmal. Egyfajta pókfocira készülünk: élményt akarunk adni a data science világából a jelenlévőknek. A szakma eredeti szabályait egy kicsit megkavarjuk úgy, hogy mindenki csatlakozni tudjon a közös munkához: csak webes technológiákat használunk, a résztvevők gépére nem installálunk semmit, nem kell ismernie a résztvevőknek a gépi tanulási eljárásokat, sem programozási nyelveket - és 70 perc alatt megoldható feladatot keresünk. Szóval olyan lesz ez, mint a pókfoci.

Az első feladatban azt feszegetjük, hogy a Budapest és a data közösség egymásra találása mennyire érhető nyomon a Twitteren. Összehasonlítjuk ebből a szempontból Európa nagyvárosait, és az egészből gyártunk egy grafikont. Utána ingatlanárakban keresünk majd anomáliákat.

[UPDATE]

screen_shot_2015-10-28_at_18_38_16.pngA nyílt nap elég jól sikerült, nagyon kreatívak és kitartóak voltak a jelenlévők, még aznap be is telt a Data Scientist képzés teljesen, a maximális 25 főt elértük, meg kellett nyitni a várólistát.

Az első etapban készített grafikont ide is másolom. Az alábbi ábrán Európa fővárosai látható egy-egy színnel - minél sötétebb és nagyobb egy pont, annál többet twittelnek az adott város neve mellett a "big data" kifejezésről. Például n Budapest és a "big data" szó általában kétnaponta szerepel egy tweet-ben, ezzel a hetedik helyre futott be. A leggyakrabban Párizsban írtak róla a közelmúltban, ott naponta 1,3 tweet keletkezett. Az ábrán jól látszik, hogy Budapest jelentősen kiugrik a régióból.

Szólj hozzá!

2015.10.24. 18:04 Gáspár Csaba

Crunch Konferencia - Mérföldkő a hazai big data világban

Címkék: budapest konferencia 2015 bigdata big data datapest

Jövő héten lesz a Crunch Practical Big Data Conference a Millenáris Parkban, a hazai események közül egyértelműen ez lesz az idei év legnagyobb durranása. Most nem is a konferencia programját vagy a szervezőcsapatot szeretném méltatni, bár mindkettő megérdemli a dicséretet és az őszinte elismerésem. Gondolatmenetemet a konferencia hatalmas méretéből szeretném elindítani.

a.pngKezdetben ezzel volt a legnagyobb gond: nyár elején megvolt már a program, de még nagyon kevesen jelentkeztek az eseményre. Mikor nyár derekán regisztráltam, egy ebédnél rákérdeztem az egyik szervezőnél, hogy mennyien vagyunk már: nem árulta el a valós számokat, de annyit kikotyogott, hogy a RapidMiner, Enbritle.ly, Dmlab cégeket befogadó irodánkból, a RED-ből van a regisztráltak több mint 50%-a. Ez a szám még akkor is kicsi lett volna, ha mindenki jött volna a konferenciára az irodából. 

Nyár elmúltával beindult a marketing, és a hazai szakmai közösség önmagát felülmúlva hirtelen rádőlt a konferenciára. Először a helyszín variálásával növelték a befogadható jelentkezők számát, majd 450 főnél lezárták a jelentkezést. Azóta tudtommal több mint 100 érdeklődőt kellett elutasítani helyhiányra hivatkozva.

Ezek a számok hatalmasak. Emlékszem néhány éve mennyire elámultunk, mikor az akkori BI közösségből 300 főnyi érdeklődő összejött az ingyenes IQSymposiumra. Nyilván az is magyarázhatja a jelenséget, hogy a big data technológiák világa tágabb, mint üzleti intelligencia területe, de akkor is azt kell mondjam, hogy az siker mögött több van, mint pusztán a marketing ereje.

Az én olvasatomban mostantól tekinthetjük nagykorúnak Budapestet big data szempontból. Eddig az előretörést láttuk, a különböző nagy cégek megjelenését itthon, megosztottuk a különböző big data startup sztorikat, gombamód szaporodtak a meetupok a területen. Látható volt, hogy valami nagy dolog készülődik itthon, hogy többről van szó minthogy a big data világszintű előretöréséről. Ha ránézünk Európa szakmai térképére jól látszik, hogy Budapest és a big data egymásra találtak.

Mi következik ebből? Semmi hirtelen és egetrengető. Mint mikor az ember 18 éves lesz: tart egy hatalmas partit, aztán az élet megy tovább - de mégsem teljesen ugyanúgy. Már nem csak várjuk az nagybetűs életet, hanem benne élünk. A hazai big data valóság sem fog teljesen megváltozni, de mégis más lesz. Ahogy most az egész big data világát kicsit egységben tekintjük, úgy fog ez egyre jobban specializálódni, a szakmai közösség újra fregmentálódni. Ezért is lesz nagy ünnep a most csütörök-péntek, mikor ennyien fogunk egy térben tanulni, inspirálódni, kapcsolatokat építeni. 

Ha lemaradtál, ajánlok figyelmedbe egy másfajta új kezdeményezést: BData - Business és Big Data Konferencia 2015. november 4.-én lesz megtartva. Ez az egynapos buli azoknak az üzleti oldalról érkező nyitott embereknek szól, akik big data szemléletével megfertőzni magukat. Nagy István kollégánk is az előadók között van, egy remek interjút is közölnek a szervezők vele, ezt külön ajánlom figyelmetekbe)


BData - Business és Big Data Konferencia
2015. november 4.

Szólj hozzá!

2015.10.13. 18:13 Gáspár Csaba

Budapest BI Forum Konferencia - Ma, holnap, holnapután

a_4.jpgA workshopokkal indult ma az idei Budapest BI Forum konferencia, Kazi Sanyi kollégánk vitte a délelőtti Python bevezető tanfolyamot. Holnap, holnapután lesznek a különböző előadások, én csütörtök délutáni adatbányászati szekcióban és a hozzá kapcsolódó kerekasztalban kapok szerepet, én leszek ennek a résznek a házigazdája. Ebből kifolyólag régebb óta figyelem a konferencia ívének kialakulását, erről osztanék meg veletek néhány gondolatot. 

Training Day

Zseniálisnak tartom, hogy egy konferenciához workshopok formájában lényegében tanfolyamokat is párosítsunk. A legtöbb esetben akkora szakadék van a hétköznapok és az előadásokban kicsit túlhangsúlyozott jobb jövő és jobb technológiák között, hogy érdemes tenni azért, hogy ezt a távolságot áthidaljuk. Egy workshop arra ad lehetőséget, hogy egy-egy új terület, technológia területén az első lépésekben segítséget kapjunk, megkapjuk a kezdőlökést. Ha megnézitek az idei év kínálatát, azt látjátok, hogy ezt több irányból is meg lehet kapni: tanulni lehetett Python, R és RapidMiner környezetben történő adatelemzést, adatbányászatot.

Előadói gárda, előadások

Arató Bence szereti a programot az utolsó napokig finomítani, igazgatni, így hagyományosan nagyon későn kerül bemutatásra, mi is fog történni pontosan. A teljes program is eléggé rejtetten van jelen a honlapon, itt találjátok. Most újra átolvastam, átrágtam magamat rajta, és tovább erősödött bennem az érzés, hogy a data science világa mennyire gyorsan tágul. A programból kimaradtak a big data technológiai vonalak - erre idén ősszel a Crunch koncentrál -, így is elég széles spektrumból kapunk főleg külföldi előadókat. Van is egy-két "ezt nem szabad kihagyni" típusú előadás, másoknál csak Bence szelekciós technikájában bízhatok, hiszen nem volt időm mindenkinek utánanézni.

Adatbányászati szekció a nagyvállalatok szemszögének bemutatására

Kicsit kakukktojás jelleggel a konferencia végén külön szekcióban foglalkozunk majd azzal, hogyan reagálnak az új kihívásokra a nagyvállalatok. Miben változott a technológiai stack, hogy áll a helye az adatelemzésnek egy szervezeten belül, hogyan találják meg a megfelelő szakembereket a belső csapatokba. A két előadás előadóját egy OTP-s kollégával kiegészítve tartunk egy záró kerekasztalt, ahol kicsit feszegetjük majd, hogy mi is a valóság ennyi előremutató megoldás után. Külön örülök Főző Csaba jelenlétének, aki a Lloyds londoni központjában dolgozik, és betekintést enged majd abba, hogy ott hogyan működnek a dolgok. Csaba a Dmlabot 2007-ben megalapító  triumvirátus tagja, aki később az USA-ban, most Angliában dolgozik adatelemzési területen. Sok évvel ezelőtt Csaba beszámolóira alapozva kezdtünk el hinni abban, hogy van helye új elemzési eszközöknek, konkrétan az R nyelv használatának a nagyvállalati környezetben, megtörhető az akkori SAS-SPSS uralom az adatbányászat világában.

A korábbi években twitteres közvetítést adtunk egy-egy konferenciáról, idén erre most nem vállalkozunk. Egyszerűen annyira felbolydult ez a ma már data science világnak hívott terület, hogy a 160 karakteres kiemelések helyett arra akarok koncentrálni, hogy az új területeket egy nagy egységes világképbe tudjam helyezni. Annyira tágul ez az adatelemzési "univerzum", hogy ez egyre nehezebben megy. Hogy teljes képzavar: a big data jelenség mint ősrobbanás, mint egyfajta big bang mindent annyira átrajzolt a BI az adatbányászat körül, hogy ember legyen a talpán az a szakértő, aki ezt a világot most egészében átlátja. Pedig erre egyre nagyobb az igény....

Szólj hozzá!

2015.09.30. 20:43 Gáspár Csaba

Első hazai adatbányászati verseny

Címkék: verseny sztaki 2015 BME


a_3.jpgNyár óta vártuk, hogy elinduljon az első hazai szervezésű nyílt adatbányászati verseny, a MOL Bubi Challenge 2015. A verseny nevében ott a témája, a méltán népszerű városi közbringa rendszer adatai felett lehet versenyezni három külön kategóriában. A versenyt a hazai data science közösség egyik zászlóshajója, a SZTAKI Adatbányászat és Keresés Csoportja szervezi a BKK-val kooperálva. A verseny mindenki számára nyitott, de a pénzdíjat csak felsőoktatásban résztvevő hallgatók vihetik el.

Néhány szó a három feladatról:

  1. task - Jelezzük előre, melyek lesznek a legnépszerűbb kiindulási-érkezési párok a rendszerben
  2. task - Becsüljük meg, mely állomásokon mekkora igény alakul ki a bringákra a nap során, azaz hol fognak sokkal több kerékpárt kivenni, mint amennyit bevisznek oda
  3. task - Az adatok nyílt felhasználásra adott ötleteket, megoldásokat várnak - például ki tudja a legjobb vizualizációt készíteni az adatokhoz kapcsolódóan

Mi már belenéztünk az adatokba, mondjuk azt, hogy a feladatok igen furfangosak. Ez azt is jelenti, hogy kevésbé a gépi tanulási eljárások ismerete az előny, sokkal inkább az analitikus gondolkodás, az adatok jó átlátása és manipulálása áll a feladat középpontjában. Persze talán az jár majd a legjobban, aki mindkettőben kiemelkedő.

Külön üdvözöljük az első hazai verseny meghirdetését, remélem kellően nagy sajtónyilvánosságot kap majd ahhoz, hogy kicsit tágabb körben lássanak rá a hazai cégek, szervezetek, hogy így is érdemes keresni a kapcsolódási pontokat a hazai data science szakmai közönséghez. 

Ha vannak már tapasztalatod az adatok világából, bátran ajánlom neked a versenyt - még akkor is, ha eddig még nem ültél a Bubi bringáin.

Az elmúlt 5 hétben egy zárt hazai versenyen is részt vett csapatunk Műegyetemhez kapcsolódó oldala. Egy hazai nagyvállalat indított egy meghívásos adatbányászati versenyt, hogy ezúton válassza ki a neki megfelelő együttműködő akadémiai partnert. Jó feladat, izgalmas adatok, és a versenyfeladatot ügyesen fogalmazták meg, így igazán kreatív megoldások is belefértek a feladat megoldásába.

Bármelyik órában megkaphatjuk a választ, mi kapjuk-e a verseny kapcsán a megbízást. Szerintem már megvan a döntés, csak nem kaptunk még róla értesítést, emiatt már mindenki tűkön ül a csapatban.

Meglátásom szerint más üzleti szereplőnek is érdemes lehet hasonló módon tendereztetni a partnereit. Én például el tudnék képzelni olyan szituációt, mikor valamilyen vizualizációs eszköz bevezetését lehetne megalapozni egy ilyen megmérettetéssel. Bízunk benne, hogy egyre többeknek lesz ilyen kreatív kiválasztási ötlete - és bízunk benne, hogy a Dmlabot is meghívják majd ezekre.

Szólj hozzá!

2015.09.19. 18:03 Gáspár Csaba

Őszi inspiráció - Budapest legfontosabb konferenciái az adatok világából

Címkék: konferencia apache prezi 2015 Arató Bence

aa.pngA nyári pihenés után felmerül az igény, hogy a szakterületünkön is kapjunk újabb inspirációkat - erre az egyik legalkalmasabb lehetőség egy színvonalas szakmai konferencián való részvétel. Erre ezen az őszön sok lehetőségünk van, én most kettőt szeretnék kiemelni nektek Később kicsit részletesebben is írunk róluk. 

 

 

Crunch Practical Big Data Conference
Időpont: október 28-30.           Honlap: crunchconf.com

A Prezi egyik előremutató szokása, hogy nemzetközi szinten is kimagasló előadókkal hoz össze szakmai konferenciákat Budapestre. Az első big data konferenciájukat ősszel tartják olyan előadókkal, melyeket a nemzetközi adatos világban nagyágyuk. Ilyen előadókat hallgatni eddig leginkább a youtube-on tudtunk, nagyon erős élmény lesz őket egyben, ennyire koncentráltan találkozni velük. Egyenőre még csak az előadók listáját tudjátok böngészni, javaslom nézzétek át; ezt látva azok fognak lelkesedni, kik nemzetközi technológiai környezetben, startupokban, technológiai cégekben ülnek, de nyilván mindenki számára nyitott a konferencia.

Budapest BI Fórum
Időpont: október 13-15.          Honlap: budapestbiforum.hu

A komoly hagyományokkal bíró Budapest BI Fórumot már nem kell bemutatni, évek óta szoktunk közvetíteni róla. Amíg itt sincs fent a teljes program érdemes a korábbi évek felhozatalán ellenőrizni, mennyire illik hozzánk a konferencia szellemisége. Az a szakmai összejövetel kifejezetten a hazai data science világát célozza - ehhez hazai és nemzetközi előadókat vonultat fel. Külön kiemelném a kapcsolódó workshopokat, képzéseket is. 

Mivel mindkét konferencián részt fogunk venni, így várhatóan némi közvetítésre is számíthattok majd a szokásos formában, illetve mindkét esetben részletesen írunk az adott konferenciáról a következő napokban. 

Ráadás - ApacheCon

Az Apache: Big Data európai szintű konferenciát tart szeptember 28-30 között - már a program átlapozása is tanulságos és magában inspiráló. 

Szólj hozzá!

2015.09.07. 19:16 Gáspár Csaba

Őszi oktatás nem BME hallgatóknak

a_1.jpgEbben a félévben is lehetőség van a Dmlab csapata által oktatott egyetemi órákra külsősként is bejárni. Az előző félévben ez a lehetőség nagyon népszerű volt, összesen 31 ember jelezte, hogy szívesen csatlakozna egy-egy óránkhoz. Jelentős részük be is járt az órákra, a visszajelzések nagyon jók voltak. 

Idén egy kicsit más a kínálatunk, és a jelentkezést is megújítjuk. Már most látszik, hogy az egyik tárgyunkra nagyon sok külsős jön, így a regisztrációt mindenkitől kérjük. Fontos, hogy a tárgyhoz bármikor csatlakozhattok, be lehet kapcsolódni a félév felénél is. Mivel általában gyakorló szakemberekről van szó, így az első néhány hét kihagyása egyáltalán nem gond.

És akkor a tárgyak:

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Kedd - Q épület QB104, Csütörtök I. épület IL105 (Lágymányosi Kampusz, Magyar tudósok körútja 2.)
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A témát a reguláris kifejezésekkel, illetve az awk szövegfeldolgozóval kezdjük, majd SAS programozási nyelvet, Pyhon és R programozást tanítunk úgy, hogy közben a legfontosabb gépi tanulási feladatokat is röviden áttekintjük. A félév során három kisházit adunk a hallgatóknak, majd vizsgával zárul a tárgy. Ezek ugye nem kötelezők a külsős hallgatóknak, de ha valaki meg szeretné méreti magát, annak adunk lehetőséget.

 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Kedd 12-14h
Terem: Kedd - Q épület QBF13 (Lágymányosi Kampusz, Magyar tudósok körútja 4.)
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A Mapreduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen el fog tájékozódni a bigdata technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Ha a webes adatbányászat alapjai érdekesek számodra

Tárgy neve: Szöveg- és webbányászat
Szerda 10-12h, (kéthetente) Csütörtök 8-10   
UPDATE: Rögzítéskre kerültek az időpontok: November 11. szerda, november 18. szerda, november 19. csütörtök, november 25. szerda 
Terem: Szerda IE220, Csütörtök QBF10
Tárgy leírása a tanszéki honlapon

Ez a tárgy az előző félévben futott Adatelemzési platformok folytatása, ahol a mellékspecializációs hallgatók a szövegelemzés, -bányászat, illetve a webes adatbányászat alapjait sajátíthatják el. Mivel ebben a tárgyan a Dmlab csapata csak ez utóbbi részt oktatja, így meghívni is csak erre a részre tudunk titeket. A téma önállóan is értelmezhető, és a webes adatbányászat alapjaival foglalkozik majd. Fontos, hogy a webanalitikával, vagy például a Google Analytics mélységeivel ebben a tárgyban nem foglalkozunk - a fókusz arra vetül, hogy a webes világból származó adatokkal mit tud kezdeni egy adatelemző.

(kép forrása)

 Jelentkezés

Kérünk, hogy az alábbi form segítségével jelentkezzél. Néhány napon belül visszajelzünk a jelentkezésedről, de a szeptember 8-10 időszakban a visszajelzés nélkül is bátran gyere az órára el.

Jelentkezési form

 

 

Szólj hozzá!

2015.08.30. 12:32 Gáspár Csaba

BME Választható tárgyak a big data világából

a.jpgEz a kedvcsináló direktben a Műegyetem hallgatóinak szól, szeptember első hetében nekik kell ugyanis döntenie arról, milyen tárgyakat hallgatnak az adott félévben. Most ősszel két olyan választható tárgyunk indul, amit bátran ajánlok mindenkinek, akit a data science világa, vagy a big data területe érdekel.

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Tárgy hivatalos tematikája


Az elmúlt évek technológiai trendjei kapcsán egyre nagyobb az igény az olyan adatelemzésben járatos szakemberek után, akik nemcsak értik és használják a különböző adatbányászati eljárásokat, hanem komplex adatfeldolgozó megoldások implementálásával is megbízhatók. Egyre nagyobb szerepet kapnak ma a különböző adatelemzésre szakosodott programozási nyelvek, ezekre koncentrál a választható tárgyunk is. Foglalkozunk az alapszintű adatfeldolgozó megoldásokkal, a SAS programozási nyelvel, majd az R illetve a python nyelv adatfeldolgozásra specializált részeit ismertetjük meg. Sok gyakorlati példa, valós adathalmazok, veterán adatelemző kollégák, értelmes házifeladat és követelmények. Ezt az új tárgyat most másodszorra hírdetjük meg, nagyon szeretnénk, hogy idén is összejöjjön az indulásához szükséges létszám.

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Kedd 12-14h
Tárgy hivatalos tematikája

Azt hiszem a big data jelenséget senkinek sem kell bemutatnunk, átszövi a teljes IT világát. De milyen technológiák azok, amelyek tényleg nagy adatmennyiségeket képesek megmozgatni, amik sokgépes klaszterekek között osztják el a számításokat, amikre rábízhatjuk nagy adattömegeket. A tárgy fókuszában a Hadoop és a köré évről-évre egyre nagyobbra duzzadó big data technológiai stack áll. A hazai big data szakma legjobbjai tartják az órákat, a követelményekben szerepel egy kisebb Hadoop alapú rendszer felépítése, mint házifeladat - egy fiatal mérnökkel kevés jobb dolog tud történni, mint ennek vagy a fenti tárgynak az elvégzése.

(Kép forrása)

Külsős hallgatók fogadása


A hagyományoknak megfelelően a fenti két tárgy a külsős kollégák előtt is nyitva lesznek de az ő jelentkezésüket a csak egy héttel később, a hallgatók után várjuk. Mivel a választható tárgyakon túl más előadást is tartunk, így számukra egy kicsit szélesebb körből tudunk ajánlani órát - ami azért is fontos, mert a választható tárgyak kötelezően délben kezdődnek, így munkahely mellett azokat nehezebb végezni.

A részletekkel hamarosan jelentkezünk itt a blogon.

5 komment

2015.07.29. 10:00 Ragány Csaba

Python - A pandas szépségei (3. rész)


Ez a bejegyzés az egy héttel ezelőtti Python - A pandas szépségei (2. rész) poszt folytatása illetve egyben a sorozat lezárása. Túl sok felvezető szöveget itt sem szeretnék, úgyhogy íme a befejező epizód:

Szólj hozzá!

2015.07.22. 10:00 Ragány Csaba

Python - A pandas szépségei (2. rész)

Címkék: python best practice pandas


Ez a bejegyzés az egy héttel ezelőtti Python - A pandas szépségei (1. rész) poszt folytatása. Túl sok felvezető / összefűző szöveget nem szeretnék ejteni, úgyhogy íme a folytatás:

Szólj hozzá!