Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) bi (13) BI (3) Bi (1) bi-trek (1) biconsulting (7) bigdata (22) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (2) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2011.11.06. 08:07 Gáspár Csaba

Adatbányászat, mint sport

Címkék: verseny kockázati tőke üzleti modell kaggle

Sokat törtem korábban a fejem azon, hogy milyen üzleti modell  alakulhat ki az adatbányászati versenyek körül, tavaly még előadást is tartottam az IQSymposiumon az ide vágó gondolataimról (az előadáshoz kapcsolódó blogposztot itt találod). Az első jelei már akkor láthatóak voltak annak, hogy ebben a világban komoly üzleti lehetőség van, de talán ezt akkor még csak kevesen vették komolyan.

Már akkor lehetett látni, hogy a www.kaggle.com weboldal ebben az újonnan alakuló üzleti környezetben központi szerepet fog játszani. Ez az oldal egyszerű lehetőséget adott arra, hogy versenyeket írjanak ki cégek néhány ezer dolláros díjakért, és megfelelő felületet adott a csapatok kezeléséhez, az eredmények nyomkövetéséhez és publikálásához. Ha megnézi valaki a weboldalt, láthatja, hogy mi is írtunk ki már rajta versenyt: az Adatbányászati technológiákkal foglalkozó választható tárgyunk házifeladatai hagyományosan egy-egy hallgatói versenyként szoktak megvalósulni, idén a Kaggle adja hozzá a keretet.

Honnan jönnek a versenyzők - Magyarország a sok angliai adatbányász versenyző miatt nem látható (Forrás: Kaagle.com)

Örültem annak, hogy valaki platformot ad alánk, de én sem gondoltam bele igazán, hogy milyen értékes adatok gyűlnek össze magánál a versenyt lebonyolító oldalnál. Ezért is döbbentett meg elsőre, mikor a Kaggle csütörtöki közleményében azt olvastam, hogy 11 millió dolláros kockázati tőke befektetést kaptak. Miért adna bárki is 11 millió dollárt egy oldalnak, aki versenyeket szervez? A válasz abban az általam zseniálisnak tartott üzleti modellben van, aminek körvonalait a bejelentés kommentárjából lehet megsejteni. A modell lényege, hogy a jövőben kétfajta versenyt kívánnak szervezni:

  1. Nyilvános verseny - A hagyományosnak mondható versenyeket továbbra is folytatják. Ekkor a feladatot meghirdető cég néhány száz vagy ezer dollárt ajánl fel a verseny legjobbjainak, amit a legjobb megoldásokat készítők kapnak meg. Ekkor az adathalmaz nyilvánosan elérhető, tipikusan publikálni szokták a legjobb megoldás gondolatát, illetve bárki jelentkezhet a versenyre, akinek kedve van megmérettetni magát egy ilyen környezetben. Ha a sporttal szeretnénk párhuzamot vonni, akkor lényegében ezt nevezhetjük amatőr sportolóknak szóló nyilvános versenynek.
  2. Privát verseny - A versenyben használt adathalmaz nem publikus, és nem is indulhat el rajta bárki, csak az akit a Kaggle meghív, mint résztvevőt. Cserébe már magáért a részvételért pénz jár, bár gondolom itt is külön díjazzák majd a legjobb eredményeket. Ez már a profi sport világa: a már bizonyítottan ütőképes sportolók akár már meg is élhetnek az így szerzett jövedelemből, ide bárkit nem szerződtetnek le.

A két módszer kombinációjával tehát egy nagyon ütőképes szolgáltatást tud adni a Kaggle, nem hiába tudta meggyőzni a befektetőket (akik között a Google és a PayPal neves szakemberei is ott vannak), hogy érdemes ebbe fektetni a pénzük. Tudják kik az adott feladatra jó szakemberek (már most sok-sok adat áll rendelkezésükre az elmúlt évek általuk bonyolított versenyeiből, közel 19 ezer regisztrált játékosuk van), könnyen meg tudják őket keresni, hogy néhány hónapig akár az eredeti állásuk (vagy hallgatói jogviszonyuk) mellett dolgozzanak otthonról egy-egy remek feladaton. Az egész mögött az első Netflix verseny alapgondolata húzódik meg: dolgozzunk a legjobbakkal úgy, hogy nem kell őket felkutatni, magunkhoz csábítani, egy irodában leültetni.

A kezdeményezés kapcsán egy ígéretes lehetőség fog nyílni arra, hogy a kompetenciánkat könnyen tudjuk az országhatáron kívül, sőt egyenesen a tengerentúlon kamatoztatni. Alig várom, hogy kiderüljenek a részletek, jó lenne ha a DMLab csapata bekerülne a profi ligába. Mindenesetre most hirtelenjében az amatőr versenyek szerepe felértékelődik: ott lehet bizonyítani a rátermettségünket.

A Kaggle bejelentésétől függetlenül többektől hallom mostanában, hogy elkezdtek különböző adatbányászati versenyekkel játszani. Ezért is gondoltam arra, hogy a blog olvasói körében készítek egy villámfelmérést egyetlen kérdéssel. Nagy örömömre szolgálna, ha elküldenéd nekünk a válaszodat.

5 komment

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr483357316

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

vk89g1 2011.11.10. 18:55:26

Sziasztok!
Vesztek most részt épp futó Kaggle versenyen?

Gáspár Csaba 2011.11.15. 23:34:23

@vk89g1: Szeptember végén zártunk egyet, és néhány hosszabb távú versenyben egy-egy hallgatóval, vagy szólóban versenyzünk, de a szokásos csapatban történő versenyzés Q4-ben nálunk nagyon ritka - ilyenkor a projektzárásokra kell koncentrálnunk. De annyit mindig megteszünk, hogy a kiírt versenyeket követjük, az adatokat letöltjük, mert ezek az adatok gyakran jó példaadathalmaznak bizonyulnak.

Régi tervem, hogy a Műegyetemen akkreditáltatok egy olyan szemináriumot, ahova versenyezni vágyó hallgatók, doktoranduszok jelentkezhetnek, de a BME felénk eső (értsd Villanykar) részén az ilyen fajta tárgyaknak nincs hagyománya.

szajberpiraty 2011.12.05. 09:56:06

Én részt veszek egy Kaggle versenyen (Don't Get Kicked). 284-ből 225.-ik vagyok. (Ez rossz egy kezdőtől, vagy elmegy?)

Érdekes, és sokat lehet belőle tanulni.

Sőt izgalmas is, a submission küldése kellemes izgalommal jár (bevált a próbálkozásom vagy sem...).

István Nagy 2011.12.05. 09:58:17

Semmiképpen nem rossz ez egy kezdőtől, nálunk is az első cél, hogy a baseline megoldásokat megverjük. És igen a versenyzésben mindig a felküldés előtti másodpercek a legjobbak, amikor kiderül, hogy pár óra/nap szívás eredményezett-e bármit is :P

Gáspár Csaba 2011.12.05. 18:59:42

@szajberpiraty: A kezdőket mindig arra bíztatjuk, hogy a baseline megoldások megverésével kezdjék a munkát. A versenyek nagyon jó tanárok, mert olyan hibákra tudják rávilágítani a figyelmet, amit egy tantermi vagy egyéb tanulási környezetben nem lehet érzékelni. És ami még nagyon fontos: ad egy olyan gyakorlatot, ami alapján a későbbi problémák megoldása sokkal gyorsabban, kevesebb vargabetűvel válik megoldhatóvá.

Szóval hajrá.