Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) Bi (1) BI (3) bi (13) bi-trek (1) biconsulting (7) bigdata (22) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.06.23. 22:10 Gáspár Csaba

KDD Cup 2010 - Tanulságok

Címkék: microsoft verseny tanulság 2010 kdd döntési fák

Mindig nagy örömmel és izgalommal megyünk neki egy-egy adatbányászati versenynek. És persze nagyon sokat tanulhatunk belőle, hiszen egy-egy ilyen verseny lényegében egy tiszta miniprojektnek tekinthető: éles határidő, tiszta célok, gyakran rossz minőségű vagy kinyomozhatatlan jelentésű adatmezők, szűkös erőforrások. A csapatunk best practice ismeretének egy része ilyen versenyek kapcsán alakult ki, több kutatási irány is ilyen témából nőtte ki magát. 

Korábbi bejegyzésünkben már említettük, hogy az idei KDD Cup versenyre is adtunk be megoldást. A munka oroszlánrésze az utolsó 4-5 napban született, de ezalatt az idő alatt is jól látható, hogy csak ügyes belső konvenciók mentén lehet összefogni olyan projekteket, ahol az adatelőkészítési eljárások, a modellek, a behangolt paraméterek a projekt utolsó napján is megváltozhatnak. Fontos, hogy az egész adatelőkészítési és modellezési folyamatot az utolsó órában is egy gombnyomásra reprodukálni lehessen, akár egy másik adathalmazra is (a versenyen két hasonló adathalmazon kellett független megoldást adni). 

A modellezés kapcsán meglepetéssel szolgált a Microsoft adatbányász eszközében található döntési fa eljárás, melynek működéséről semmit sem tudunk, nem is paraméterezhető, hangolható. Ennek ellenére nagyon jó minőségű predikciót tudott adni, maga mögé utasított több más szoftverben implementált osztályozó eljárást is (bizonyos szoftvereknél a több tízmillió soros adathalmazon az eljárások gyakran nem is futottak le, három-tíz óra után állítottuk le őket - hiába, az utolsó napokban az idő a kritikus pont).

Ugyanakkor a saját, a feladatra specializált célalgoritmus készítése meghozta a várt eredményt: Fodor Gábor kollégánk egy speciális, általánosított mátrixfelbontásos technikával érte el házon belül a legjobb eredményt, amit a többi, más elven működő megoldás kombinálásával tudtunk tovább javítani.

A munkánk végül meghozta gyümölcsét, a DMLab néven futó csapatunk a hivatalos eredmény szerint a 8. helyen végzett. A helyezés a versenybe való beszálláskor kialakított magunkkal szembeni elvárásainkat is felülmúlta. Ezúton is köszönöm a versenybe tett munkáját Fodor Gábor, Hellinger Péter és Prekopcsák Zoltán kollégámnak, jó volt velük dolgozni.

UPDATE:

Gyula kérésére mellékelek egy ábrát a végeredményként publikált pontossági adatokról (a képminőségért elnézéseteket kérem, nem találtam jobb megoldást):

 

 

 

3 komment

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr702105147

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

matroid 2010.06.30. 22:38:28

Csaba,
gratulalok!

azert nehany kerdes.
- pontosan mi is volt a feladat?
- es milyen eredmenyeket ertetek el?
- mennyire voltatok az elsotol?

gyula

Gáspár Csaba 2010.07.06. 11:10:59

@matroid: Örülök az érdeklődésnek, mellékelem a kérdésekre a választ:

1.) A célváltozó bináris volt, nevezetesen hogy az adott feladatot az adott hallgató meg tudta-e oldani vagy sem. Ennek értékét kellett megtippelni (0-1 közötti számot tippelhetünk), aminek a négyzetes hibáját számítják ki. A feladat - bár weblog jellegű adatokról van szó - de inkább hasonlít egy ajánlórendszerekhez köthető feladatra (melyik hallgató, melyik feladatot oldja meg jól). A teljesen pontos feladatleírást a verseny weboldalán olvashatjátok.

2.-3. Az átlagos négyzetes hiba értéke az első tíz helyezetnél így alakult:

1 National Taiwan University 0,272952
2  Zhang and Su 0,27369200
3  BigChaos @ KDD 0,27455600
4 Zach A, Pardos 0,27659000
5 Old Dogs With New Tricks 0,27786400
6 SCUT Data Mining 0,28047600
7 pinta 0,28455000
8 DMLab 0,28597700
9 FEG 0,28876400
10 FEG-K 0,28987700

Gáspár Csaba 2010.07.06. 11:28:28

@matroid: Az első 28 helyezett átlagos négyzetes hibáját tartalmazó táblázatot felraktam a bejegyzés végére, ott talán jobban lehet látni, hogy mennyire volt tőlünk az első helyezett.