Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2009.12.06. 12:44 Gáspár Csaba

AusDM Analytic Challenge

Címkék: verseny adatbányászat szavazó eljárások netflix prize R nyelv

A címben megnevezett versenyen csavartak egy kicsit a szokásos osztályozási/regressziós feladatokon: a célváltozót nem a szokásos módon adott magyarázó változókból kellett megjósolnunk, hanem már kész modellek kimenetét kaptuk bemenetül (több mint 1000 regressziós eljárás tippje volt adott bemenetként). A feladatunk lényegében egyfajta szavazás, bizottsági eljárás létrehozása volt, ami a sok modell adta tipp ismeretében prediktál. 

Az adatok minden idők legnagyobb adatbányászati versenyének (Netflix prize) adataihoz kapcsolódtak: néhány versenyző megosztotta a szervezőkkel a feladatra adott modelljeinek kimenetét. A verseny kiírói valójában négyfajta, első ránézésre független feladatot kreáltak az adatokból, különböző számú bemeneti modellen hol osztályozási hol regressziós feladatokat kellett megoldani. A különböző feladatoknál bár ugyanabból az ezervalahány modellből volt kiválasztva az aktuálisan összekombinálandó modellhalmaz, de azok véletlenszerűen voltak kiválasztva. Ami az egyik adathalmazban az első attribútum volt, arról nem tudtuk, hogy egy másik feladat adathalmazában szerepel-e és ha igen, melyik attribútum az.

A feladat egy másik különlegessége az volt, hogy a beadandó versenyfeladatokon kívül egy külön feladatot kreáltak azért, hogy leaderboardot, létraversenyt is hirdethessenek a szervezőknek, de ez a létraverseny - sajnálatunkra - nem volt része a hivatalos megmérettetésnek.

A feladaton egy ügyes matematikus hallgatóval, Fodor Gáborral ketten kezdtünk dolgozni. Hamar kiderült hogy elég nehéz fogást találni a problémán. Ennek oka az volt, hogy a modellek nagy hibával közelítették a célváltozót, nagyon nagy volt a zaj a predikciókon. Minden megoldás, ami kicsit is segíteni tudott a pontosság javításában nem volt más, mint egy-egy zajcsökkentő eljárás.

Gábornak köszönhetően végül egyetlen eredeti ötletet tudtunk bevetni a feladat megoldásához: a statistical matching technikáját alkalmazva arra tettünk kísérletet, hogy a 6 különböző feladat adathalmazaiból (a leaderboardhoz tartozó adathalmazból is kettő volt, ehhez jött a négy versenyfeladatban kiadott adathalmaz) egy nagy, egységes adathalmazt hozzunk létre. A feladatot az egyes modellek kimenetéhez tartozó eloszlásfüggvények illesztésével hajtottuk végre, ami során természetesen akár tévedhettünk is, azaz két különböző modell kimenetét kapcsoltuk össze. Ezáltal a tanító minták számát tudtuk megnövelni.

A módszer a leaderboard adathalmazon nagyon jól működött, ott az egyik kategóriában a második helyet hozta nekünk egy egyszerű regressziós modellel is. Sajnos a többi, nagyobb adathalmaznál már kevésbé segített a bemeneti adathalmaz méretének növelése, így a legjobb helyezésünk is csak a 8. hely lett a négy különböző feladat közül. Összesítésben a 12. helyen futottunk be, de jól jellemzi a feladatot, hogy a közel harminc versenyző közül mindössze hat csapatnak sikerült túlszárnyalnia a szervezők legjobb baseline eljárását. A csapatok megoldásainak leírása a verseny honlapján elérhető.

A verseny egyik tanulsága számunkra az, hogy statistical matching technikáját igenis be kell építeni a fegyvertárba, ennél a versenynél minimális munkabefektetéssel egész jó helyezést hozott nekünk. A legjobb megoldásokat leadó csapatok munkáját figyelve pedig látható, hogy egyre komolyabb szereplő lesz a szakmában az R programozási nyelv.

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr151577642

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.