Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (4) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (25) big data (10) Big Data (3) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (3) datasource (1) data engineering (1) data mining (1) data science (8) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) egészségügy (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.09.17. 20:59 Gáspár Csaba

Hol van dugó Varsóban?

Címkék: verseny siker 2010 ieee mytraffic belami forgalomelőrejelzés icdm

Egy érdekes adatbányászati versenyről szeretnék nektek beszámolni, melynek eredményét a napokban hirdették ki. Az ICDM konferenciához köthető versenyeket szerintem mondhatjuk a második legrangosabb évente megrendezésre kerülő megmérettetésnek, ezért is örültünk nagyon, mikor nyár elején kiderült, hogy az idei IEEE ICDM Contest feladata a közúti forgalom előrejelzéséhez köthető. Aki rendszeres olvasónk az talán korábbi blogbejegyzéseinkből (ezeket itt eléred) tudja, hogy az IKTI néhány lelkes kutatójával együtt a BelAmI projekt keretein belül pont egy ilyen problémán dolgozunk a mytraffic.hu oldalhoz köthetően.

A verseny során Varsó úthálózata felett három alfeladatot határoztak meg a szervezők.

  • Konkrét útszakaszok forgalmát kellet előrejelezni az alapján, hogy milyen forgalom volt eddig az útvonalon (ez volt a legnépszerűbb feladat).
  • Meg kellett mondani, hogy az egyes útszakaszok milyen sorrendben válnak járhatatlanná (szekvenciák előrejelzésére volt visszavezethető a feladat).
  • Az utolsó feladatnál GPS adatok alapján figyelhettük, mi történik az egész városban, és ez alapján kellett 100 kiválasztott útszakaszon rövid és középtávú előrejelzést tennünk a várható forgalmi viszonyokra (mekkora lesz az adott útszakaszon az átlagsebesség).

Mindhárom területen idő hiányában nem dolgoztunk, hanem kiválasztottuk egyből a harmadik, egyben legnehezebb feladatot. A nehézségre jellemző, hogy míg az első problémára több mint 100 megoldás érkezett, addig a harmadikra csupán 17. Ennek oka pedig abban keresendő, hogy ennyi adatelőkészítési teherrel még sosem láttunk adatbányászati versenyt. 

Először is az autók GPS mozgását rá kellett vetíteni Varsó úthálózati gráfjára. Ez a korántsem triviális feladatra céleljárást kell fejleszteni. Szerencsékre hasonló problémát az IKTI-ben dolgozó kollégák már oldottak meg a mytraffic.hu kapcsán is, ennyi előnyünk már volt a többiekkel szemben. Ezt követően különféle a célba vett 100 útvonalhoz egyenként saját attribútumhalmazt kellett generálni úgy, hogy a bemenetünkön tipikusan gráfinformációk voltak elérhetők. Itt a szokásos 80-20 szabály az adatelőkészítés és modellezés közötti arányra teljesen felborult, sőt a modellezésre igazán nem is maradt elég idő. (Mire nem jó, ha logolja az embere a munkaidejét: szinte leírni is alig merem, de nálam a modellezésre a versennyel kapcsolatos összes munkám alig másfél százaléka jutott, pedig az utolsó éjszaka a modellezés jelentős része rám hárult.)

Mint sok más versenynél, most is jól jött volna, ha egy nappal később van a határidő. Az utolsó 10 percben három olyan megoldást is beküldtünk, ami jelentősen jobb volt az előzőnél.

Végül nagy örömünkre a hetedik helyet sikerült elérnünk (lásd a leaderboadon) a csapatunkkal, ami most speciális módon "BME-TMIT + BAY-IKTI" színekben indult. Köszönet a munkában résztvevő kollégáknak, név szerint:

  • Prekopcsák Zoltán - BME-TMIT
  • Gáspár-Papanek Csaba - BME-TMIT
  • Parisek Zsolt - BAY-IKTI
  • Ruzsa Zoltán - BAY-IKTI
  • Szigeti János - BAY-IKTI 

Még nem tudjuk mi lesz a következő verseny, amire benevezünk, ha valakinek van ötlete, talált egy jó lehetőséget, ne habozzon megosztani velünk.

2 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr872304162

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

tnsnames.ora 2010.09.18. 09:44:57

Nagyszerű cikk, köszönet a remek infókért és összefoglalásért.

Ami a felhívást illeti, mivel ti mozogtok nagyon versenyközelben, bennem kézenfekvően merül fel, hogy amint tudomást szereztek egyről pársoros hírben megemlítitek ezen a blogon és ezt már könnyebb lesz kiegészíteni az errejáróknak.

Nem tudom mennyire él még, a KDD-verseny, ami talán a legnevezetesebb, az minden évben februárban startol nyár elején végződik, augusztusban van belőle konferencia.

Gáspár Csaba 2010.09.19. 11:22:30

@tnsnames.ora: A hagyományos nagy versenyeket, a KDD Cup-ot, az ICDM Contest-et nehéz nem észrevennünk, de néha kiírnak olyat is, ami sokkal eldugodtabb, de mondjuk pont az egyik kutatási témánkhoz kapcsolódik.

Egyszer talán írok arról is, hogy szerintem miért jó versenyezni, mert szerintem ez egy olyan tudásforrás, aminek parlagon hagyásának bűne csak akkor világlik ki, ha az ember már belefogott az ilyen tapasztalatok szerzésébe.