Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.06.12. 12:41 Gáspár Csaba

Miért és miről hallgattunk (KDD Cup és Modeler 14)

Címkék: verseny 2010 spss modeler spss clementine kdd

Több mint fél éve blogolunk aktívan, soha ilyen sokáig nem hallgattunk, mint az elmúlt két hétben. Hogy megtörjem a csendet gyorsan leírom mi akadályozott minket az elmúlt hetekben, és hogy milyen  hírek vannak, amiről jó lett volna már korábban is írni.

KDD Cup 2010

A hét elején volt az idei KDD Cup adatbányászati verseny, aminek utolsó hetébe mi is bekapcsolódtunk. A téma látszólag eléggé érdektelen: amerikai diákok matematikai képességeit fejlesztő e-learning rendszer logjait kellett elemezni. A háttérben azonban olyan feladatokat kellett megoldani, amikkel tipikusan ajánlattevő rendszerek esetén találkozhatunk.  

SPSS Modeler 14

Erről írhattunk volna már korábban is. Megjelent az új Modeler (Clementine), egyelőre még csak webes tutorialok és reklámanyagok segítségével tudtam róla tájékozódni. Úgy látom, hogy jelentős újdonságok vannak benne, néhányra már régóta vártam (bizonyos modellfrissítő scriptek kiváltása, speciális boosting és bagging technikák megjelenése, jobb megjelenítése az eredményeknek). Akit érdekelnek az újdonságok, június 17-én, csütörtökön lesz egy bemutató szeminárium az Óbudai Egyetemen (részletek itt). Ha a kezem közé fog akadni egy Modeler 14, akkor majd írok itt egy összeállítást arról, hogy szerintem milyen új dolgok kerültek bele. Aki nem bírja ezt kivárni, az nézzen itt körül.

World Cup 2010

Az elkövetkező négy hetet a futballvilágbajnokság témája fogja uralni, erre a hullámra minden cég marketingese fel szeretne ülni. Ebben az a vicces, hogy idén - részint a sohasem látott fogadási divat miatt - az adatbányászat is helyet kért magának. Egyre több helyen látok különböző programokat, elemzéseket, melyek a meccsek előrejelzésére tesznek kísérletet (néhány példa itt, itt, itt és itt). Kár, hogy csak négyévente lehet megnézni, hogy mennyire jók ezek a modellek...

Aki még mindig úgy érzi, hogy többet olvasna, annak javaslom nézze meg az előző posztunk kommentjeit az adatbányászati szoftverek áráról, az open source megoldásokban rejlő lehetőségekről (Adatbányászati szoftverek rangsora).

4 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr12076080

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

tnsnames.ora 2010.06.13. 09:02:15

Hát idevágóan sok sport-, sok játék- és csipetnyi szakmai észrevételt lehet tenni. :)

Ha idevesszük az EB-t is, akkor kétévente is lehet a témát körbejárni, nemcsak négyévente a VB-nél. :)

Ilyenkor - az én tapasztalatom szerint - lázas tippelőbajnokságok vannak szerte az országban. Munkahelyi, baráti közösségek raknak össze kis pénzalapot, hogy a nyertes aztán mindent vigyen.

Én azt a játékfajtát ismerem, hogy minden tippelő -> minden meccsre vagy előre az összeset, vagy időben folyamatosan meccsenként, egy-egy konkrét eredményt tippel. Ha az irányt eltalálja valaki az egy pont (ki nyer, vagy döntetlen), ha a pontos eredményt is eltalálja az három pont.

Én az életem során a 2004-es EB-t nagy előnnyel nyertem az akkori munkahelyemen (remek érzés volt :o), a 2006-os VB-t egy olyan srác nyerte nálunk, aki bár nem volt kötelező de _előre_ felírta a teljes táblát és úgy nyert nagy fölénnyel (68 pont), hogy mi fordulóról-fordulóra tippelve sem tudtuk megszorítani. Egy másik társaságnál is érdekelt voltam ekkor, de emlékszem nagyon csúnyán 'leszerepeltem'. A 2008-as EB emlékszem nagyon nagy izgalmakat hozott. És idén lesz az első, hogy nem vagyok érdekelt egyetlen tippversenyben sem.

Önmagában az egy érdekes szakmai kérdés, hogy várhatóan mennyi ponttal lehet nyerni egy ilyen 64 meccses VB-n. (Az elméleti maximum ugye 192 pont). Mennyi az "átlagos" pontszám, és mennyire könnyű véletlen tippeléssel akár 0 pontot összehozni. Végül, de nem utolsó sorban mennyire lehet megtámogatni ezt a játékot gépi algoritmikus módszerekkel: mit lehet benne modellezni, vagy éppen mennyire intuitív az egész.

Ami problémát én látok:

* Nagyon nehéz modellezés alapjául szolgáló információkhoz jutni. Hiszen olyan csapatok játszanak egymással a világ négy égtájáról, akik amúgy látni sem látják többnyire egymást.

* Mindenki úriember módjára kitér az olyan újságírói kérdés elöl, hogy mennyire baj egy-egy vis major, például ha egy kulcsjátékos sérülés miatt kiesik. Általában az a standard válasz, hogy az nem lehet baj, hiszen "nem egy ember játszik a pályán, hanem egy komplett csapat", meg "nincs pótolhatatlan ember" stb. A tapasztalat mégis az, hogy például egy Drogba nélküli Elefántcsontpart nyílván gyengébb, mint egy Drogbás. Az ilyen információkat össze kell tudni gyűjteni, és kellően kell tudni súlyozni az eredményes tippeléshez. És elképesztő játékosok estek ki sérülések miatt, a mostani VB kezdete elött is (pár nappal megelőzően).

* Fontos szempont lehet az előrejelzésnél, amit említettem is, hogy például egy VB-döntőre a résztvevők ismeretében (menetközben) vagy nélküle (előre) kell tippelni.

* Sajnos az előrejelzési pontosságnak óriási gátja (szerintem), mind a vétlen bírói tévedés, mind a szándékos csalás (lásd utóbbinál a 2002-es VB durva visszáságait). A véletleneket szinte lehetetlen, a (potenciális) csalásokat meg nagyon-nagyon nehéz modellezni.

Gáspár Csaba 2010.06.13. 11:52:17

@tnsnames.ora: Nagyon érdekelne, hogy mennyire ponstos előrejelzést adna a tippelők közössége. Ha meg tudnál figyelni nagy számú fogadást, akkor azokból is ki kellene rajzolódnia egy jó becslésnek az eredményre. Mondjuk egy webes fogadóiroda weblogja alapján szívesen játszanék ilyen fogadási játékot...

tnsnames.ora 2010.06.13. 16:24:16

Én is azt gondolom, hogy ez az út-mód a leghasznosabb a témában, amit te is írsz. Amikor én magam nyertem, pont ezt az utat jártam, pláne, hogy mivel sose nem is értettem a focihoz.

Ezzel csak egyetlen apró probléma van, hogy kezdetben, indulásnál nehéz tudni kik a jó tippelők és kik a rosszak. Amin ugye úgy lehet segíteni például, hogy baráti társaságnál rendelkezésre állhatnak az előző EB/VB tippszelvényei (és azok kiértékelései). :)) Most nem firtatva, de azért erősen idegondolva, hogy mennyire etikus ily módon megcélozni a közös díjalapot. Mindez egyébként elvezet a számomra oly kedves 'knowledge aggregation' témához is.

Ez egyébként alapvetően megválaszolja azt a kérdést, hogy hány ponttal lehet nyerni ilyen tippjátékon. Én azt mondom az lehet a valósághoz legközelebbi, amihez leginkább a korrelál "papírformaság". Magyarán, ha papírforma eredmények születnek, akkor magasabb ez a várható pontszűám, ha meglepetések születnek, akkor alacsonyabbak. Hasonlatosan a valódi totóhoz/tippmixhez ott is akkor van nagy nyeremény, ha a meglepetést találja el valaki jól.

tnsnames.ora 2010.09.19. 20:34:28

Megírtam Modeler v14 témában a saját nézőpontomat. :o)

liftinstinct.blogspot.com/2010/09/ibm-spss-modeler-v14.html