Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (1) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (23) big data (6) Big Data (3) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (2) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) data mining (1) data science (6) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2013.09.19. 12:20 István Nagy

Áruhitel-bedőlés előrejelzése - beszámoló a BRICS 2013 adatbányászati versenyről

Címkék: verseny 2013 credit scoring

Csapatunk újra jeleskedett egy nemzetközi adatbányászati versenyen: a Nagy Gábor kollégánk (aki mellesleg tartósan benne van a világ legjobb 100 adatbányászati versenyzője között a Kaggle-ön) vezette csapat nyerte meg a Neurotech és a Pernambuco-i Egyetem által szervezett adatbányászati versenyt, ahol egy brazil bank áruhitelt felvett ügyfeleire kellett prediktív bedőlés előrejelzési modellt építeni.

A feladatkiírás szerint két problémát kellett megoldani a versenyzőknek. Az első feladatban egy klasszikus credit scoring modellt kellett építeni a csapatoknak, ahol a tanulásra a bank 2009-2010-es évi adatai álltak rendelkezésre, míg a kiértékelés a 2011-es adatokon történt meg. A feladat során tehát olyan megoldást kellett alkotni, amely robusztusan kezeli az időbeli változásokat mind a bemeneti változók értékeit, mind a célváltozó értékeinek eloszlásbeli változásait tekintve.

A második feladatban egy olyan regressziós modellt kellett alkotni, amely havi szinten képes volt megbecsülni az első feladatra adott megoldásunk hibáját: annak a százalékos arányát, hogy a modellünk által jó ügyfélnek tartott adósok közül mennyien fogják mégsem visszafizetni a hitelüket.

A versenyre 46 nemzetközi csapat regisztrált, amelyből 10 csapat adott be megoldást a versenyhez kapcsolódó leaderboardra. A versenyhez kapcsolódó konferencián végül négy csapat mutatta be részletesen megoldásait

A mi megoldásunkban három olyan ötlet szerepelt, amely nagymértékben hozzásegített minket a győzelemhez:

  1. Az ügyfelekhez nagyon részletes földrajzi adat volt kapcsolva arról, hogy hol élnek és helyileg melyik bankfiókban vették fel az áruhitelt. Ez az adat azonban nagyon sok esetben nagyon rossz minőségű volt: erre egy jó példa, hogy Rio de Janeiro 128 különböző módon szerepelt az adathalmazban. Gábor Google Refine és a GeoNames-en megtalálható külső adathalmaz alapján tisztította meg ezeket a változókat.
  2. A változók értékkészleteinek időbeli változását és a változók értékeinek célváltozóra gyakorolt hatását figyelembe véve leszűrte a változók listáját és újabb változókat hozott létre. A végső megoldásba végül nem került be, de nagyon biztató eredményt hozott a nominális változók dummy változókká alakítása helyett alkalmazott WoE (weight of evidence) értékkel való helyettesítésük, amely információt hordozott az adott változó értékének célváltozóra gyakorolt hatásáról. 
  3. Tanuló algoritmusnak Gradient Boosting fákat választottunk, amely működéséből adódóan képes automatikus változókiválasztásra, robusztus a túltanulással szemben és nagyon komplex összefüggések megtanulására is képes. A módszer lényege, hogy nagyon egyszerű (akár csak egy vágást tartalmazó) fákat felhasználva, iterációk mentén javítja az osztályozás hatékonyságát azáltal, hogy az előző iterációban létrejött modellek hibáját próbálja megtanulni. 

A verseny kiértékelés során tartósan sikerült megkapaszkodnunk a leaderboard első helyén, mely a végső kiértékelést követően sem változott.

    6 komment

    A bejegyzés trackback címe:

    http://adatbanyaszat.blog.hu/api/trackback/id/tr365523434

    Kommentek:

    A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

    Tyson925 · http://economy.blog.hu/ 2013.09.19. 16:04:05

    Hi,

    "Ez az adat azonban nagyon sok esetben nagyon rossz minőségű volt: erre egy jó példa, hogy Rio de Janeiro 128 különböző módon szerepelt az adathalmazban. Gábor Google Refine és a GeoNames-en megtalálható külső adathalmaz alapján tisztította meg ezeket a változókat."

    Erről lehet egy kicsit többet tudni?

    István Nagy 2013.09.19. 16:09:34

    @Tyson925: Nem tudom, mennyire ismered a Google Refine nevű eszközét. Jelenleg azt hiszem már OpenRefine néven (is) fut. Ezt elsősorban arra hozták létre, hogy nyilvános API-n elérhető adatokkal tudj dolgozni. A GeoNamesnek van ilyen API-ja, ezzel tehát le lehetett tölteni a valós földrajzi leírókat, aztán a Refine Clustering (github.com/OpenRefine/OpenRefine/wiki/Clustering) funkciójával lehetett elsőkörben összevonni ezeket az elírásokat. Persze sok manuális munka is volt a dologban.

    Tervezünk egy bejegyzést a Google Refine-ról, mert ilyenekre nagyon jól használható eszköz.

    Prekopcsák Zoltán · http://prekopcsak.hu 2013.09.19. 16:21:27

    Már írtunk korábban a Google Refine-ról, de azért érdemes figyelembe venni, hogy közel 3 éves a cikk és azóta a Refine sokat változhatott: adatbanyaszat.blog.hu/2010/11/28/google_refine_adattisztitas_haladoknak

    Tyson925 · http://economy.blog.hu/ 2013.09.19. 16:56:54

    @István Nagy: Köszi a választ!
    "A GeoNamesnek van ilyen API-ja, ezzel tehát le lehetett tölteni a valós földrajzi leírókat"

    Ez a rész ami még nem teljesen világos. :-)
    Ez hogy nézett ki pontosabban?

    István Nagy 2013.09.19. 17:44:08

    @Tyson925: A Geonames oldalán találod a használható API-kat: www.geonames.org/export/ws-overview.html. Itt van egy jó leírás arról, hogyan tudod ezt használni: github.com/OpenRefine/OpenRefine/wiki/Extending-Data.

    szajberpiraty 2013.09.24. 20:49:01

    Gratulálok, szép munka!