Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2014.02.12. 11:00 István NagyRácz

Hívási szokások előrejelzése a mobil felhasználók körében

Címkék: mobil verseny telekommunikáció

Folyamatosan keressük csapaton belül azokat a platformokat, ahol más adatelemzőkkel összefogva, vagy velük szemben mérhetjük meg analitikai kompetenciáinkat. Fontos ez nekünk, hiszen a napi rutin mellett, ezekben a versenyekből táplálkozunk, ezek mentén tudunk tovább és tovább fejlődni.

Az adatbányászati versenyek etalon platformja a Kaggle lett az elmúlt években, de számos egyéb kezdeményezést is ismerünk, amely hasonló célokat tűzött ki maga elé, mint a Kaggle. Ezek közül az egyik a CrowdAnalytix, amely a versenyzés mellett azt tűzte fel zászlajára, hogy publikus adatokból nyer ki üzletileg is hasznos információkat az adatelemző közösség segítségével, kimondottan crowdsourcing módon.

Az alábbiakban egy olyan versenyeredményünkről számolunk be, amelyek ezen a platformon lettek kiírva.

A versenyen mobil felhasználók adatait felhasználva kellett előrejelezni, hogy melyik felhasználó melyik mobilcellába fog a jövőben telefonálni. Csapatunk két tehetséges elemzője, Barta Gergő és Simon Gábor elhozta az 5. helyezést a versenyről.

Hányadik lettél a versenyen?

5

Hányan indultak a versenyen?

195 csapat nevezett, ebből 27 adott le végül megoldást. Ennek oka, hogy a versenyhez adott adatok elég speciálisak voltak, ami sokakat elrettentett a valós megoldástól.

Mi volt a probléma, amit meg kellett oldani?

Multiclass osztályozás felhasználásával jelezzük előre, hogy a felhasználó melyik mesterséges körzetbe telefonál a jövőben. Emellett legalább 10 darab, üzletileg is értelmezhető magyarázó változót kellett képezni, az eredetiek felhasználásával.

Miért döntöttél úgy, hogy nevezel?

Tetszett a feature engineering vonal, illetve hogy csak random forestet lehetett alkalmazni. Ez utóbbi megkötés leegyszerűsítette a modell finomhangolásának folyamatát.

Milyen adatelőkészítési műveleteket csináltál?

Adathibák javítása, hívásadatokból user-szintű változók képzése, folytonos változók binelése, ritka kategóriák összerántása.

Milyen modelleket használtál?

A verseny különlegessége, hogy csak a random forest modell használata volt engedélyezett. A weka-s implementációra épült a megoldásunk.

Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?

Relatíve kevés változó és azokhoz minimális szótár állt rendelkezésre, ezért főként csak a statisztikailag szignifikáns magyarázó változók transzformálásával tudtunk operálni.

Milyen eszközöket használtál?

Adatelőkészítésre python és pandas, modellezésre weka java környezetben.

Tanulságok a verseny kapcsán?

Ha az ember a verseny elején felkerül a dobogóra az jó motivációt jelent végig. Kell azonban taktika arra az esetre is, ha többiek a hajrában leszorítanak.

A kép forrása

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr685800442

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.