Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2014.02.08. 11:00 István NagyRácz

Adatbányászat a megújuló energetikában

Címkék: verseny python szélenergia energetika szélerőmű idősor

Sokszor felmerül a kérdés, főleg az egyetemi hallgatóságban, hogy egy jó adatbányász mennyire rendelkezik az üzleti kontextustól független tudással, vagy a lényeg az adott felhasználási területre jellemző domainspecifikus tudásban rejlik. Egy adatbányász általában erre azt a választ adja, hogy van a kompetenciáknak egy rétege (modellezési algoritmusok ismerete, visszamérési trükkök stb.), ami független a felhasználás területétől, de a végén mindig abban van, hogy az üzleti terület megértésével tudunk-e plusztudást adni a modelljeinknek.

A fenti gondolatmenetre egy jó példa az az adatbányászati verseny, amelyben szélerőművek teljesítményét kellett előrejelezni. A versenyen elért remek eredményről korábban már adtunk hírt, következzék most egy rövid szakmai összefoglaló.

Hányadik lettél a versenyen?

10. a leaderboardon, de mivel egy páran az előrébb végzettek közül csaltak, valamint nem prezentáltak a konferencián, így végső eredményben az én megoldásom lett a 3. legjobb.

Hányan indultak a versenyen?

104-en a világ minden tájáról.

Mi volt a probléma, amit meg kellett oldani?

Regressziós feladat volt, ami arra irányult, hogy prediktáljuk szél előrejelzési adatok alapján, mekkora teljesítményt fog leadni 7 szélfarm.

Miért döntöttél úgy, hogy nevezel?

Éppen Mazatlan-ban süttettem a hasamat Mexikóban, amikor a versenykiírás megjelent a Kaggle oldalán. Szinte azonnal beadtam egy baseline megoldást, amivel 1. helyre ugrottam rögtön. Utána sokáig vezettem a Leaderboardot és ez drive-olta az érdeklődést végig. Sajnos kicsit túl is tanultam emiatt. A téma amúgy kapcsolódik a PhD témámhoz is.

Milyen adatelőkészítési műveleteket csináltál?

Nem sokat. Az idősoros adatok fura formában voltak, azokat kellett értelmesen joinolni.

Milyen modelleket használtál?

Két lépcsős modellt használtam: lineáris regresszió és Gradient Boosting + bagging. Volt egy kis k-legközelebbi szomszéd is outlier keresésre, ami javított volna a modellen, de végül nem használtam.

Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?

A szélerőművek karaterisztikája elvben logisztikus jellegű, de a szélelőrejelzések sok zajt raktak az adatokra és sok outlier is volt, amit nagyon fontos lett volna kiszűrni. Rendkívül egyszerű lineáris modellekkel is lehet nagyon jó eredményt elérni, ha a változókat jól válogatja össze az ember.

Milyen eszközöket használtál?

Python és pandas, mint általában :)

Tanulságok a verseny kapcsán?

Outliereket ki kell jobban szűrni egy ilyen problémánál.

A kép forrása

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr595800034

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.