Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2010.03.08. 09:51 Prekopcsák Zoltán

RSCTC adatbányászati verseny

Címkék: verseny svm rapidminer tunedit rsctc

Az idei RSCTC (Rough Sets and Current Trends in Computing) konferenciához kapcsolódóan egy adatbányászati versenyt hirdettek meg a szervezők, amely az elmúlt héten zárult. A biológiai indíttatású feladat több szempontból is érdekesnek bizonyult.

A verseny keretében osztályozási feladatokat kellett megoldani, mégpedig DNS-ből mért adatokból kellett diagnosztikai és egyéb orvosi változókat megtippelni. Magukról az adatokról nagyon kevés információ állt rendelkezésre, ráadásul a feladatot nehezítette, hogy a kisméretű, mindössze 100 soros adathalmazban 30-50 ezer attribútum kapott helyet. Egy ilyen adathalmaz nagyon megnehezíti a tanuló algoritmusok futtatását, mivel nagyon könnyű túltanulni, ezért mi is olyan módszerekkel ugrottunk neki a problémának, amik kevésbé hajlamosak túltanulásra.

A túltanulást szerencsésen kivédhetjük, ha egyszerű modellekből építünk kombinált eljárásokat. Erre több általános módszer is létezik, mint például a bagging és a boosting, amik egy- vagy kétszintű döntési fák kombinációjával, vagy éppen lineáris regressziók sorozatával tudják megoldani a feladatot. Ehhez elsősorban a RapidMiner szoftvert használtuk. Sikeresen kísérleteztünk továbbá egy SVM implementációval, amelybe a verseny feltételeinek megfelelően egy új optimalizálási feltételt illesztettünk, ezáltal néhány százalékos pontosságnövekedést értünk el. Természetesen sokat kísérleteztünk különböző feature selection módszerekkel is, azonban a kis adathalmaz miatt ezek nem tudták igazán jól elkülöníteni a fontos változókat.

Jól jelzi a túltanulás problémáját, hogy bár a verseny során használható visszamérési táblázaton csak a 18. helyet értük el (2%-kal elmaradva az első helytől), a végső kiértékelő halmazon, vagyis a hivatalos végeredményben a 6. helyre ugrottunk, másfél százalékra a nyertestől. Különösen érdekes volt a verseny másik kategóriája, amelyben az osztályozási eredmények helyett Java forráskódot kellett beküldeni, és a szerveren több adathalmazon keresztvalidáltatva számolták ki a pontosságot. Ebben a kategóriában sokkal kevésbé volt jellemző a túltanulás, és a nyertes algoritmust hamarosan forráskód szinten is publikálják majd, amivel máris egy használható eszközt kapnak a témán dolgozó kutatók.

Érdemes megemlíteni még a versenyt szervező TunedIT weboldalt, ahol remek infrastruktúrát alakítottak ki adathalmazok és algoritmusok tárolására és automatikus összehasonlítására. Nagyon nagy lépés ez az adatbányászati eredmények reprodukálhatósága és az algoritmusok elérhetősége szempontjából.

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr921818300

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.