Augusztus végén a RapidMiner éves konferenciáján vettem részt, amelyet tavaly mi rendeztünk Budapesten. A program hagyományosan remek előadásokat tartogat adatbányászati elméleti előadásoktól RapidMiner kiegészítéseken át rengeteg iparági alkalmazásig. Az idei konferencia egyik fénypontja David Weisman előadása, aki alapos áttekintést adott a ritka események és a ferde eloszlású osztályozási feladatok adatbányászati best practice módszereiről.
A Radoop prototípusát (amely a Hadoop big data keretrendszerrel integrálja a RapidMiner elemzői felületét) két éve az RCOMM konferencián mutattuk be először. Azóta a kezdeményezés céges formát öltött és tavaly nyáron megjelent a szoftver kereskedelmi forgalomban megvásárolható verziója. Idén ismét lehetőséget kaptunk, hogy bemutassuk, hogy hova jutott az elmúlt két évben a Radoop. 2011-ben ez csupán egy kutatási prototípus volt, ami a csillagok megfelelő állása esetén azt tette amit a program fejlesztője kigondolt, de rengeteg volt a gyermekbetegség és a limitáció. Az elmúlt két év munkája nyomán egy heterogén vállalati környezetben is stabilan, megbízhatóan használható, jól dokumentált szoftver jött létre. Természetesen sok új funkció is került azóta a szoftverbe, de a legnagyobb áttörésnek ezt a fejlődést tartom.
A fejlődés további részletei megtalálhatóak az alábbi prezentációban, amely röviden kitér a Radoop legújabb modellezési eljárásaira, amivel akár együttes osztályozó rendszerek (pl. Random Forest) is taníthatóak és alkalmazhatóak hatalmas adathalmazokon.
Itt ragadnám meg a lehetőséget, hogy megköszönjem mindenkinek, aki a Radoop fejlesztésében részt vett az elmúlt két évben: Hellinger Péter, Makrai Gábor, Szatmári Zoltán, Kabai Robert-Zsolt, Nagy István, Gáspár Csaba.