Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2009.06.02. 12:51 Prekopcsák Zoltán

Tapasztalatok a RapidMiner szoftverrel

Mintegy két hónapja használjuk a RapidMiner nevű nyílt forrású adatbányászati szoftver legújabb, 4.4-es verzióját. A márciusban kijött változat több újítást is hozott, ami egyszerűsíti a vele való munkát. Az alábbiakban ezekről és személyes tapasztalatainkról számolunk be.

A Rapidminert még YALE néven kezdték fejleszteni 2001-ben a dortmundi egyetemen elsősorban kutatási célokra, de 2006 óta a Rapid-I nevű cég üzleti intelligencia megoldásokat és professzionális támogatást is nyújt a szoftver mellé. Az alapszoftver azonban azóta is megmaradt ingyenes és nyílt forráskódú alkalmazásnak, amely könnyen bővíthető saját algoritmusokkal is. Csak hogy a szoftver erejét szemléltessük: több száz operátor áll hozzá rendelkezésre az egyszerű előfeldolgozó operátoroktól kezdve a komplex modellező módszerekig, valamint tartalmazza a Weka adatbányászati szoftver összes eljárását is.

Az új verzió elsősorban abból a szempontból jelent előrelépést, hogy olyan friss funkciók kerültek a csomagba, melyeket eddig csak nagyon körülményesen, vagy egyáltalán nem lehetett megvalósítani a szoftverben. Ide tartozik például a makróváltozók (globális változók) jobb kezelése, az iterációk egyértelműbb definiálása, vagy éppen a megújult kivételkezelés. A most beépített funkciókkal együtt a RapidMiner már egy teljes értékű adatelemzési és adatbányászati szoftvernek mondható, amely rendelkezik a konkurensek (SPSS Clementine / PASW Modeler, SAS Enterprise Miner, Weka) legtöbb funkciójával, azonban az őszre tervezett 5.0 verzió egy újabb nagy lépést tesz abba az irányba, hogy még több szakember használhassa a szoftvert. Az egyik legfontosabb ellenérv az volt a RapidMinerrel szemben évek óta, hogy az operátorfa struktúra más gondolkodásmódot kíván, mint a többi hasonló szoftver. Bár egyesek szerint ez jobb, mint a "kötözgetős" interfész, kétségtelenül megnehezíti az átállást a többi szoftver ismerői számára. Ezen akadály leküzdésére az 5.0 verziótól kezdve az elemzéseket kétféle felületen lehet majd létrehozni: az eddigi operátorfa mellett megjelenik egy a Clementine-hoz hasonló felület, ami remélhetőleg még több embert vonz majd a szoftver felhasználói közé.

Csoportunk az utóbbi egy évben kiemelten foglalkozik a szoftverrel, az őszi félévben tartott Adatbányászati technológiák című tárgyunkban több előadást és gyakorlatot is tartunk róla, valamint ipari projektekben és adatbányászati versenyeken is egyre gyakrabban vetjük be. A RapidMiner ingyenes, nyílt forráskódú, és nagyon egyszerű hozzá új operátorokat fejleszteni, így várhatóan a következő években is komoly szereplő lesz az adatbányászati szoftverek piacán.

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr91383997

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.