Az elmúlt héten az első RCOMM konferencián vettem részt Dortmundban, ahol elsősorban a RapidMinert érintő kutatási és fejlesztési irányokról volt szó két napon keresztül. A vezető open-source adatbányászati eszközről nagyjából 20 érdekes előadást hallottunk a fejlesztő cég munkatársaitól és kiterjesztéseket fejlesztő független előadóktól. Mi a blogon korábban már bemutatott keresztvalidációs témáról tartottunk előadást, a Prezi itt elérhető.
A két napos előadások és beszélgetések során átfogó képet kaphattunk arról, hogy merre tart a legsikeresebb open-source eszköz és milyen új funkciókra számíthatunk a következő egy évben. Ezeket próbálom meg itt összefoglalni.
A legaktuálisabb fejlemény az R programozási nyelv integrációja, amit egy nagyon meggyőző demóval illusztráltak, amelyben mind az R parancssoros felülete, megjelenítési és modellezési funkciói is kényelmesen használhatóak voltak. Egy hasonló videó elérhető a Rapid-I honlapján is. Az R kiterjesztés megjelenése a következő hetekben várható.
Egy másik nagy fejlesztés a RapidAnalytics szerver, melyről már közel egy éve szivárognak információk, és az ígéretek szerint még idén elérhetővé válik. A RapidAnalytics tartalmaz mindent, amit egy adatbányászati szerver tudhat és tudnia érdemes, sőt még talán annál is többet. Az adathalmazok és elemzések a RapidMiner kliensből könnyen a szerverre menthetőek és ott futtathatóak, valamint ily módon egy elemzésen többen is tudnak dolgozni (persze nem egyszerre). A szerverhez egy pofás webes felület is tartozik, ahol az adatfájlokról, elemzésekről tekinthetünk meg információkat, kezelhetjük a jogosultságokat, sőt akár időzített futtatásokat is indíthatunk. Ez utóbbi különösen hasznos a riporting modullal kiegészítve, amely ezáltal képes időzített riportok generálására és terjesztésére is. Szintén innovatív funkciónak tűnik, hogy az egyes elemzések akár webservice-ként is meghívhatóak, ami tulajdonképpen a Google Prediction API-nak egy átlátszóbb, személyre szabhatóbb, házon belüli megoldását jelenti. A bemutatott mintaalkalmazás valós időben számolta a személyes ajánlatokat egy könyváruház látogatói számára.
A jövő évre várható még a RapidMiner alapszoftver 6-os verziója, amely követve az adattárházaknál már elterjedt trendet, oszlop alapú adatkezelésre tér át, ezáltal gyorsabb adatelérést és tömörebb memóriahasználatot eredményezve. Az Ingres céggel szövetkezve pedig szorosan mellé integrálják az Ingres VectorWise adatbázis-kezelőt, amely még hatékonyabb adatelemzésre képes, kisebb memória használatával. A részletekről keveset tudtunk meg, ez valószínűleg csak a jövő év végén valósul majd meg.
A mi szempontunkból érdekes volt még, hogy több előadásban felbukkant az igény és érdeklődés az elosztott számítási architektúrák felé. Az előadások között egy kezdetleges megoldással is találkoztunk, amely előadójával együttműködve a következő egy évben megpróbáljuk majd integrálni a Hadoop keretrendszert a RapidMiner alá, amivel egy egészen egyedülálló elosztott adatbányászati megoldás jönne létre.
Összességében egy kifejezetten színvonalas konferencián vagyunk túl, amely segítette a fejlesztők és a szakértő felhasználói közösség egymásra találását, és minden bizonnyal rengeteg együttműködést szül a következő időszakban.