Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2010.04.16. 14:11 Prekopcsák Zoltán

RapidMiner 5.0 - Meta-adatbányászat

Címkék: metaadat etl rapidminer

Már több mint egy hónapja annak, hogy a RapidMiner új verziójáról hírt adtunk itt a blogon és további bejegyzéseket ígértünk erről az ingyenes szoftverről. Ennyi idő kellett hozzá, hogy végérvényesen beadjam a derekamat, és a jól megszokott 4.6-ról teljesen átálljak az 5.0-ra.

Az előző bejegyzésben röviden felvázoltam az új verzió újdonságait, most pedig azt szeretném összefoglalni, hogy mi teszi az 5.0-s (azóta hibajavításokkal már 5.0.3) verziót a legjobb ingyenes adatbányászati szoftverré a piacon. Ehhez a kulcsszó a metaadat.

Metaadatokkal nem nagyon találkozhattunk a RapidMiner korábbi verzióiban. Az attribútumok típusát úgy-ahogy felismerte a szoftver, azt körülményesen állítgathattuk is, de nem volt komoly szerepe a folyamatban. Ehhez képest az új verzióban minden a metaadatok körül forog. Ha a felhasználói felületen bárhol adattáblát látunk, vagy egy operátor kimenetén adattábla jelenik meg, akkor elég fölé vinnünk az egeret és már sorolja is a sorok számát, az attribútumok típusát, szerepét és értékkészletét. Anélkül, hogy egyszer is elindítottuk volna az elemzést, pontosan láthatjuk, hogy a kimeneten milyen attribútumokat kapunk majd. Ez tulajdonképpen azt jelenti, hogy a RapidMiner az adatelemzési folyamat minden lépését valós időben elvégzi a metaadatokon.

Nem tűnik világmegváltó ötletnek, de gondoljuk végig, hogy ezt mire lehet használni:

  • Bár ez más szoftverek felhasználói számára megszokott, de itt újdonságnak számít, hogy például az attribútumok szűrésénél listákból és legördülő menükből választhatunk. A RapidMiner korábbi verzióiban ugyanis az attribútumnevek pontos szöveges megadásával lehetett csak ilyen dolgokat elvégezni.
  • Ha két operátort rosszul kötünk egymás mögé, például egy modell kimenetet egy adattábla bemenethez kapcsolunk, akkor rögtön figyelmeztetést kapunk. Sőt, ha olyan operátort húzunk be az elemzésbe, ami csak egyféleképpen köthető be hiba nélkül, akkor ezek a kapcsolatok automatikusan létrejönnek.
  • Ha egy csak nominális értékeken működő döntési fa bemenetére numerikus változókat is tartalmazó adathalmazt kötünk, akkor azonnal figyelmeztet a rendszer, sőt megoldási javaslatokat ajánl fel, mint például a változó binelése. Ha ezt elfogadjuk, akkor a binelő operátort automatikusan beköti az elemzésünkbe.

Mindezeket az előnyöket természetesen nemcsak a folyamat elején élvezhetjük, hanem a negyvenedik lépésben is, amikor már amúgysem tudjuk pontosan milyen attribútumok vannak éppen az adathalmazunkban. Ez a folyamatos metaadat-ellenőrzés lehetővé teszi, hogy a hibákat elkerüljük, illetve a lehető leghamarabb észleljük, és akárcsak a szoftverfejlesztésben, az adatelemzés során is érvényes, hogy a hibák korai felismerése akár töredékére le tudja csökkenteni a szükséges időt.

A metaadat-kezelés kiválóan sikerült a RapidMiner új verziójában, de sajnos nem minden funkcióról mondható el ugyanez... (Folyt. köv.)

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr851926833

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.