Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.04.16. 14:11 Prekopcsák Zoltán

RapidMiner 5.0 - Meta-adatbányászat

Címkék: metaadat etl rapidminer

Már több mint egy hónapja annak, hogy a RapidMiner új verziójáról hírt adtunk itt a blogon és további bejegyzéseket ígértünk erről az ingyenes szoftverről. Ennyi idő kellett hozzá, hogy végérvényesen beadjam a derekamat, és a jól megszokott 4.6-ról teljesen átálljak az 5.0-ra.

Az előző bejegyzésben röviden felvázoltam az új verzió újdonságait, most pedig azt szeretném összefoglalni, hogy mi teszi az 5.0-s (azóta hibajavításokkal már 5.0.3) verziót a legjobb ingyenes adatbányászati szoftverré a piacon. Ehhez a kulcsszó a metaadat.

Metaadatokkal nem nagyon találkozhattunk a RapidMiner korábbi verzióiban. Az attribútumok típusát úgy-ahogy felismerte a szoftver, azt körülményesen állítgathattuk is, de nem volt komoly szerepe a folyamatban. Ehhez képest az új verzióban minden a metaadatok körül forog. Ha a felhasználói felületen bárhol adattáblát látunk, vagy egy operátor kimenetén adattábla jelenik meg, akkor elég fölé vinnünk az egeret és már sorolja is a sorok számát, az attribútumok típusát, szerepét és értékkészletét. Anélkül, hogy egyszer is elindítottuk volna az elemzést, pontosan láthatjuk, hogy a kimeneten milyen attribútumokat kapunk majd. Ez tulajdonképpen azt jelenti, hogy a RapidMiner az adatelemzési folyamat minden lépését valós időben elvégzi a metaadatokon.

Nem tűnik világmegváltó ötletnek, de gondoljuk végig, hogy ezt mire lehet használni:

  • Bár ez más szoftverek felhasználói számára megszokott, de itt újdonságnak számít, hogy például az attribútumok szűrésénél listákból és legördülő menükből választhatunk. A RapidMiner korábbi verzióiban ugyanis az attribútumnevek pontos szöveges megadásával lehetett csak ilyen dolgokat elvégezni.
  • Ha két operátort rosszul kötünk egymás mögé, például egy modell kimenetet egy adattábla bemenethez kapcsolunk, akkor rögtön figyelmeztetést kapunk. Sőt, ha olyan operátort húzunk be az elemzésbe, ami csak egyféleképpen köthető be hiba nélkül, akkor ezek a kapcsolatok automatikusan létrejönnek.
  • Ha egy csak nominális értékeken működő döntési fa bemenetére numerikus változókat is tartalmazó adathalmazt kötünk, akkor azonnal figyelmeztet a rendszer, sőt megoldási javaslatokat ajánl fel, mint például a változó binelése. Ha ezt elfogadjuk, akkor a binelő operátort automatikusan beköti az elemzésünkbe.

Mindezeket az előnyöket természetesen nemcsak a folyamat elején élvezhetjük, hanem a negyvenedik lépésben is, amikor már amúgysem tudjuk pontosan milyen attribútumok vannak éppen az adathalmazunkban. Ez a folyamatos metaadat-ellenőrzés lehetővé teszi, hogy a hibákat elkerüljük, illetve a lehető leghamarabb észleljük, és akárcsak a szoftverfejlesztésben, az adatelemzés során is érvényes, hogy a hibák korai felismerése akár töredékére le tudja csökkenteni a szükséges időt.

A metaadat-kezelés kiválóan sikerült a RapidMiner új verziójában, de sajnos nem minden funkcióról mondható el ugyanez... (Folyt. köv.)

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr571926833

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.