Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.11.11. 12:17 Prekopcsák Zoltán

Adattisztítás, előfeldolgozás RapidMiner alapokon

Címkék: rapidminer

RapidMiner kapcsán gyakran emlegettük az elmúlt években, hogy az adatok előfeldolgozására nem annyira kényelmes, nagyon ismerni kell hozzá a szoftvert, hogy hatékonyan tudjunk vele dolgozni. Ezen valamennyit javítottak a februárban megjelent 5.0 verzióban és azóta is csiszolgattak rajta, így most az 5.0.10 verziót tekintjük át az előfeldolgozási képességek szempontjából.

A metaadat-kezelésnek köszönhetően a változókat kényelmes varázsló felületeken, listákból választhatjuk ki, azaz jelentősen lecsökkent a magyarázat nélküli szabad szövegdobozok száma. A súgó is sokat javult, szinte minden paraméterhez könnyen érthető magyarázat tartozik. Néhány esetben (pl. ExampleFilter feltétel szerinti szűrésénél) azonban még mindig egy szövegdobozzal találkozunk, ahol néha kísérletezgetnünk kell, hogy eltaláljuk a megfelelő változónevet és szintaxist. Sokat segít azonban, hogy szinte minden mezőben használhatunk reguláris kifejezéseket, és erre egy barátságos varázsló ablakot is kaptunk, ahol röviden leírják a reguláris kifejezések szintaxisát. Ez különösen akkor előnyös, hogyha sok attribútummal dolgozunk.

A többi szoftverhez képest rengeteg előfeldolgozó operátort találunk az alapcsomagban. Gyakran szembesülök azzal, hogy kitalálom hogyan lehet egy előfeldolgozási lépést több elemi előfeldolgozási operátorból összerakni, de végül kiderül, hogy van egy beszédes nevű operátor, ami egymaga megcsinálja a szükséges funkciót. Persze tekinthetjük úgy, hogy ezzel redundancia került a szoftverbe, de az elemzésem ezáltal átláthatóbb és hatékonyabb lehet.

Az átláthatóságot és a hatékonyságot segíti még, hogy a köztes adathalmazokat, részeredményeket remekül lehet a Store és Load funkciókkal tárolni. Ez garantálja, hogy amikor akár egy másik folyamatban visszaolvassuk az adathalmazt, akkor a változók típusa és szerepe biztosan megmarad és teljesen ugyanolyan formában kapjuk az adatokat, ahogy eltároltuk őket. Ez egy CSV fájl kimentésénél természetesen nem teljesülne a metaadatok hiánya miatt. Ráadásul a tapasztalataim szerint ezeket Store-Load állományokat sokkal hatékonyabban kezeli a RapidMiner, mivel nincs szükség az adatfájl újbóli parse-olására.

Természetesen még vannak hátrányok, mint például a dátumra való szűrés lehetőségének hiánya. Erre az a hivatalos megoldás, hogy számformátumba kell alakítanunk a dátumváltozót és utána szűrhető, de ez meglehetősen körülményes, és nem is egyértelmű az első alkalommal. További probléma, hogy a RapidMiner nem minden operátora van hatékonyan megvalósítva. Egy konkrét példa a RemoveDuplicates, amely nevének megfelelően a duplikált sorokat távolítja el az adatbázisból. Miután egy 70 ezres adatbázisra közel 10 percig futott, megnéztem a forráskódját és azzal szembesültem, hogy a duplikátum-keresés során minden adatsort minden másik adatsorral összehasonlít, azaz négyzetes algoritmust futtat. Aki ismeri a UNIX rendszereken jelenlévő hasonló szerepű uniq parancsot, az tudja, hogy ezt hatékonyabban is meg lehet valósítani az adathalmaz rendezésével, mert ezután csak az egymást követő sorokat kell megvizsgálni egyezés szempontjából. Ez N x N helyett N x log(N) komplexitású megoldás, ami a 70 ezres adathalmaz esetén 10 perc helyett néhány másodperces futásidőt eredményezett volna.

Ahogy látható, a RapidMiner sem tökéletes (ahogy a többi szoftver sem), de kezdi megközelíteni a fizetős szoftverek előfeldolgozási képességét, modellezésben pedig már eddig is előttük járt. Aki pedig nem ijed meg egy kis Java programozástól, az az észlelt hibákat kijavíthatja, vagy akár plusz funkciókat építhet a szoftverbe.

UPDATE: Új kényelmi funkciók és varázslók jönnek az 5.1 verzióban, további részletek a RapidMiner blogján.

Ti milyen előfeldolgozási problémába futottatok már bele a különböző adatbányászati szoftvereknél? Volt olyan feladat, amit nem tudtatok benne megoldani? Milyen operátort hiányoltok ezekből a szoftverekből?

6 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr292441432

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

_Hose_ 2010.11.11. 16:11:48

Szia!

Nem mellékelsz a post-hoz 1-2 screen shot-ot? Nekem biztosan megkönnyíté, hogy elképzeljem.

Prekopcsák Zoltán · http://prekopcsak.hu 2010.11.11. 16:31:07

Külön-külön a bekezdésekhez nem akarok screenshotot rakni, de egy általános adattisztítási struktúrát kiraktam. Persze az egyes operátorok beállításait nehéz így szemléltetni.

_Hose_ 2010.11.12. 12:48:49

Máris jobb :)
Köszi.

_Hose_ 2010.11.15. 09:45:11

Most, hogy másodjára is végigolvastam a cikket, rájöttem, hogy kérdés is van benne, szóval:
Nem adatbányászati projekt, és nem is adatbányászati szoftver, de ki tud verni a hideg verejték, amikor a különböző karakterkódolási mizériák miatt egy szó 30 felé módon van leírva, mert a közvetlen forrásrendszer is még vagy 10 másik rendszertől kapja az adatot.
Aztán ebből riportolj, meg elemezz. Brrrr.

Prekopcsák Zoltán · http://prekopcsak.hu 2010.11.15. 10:56:19

Na igen, ezt én is gyűlölöm. :)
Ha egy forrásból csak egyféle kódolás jön, akkor a forrásokat egy kódolásra hozva ez még némi szívással megoldható, de ha egy forráson belül is többféle kódolás van, az maga a pokol. :)
Van egy friss szoftver ami talán megbirkózik ezzel, ki kell próbálnom, hamarosan írunk róla a blogon.