Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) AI (3) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) bi (13) BI (5) Bi (1) bi-trek (1) biconsulting (7) bigdata (29) Big Data (3) big data (12) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (3) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (3) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) covid19 (2) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) dashboard (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (6) dataskool (1) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (17) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (4) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (25) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (4) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) power bi (2) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (41) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (7) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (7) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2013.11.22. 09:55 István NagyRácz

Breaking news: Ligát váltott a Rapidminer

Címkék: szoftver 2013 rapidminer open-source

A bejegyzést folyamatosan frissítjük, újabb információkkal és egyéni, szubjektív véleményeinkkel.

2013-11-21 - Nagy István

Bizonyára sokan értesültetek már róla, hogy a Rapid-I belekezdett abba az irányváltásba, amelytől azt várják, hogy az észak-amerikai piacokon is el tud terjedni az adatbányászati megoldásuk, és mellesleg, amire kaptak 5 millió dollárnyi befektetést. Az irányváltás része volt, hogy a termékeket átnevezték: a RapidMiner és a RapidAnalytics mostantól RapidMiner Studio és RapidMiner szerver. Mellesleg maga a cég is elhagyta a Rapid-I nevet és mostantól ők is RapidMiner néven működnek tovább.

Másik érdekesség, ami bár eléggé eldugva található meg a cég új weboldalán, hogy hozzányúltak a RapidMiner árazási politikájához:

pricing_policy_1.png2013-11-22 9:45 - Nagy István

Tegnap megjelent a RapidMiner 6-os verziója, megérkeztek az első hírlevelek. Sajnos a cég oldala nem is bírta a terhelést és mind reggel, mind a délutáni órákban elérhetetlen volt. Már szerencsére minden helyre állt és meglepve tapasztaltuk, hogy az árazási politika még tovább "finomodott":

pricing_policy_2.pngEzzel úgy látszik a RapidMiner elhagyta az ingyenes ligát és mostantól nyíltan is az IBM-mel és a SAS-sal veszi fel a versenyt a fizetős adatelemzési eszközök piacán.

2013-11-22 9:55 - Nagy István 

A 14 napos használat után a RapidMiner 6 visszaáll maximum 1GB RAM használatára, és nem tud adatbázisokat olvasni: link.

2013-11-22 10:04 - Gáspár Csaba

Meghalt a király. Éljen a király?

Mindenképpen teljes fordulatba kezdett a RapidMiner cég, teljesen más piacra indult el most a mai lépéssel. A régi piacának azt a részét, akik ingyenessége alapján használta, 99%-ban elvesztette ezzel a lépéssel. Sőt, nekem az is nagyon furcsa, hogy a cég a memóriahasználatot korlátozza, ez nekem arra utal, hogy nem használják ezt az eszközt igazán. 8GB is a legtöbbször még semmi a RapidMinernek. Nyilván a mintafájlokat, és a legalapabb adatbányászati feladatokat meg lehet oldani néhány GB-on, de mi már az oktatása során is ki tudunk futni ebből a free verzió 1GB-os limitjéből úgy, hogy teljesen normális alapfeladatokat oldunk meg.

Ha viszont madártávlatból nézünk a lépésre, akkor látszik a stratégia zsenialitása: ha szeretnék egy olcsóbb SPSS Modeler, SAS Enterprise Guide/Miner kihívót és egyből egy ilyen árazással jössz ki, sosem fognak rólad hallani. Ez a stratégia, hogy először mindenki ismerje a neved, majd mikor már vagy valaki, fizetőssé válsz, szerintem zseniális. Egy ponton bicsaklik meg a dolog: maga a szoftver minőségében vannak nagy hiányosságok még, és a 3000 USD éves licenszű megoldás mellé sem adnak még értelmes támogatást.

Egy biztos: a következő egy évben nagyon izgalmas lesz végignézni a RapidMiner diadalát vagy bukását.

2013-11-22 11:58 - Prekopcsák Zoltán

A teljes képhez hozzátartozik, hogy a RapidMiner 6-os verziója nem hoz jelentős újításokat, csupán egyszerűbb, letisztultabb felületeket ígér. A RapidMiner 5.x verziókat továbbra is mindenki ingyenesen, memóriakorlátozás nélkül használhatja. Amikor kijön majd a RapidMiner 7, akkor a RapidMiner 6 ugyanilyen státuszba kerül, tehát az ingyenes felhasználók mindig korlátlanul használhatják az eggyel előző, 1-2 éves verziót.

Nem hiszem hogy a felhasználók 99%-át elveszítenék, csupán arról van szó, hogy a legújabb funkciókhoz csak fizetve férhetünk hozzá, és ingyenesen mindig egy kicsit régebbi verziót használhatunk csak.

2013-11-22 12:12 - Nagy Gábor

Mit kapunk 2999 USD-ért?

Donald Kacsa szerint az idő pénz. Egységnyi idő alatt minél több feladatot szeretnénk elvégezni, hogy produktívak legyünk. A RapidMiner igérete, hogy gyorsan tudunk benne adatot elemezni. Nézzük hát meg, mennyire igaz ez az állítás. A teszt azt feltételezi, hogy a memóriakezelést, és az operátorokat nem írták át gyökeresen a RapidMiner Studioban, erre utaló jelek nincsenek a sajtóközleményben. A tesztek ennek megfelelően az 5-ös verzióval készültek.

RapidMiner-rel minden egyes alkalommal, ha elemezni szeretnénk egy adathalmazt, be kell olvasnunk azt a memóriába. Nézzük mit jelent ez egy játék adatfájlnál, mondjuk a BRICS-CCI verseny 420 Mb-os adathalmazával, ami 36 oszlopot és 1.3 millió sort tartalmaz. Ez egy hitel visszafizetéshez kapcsolódó adathalmaz, van benne egy target változó, meg customer_id, dataset_id (ami a train/test adathalmazt azonosítja).

Első olvasásra a RapidMiner nem ismeri fel a 1.2e-4 alakú számokat (scientific notation), ezzel elment 25 másodperc. A második nekifutásra kikapcsoljuk a parse numbers-t a Read CSV operátorban, 25 másodperc alatt be is olvassa. Csodálatos. Ekkor 1.2 Gb memóriát foglalunk el, tehát a RapidMiner Starter itt már el is fekszik nekünk. Legalább 999$-t kell ennek az adathalmaznak az elemzéséhez elkölteni.

Hogy kell ezt python/pandas stack-kel?

import pandas as pd

data = pd.read_csv('data.csv')

Mennyi memóriát eszünk? Kb. 460 Mb. Mennyi ideig tartott beolvasni az adatokat? 9 másodperc.

Mit kell tennünk, ha szeretnénk, mondjuk átlagokat kiszámítani az adatokból?

Rapid Miner: Read CSV -> Select Attributes -> Aggregate

Bedobunk egy Select Attributes-t kiszedjük az adatainkból a customer_id-t és a dataset_id-t, mint azonosítót. Az Aggregate operátorban kiszámítjuk az átlagokat. Ha nem vagyunk elég képzettek nem használjuk a default aggregation-t, hanem 34 átlagot kell beállítanunk, bőszen kattogtatva. Ha elég képzettek vagyunk, akkor a default aggregation-t használjuk az average-gel. Ez is kb. 25 másodpercig tartott, mivel be kellett olvasni újra az adatokat. Hol tartunk memóriában: 3.2 Gb. Nice.

Ugyanez python-ban. Az első két oszlop a customer_id és a dataset_id, ezeket kihagyjuk.

print data[data.columns[2:]].mean()

Mennyi ideig tart ez? 2 másodperc. Miért? Mert az adatok már a memóriában vannak, így az olvasgatással nem kell szórakozni. Mennyi memóriát eszünk? Ugyanannyit mint az előbb: 460 Mb.

Az a perverz ötletünk támadt, hogy a mediánt szeretnénk kiszámolni minden változóhoz. Vigyázat még nem akarunk csoportosítani semmi szerint. Mi történik RapidMiner-ben. Eltelik 27 másodperc az adatok beolvasásával és az aggregátum számításával és 4.2 GB-ra nő a memóriahasználat. Hopp, fizetnünk kell még 2000$-t hogy tovább játszunk RapdiMiner-rel. (A $999-os verzió csak 4 Gb-ot enged.)

Python. Copy-paste az előző sorból és 2 darab karakter beszúrása:

print data[data.columns[2:]].median()

Futásidő: 2 másodperc, Memóriahasználat: 460 Mb.

Az utolsó perverziónk a következő: Csináljunk egy kimutatást, hogy a városokban az egyes években, ahol a hitelkártya adósok laknak, évente a magyarázó változóknak mi a medián értéke? 300 körüli város van és 2 különböző év.

Python:

print data.groupby(['cat_city','year']).median()

Meddig tart ennek a parancsnak a végrehajtása python-ban? 4 másodperc. Mennyi memóriát foglalunk? 460 Mb.

A nagy kérdés, hogy ez hogyan néz ki RapidMiner-ben? A válasz az, hogy sehogy. Az eredetileg a Java VM-ben paraméterként beállított 10 Gb-ot telenyomtuk valamivel, a process elszállt azzal, hogy kicsit sokat szeretnénk végrehajtani egyszerre. Remélem mindenki látja már az üzleti modellt emögött. RapidMiner-rel ugyanis válaszúthoz értünk:

  1. Kifizetünk egy ismeretlen összeget, hogy képesek legyünk ennek a rendkívül bonyolult elemzésnek az elkészítésre. Emellett nem lehetünk biztosak abban, hogy ezzel a verzióval végre tudjuk hajtani majd ezt a feladatot, mert nagy valószínűséggel azt fogjuk tapasztalni, hogy a szerverünkben lévő RAM mennyisége sem elegendő. Vehetünk RAM-ot is :)
  2. Elkezdjük a szokásos hákolást: elkezdünk Loop-olni a változókat, törölgetni a memóriát a RapidMiner userek placebójával, a Free Memory operátorral, feldaraboljuk az adatainkat oszlopok szerint, vagy vehetünk mintát, kiírhatjuk lemezre, azt olvasgatjuk be, hátha azzal lefut, újraindítunk. Reménykedünk. Az biztos, hogy nem rapid lesz a megoldás, a RapidMiner átalakítja az adatbányászt RabidMiner-ré.

Arra a kérdésre, hogy mennyi időt fog ez a feladat igény bevenni RapidMiner használatával tehát a válasz: senki nem tudja, és senkit nem érdekel, mert python-ban 4 másodperc alatt megcsináltuk. Kérem kapcsolja ki.

2013-11-22 15:16 Gáspár Csaba

Python vs RapidMiner összehasonlítást azért érzem erősnek, mert itt azért a vizuális programozási felületeket hasonlítjuk össze egy programozási nyelvvel. De gondolom azért mindenki látta a fentiekből, hogy mekkora előnyei vannak annak, ha valamilyen adatelemzési nyelven is beszélünk. Most SPSS Modeler vagy SAS Guide/Miner futtatást nem csináltam, de biztos vagyok benne, hogy a Modelernek nagyobb gondot nem okozna a dolog, a SAS-sal szemben is bizakodó lennék, ha nem is annyira triviális a dolog.

Mindenesetre a profi ligában a RapidMiner a leggyengébb, nincs ezen mit szépíteni. De én azért annyira nem félteném őket. Ahogy Prekopcsák Zoli írta, az eggyel korábbi verziót mindvégig elérjük, ami mentén a szakmai közösség reméljük fenn marad - ehhez a mostani változás kommunikációja kevés lesz -, akkor a RapidMiner gyors fejlődése be tudja hozni a lemaradásokat. Ehhez komoly fejlesztések kellenek még az alaprendszerben is, reméljük hogy az új bevételekből erre is lesz erőforrás.

Megnéztük már, mit tud a RapidMiner 6, és bizton állíthatom hogy az új logón, néhány kezdőknek szóló tutorial megoldáson kívül nem tud többet, mint a legutóbbi 5.x verzió. Szóval aki eddig ezen a platformon dolgozott, projektelt, tanult, nem kell megijednie, nem fog eltűnni a megszokott technológia. Remélem az új irány hoz annyi új lendületet a RapidMinernek, ami alapján a szabadon elérhető verzió növekedési görbéje az eddig tapasztaltakhoz képest nem fog változni.

2013-11-24 19:35 - Gáspár Csaba

Közben a Rapidminer elkezdett az eddig felépített közössége felé is kommunikálni. Bocsánatot kértek, hogy nem voltak egyértelműek, és részletesen kifejtik, hogy a közösség számára milyen licensz megoldásokat javasolnak. Sőt az árazási struktúrához is hozzányúltak, az úgynevezett RapidMiner Starter csomagot nem 14 napig használhatjuk (ez volt eddig az 1GB-os csomag), hanem ezt a megoldást időkorlát nélkül használhatjuk. Emellett a Professional verziót (8GB memóriakorlát) próbálhatjuk ki 14 napig. Illetve elkezdte hangsúlyozni, ami a honlapról alapból nem jön le: mindig az aktuális verzió bevezetésével az előző verziót ingyenessé teszik - ez most ugye a RapidMiner 5.x verzió.

3 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr855648982

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

BeluGa 2013.11.22. 16:32:57

Túl nagy sikert nem jósolnék a fizetős modellnek.
Maga az ötlet, hogy egy hírhedten memória pazarló eszköz árazási modelljében a fő megkülönböztető elem a rendelkezésre álló memória igencsak érdekes.
A memóriakorlátos verziók szerintem használhatatlanok, az Enterprise verzió pedig nem látom mivel tudna többet az Rapidminer5.x-nél.

Az is valószínű, hogy nem én vagyok a célközönség, ha meg is nyitom valami miatt az eszközt, pár node berakása után ma már inkább becsukom és megírom pythonban amit szeretnék.

A Radoop szempontjából hogyan értékelitek az irányváltást?

Prekopcsák Zoltán · http://prekopcsak.hu 2013.11.23. 19:00:27

Igen, ez nekem is kicsit erős, hogy egy gyenge memóriakezelésű eszközben pont a memóriát korlátozzák, de más nem nagyon van, amit értelmesen lehetne korlátozni egy ilyen szoftverben.

A Radoop kapcsán már régóta tudtuk hogy lesz egy ilyen irányváltás a Rapid-I részéről, csak az időzítése volt a kérdés. Mint minden változás, ez hozhat jót és rosszat is, de én úgy gondolom hogy ez főleg jót fog nekünk jelenteni, már csak a RapidMiner erősebb üzleti jelenléte miatt is.

szajberpiraty 2013.11.23. 22:08:34

Szerintem a RapidMiner oktatásra kitűnő, de én is úgy vagyok mint BeluGa, inkább megírom R-ben, vagy Python-ban.
A memória használat és a sebesség is sokat számít, Python-ban még egy öregebb gépen is jó teljesítmény érhető el tapasztalataim szerint. Számos adatbányászati feladatnál kell több adatforrásból kibányászni adatokat, aggregálni stb, szerintem ezt R-el, vagy Python-al sokkal könnyebb megcsinálni, legalábbis nekem.

Mindenesetre azért szurkolok a Rapidnak, az nem lenne jó, ha eltűnne.