Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) AI (3) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) bi (13) BI (5) Bi (1) bi-trek (1) biconsulting (7) bigdata (29) Big Data (3) big data (12) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (3) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (3) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) covid19 (2) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) dashboard (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (6) dataskool (1) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (17) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (4) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (25) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (4) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) power bi (2) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (41) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (7) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (7) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2012.10.11. 13:14 Gáspár Csaba

A RapidMiner sikerének sarokpontjai - 1. rész

Címkék: oktatás piac technológia open source rapidminer

A múltheti OSBI konferencia kapcsán gondoltam át, hogy minek köszönheti a nyílt forráskódú RapidMiner adatbányászati szoftver azt, hogy hazánkban a SAS és IBM SPSS adatelemzési technológiái mellé felnőve meghatározó szereplő lett. A RapidMiner nemzetközi szinten is egyre erősebb, de ezt az előkelő pozíciót alig néhány országban tudta még csak kivívni magának. Mi az oka a hazai sikerének, milyen tényezők állnak a háttérben?

RapidMinerErtekeles.pngVéleményem szerint öt kulcsterület volt az, ami hol látványosan, hol kevésbé egyértelműen a sikerhez hozzájárult: piaci rés, oktatás, fejlődő termékportfólió, szakmai közösség és hazai bevezetések. Jelen posztban az első két témának szentelünk figyelmet.

Piaci rés

Mindenképpen adott volt egy rés az adatbányászati eszközök piacán. Az adatbányászatban erős szoftverek alapjait elég régen rakták le, alig fejlődtek koncepciójukban. A RapidMiner egy olyan nyílt platformot adott, amihez nagyon könnyen lehet integrálni, és ami képességeiben, eszközkészletében meghaladja a hagyományos megoldásokat. Többen indultak hasonló ígéretekkel (pl. Weka), de a Rapid-I cég volt az első, aki az üzleti környezetben használható technológiát és megfelelő támogatást, üzleti hátteret is adott a megoldásához.

Kései indulásukból sajátos előnyt kovácsoltak: a konkurens megoldások hiányosságaira tudtak frappáns megoldást adni azzal, hogy újragondolták az adatvezérelt futtatást lehetővé tevő vizuális programozási felületüket. Aki ismeri a RapidMiner vizuális vezérlési szerkezeteit , az érti mennyivel nagyobb szabadságot adtak azzal, hogy nem kell külön (szkript)nyelvet elsajátítanunk ahhoz, hogy különböző keresztvalidációt, ciklusszervezést, paraméteroptimalizálását végezzünk.

Fontos szempont még, hogy ugyan a konkurens megoldások ára nemzetközi környezetben nem annyira problematikus, de a hazai környezetben közel ugyanazzal az árral találkozhatunk, mint külföldön. A RapidMiner ezzel szemben induló csomagját lényegében ingyen adja, egyedül a megfelelő szupportért, illetve a RapidAnalytics szerver képességeiért kell fizetnünk.

Oktatás

Fontos kitételnek tartom, hogy több évre visszamenőleg számos egyetemen is oktatják a szoftvert. Mi magunk már közel három éve oktatjuk a RapidMinert a BME-n, régebben mióta az üzleti használatra is alkalmassá tett RapidMiner 5.0 verzió megjelent (2010 februárjában újult meg teljesen a RapidMiner, addig tényleg inkább egy open source játékszernek lehetett nevezni). Mivel a legtöbb esetben a többi szoftvermegoldással együtt kerül bemutatásra (beszélünk a SAS, az IBM SPSS és az Oracle, Microsoft megoldásairól is), így a hallgatók számára jól tudjuk körvonalazni, hogy mik az előnyei és mik a hátrányai egy-egy megoldásnak.

Az egyetemi oktatásból egyre több olyan gyakornok, fiatal kolléga került a hazai alkalmazói és tanácsadó cégekhez, akik a RapidMiner kompetenciájukkal megfertőzték a munkáltatójukat. Nehéz megmondani mennyi elemző van, aki nem ijedne meg, ha RapidMinerben kellene megoldania egy adatbányászati projektet, de szinte biztos, hogy már minden jelentősebb akadémiai, üzleti csoportban vannak ilyen kollégák.

Az egyetemi oktatáson túl kiemelném az üzleti kurzusokat is. Itt az igények jelentek meg hamarabb, az első ilyen tanfolyamainknál minket kutattak fel a cégek. Ma már kidolgozott megoldásunk van arra, ha valaki egy cégére szabott RapidMiner oktatást szeretne kérni tőlünk, és hamarosan indítjuk az első, mindenki számára nyitott, fizetős RapidMiner tréninget is.

Az áttekintést a termékfejlesztési aspektussal, a szakmai közösségek szerepével és a hazai bevezetések hatásával folytatjuk - hamarosan.

5 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr424833527

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

tnsnames.ora 2012.10.15. 20:13:19

Gratulálok és egyúttal továbbra is nagyon drukkolok a RapidMinernek.

Én mondjuk nem csigáztam volna a blog olvasó közösségét, hogy most az első rész olvasható csak... ;)

Gáspár Csaba 2012.10.16. 05:47:52

@tnsnames.ora: Nem volt szándékom csigázni a hallgatóságot, de a poszt elsőre olyan hosszú lett, hogy a türelmetekkel sem szerettem volna visszaélni.

szajberpiraty 2012.10.26. 07:44:35

Egyszerűen jó a RapidMiner, az a titka. Én is ezzel kezdtem el az adatbányászattal való ismerkedést. Inkább a nagyobb adatmennyiségeknél akad csak gond a sebességgel.

Én nem írnám le a scripteket sem, néha könnyebb átírni a scriptet, mint módosítani a modellt a RM-ben.

Lassam egy éve használok R-t is, és az a tapasztalatom, hogy pár parancs használatával máris lehet modelleket futtatni, persze az előfeldolgozás az más tészta, ahhoz jobban bele kell ásni. Jó eredményeket értem el vele pár Kaggle versenyen.

Gáspár Csaba 2013.06.07. 12:08:22

@szajberpiraty: Igen, az R is nagyon jó cucc. Én úgy látom, hogy van egy komoly inflexiós pont az R és a RapidMiner között: az egyik egy programozási nyelv, a másik egy grafikus felhasználói felülettel rendelkező dataflow alapú keretrendszer. Nagyon hasonló dolgokat lehet velük megcsinálni, de a használatuk módja között van egy nagy szakadék, nagy különbség.

Nem egészen látom még át miért, de a grafikus dataflow jellegű felületeken én hosszú távon hatékonyabb vagyok, ha munkáról van szó. Hangsúlyozom a hosszú távot, egy csomó dolgot nagyon nyakatekerten vagy sehogy sem lehet bennük megoldani, de mégis alapesetben az az első tervezői kérdésem egy-egy új feladatnál: meg lehet-e oldani azt egy dm eszközön belül. Mert minden más megoldás "drágább", időigényesebb, rizikósabb szokott lenni.

Prekopcsák Zoltán · http://prekopcsak.hu 2013.06.07. 12:23:35

Pont a tegnapi DW Forumon hangzott el a Teradata CTO-jától, hogy egy adatelemzőnek alapvetően nem a kódra kellene koncentrálnia, hanem az adatra. Pont ez a különbség egy fejlesztő és egy adatelemző között, hogy az egyik a kódra, a másik az adatra fókuszál. Bizonyos területeken (mint pl. nagy adatok) ez a két szerep jelenleg egy embert kíván, mert hiányzik hozzá a megfelelő toolset.