Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.09.21. 13:41 Prekopcsák Zoltán

RCOMM - Merre tart az open-source adatbányászat?

Címkék: google api rapidminer hadoop rcomm rapidanalytics R nyelv

Az elmúlt héten az első RCOMM konferencián vettem részt Dortmundban, ahol elsősorban a RapidMinert érintő kutatási és fejlesztési irányokról volt szó két napon keresztül. A vezető open-source adatbányászati eszközről nagyjából 20 érdekes előadást hallottunk a fejlesztő cég munkatársaitól és kiterjesztéseket fejlesztő független előadóktól. Mi a blogon korábban már bemutatott keresztvalidációs témáról tartottunk előadást, a Prezi itt elérhető.

A két napos előadások és beszélgetések során átfogó képet kaphattunk arról, hogy merre tart a legsikeresebb open-source eszköz és milyen új funkciókra számíthatunk a következő egy évben. Ezeket próbálom meg itt összefoglalni.

A legaktuálisabb fejlemény az R programozási nyelv integrációja, amit egy nagyon meggyőző demóval illusztráltak, amelyben mind az R parancssoros felülete, megjelenítési és modellezési funkciói is kényelmesen használhatóak voltak. Egy hasonló videó elérhető a Rapid-I honlapján is. Az R kiterjesztés megjelenése a következő hetekben várható.

Egy másik nagy fejlesztés a RapidAnalytics szerver, melyről már közel egy éve szivárognak információk, és az ígéretek szerint még idén elérhetővé válik. A RapidAnalytics tartalmaz mindent, amit egy adatbányászati szerver tudhat és tudnia érdemes, sőt még talán annál is többet. Az adathalmazok és elemzések a RapidMiner kliensből könnyen a szerverre menthetőek és ott futtathatóak, valamint ily módon egy elemzésen többen is tudnak dolgozni (persze nem egyszerre). A szerverhez egy pofás webes felület is tartozik, ahol az adatfájlokról, elemzésekről tekinthetünk meg információkat, kezelhetjük a jogosultságokat, sőt akár időzített futtatásokat is indíthatunk. Ez utóbbi különösen hasznos a riporting modullal kiegészítve, amely ezáltal képes időzített riportok generálására és terjesztésére is. Szintén innovatív funkciónak tűnik, hogy az egyes elemzések akár webservice-ként is meghívhatóak, ami tulajdonképpen a Google Prediction API-nak egy átlátszóbb, személyre szabhatóbb, házon belüli megoldását jelenti. A bemutatott mintaalkalmazás valós időben számolta a személyes ajánlatokat egy könyváruház látogatói számára.

A jövő évre várható még a RapidMiner alapszoftver 6-os verziója, amely követve az adattárházaknál már elterjedt trendet, oszlop alapú adatkezelésre tér át, ezáltal gyorsabb adatelérést és tömörebb memóriahasználatot eredményezve. Az Ingres céggel szövetkezve pedig szorosan mellé integrálják az Ingres VectorWise adatbázis-kezelőt, amely még hatékonyabb adatelemzésre képes, kisebb memória használatával. A részletekről keveset tudtunk meg, ez valószínűleg csak a jövő év végén valósul majd meg.

A mi szempontunkból érdekes volt még, hogy több előadásban felbukkant az igény és érdeklődés az elosztott számítási architektúrák felé. Az előadások között egy kezdetleges megoldással is találkoztunk, amely előadójával együttműködve a következő egy évben megpróbáljuk majd integrálni a Hadoop keretrendszert a RapidMiner alá, amivel egy egészen egyedülálló elosztott adatbányászati megoldás jönne létre.

Összességében egy kifejezetten színvonalas konferencián vagyunk túl, amely segítette a fejlesztők és a szakértő felhasználói közösség egymásra találását, és minden bizonnyal rengeteg együttműködést szül a következő időszakban.

4 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr532312394

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

tnsnames.ora 2010.09.21. 23:10:04

Nagyon szépen köszönöm/köszönjük a posztot. Jó volt olvasni nagyon.

(1)
Ami az R-t illeti, a Weka és a Knime után ezek szerint a RapidMiner is integrálja/integrálta. Ez erősíti az én fixa - bár biztosan vitatható - ideámat, amit mindig is gondoltam és mondtam az SPSS termékcsalád vonatkozásában, hogy ha valamit és legelőször integrálni kell(ene) redundánsmentesen -> az a Statistics és Clementine. Még a - Clementine-ban amúgy meglévő és nagyon szépen implementált - előfeldolgozó sem annyira létfontosságú ebből a szempontból. Igaz az egyre újabb és újabb verziók mind több jelét mutatják ennek.

(2)
Ez a szerveroldali cucc, az én olvasatomban "kötelező mutatvány", előbb-utóbb el kell(ett) jönnie ennek. Nem egy tragédia a fejlesztési igénye, viszont nagyon komoly a felhasználói nyomás ilyen téren (enterprise-szinten). Ami nagy és csodálatot érdemlő kihívás lenne az SPSS hasonló szerverében lévő in database mining meg sql-pushback. Aminek az open source világban még csak jele sincs, az én korlátozott infóim alapján.

(3) Az Ingres-cucc integrálása nagyon jól hangzik. Így ugyanis szimpatikusan lehet táblákat sql-ekkel meg esetleg 3gl-es eszközökkel is támadni, az adatbányászati folyamt például kezdeti lépéseiben. A nagy Ingres egy szenzációs és vezető rdbms (volt), nagyszerű élenjáró innovációval, mígnem az Informix meg az Oracle le nem nyomta a piacon.

(4) A Hadoop-os kezdeményezés a legnagyszerűbb, legüdvözlendőbb hír, a létező legígéretesebb dobás, az én olvasatomban.

Kérdés: mivel a részletes program nem érhető el a linken, lehetne-e valamit tudni a prezik témabeli eloszlásáról, valamilyen értelmes kategorizálás alapján? Üzleti-Technikai-Felhsználói-Esettanulmány-stb?

A másik kérdés amit Csaba említett nemrégiben, a "Rapid Miner saját jogon tényező a piacon" kérdéskört hogy látod? Én a SAS-sal való összevetésben firtattam a dolgot, de bármi infó érdekes lehet.

Prekopcsák Zoltán · http://prekopcsak.hu 2010.09.22. 09:43:41

Köszi a részletes reakciót!

A szerveroldali megoldás lehet, hogy kötelező kör, de hatalmas fejlesztési igénye volt. Ránézésre az alapszoftvernél kisebb, de összemérhető feladat lehetett megcsinálni. Persze nem az volt a nehéz, hogy lehessen szerveren elemzést futtatni, hanem a sok kiegészítő funkció például a webservice-ekkel. Nem véletlen, hogy egy éve gyúrják, szerintem van benne pár dolog, ami újdonság lesz a piacon.

Az Ingres-szel való együttműködés során játszottak az SQL pushback-kel, kb 10-szeres gyorsulást értek el és mivel a VectorWise-ban már egyszerűbb adatbányászati algoritmusok is vannak, ezért abban biztos vagyok, hogy lesz SQL pushback a RM6-ban.

A részletes program itt elérhető, hamarosan a cikkek is fent lesznek:
rapid-i.com/rcomm/index.php?option=com_content&task=view&id=14&Itemid=29

A cég vezetőjével beszélgetve számomra is az jött le, hogy harmadik megoldásként tekintenek magukra és ezt a (német) piac is így gondolja, mert az adatbányászati szoftvertendereken mostmár mindig bent vannak a 4-5 meghívott cég között. A cég működésében így két napra belelátva én is azt gondolom, hogy kinőtték az open-source garázscég jelleget, ha nem is létszámban (kb 12 fő), hanem komolyságban.

tnsnames.ora 2010.09.22. 17:08:05

Köszönöm.
Ingres ügyben meg végül csak rászántam magam egy blogposztra. Itt kezdtem el írni egy hozzászólást, de csak nem akart abbamaradni, pláne befejeződni. :o)
liftinstinct.blogspot.com/2010/09/ingres-vectorwise.html

Prekopcsák Zoltán · http://prekopcsak.hu 2010.09.22. 21:22:00

Köszönjük, tanulságos bejegyzés!