Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (4) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (10) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (3) datasource (1) data engineering (1) data mining (1) data science (8) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) egészségügy (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (40) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.05.31. 09:22 Prekopcsák Zoltán

Adatbányászati szoftverek rangsora

Címkék: rapidminer ibm spss knime weka kdnuggets SAS R nyelv

A KDnuggets weboldal évről évre megkérdezi olvasóit, hogy mely adatbányászati szoftvereket használják. Bár a felmérés semmilyen szempontból nem tekinthető reprezentatívnak, mégis fontos trendeket lehet belőle kiolvasni ha nem a konkrét számokat figyeljük. Idén különösen elfajult eredményeket kaptunk, hiszen az első hat helyre négy open-source szoftver is került, ami leginkább annak köszönhető, hogy ezekben a közösségekben jól mozgósították a szavazókat. Sorrendben a RapidMiner, az R, a KNIME és a Weka végzett az élen, és a hagyományosan jól szereplő SAS és IBM SPSS Modeler ezúttal leszorult a dobogóról.

A 2010-es felmérés tehát irreális open-source fölényt hozott, de az mindenesetre tény, hogy az open-source szoftverek egyre inkább reális alternatívát nyújtanak. Az alábbiakban egy mozgó grafikonon bárki nyomon követheti a szoftverek elterjedtségét a KDnuggets felmérései alapján 2006 és 2009 között.

13 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr642044050

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

BIP 2010.05.31. 10:00:08

Ismét tanácsolnám, hogy adjatok a cikkeknek értelemben gazdag címeket :-)

Például:
"Adatbányászati szoftverek rangsora"
"Adatbányászati szoftverek népszerűsége"
"Felmérés az adatbányászati szoftverek használatáról"

tnsnames.ora 2010.06.01. 10:41:39

És mi a meglátásátok az R, hogy tudott ezüstérmes lenni? Én értem, hogy a statisztikai szoftverek vonalán az R régóta, nagy kiterjedésben, jó minőségben tud megjelenni, de adatbányászat oldalához ennyi elég? Ráadásul a KNime tartalmaz R "csatolót", ahogy Wekásat is.

A RapidMiner elsőségét értem, én azt gondolom "legbiztonságosabban" (legkevésbé félrevivően benne lehet adatbányászkodni open source vonalon)

Az Excel-t is érteni vélem, bár itt gondom van az Excel közismert méretbeli korlátaival.

A "saját kód"-ot is értem, pláne az open source vonal ilyetén előretörését látva.

Prekopcsák Zoltán · http://prekopcsak.hu 2010.06.01. 13:07:13

Az R-ben rengeteg adatbányászati eljárás van megvalósítva. A KNIME R csatolóját nem ismerem, de az R-hez van kifejezetten adatbányászati grafikus interfész, azt érdemes megnézni:
rattle.togaware.com/

Az SPSS is rendelkezik R integrációval, a tavalyi OSBI konferencián volt erről egy előadás.

tnsnames.ora 2010.06.01. 17:34:46

Igen, valóban létezik a Rattle. De néztétek azt közelebbről, például funkcionalitás vagy dokumentáltság szinten? Én még mindig tamáskodom azon, hogy ez hogyan lett elég az ezüstéremhez. De legyen ez az én gondom. :)

Az SPSS kereskedelmi termék, azt azért nem említettem ebben a kontextusban.

Prekopcsák Zoltán · http://prekopcsak.hu 2010.06.01. 17:43:50

A Rattle-t még nem használtuk élesben, ahogy egyáltalán R-t sem, de mindenképp bent van a következő pár hónap tervei között.

Engem is meglep az R előretörése. Sajnos nem ismerek olyat, aki rendszeresen használja, pedig kíváncsi lennék a tapasztalatokra. Ha tudtok ilyet, akkor egy vendégbejegyzést szívesen közölnénk a témában! :)

Gáspár Csaba 2010.06.01. 18:05:35

Zoli a bejegyzésben is kiemelte, hogy az open scource megoldások közösségei valószínűleg kampányban szólította fel híveiket, hogy szavazzanak. Nemhogy nem reprezentatív a minta (korábbi években sem volt az), hanem erősen torzítja ez a tényező. Szerintem két síkon érdemes értelmezni az idei eredményt: hagyományos és open scource közösség megítélését külön választva kell vizsgálni, és open scource esetben inkább a kialakult közösségek erejéről szólnak a számok, mint a tényleges használatról, elterjedtségről.

tnsnames.ora 2010.06.01. 19:55:17

Világos, én is ezért írtam, open source-ra fókuszáltan. Meg firtatom az R-t, open source-n _belül_.

Viszont azért az ilyen "akciók" nem azonnal és triviálisan sikeresek (lásd minapi facebook-elhagyási akció mondhatni dugába dőlését), ezek azért bírhatnak üzenetértékkel, hogy mi mellett, mi ellen, hányan lépnek fel (arányaiban).

Nyílván jó eséllyel nem cserélték le a kockázatkezelők mondjuk a SAS-os szoftvereiket például KNimére, de azért az mozgosítható erővel bírhat, hogy mind az IBM/SPSS, mind a SAS erősen túlárazott feelinget árasztanak magukból, miközben az Open Source eszközök egyre csak izmosodnak.

kormendigy 2010.06.07. 17:17:43

Szevasztok,

Én az R-en nem lepődök meg, amerikai akadémiai körökben de facto publikációs sztenderd. A Rapidmineren sem, ingyenes, egy csomó lelkes felhasználóval.

A felmérésről annyit érdemes tudni, hogy teljesen anonim, bárki szavazhat, és semmiféle szempontból nem reprezentatív. A korábbi években pl. a Salford System eszközei ostromolták a dobogót. Talán annyi insider infót mondhatok, hogy idén nem jött szavazásra mozgósító körlevél a Clementine UG levlistán :)

Világos az ingyenes szoftverek helye és előretörése. A SAS lehet hogy túlárazott ;) de különben azért illik a szoftverekhez hasonlítani a nyugati üzleti DM elemzők fizetését: www.kdnuggets.com/polls/2010/data-miner-salary.html

Feltéve hogy a munkaidő meghatározó részében használják az eszközt, biztos hogy a szoftverlicensz a vállalati dm fő költségeleme? És mi van a hatékonysággal?

tnsnames.ora 2010.06.07. 20:21:08

Én azért vitatkoznék avval, hogy a fizetések hogyan miképpen játszanak bele a történetbe.

Én azt mondom, ha egy OLAP-ról lenne szó akkor jogos bevonni a (nyugati) fizetéseket, hiszen az alapvetően az üzleti szféra technológiája, ahol jóval kiegyenlítettebbek a költségviszonyok a szűk spektrum miatt.

Az adatbányászat (elemzés), viszont tudhat a tömegek sportja is lenni, hiszen az élet majdhogynem minden területén hasznosítható (széles domain-spektrum). Ha innen nézzük, akkor meglehet elhanyagolható azon adatbányászok mennyisége, aki 100.000 usd felett keresnek évente. (És persze az ő környezetükben nyílván nem probléma egy SPSS licence megvétele.)

És akkor hadd adjam már ki azon mérgemet is, hogy míg a SAS és IBM/SPSS itthon tudtommal nyugati áron árulja temrékeit, addig az itteni fizetések távolról sem ostromolják az évi 100.000 USD-t.

Végezetül pár szó a túlárazásról. Számomra túlárazás fogalma nem akörül firtat, hogy mennyire reális piaci árat határoz meg a gyártó, hanem, hogy mennyire 'magyarázható/védhető' (mezei user által) a piaci árrés, amit a gyártó érvényesíteni akar a méltányolható költségei levonása után. Én azt mondom mind a SAS mind az IBM/SPSS szerintem - főleg ilyen válságos időkben - helytelenül alapvetően "elitizáló" szoftvert értékesít, szűk rétegnek, indokolatlanul magas egységáron.
Tény hogy az SPSS eszközéhez szemben a SAS-éval könnyebben fér hozzá itthon az átlag honpolgár, de attól még az ára túlságosan magas, szvsz. És tartok tőle az IBM-akvizició nem lefelé fogja elmozdítani az árakat.

kormendigy 2010.06.08. 08:20:43

@tnsnames.ora: Mondjál légy szíves a Mercédesztől a Milka csokiig bezárólag bármit, aminek az ára alacsonyabb a szegény káeurópaiaknak! Miért lenne olcsóbb?

Sajnos ahogy nézem az eloszlásokat a kdnuggetsen, egyátalán nem elhanyagolható a 100k-t kereső adatbányászok aránya (az USA-ban). De ott sem ők fizetik a licenszet, hanem a cégük. A cég pedig megoldást vásárol, aminek része -egyebek mellett- a szoftver és az elemző is.

Különben mindkét szállító töredékáron adja a termékeket a felsőoktatásnak. Pl. az SPSS a nyugati akadémiai áraknak is a töredékéért. Mielőtt bevádolnál, hogy persze ez a beetetés, azért halkan hozzátenném, hogy nem 1-2 oktató használja pénzkeresetre is hébe-hóba ezeket a licenszeket, amire az akadémiai ár (duplán) nem vonatkozna. Hogy ezzel a piackutatói, statisztikai és dm szakértői piac árait verik le? Welcome to Hungary!

Az árképzésnek egyébként egy fogkefe esetén is csak hozzávetőleges köze van az előállítási költséghez. A szemét gyártó célja a haszon és a bevétel maximalizálása. Vajon tizedáron lenne 10x ennyi Clementine user?

A tömegek használhatják az egyre szuperebb Rapidminert, aztán majd kiderül, hogy az "elitgyártók" nem esnek-e a saját üzleti modelljük csapdájába. Addig azért érdemes megkérdezni a Raiffeisent, hogy mi van a matlabos, (meg talán R-es?) cuccokkal?

tnsnames.ora 2010.06.08. 12:06:35

Mondjak valami olcsóbbat, ami itthon jobb árcédulájú, mint kinn? Hát például a lejárt szavatosságú szemét, amit nem vesz fel kinn a piac. ;) Tudom nem erre gondoltál, meg igazad van, hogy az SPSS nem ugrik ki negatívan az átlag hozzáállásból, az a baj, hogy annyira pozitívan sem (az én olvasatomban). ;)

Az viszont engem speciel taszít (mint jelenség) ebben a "piacgazdaságban", hogy az árszínvonal nyugati, a bérszínvonal meg keleti, megfejelve a magyar bürokráciával, korrupcióval és adózással. Érdekes módon a multik a bérekkel tudnak alkalmazkodni a helyi viszonyokhoz, csak a termékek áraival nem.

Nyílván nem feltétlen az adatbányász fizeti a licencet. Én is arra gondoltam, hogy ahol a 100.000 USD-s bért ki tudják gazdálkodni, ott a licence-t is ki tudják gazdálkodni. Hozzáteszem nem minden szkepticizmus nélkül vagyok ez irányba, de ez messzire vinne, így nem ragozom tovább.

Ez a felsőoktatás szerintem nem jó példa. Például az általad említettek miatt sem, meg amiatt sem, mert tipikusan mézesmadzag feelingje van. Bemutatja az SPSS, hogy milyen remekül lehet a Clementine-nal dolgozni, ami amúgy egy percig sem volt sosem kérdés, aztán a diák kikerül a nagy világba, és kis túlzással, ha nem biztosítóhoz vagy bankhoz kerül, nem fog legálisan látni Clementine-t. Lásd még elitizálás.

Az hogy az egyetemi oktató "fusiba" is használja a Clementine-t, arra én azt mondom, hogy tegye, ismerve az itthoni átlag oktatói bérviszonyokat és hozzá a potenciális tudást. Ez szerintem az SPSS sales-ének a problémája, hogyan menedzseli a (engedés, tiltás, üldözés, stb.)

Azt gondolom mindig is nehéz volt egy szállítandó projekt árképzése. Ha elszakadunk az adatbányászattól, akkor egy komplett Oracle-s projektet meg tudhat valaki csinálni számla nélkül pár tízezerért míg az Oracle Hungary napi 2-300.000+ ÁFA per fő költséget számláz. A problémakör szerintem kivezet az átalam firtatott "túlárazás" témából. De lehet, hogy nincs igazam. :)

"A szemét gyártó célja a haszon és a bevétel maximalizálása." Ezzel nincs is baj. A baj csak az, ha ez az _egyetlen_ célja. (Az én felfogásomban)

A "túlárazás"-os soraimnál a legelején direkt írtam, hogy nem a reális piaci ár firtatására gondoltam. Azt sem nem tisztem, nem is értek hozzá, pláne nem vagyok üveggömb jós, hogy mi mire lesz jó. Azaz egyetértek, majd a jövőben fog kiderülni, hogy mennyire veszít a Clementine és nyer az open source tért.

Gáspár Csaba 2010.06.12. 12:18:10

Örülök, hogy ilyen heves vitát váltott ki a posztunk, kellenek szerintem az ilyen szelepek, ahol kibeszélhetjük ezeket a kérdéseket.

Az árazással kapcsolatos gondolatokhoz egy másik aspektust is hozzátennék: korábban többször jártam úgy, hogy hosszas egyeztetés után azért bukott el a pilot projektünk elindítás, mert a szoftverlicenszek ára elijesztette a megrendelőt. Mióta azonban megjelentek az open scource megoldások, azóta ez a kérdés megoldódott. Hozzá kell tennem, hogy ezek az eszközök gyakran sokkal mélyebb technikai/adatbányászati ismereteket követelnek meg a használójától, jobban képzett illetve nehezebben elérhető munkaerő kell ahhoz, hogy azt használni lehessen, sokkal kevesebbet lehet rábízni a megbízónál már meglévő munkaerőre (Egy SPSS Modeler elé leülve intuitív módon meg lehet tanulni a szoftver használatának alapjait, ezt egy RapidMiner esetén már jóval kevésbé javaslom bárkinek is)

Ilyen értelemben az open scource világ egyik ígérete, hogy olyan helyeken is el lehet kezdeni dolgozni, ahol eddig a magas induló költségek miatt nagyon rizikósnak tűnt az új adatbányászati megoldások bevezetése. Lényegében az alkalmazási terület szélesedését várhatjuk ezektől a technológiáktól. Ezt a tendenciát az is erősíti, hogy az open scource megközelítés miatt könnyebb illeszteni ezeket az eszközöket a már kialakított rendszerekhez.

Az akadémiai szférának adott kedvezményes árakra szükség van. Az eddigi kedvezményes árak megengedték, hogy mi a saját tanszékünkön a SPSS Modelert/Clementine-t és a SAS/SAS Enterprise Miner-t is biztosítani tudtuk (MSSQL szerver és az Oracle adatbányász funkciói az egyetemek számára ingyenesen elérhetők.) Mivel azonban ilyen beszerzésekre állandó pénzforrásunk nincsen, ezért néha nehézségek vannak az utánpótlásban. Ha ugyanis az egy hallgatóra jutó éves adatbányászati licenszárakat kiszámoljuk, akkor egyértelműen látszik, hogy veszteséges az oktatási felhasználása ezeknek az eszközöknek. A korábbi megoldás az volt, hogy különböző K+F projektekhez vásároltuk meg a licenszeket, ezeket használhattuk oktatásra és kutatásra egyszerre. Ilyen lehetőségből ma már egyre kevesebb van, és az akadémiai szférában ezen a területen jelentős konkurenciát jelentenek az open scource megoldások is.

A vendorok és az egyetemek közötti megfelelő együttműködés kialakítását pedig akadályozza az a félelem, hogy az oktatók visszaélnek a kapott licenszekkel. Nem sok példát ismerek erre, de ezeket az ügyeket nem szokták kirakni a kirakatba. A kérdéskört egyszer jó lenne kibeszélni egy kávé mellett, szerintem az SPSS Nyári Iskolája például jó alkalom lehet majd arra, hogy erről is beszélgessünk.