Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2011.03.28. 21:37 Gáspár Csaba

Adatelemző szoftverek népszerűsége

Címkék: szoftver open source spss nyílt forráskód adatbányászati technológiák jmp SAS R nyelv

A jövő heti IQSymposiumon tartandó előadásomra készülve futottam bele egy nagyon érdekes cikkbe arról, hogy melyik adatelemző szoftver a legnépszerűbb (Robert A. Muenchen: The Popularity of Data Analysis Software). Hogy konkrétabb legyek az SAS, SPSS, R, JMP, Minitab, Stata, Statistica és még néhány kisebb szoftver népszerűségét próbálták megvizsgálni.

Az elemzés igen széleskörű és elfogulatlan kívánt lenni, bár az R nyelv iránti pozitív percepció kiolvasható a sorok közül. Sőt ezzel volt az egyik legtöbb probléma a webes anyagok elemzése során, hiszen egy egybetűs szó különböző előfordulási számait nehéz torzulások nélkül vizsgálni. Mégis elég körültekintő elemzéseket láthatunk a témába vágó levelezési listákról, a levelezési listákra feliratkozottak számáról, a szakblogok számáról, az internetes keresési trendekről, a website-ok látogatottsági adatairól, azok PageRank értékéről, az állásajánlatok számáról, illetve a különböző felmérésekben megadott felhasználói preferenciákról egyaránt. Két ábrát be is vágtam a sok közül, de csak az ábrák kedvéért érdemes végigfutni ezt eredeti írást is (cikk linkje mégegyszer).

Az első ábra az eszközökkel foglalkozó legfontosabb levelezési listák forgalmát mutatja, míg a második az álláshírdetések számát az egyik nemzetközi állásközvetítő cég adatai alapján.

Amit én látok a számokból az, hogy nagyon erős figyelmet kap az R programcsomag, tényleg szignifikáns módon kiemelkedik az ábrákon látható trendekből ez a megoldás. Én is ismerek hazai cégeket, csapatokat akik egyik elsődleges eszközükké tették az R nyelvet, vannak biztató példák arra, hogyan lehet jelentős költségcsökkentést elérni kisebb projektek esetén. Ugyanakkor ez a webes figyelem még csak apró bolhacsípés a nagy szállítóknak, az USAban még mindig messze a legtöbb állásajánlat SAS-hoz és SPSS-hez köthető, és az R lényegében még három nagyságrenddel elmarad mögötte. 

Ugyanakkor a trendek erősek, néhány év múlva a kisebb elemzési projekteknél az R igazi vetélytárssá tudja kinőni magát, főleg ha valamelyik nagy ilyen típusú megoldással még nem rendelkező vendor a hóna alá nyúl, és felkarolja ezt az open source kezdeményezést. Ez azt is jelenti, hogy azoknak, akik nem kizárólag nagyvállalati BI projektekben szoktak részt venni, érdemes elkezdeni tanulni ezt a technológiát, és - micsoda szerencse -  a net teli van jobbnál jobb anyagokkal.

2 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr312780294

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

matroid 2011.03.29. 23:09:06

lehet hogy valamirol nagyon lemaradtam, de a Stata-rol eddig nem sokat hallottam. valaki tud errol irni vmit? az oldala alapjan ez inkabb vmilyen statisztikai szoftver - igy nem is ertem a cikket.

Preko 2011.03.29. 23:26:37

Én ebben a dalban hallottam először a Stata programról, számomra Matlab és R konkurenciának tűnik:

"So they teach STATA in class, and the real world uses SAS,
but remember that STATA is nearly free,
and for SAS you pay a yearly fee."

www.youtube.com/watch?v=zTPhZcxnBSE