Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2016.06.07. 11:45 Ragány Csaba

KDnuggets 2016 szoftver poll eredményei Google motion chart-ban

Címkék: kdnuggets motion chart

Kikerültek a végleges eredmények a KDnuggets 2016-os (17.) data science szoftverhasználati felméréséről. A hivatalos oldalon böngészhetünk az adatok között és elolvashatjuk az igen részletes elemzést (idén már két oldalas), amit itt a blogon egy Google motion chart-tal egészítettünk ki. Ezen a mozgó diagramon a teljes időintervallumon, vagyis 2001 és 2016 között követhetjük nyomon azt, hogy évről-évre hogyan változott az előző évhez képest a “top 50” eszköz népszerűsége a szavazók körében. Akiket érdekelnek az eredmények, azt hiszem jó párszor végig fogják nézni a chart-ot...


A diagram egy 6+2 változós táblát használ, melynek első két oszlopa a szoftver neve illetve az évszám, a maradék négy plusz két oszlop pedig a “Number”, “Share”, “Change (num)” illetve a “Change (share)” attribútumok valamint utóbbi kettőnek a [-2, 2] intervallumba “normalizált” (levágott) változata. A chart alapértelmezett nézetekor az y-tengelyen a “Change (share) norm” értékek láthatók, ami tehát az “aktuális és az előző évi share arányok hányadosa mínusz egy” attribútumnak azon változata, ahol a [-2, 2] intervallumon kívül eső “outlierek” simán vissza lettek vágva a határokra, a többi érték pedig maradt eredeti állapotában (a változót természetesen kedvünk szerint lecserélhetjük bármelyik egyébre). Az x-tengelyen pedig az eszközökre leadott szavazatok darabszáma található (a 0 szavazattal rendelkező szoftverek nem jelennek meg). A változók normalizált változatát az olyan kiugró értékek miatt célszerűbb használni, mint pl. amik előfordulnak a Spark, az Alteryx vagy a H2O eseteiben (pl. a H2O share aránya 2015-re 1210%-ot nőtt, mivel 2014-ben még csak 5-en szavaztak rá (0,2%), egy évvel később pedig már 55-en (2%)). A normalizált változóval tehát egész szemléletesen (értelmes y-tengely intervallumon) követhető végig, hogy melyik évben kinek mennyit sikerült erősödnie vagy gyengülnie a KDnuggets szavazóinak körében.

A buborékok színe az egyes data science eszközök adott évre vonatkozó KDnuggets “Share” arányai szerint alakulnak, méretüket pedig a rájuk leadott szavazatok száma adja. Tehát minél inkább pirosak a buborékok, annál nagyobb arányban használták a szoftvert az adott évben illetve minél nagyobb a buborék, annál többen szavaztak rá. Az utóbbi metrikával tehát egymástól illetve az időtől függetlenítve hasonlíthatjuk össze az eredményeket. Természetesen az eredmények erősen függenek a KDnuggets szavazóközönségétől, aminek a változásáról nem sokat tudni (pl. mely és milyen létszámú - régi-új - community-k kapnak hírlevelet a szavazásról és melyek nem), illetve maga a szavazás is eléggé statikus abban az értelemben, hogy nincs lehetőség a szoftverek súlyozására. A buborékok színeiből az is jól látszik, hogy az elmúlt néhány évet leszámítva korábban nem igazán volt jellemző a szavazókra, hogy több eszközt is jelöltek volna, vagy az első jó néhány évben eleve nem is lehetett, emiatt a korábbi években kevés a sárga-piros buborék, míg pl. 2016-ban 2+3 eszköz is nagyon népszerű volt.

A diagramot lejátszva nagyon szemléletesen jelenik meg, hogy 2013-ra milyen mértékben lépett el a mezőnytől az akkori top 3 szoftver (R, RapidMiner, Excel), illetve hogyan csatlakozott egyből az élmezőnyhöz az SQL (sajnos 2013-ból nem található meg az SQL-hez a “Number” illetve a “Share” arány, pedig 2012-ben már mérték, emiatt tévesen a -1 pozícióból indul, és a buborék mérete is csak a 2012-2014-es adatokon interpolált eredmény), illetve hogyan tört előre a semmiből a Python (2012 előtt sajnos ezt sem mérték külön, ahogyan az SQL-t vagy pl. a Unix eszközöket sem). (Külön a Python és R felhasználókról itt egy egészen részletes elemzés 2015-ből a KDnuggets-en.) A motion chart-on érdekes látni az egyes szoftverek mozgását, hogy kik pattognak jobbra-balra (pl. Weka, Excel, RapidMiner) vagy le-fel (pl. Knime, Tibco), vagy kik a lassan de biztosan növekedők (pl. Tableau). A szavazatok darabszáma mellett a használati arány (share) alapú színezés is jól kiemeli (2010-től) az évről-évre kialakuló csoportokat, melyekből egyes szoftverek néha előretörnek, míg máskor vagy mások visszacsúsznak. 2016-ra a szavazatok számát illetően 4 nagy csoport látszik kialakultnak, de eléggé valószínűsíthető, hogy az új, “nyerő típusú” big data szereplők (pl. Spark) a következő pár évben szintén szép mozgásokat fognak bemutatni, illetve a felhő alapú szolgáltatások is okozhatnak meglepetéseket. Ami még meglepő, hogy a legalább 10 éve jelen lévő eszközök közül a legtöbb nem igazán tudott érdemben növekedni (a KDnuggets szavazói körében). Ez alól kivételt képeznek az Excel illetve az R, valamint egy kis időre a Weka (2014-ben). A teljességhez hozzá tartozik még, hogy vannak olyan, a diagramba be nem került szereplők, melyek akár már 10-15 évvel ezelőtt is jelen voltak, azonban sem akkor, sem azóta nem értek el számottevő népszerűséget (pl. Megaputer, Miner3D, Bayesia, Angoss...).

Természetesen egy-egy számunkra érdekesebb data science eszközt külön ki is választhatunk a meglévőkből, így a ‘Trails’ opció bekapcsolása után még inkább nyomon követhetők a változások (a ‘Trails’-el “kapjuk vissza”, tesszük szemléletesebbé az eredeti diszkrét, éves szintű értékeinket). A diagramot tetszésünk szerint testre is szabhatjuk a rendelkezésre álló keretek között. Ajánlható pl. az x-tengelyen az ABC-sorrend szerinti elrendezés, mely során a buborékok csak függőleges irányban fognak mozogni. Ezen az ábrán vehető ki igazán jól az, hogy pl. a régi szereplőknek miért nem lett nagyobb tábora (a valódi okot persze innen nem tudjuk meg), hiszen egy-egy népszerű évük után mindig következett egy-egy mínuszos, tehát folyamatosan oszcilláltak (pl. Statsoft, KXEN, Matlab, SPSS, SAS...).

Megjegyzés: sajnos a Google motion chart-ban nem lehetséges a buborékokhoz tartozó címkék pozícióinak illetve méretének alapértelmezett beállítása (egész konkrétan a (betű)méretet sehogyan sem lehet beállítani), így nekünk szükséges kézzel kialakítani minden egyes buboréknál a függőleges irányú fordított “hőlégballont”, hogy a címkék lehetőleg ne takarják ki a jobbra lévő szomszédos bogyókat (itt érdemes végigfutni 2016-ig, hogy a régi és az új szereplők is megjelenjenek). Ezt a problémát a Google az elmúlt 5-6 évben nem tartotta annyira fontosnak, hogy foglalkozzon vele, de akinek esetleg mégis van rá megoldása, hogy az ‘init state’-ben vagy bármi egyéb módon hogyan juttatható érvényre ez a beállítás, megköszönöm, ha kommentben jelzi.

És akkor legyen is elég a szóból, a KDnuggets-nek megköszönve a sok-sok éves munkát, a Google-nek pedig a motion chart-ot, következzen a lényeg:


KDnuggets software poll Google motion chart results


Kellemes böngészést mindenkinek!

Ui.: bár alaposan átnéztem a KDnuggets-ről átvett adatokat, de ha mégis valami nagyon furát (elgépelést) találnátok benne, akkor kérlek kommentben jelezzétek.

(Kép forrása)

Szólj hozzá!

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr628786018

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása