Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) BI (3) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (21) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (1) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) data mining (1) data science (5) diplomamunka (1) dmlab (11) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (1) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (22) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (5) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2016.06.07. 11:45 Ragány Csaba

KDnuggets 2016 szoftver poll eredményei Google motion chart-ban

Címkék: kdnuggets motion chart

Kikerültek a végleges eredmények a KDnuggets 2016-os (17.) data science szoftverhasználati felméréséről. A hivatalos oldalon böngészhetünk az adatok között és elolvashatjuk az igen részletes elemzést (idén már két oldalas), amit itt a blogon egy Google motion chart-tal egészítettünk ki. Ezen a mozgó diagramon a teljes időintervallumon, vagyis 2001 és 2016 között követhetjük nyomon azt, hogy évről-évre hogyan változott az előző évhez képest a “top 50” eszköz népszerűsége a szavazók körében. Akiket érdekelnek az eredmények, azt hiszem jó párszor végig fogják nézni a chart-ot...


A diagram egy 6+2 változós táblát használ, melynek első két oszlopa a szoftver neve illetve az évszám, a maradék négy plusz két oszlop pedig a “Number”, “Share”, “Change (num)” illetve a “Change (share)” attribútumok valamint utóbbi kettőnek a [-2, 2] intervallumba “normalizált” (levágott) változata. A chart alapértelmezett nézetekor az y-tengelyen a “Change (share) norm” értékek láthatók, ami tehát az “aktuális és az előző évi share arányok hányadosa mínusz egy” attribútumnak azon változata, ahol a [-2, 2] intervallumon kívül eső “outlierek” simán vissza lettek vágva a határokra, a többi érték pedig maradt eredeti állapotában (a változót természetesen kedvünk szerint lecserélhetjük bármelyik egyébre). Az x-tengelyen pedig az eszközökre leadott szavazatok darabszáma található (a 0 szavazattal rendelkező szoftverek nem jelennek meg). A változók normalizált változatát az olyan kiugró értékek miatt célszerűbb használni, mint pl. amik előfordulnak a Spark, az Alteryx vagy a H2O eseteiben (pl. a H2O share aránya 2015-re 1210%-ot nőtt, mivel 2014-ben még csak 5-en szavaztak rá (0,2%), egy évvel később pedig már 55-en (2%)). A normalizált változóval tehát egész szemléletesen (értelmes y-tengely intervallumon) követhető végig, hogy melyik évben kinek mennyit sikerült erősödnie vagy gyengülnie a KDnuggets szavazóinak körében.

A buborékok színe az egyes data science eszközök adott évre vonatkozó KDnuggets “Share” arányai szerint alakulnak, méretüket pedig a rájuk leadott szavazatok száma adja. Tehát minél inkább pirosak a buborékok, annál nagyobb arányban használták a szoftvert az adott évben illetve minél nagyobb a buborék, annál többen szavaztak rá. Az utóbbi metrikával tehát egymástól illetve az időtől függetlenítve hasonlíthatjuk össze az eredményeket. Természetesen az eredmények erősen függenek a KDnuggets szavazóközönségétől, aminek a változásáról nem sokat tudni (pl. mely és milyen létszámú - régi-új - community-k kapnak hírlevelet a szavazásról és melyek nem), illetve maga a szavazás is eléggé statikus abban az értelemben, hogy nincs lehetőség a szoftverek súlyozására. A buborékok színeiből az is jól látszik, hogy az elmúlt néhány évet leszámítva korábban nem igazán volt jellemző a szavazókra, hogy több eszközt is jelöltek volna, vagy az első jó néhány évben eleve nem is lehetett, emiatt a korábbi években kevés a sárga-piros buborék, míg pl. 2016-ban 2+3 eszköz is nagyon népszerű volt.

A diagramot lejátszva nagyon szemléletesen jelenik meg, hogy 2013-ra milyen mértékben lépett el a mezőnytől az akkori top 3 szoftver (R, RapidMiner, Excel), illetve hogyan csatlakozott egyből az élmezőnyhöz az SQL (sajnos 2013-ból nem található meg az SQL-hez a “Number” illetve a “Share” arány, pedig 2012-ben már mérték, emiatt tévesen a -1 pozícióból indul, és a buborék mérete is csak a 2012-2014-es adatokon interpolált eredmény), illetve hogyan tört előre a semmiből a Python (2012 előtt sajnos ezt sem mérték külön, ahogyan az SQL-t vagy pl. a Unix eszközöket sem). (Külön a Python és R felhasználókról itt egy egészen részletes elemzés 2015-ből a KDnuggets-en.) A motion chart-on érdekes látni az egyes szoftverek mozgását, hogy kik pattognak jobbra-balra (pl. Weka, Excel, RapidMiner) vagy le-fel (pl. Knime, Tibco), vagy kik a lassan de biztosan növekedők (pl. Tableau). A szavazatok darabszáma mellett a használati arány (share) alapú színezés is jól kiemeli (2010-től) az évről-évre kialakuló csoportokat, melyekből egyes szoftverek néha előretörnek, míg máskor vagy mások visszacsúsznak. 2016-ra a szavazatok számát illetően 4 nagy csoport látszik kialakultnak, de eléggé valószínűsíthető, hogy az új, “nyerő típusú” big data szereplők (pl. Spark) a következő pár évben szintén szép mozgásokat fognak bemutatni, illetve a felhő alapú szolgáltatások is okozhatnak meglepetéseket. Ami még meglepő, hogy a legalább 10 éve jelen lévő eszközök közül a legtöbb nem igazán tudott érdemben növekedni (a KDnuggets szavazói körében). Ez alól kivételt képeznek az Excel illetve az R, valamint egy kis időre a Weka (2014-ben). A teljességhez hozzá tartozik még, hogy vannak olyan, a diagramba be nem került szereplők, melyek akár már 10-15 évvel ezelőtt is jelen voltak, azonban sem akkor, sem azóta nem értek el számottevő népszerűséget (pl. Megaputer, Miner3D, Bayesia, Angoss...).

Természetesen egy-egy számunkra érdekesebb data science eszközt külön ki is választhatunk a meglévőkből, így a ‘Trails’ opció bekapcsolása után még inkább nyomon követhetők a változások (a ‘Trails’-el “kapjuk vissza”, tesszük szemléletesebbé az eredeti diszkrét, éves szintű értékeinket). A diagramot tetszésünk szerint testre is szabhatjuk a rendelkezésre álló keretek között. Ajánlható pl. az x-tengelyen az ABC-sorrend szerinti elrendezés, mely során a buborékok csak függőleges irányban fognak mozogni. Ezen az ábrán vehető ki igazán jól az, hogy pl. a régi szereplőknek miért nem lett nagyobb tábora (a valódi okot persze innen nem tudjuk meg), hiszen egy-egy népszerű évük után mindig következett egy-egy mínuszos, tehát folyamatosan oszcilláltak (pl. Statsoft, KXEN, Matlab, SPSS, SAS...).

Megjegyzés: sajnos a Google motion chart-ban nem lehetséges a buborékokhoz tartozó címkék pozícióinak illetve méretének alapértelmezett beállítása (egész konkrétan a (betű)méretet sehogyan sem lehet beállítani), így nekünk szükséges kézzel kialakítani minden egyes buboréknál a függőleges irányú fordított “hőlégballont”, hogy a címkék lehetőleg ne takarják ki a jobbra lévő szomszédos bogyókat (itt érdemes végigfutni 2016-ig, hogy a régi és az új szereplők is megjelenjenek). Ezt a problémát a Google az elmúlt 5-6 évben nem tartotta annyira fontosnak, hogy foglalkozzon vele, de akinek esetleg mégis van rá megoldása, hogy az ‘init state’-ben vagy bármi egyéb módon hogyan juttatható érvényre ez a beállítás, megköszönöm, ha kommentben jelzi.

És akkor legyen is elég a szóból, a KDnuggets-nek megköszönve a sok-sok éves munkát, a Google-nek pedig a motion chart-ot, következzen a lényeg:


KDnuggets software poll Google motion chart results


Kellemes böngészést mindenkinek!

Ui.: bár alaposan átnéztem a KDnuggets-ről átvett adatokat, de ha mégis valami nagyon furát (elgépelést) találnátok benne, akkor kérlek kommentben jelezzétek.

(Kép forrása)

Szólj hozzá!

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr58786018

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.