Adatbányászat Blog

A Dmlab szakmai blogja - dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (17) adaptív (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (3) adattárház (5) adattárház fórum (6) adattisztítás (1) adatvédelem (2) adatvizualizáció (1) advise (2) aegon (1) agy (2) ajánló (6) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) api (2) Arató Bence (2) bank (1) barabási (2) beharangozó (18) bejelentés (2) belami (1) best practice (1) beszámoló (14) BI (3) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (8) big data (2) biopen (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (4) BME (2) bootcamp (1) brainstorming (1) bsp (1) business analytics (1) business analytics szakirány (1) churn (1) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (1) cognos (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) data mining (1) data science (2) diplomamunka (1) dmlab (9) döntési fák (1) drill (1) e-commerce (1) előadás (17) élő közvetítés (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (1) fejlesztés (2) felmérés (4) felsőoktatás (1) felület (1) felvásárlás (1) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (3) google (5) google analytics (1) graphlab (1) gravity (3) greenplum (1) hadoop (9) hallgatók (2) hálózatelemzés (1) hálózatkutatás (1) hálózatok (2) hazai (1) hiba (3) hírlevél (1) hive (1) honlap (1) HR (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (4) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) iqsymposium (19) iqsys (16) iroda (3) jmp (2) kaggle (1) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (1) képzés (1) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (64) könyv (5) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (5) kritika (1) küldetés (1) kutatás (2) lemorzsolódás (1) licensz (1) magyar telekom (1) mahout (1) mapreduce (1) marketplace (1) meetup (9) mém (2) memóriacentrikus (1) menedzsment (1) metaadat (1) microsoft (1) mobil (4) mobil bi (4) modeler (2) modell (3) morgan stanley (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) okostelefon (1) oktatás (9) olvasók (1) online kutatás (1) open source (18) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) pmml (1) politika (1) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (13) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (3) publikáció (1) Pyhton (1) R (1) r (4) radoop (10) rapid-i (1) rapidanalytics (7) rapidminer (31) rcomm (6) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (1) r programozási nyelv (1) saas (1) sap (1) SAS (2) sas (16) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (1) simptech (1) sixtep (1) smarthabits (1) spike sorting (1) SPSS (1) spss (15) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (4) statisztika (1) survey (1) svm (1) szabad szoftver (1) szavazó eljárások (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (3) szöveg (1) szövegbányászat (2) sztaki (1) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) teradata (2) teszt (1) text mining (1) tmit (2) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (16) ügyfél (1) üzleti intelligencia (3) üzleti modell (2) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (11) videó (2) vizuális adatelemzés (1) vizualizáció (2) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2014.02.12. 11:00 István Nagy

Hívási szokások előrejelzése a mobil felhasználók körében

Címkék: mobil verseny telekommunikáció

Folyamatosan keressük csapaton belül azokat a platformokat, ahol más adatelemzőkkel összefogva, vagy velük szemben mérhetjük meg analitikai kompetenciáinkat. Fontos ez nekünk, hiszen a napi rutin mellett, ezekben a versenyekből táplálkozunk, ezek mentén tudunk tovább és tovább fejlődni.

Az adatbányászati versenyek etalon platformja a Kaggle lett az elmúlt években, de számos egyéb kezdeményezést is ismerünk, amely hasonló célokat tűzött ki maga elé, mint a Kaggle. Ezek közül az egyik a CrowdAnalytix, amely a versenyzés mellett azt tűzte fel zászlajára, hogy publikus adatokból nyer ki üzletileg is hasznos információkat az adatelemző közösség segítségével, kimondottan crowdsourcing módon.

Az alábbiakban egy olyan versenyeredményünkről számolunk be, amelyek ezen a platformon lettek kiírva.

Szólj hozzá!

2014.02.10. 11:00 István Nagy

Személyre szabott keresési találatok

Címkék: kereső verseny

A felhasználók múltbéli böngészései és viselkedése alapján sok webes szereplő szeretné személyre szabottá tenni oldalát, hogy az ügyfelei minél inkább úgy érezzék, hogy a gondolataikat is ki tudja találni az adott rendszer. Az orosz keresőóriás, a Yandex is azon igyekszik, hogy a bejelentkezett felhasználói korábbi keresési viselkedése alapján sorrendezze a keresési találatokat. 

Az "orosz Google" egy adatbányászati verseny keretein belül kérte a data scientist-ek közösségét, hogy egy anonim felhasználói adatbázis alapján javítsák a személyre szabott sorrendezési algoritmusukat. A versenyen kollégánk, Simon Gábor sikeresen szerepelt és elhozta a 8. helyezést.

2 komment

2014.02.08. 11:00 István Nagy

Adatbányászat a megújuló energetikában

Címkék: verseny python szélenergia energetika szélerőmű idősor

Sokszor felmerül a kérdés, főleg az egyetemi hallgatóságban, hogy egy jó adatbányász mennyire rendelkezik az üzleti kontextustól független tudással, vagy a lényeg az adott felhasználási területre jellemző domainspecifikus tudásban rejlik. Egy adatbányász általában erre azt a választ adja, hogy van a kompetenciáknak egy rétege (modellezési algoritmusok ismerete, visszamérési trükkök stb.), ami független a felhasználás területétől, de a végén mindig abban van, hogy az üzleti terület megértésével tudunk-e plusztudást adni a modelljeinknek.

A fenti gondolatmenetre egy jó példa az az adatbányászati verseny, amelyben szélerőművek teljesítményét kellett előrejelezni. A versenyen elért remek eredményről korábban már adtunk hírt, következzék most egy rövid szakmai összefoglaló.

Szólj hozzá!

2014.02.06. 11:00 István Nagy

Lemorzsolódás elemzése biztosítási környezetben

Címkék: verseny python biztosító churn

Csapatunkban nagy hagyománya van és mára támogatott dologgá vált, hogy tagjaink különböző adatbányászati versenyekben vesznek részt. A legjobb helyezésekről és az ezekhez kapcsolódó versenyekről a blogon is igyekeztünk beszámolni, a legfontosabb szakmai tapasztalatokat összefoglalva. A jövőben minden ilyen beszámolót egy interjú keretében mutatunk be, így a legfontosabb tapasztalatokat minden esetben meg tudjuk veletek osztani. Ha valakinek eszébe jut olyan kérdés, amit szívesen megkérdezne még, azt nyugodtan írja meg kommentben.

Elsőként egy meghívásos Kaggle versenyen elért nagyszerű helyezésről szeretnénk írni. A Kaggle platformot már nem kell senkinek bemutatni a blogunkat rendszeresen olvasók közül. A meghívásos versenyek sajátosságai, hogy ezeken nem indulhat bárki a rendszer regisztrált felhasználói közül, csak azok, akik már bizonyos minőségi kritériumnak megfelelnek (helyezések, top%-os helyek száma stb.). Nagy Gábor kollégánknak sikerült elhozni egy másik versenyzővel együtt a harmadik helyet.

Ezt a versenyt a Deloitte írta ki és a megoldandó üzleti cél az ügyfelek lojalitásának megértése volt, egy biztosítótársaság ügyfeleinél kellett előrejelezni a lemorzsolódást a következő 12 hónapban a lemorzsolódás időpontjával együtt.

5 komment

2014.02.03. 18:52 Gáspár Csaba

Egy éve az új Dmlab irodában

Címkék: inspiráció évforduló környezet iroda


lyticslab_radoop_iroda_2.jpgNapra pontosan egy éve vagyunk a Dmlab új, Ipar utcai irodájában. Jelentős lépés volt ez tavaly februárban: mind fizikailag, mind képletesen nagyobb teret adtunk a Dmlabnak. Egy év távlatából bölcs döntésnek látszik, hiszen az új teret mindkét értelemben egy év alatt be is laktuk. 

Évekig úgy gondoltam, hogy a körülöttem levő épített környezetnek nincs hatása a munkámra, kinyitom a laptopom, és úgyis a képernyőmre tapad a tekintetem. Néhány éve azonban szárnyra kapott a Prezi irodájának legendája, a beszámolókból kitűnt, hogy egy jó környezet inspiráló a szakmai közösség számára. Ennek megfelelően mikor tavaly év elején új irodát alakítottunk ki, kísérletképpen külön hangsúlyt fektettünk erre a vonalra is. Kevésbé akartunk formabontók lenni, de egy belsőépítész lány segítségével mégis hozzá tudtunk tenni a Dmlab irodához egyfajta többletet.

irodamenyito1.JPGMa ha írhatnék egy mailt néhány évvel ezelőtti Dmlab vezetői önmagamnak, mindenképpen beleírnám az irodai környezet fontosságáról szóló tanácsaimat. Látom, hogy a monitoromon túli inspiráló világ hogyan ad lendületet, fókuszt a munkámnak - és ha valami nincs hatással rám, ahelyett hogy előre repítene, az lényegében hátráltat.  

A képek a Dmlab irodából valók - az első István kollégám munkaállomása, a második egy életkép a "farmeres" irodamegnyitó játszott öko-társasjátékról

Szólj hozzá!

2014.01.22. 22:43 Gáspár Csaba

2013 - Ami tényleg történt - A nagy változás

Címkék: változás paradoxon 2013 bigdata big data Bi

Big data. Sokat olvashattunk, hallhattunk róla, és akárhogy nézzük, 2013 erről a technológiáról, jelenségről szólt. Hogy mennyire berobbant tavaly ez a szópár, százféle módon bizonyítható, most csak egyet ragadnék ki. Az alábbi ábrán az látható, hogy a Google Trends hogyan mérte az elmúlt években az "business intelligence" (kék), a "cloud computing" (sárga), és a "big data" (piros) szavakat. 

Screen Shot 2014-01-16 at 9.24.25 PM.png

Részletes elemzést a Google Trend ezen linkjén láthatod


A big data térnyerése egyértelmű, de ne álljunk itt meg. Egy olyan gondolatot, mémet szeretnék itt bemutatni nektek, melyre az elmúlt hetekben jöttem rá, és ami alapjaiban változtatta meg a szemléletemet nemcsak a big data világával kapcsolatban. A blog több mint 6 éves fennállásának legfontosabb üzenetének tartom ma ezt a gondolatot - izgulok is, mennyire tudom ezt röviden megfogalmazni, illetve mi lesz róla a véleményetek.

Gondolatmenetemet egy látszólag lényegtelen észrevétellel kezdem: egyre több helyen hallani, olvasni arról, hogy a szakmai közösség vitatkozik arról, hogy mit jelent a "big data". Gondolom nektek is megvan a saját verziótok, sokat hallottunk már, mégis érdekes kérdés, miért vitatkozunk még ezen ennyit, miért nincs konszenzus. Véleményem szerint a megegyezés hiányát egy paradoxonnak köszönhetjük, aminek megértése, feloldása után teljesen máshogy fogunk akár az egész szakmánkra tekinteni.

A paradoxont az adja, hogy a Hadoop és más kapcsolódó technológia megjelenésével az üzleti intelligencia, a BI egy új, gyorsan fejlődő technológiai megoldásegyütteshez jutott. Az adatelemzéssel, adatkezeléssel foglalkozó szakemberek számára így elég gyorsan körvonalazódott, hogy milyen esetekben érdemes használni ezeket a megoldásokat, mikor érdemes egy-egy big data technológiát bevetni, így joggal érezhettük úgy, hogy a big data valójában a BI egy gyorsan fejlődő részének tekinthető. Azt hiszem 2011-ig szerintem ezzel lényegében senki sem szállt volna vitába.

A tavalyi év során azonban a technológiai robbanáson túl publicitási robbanás is történt. A big data hulláma kitört a szakmai berkek közül, és elérte a mainstreamet, a hétköznapok médiáját. Gondoljunk csak bele, hogy nincs olyan hét, mikor nem olvasunk néhány big data témájú cikket a HVG-n, az Indexen, vagy más újságokban. Rádióknak adunk interjúkat, a technológiai fejlődést taglaló bárminemű hírnek kötelező eleme már a big data. Korábban ha ismeretlenek között beszéltünk arról, hogy adatbányászok, adatelemzők vagyunk, furcsa szakembereknek néztek az idegenek, ma egyre gyakrabban gyúl világosság a szemükben néhány mondat után, majd csak ennyit mondanak: "Ja igen, big data".

big_data_paradoxon_2014__radoop.jpgA közgondolkodásba való betörése miatt azonban a big data elvesztette minden eredeti technológiai aspektusát, a hétköznap emberének annyit tesz: céljaink elérése érdekében sok-sok adatot feldolgozni. Tovább megyek: a nyilvánosságba való beépülésből származó letisztulási folyamatban a big data elhagyta a sok ügyféllel rendelkező nagyvállalatokra vonatkozó exkluzivítását is, ennek megfelelően szélesebb területet ölel fel ma a nyilvánosság big data fogalma, mint a klasszikusnak mondható "üzleti intelligencia" világa. Big data alá sokkal természetesebb módon tartozik az egészségügyi, sport és fitness adatok feldolgozása, az ipari gyártósorok és az energetika adatainak kiaknázásaának lehetősége. A korábbi adattárház-riporting-OLAP-adatbányászat világból kilógva, gyakran ad-hoc módon, technológiától és komplexitástól függetlenül mindenfajta adatelemzést jelent ma a "big data" sok százmillió embernek, függetlenül attól, hogy mit gondol, mit tanult, vagy mit vall erről néhány százezer szakértő. 

A közgondolkodás természetesen visszahat a szakmai közegre is. Talán mindannyian emlékszünk kínos pillanatokra, mikor egy-egy hazai konferencián az előadó big data megoldásnak nevezte saját rendszerét, miközben technológiailag semmi olyat nem tartalmazott, aminek köze lenne ehhez a körhöz. Én is gyakran a fanyalgók között voltam, megvallom. De ahogy az elmúlt hónapokban többet volt időm olvasni a nemzetközi szakmai közösség írásait, rá kellett jönnöm az általánosabb megfogalmazás létjogosultságára is.

Egy szó mint száz: 2013-ra a big data nagyobb, átfogóbb fogalom, aminek csak részterülete a BI. Aki nem hisz ennek az állításnak, az javaslom nézze meg hány big data konferencia indult az elmúlt években, de az is árulkodó hogy egy normál BI témánál mennyivel többen mozdulnak meg egy hazai meetup alkalomra is, ha a big data témája jön elő. Csupa új arc, kiket a BI alig érintett meg korábban.

A BI területénél nagyobb big data világ kihívásai nagyon mások, mint amit a BI korábban hozott. Nem lesz sokra elég, ha a hagyományosnak mondható szemléletben vagyunk képesek működni, ha ehhez a kiugróan nagy kihíváshoz nem növünk fel, nem változunk meg. Aki nem gondolja újra önmagát, az egy olyan társkereső-társközvetítő iroda vezetőjéhez fog hasonlítani, aki azt gondolta tíz évvel ezelőtt, hogy az internet nem lesz képes megszorongatni az ő személyes tanácsadásra alapozott, világ végezetéig piaccal rendelkező bizniszét.

Mennyiben lesz más 2014-ben adatbányászattal, adatelemzéssel, big datával foglalkozni, mint 2013-ban? Erről írok majd a következő posztban.

9 komment

2014.01.11. 08:08 Gáspár Csaba

2013 - Ahogy tavaly januárban gondoltam rá

Címkék: startup 2013

Év elején azt írtam, hogy a 2013 adatbányászati és BI szempontból a hazai startup-ok éve lesz. Nem így lett. Pedig nagyon igyekeztem minden informális csatornámat felhasználni, hogy rátaláljak minél több induló vagy futó statupra, ami valami módon használja az adatelemzést. Egyelőre 16 cég van a listámon, ami startup-nak tekinthető, és vagy az alapszolgáltatásában vagy annak támogatásában ismereteim szerint valamilyen adatelemzési megoldást használ. Ez elsőre soknak tűnik, de a valóság az, hogy a legtöbb cég, akire ráakadtam, az már több éve létezik, és nem 2013-ban kapott szárnyra.

success_failure_opp_large.jpgA 2013-ra vonatkozó tévedésem hátterében a statup-világ fejlettségével kapcsolatos naivitásom állt. Az elmúlt évben nem váltam igazi startup veteránná, de azért egy jó tucatnyi sztorihoz volt közöm, mert a Dmlabbal próbálkoztunk, vagy befektetőkkel tárgyaltunk, vagy egy-egy hallgatóval beszélgettem hosszasan az új cége indítása kapcsán. Ha a sikertelen sztorikat nézem, akkor az a tapaszatalatom, hogy legtöbbször valaki másra szeretjük kenni a dolgot: (1) nem jó Magyarországról indulni, (2) szűklátókörűek a befektetők, (3) hisztisek a technológiai emberek, (4) a piac még nem készült fel a zseniális ötletünk befogadására. Amennyire én látom egyik sem, illetve mindegyik igaz. 

Nem megyek bele a fenti négy indok sok-sok más blogon megénekelt bizonygatásába, inkább egy olyan aspektust szeretnék felvázolni, ami talán ritkábban kerül megfogalmazásra. Ez az egész startup világ annyira gyerekcipőben van még itthon, hogy jelentős tudásbeli, tapasztalatbeli különbségek vannak a szereplők között. Sok a totál kezdő, aki a divat kapcsán pillanatok alatt projektgazda, befektető vagy technológiai leader akar lenni. Aztán vannak akik már nem kezdők, nagyon meg vannak győződve róla, hogy értik ezt a világot, és iszonyú nagy hangerővel tudják mondani a butaságot. Utána vannak, akik nagyon meggyőzően tudják mondani a számodra le nem ellenőrizhető állításokat. És persze vannak a horror sztorik, ahol például a befektető a technológusok lakására jelzálogot akar bejegyezni a befektetett pénz biztosítására.

Ezen különbségeknek az a következménye, hogy nagyon nehéz egy új kezdeményezés köré új partneri kapcsolatokat kiépíteni, hiszen a szereplők bizalmi szintje a más területről jövők felé hihetetlenül alacsony. Ha nincs bizalom, akkor pedig általában inkább nyögvenyelős meetingsorozatok, újabb és újabb biztosítékok és kikötések születnek, nem új vállalkozások. Egyfajta startup Vadnyugatként működik az ország, amiben még kell kettő-három-négy év ahhoz, hogy az aranyláz lecsengjen, és kiderüljön mit érdemes tenni, és mi az ami csak a könyvekben / a tengerentúlon / a többieknél működik, nálunk nem. Addig pedig türelem kell, és bizony alázat, hogy bármit is értünk el ezen a területen, egyszerűen nem tudhatunk még annyit, mint amennyit el tudunk hitetni magunkról.

Szólj hozzá!

2014.01.06. 08:08 Gáspár Csaba

Évindító

I-LOVE-DATA.pngMár-már hagyomány a blogunkon, hogy év elején egyfajta szakmai számadást teszünk az elmúlt évvel kapcsolatban, és némi találgatásokba bocsátkozunk a következő évre vonatkozóan. Az ilyen blogbejegyzések formája mostanra kristályosodott ki bennem, és most van a legtöbb mondanivalóm is az ügyben. Így aztán az évértékelő-évindító posztokat három egységbe foglalva fogom a következő napokban publikálni, ám közben érkezik még egy beszámoló Nagy Gábor kollégánk új és talán az eddigieknél hatalmasabb adatbányászati versenyekhez köthető sikeréről is.

A három téma az alábbi lesz:

  • Mennyiben volt igaz az, amit 2013 elején vártam az elmúlt évről. Akkor a startupok évének harangoztam be 2013-at, amit ma sem tartok rossz tippnek, de valójában nem erről szólt ez az év.
  • Miről szólt 2013 adatbányászati szempontból? Az első felbukkanó kulcsszavak a big data, data science, válság vagy annak vége. A közhelyeken túl azonban van egy(-két) fontos fordulat, ami 2013-ban ténylegesen utolért minket, és ami annyira nyilvánvaló illetve triviális, hogy talán észre sem vettük megtörténtét.
  • Merre tovább 2014-ben? Evolúció vagy revolúció? Nehéz tényleges előrejelzésekbe bocsátkozni, de próbálkozni fogok, legyen mire refrektálnom jövő év januárjában.

Addig is boldog Új Esztendőt kívánok mindenkinek!

Az adatok szerelmeseinek a Google Trends szolgáltatása által figyelt "Christmas" és "New Year" ünnepek mutatóit raktam be a poszt végére. Nekem meglepő volt, hogy a Karácsony népszerűsége a lassuló tendencia után újra erősödött, de hogy az idei újév miért lett ennyivel erősebb, mint korábban, azt nem tudom megmagyarázni. Szívesen fogadok tippeket.

1 komment

2013.11.27. 23:54 Gáspár Csaba

Mekkora a torta?

Címkék: piac 2013

A napokban volt olvasható Kovács Gyula tollából egy elemzés arról, mennyiben a tanácsadóké és mennyiben az egyetemi gyökerekkel induló szakembereké a hazai adatbányászati piac (Andego Blog: Kié a torta?). Érdekes és értékes írás - mondom ezt úgy, hogy én nagyon más szemléletben figyelem ezt a világot. Így egy másik aspektust vennék elő: júniusban indítottunk egy felmérést a blogon, hogy megbecsüljük mekkora a hazai BI és adatbányászati piac mérete (Adatbányász Blog: Hazai adatbányász piac mérete - Felmérés), így most inkább a torta méretére szeretnék fókuszálni.

suti.jpgKorábbi írásunkban azt kértük tőletek, hogy egy kérdőív segítségével adjatok választ néhány kérdésre, hogy azok felhasználásával a tömegek bölcsességére támaszkodva adjunk pontosabb becslést a hazai piac méretére. Az eredmények ilyen kései ismertetésében közrejátszott, hogy rajtam kívül összesen három szakember töltötte ki a kérdőívet. Hogy mégis érdemes foglalkozni az eredményekkel az azért van, mert a megadott elérhetőségekből kitűnik, hogy a szakma nagy "öregjei", legnagyobb nevei osztották meg a felmérésen keresztül véleményüket velünk (az ő jutalmuk, hogy nekik a nyers adatokat is elküldöm).

A kapott eredmények alapján az alábbi eredmények összegezhetők (az egyszerűsített piacméret becslési metodikánkat a felmérést indító posztban olvashatjátok)

Piacméret a cégek forgalmáról alkotott vélemények alapján 

  • BI piac mérete: 11,9 MrdFt
  • Ezen belül az adatbányászati piac mérete: 1,57MrdFt

Piacméret a szektorban dolgozó szakemberek számára adott vélemények alapján

  • BI piac mérete: 27MrdFt
  • Ezen belül az adatbányászati piac mérete: 4MrdFt

Az eredményeket figyelve elég szembetűnő, hogy a második módszer két és félszerese az első számítási módszerből adódónak, amit talán az indokol, hogy az egy főre jutó éves árbevétel becslése (16MFt) túl nagy szám. Én most valahol a két becsült érték között félúton sejtem az igazságot.

Ez tehát a torta mérete, és most ennek ismeretében beszéljünk arról is egy kicsit, hogy mekkorák a szeletek. A volt IQSysben, ma T-Systemen belül működő, Sipos Ferenc távozása után erősen átalakult BIT csapatot szoktuk hagyományosan a legnagyobb hazai szereplőnek tekinteni. Az ő éves forgalmukat ma már nagyon nehéz megbecsülni, de úgy vélem, hogy nem tévedünk ha az ő súlyukat az egész piacból 10-20%-ra tesszük. A következő szereplőt jó ha az ő méretük felére taksálhatjuk. A piac nagyon fregmentált, nagy részére rá sem látunk, inkább érzeteink vannak azokról a szereplőkről, akik aktív jelenléttel hírt adnak magukról, ahova kapcsolataink vannak.

Az eredmények értelmezésekor vegyük azt is figyelembe, hogy a BI, az adatbányászat világa az elmúlt években nagyon sokat változott. Azzal, hogy a határait ma egyre kevésbé technológiai, sokkal inkább üzleti szempontból határozzuk meg, egyre kevésbé egyértelmű, ki is foglalkozik ezzel a területtel. A tortán belüli arányok átalakítása helyett ezért is fontos inkább a piac növelésével, a piac építésével foglalkoznunk. Mi, a Dmlab ebbe az irányba köteleztük el magunkat.

Szólj hozzá!

2013.11.22. 09:55 István Nagy

Breaking news: Ligát váltott a Rapidminer

Címkék: szoftver 2013 rapidminer open-source

A bejegyzést folyamatosan frissítjük, újabb információkkal és egyéni, szubjektív véleményeinkkel.

2013-11-21 - Nagy István

Bizonyára sokan értesültetek már róla, hogy a Rapid-I belekezdett abba az irányváltásba, amelytől azt várják, hogy az észak-amerikai piacokon is el tud terjedni az adatbányászati megoldásuk, és mellesleg, amire kaptak 5 millió dollárnyi befektetést. Az irányváltás része volt, hogy a termékeket átnevezték: a RapidMiner és a RapidAnalytics mostantól RapidMiner Studio és RapidMiner szerver. Mellesleg maga a cég is elhagyta a Rapid-I nevet és mostantól ők is RapidMiner néven működnek tovább.

3 komment

2013.11.21. 09:05 Gáspár Csaba

Új embereket keresünk

Címkék: karrier fejlesztés twitter állásajánlat toborzás szövegbányászat dmlab

Sokan tudjátok már, hogy nagy lelkesedéssel szoktunk segíteni azoknak, akik BI vagy adatelemzési feladatra keresnek új munkatársat, kollégát. Évről évre jönnek ki új hallgatók a kezünk alól, tartjuk a kapcsolatot a korábbi tanítványokkal, így elég nagy rálátásunk van arra, hogy ki az, aki szívesen mozdulna, váltana közülük. 

lyticslab_radoop_iroda_2.jpgA napokban mi is toborzásba kezdtünk, főleg programozásban járatos, fejlesztésre koncentrálni tudó tehetségeket keresünk új csapattagnak a Dmlabba, de szövegbányászati irányban is jól jönne egy kis bővülés. A kiírt állásajánlatokat a Dmlab Karrier aloldalán találjátok meg.

Egy érdekes tapasztalatunkat szeretném megosztani veletek. Több irányba is elkezdtük terjeszteni a hírt, hogy új kollégákat toborzunk, kíváncsiak voltunk az egyes csatornák hatékonyságára. Az első tapasztalatok leszűrés után engem meglepett, hogy az adott pozíciókra a Twitter milyen hatékony megoldásnak bizonyult. Több olyan tehetséges fiatallal kerültünk kapcsolatba, akiket Twitter nélkül szinte biztosan nem tudtunk volna elérni. Ki gondolta hogy ez már Magyarországon is működik.

Szólj hozzá!

2013.11.06. 08:36 Gáspár Csaba

Élőben a Budapest BI Fórumról

Mint Nagy István kollégám tegnapi adatvizualizációs bejegyzésében már megemlítette, ma és holnap fut az év hazai BI konferenciája, a Budapest BI Fórum, legyenek itt külön kiemelve, összegyűjtve a twitter lenyomatai ennek az eseménynek.

Szólj hozzá!

2013.11.05. 19:37 István Nagy

Adatvizualizációs próbálkozások

Címkék: konferencia adatvizualizáció tableau

Régóta fenn volt a todo-im között egy bejegyzés, hogy "Kompetencia - Tableau Public", vagyis, hogy ismerkedjem meg a Tableau adatvizualizációs eszközzel, nézzem meg mire képes a public verzió, mit is takar a Tableau szerint az adatelemzés vizuális formája. 

Remek apropót adott ehhez a héten megrendezésre kerülő Budapest BI Fórum dashboard pályázata, ahol a cél az volt, hogy a pályázók készítsenek egy dashboardot egy választott eszközben a KSH által szolgáltatott adatokon, amelyek a hazai személygépjármű állomány statisztikáit tartalmazzák idősorosan, földrajzi és műszaki dimenziók szerinti bontásban. Az adathalmazban megadott mutatók az állomány méretét és összesített korát tartalmazzák.

Az első próbálkozások után két olyan tanulsága volt a próbálkozásnak, amit hasznosnak tartottam amellett, hogy egy új eszközt ismertem meg:

  1. Egyszerűség. Az első próbálkozásaim alkalmával összeszedtem minden olyan gondolatot, ami arra kérdésre adott választ, hogy mit is tudnék kezdeni ezzel az adathalmazzal? Milyen összefüggéseket tudok megmutatni? Milyen érdekességeket lehet ábrázolni az adatokkal? Ez a gondolkodásmód az elemzői múltamból adódik, ahol egy adatbányászati probléma megoldása során ezeket a kérdéseket kell megválaszolni és az ezekre adott válaszok alapján lehet elindulni az adatelőkészítési szakaszban. Ez a megközelítésmód nem áll messze a vizuális adatelemzéstől, hiszen ott pontosan ilyen kérdéseket lehet megválaszolni jól eltalált vizualizációkkal. Egy dashboard kapcsán azonban a cél egy - akár összetett - vizualizáció elkészítése, aminél a legfőbb cél, hogy a fogyasztása egyszerű legyen: jól és gyorsan értelmezhető ábrákat kell csinálni, amelyek nem terhelik túl a fogyasztó befogadóképességét. Ez el is vezetett a második tanulsághoz:
  2. Legyen egy sztorid. Egy dashboardon nem lehet cél, hogy az adathalmazban lévő minden összefüggést megjelenítsünk, a cél az, hogy az adatok alapján legyen egy történetünk, amit a vizualizációkkal mesélünk el. A megjelenítés célja, hogy ezen a sztorin végigvezesse annak fogyasztóját: tegye fel a kérdést, majd különböző részletezettséggel válaszolja azt meg.

Nekem ezen a ponton eszembe jutott Körmendi Gyuri autóvásárlásos története, és így jutottam el a konkrét feladat kapcsán, hogy megnézzem azt, hogy hogyan változott Magyarországon az egyes autómárkák elterjedtsége. Nem csupán arra voltam kíváncsi, hogy ez időben hogyan alakult, hanem arra is, hogy ez miként tér el a már meglévő állomány és az új autó vásárlások között. 

Budapest_BI_Fórum.png

A képre kattintva megtekinthető az általam készített interaktív vizualizáció is.

Szólj hozzá!

2013.10.25. 18:39 Gáspár Csaba

Jön az év legjobb Data Science Meetupja

Címkék: ajánló startup meetup gravity prezi 2013 radoop data science

Legalábbis én így értékelem a jövő heti találkozó alkalmát, mikor arról fogunk hallani, hogy milyen tapasztalatai vannak azoknak, kik data science témájú startup-okkal indultak el. Prezi, Radoop, Gravity R&D. Jelentkezzetek gyorsan, mert alig hírdettük meg, máris elfogyott a legtöbb hely.

Budapest Data Science Meetup - 2013. október 30. -  Entrepreneurship in Data Science

Az év elején azt gondoltam, hogy idén a BI - adatelemzős közegben a startup-ok időszaka fog beköszönteni. Talán még korai lenne ítéletet mondani arról, hogy igazam volt-e, de az tagadhatatlan, hogy a startup-ok (és a meetup-ok) jelenléte a hazai szakmai közéletben nagyon meghatározók lettek. Itt az idő, hogy kicsit ők kerüljenek a középpontba, talán el tudunk csípni néhány olyan gondolatot, amit sehol máshol nem fognak kikotyogni nekünk.

Szólj hozzá!

2013.10.24. 16:09 gogerham

Kihirdették a GEFCOM 2012 győzteseit

Több mint 200 csapat versenyzett 2000 beadott megoldással a világ eddigi legnagyobb szélenergia előrejelző versenyén, ahol a DMLab egyik munkatársa, Nagy Gábor 3. helyezést ért el.

Az IEEE, a világ legnagyobb professzionális technológiai szervezete 2013. október 8-án kihirdette a Global Energy Forecasting Competition 2012 (GEFCom2012) győzteseit. A versenyt az IEEE Power & Energy Society (PES) és az IEEE Working Group on Energy Forecasting (WGEF) szervezte.

Gratulálok a GEFCom2012 8 győztes csapatának, akik nyolc különböző országból érkeztek. Az IEEE PES nagyon érdeklődik a beadott páylamunkák miatt, amelyek izgalmas új ötleteket vonultattak fel.

Dr. ML Chan, a Poweer System Planning and Implementation Committee elnöke

A verseny a kezdetektől fogva arra koncentrált, hogy state-of-the-art technológiákat mutasson be az energia előrejelzés területén és az akadémiai kutatás és az ipar közti rést áthidalja. A GEFCom2012 a világ legnagyobb energia előrejelző versenye volt, amely sok nemzet adatbányászát megmozgatta.

A verseny két részből állt: az első rész a hierarchikus teljesítményigény előrejelzés volt, a másik a szélenergia előrejelzés, amelyben Nagy Gábor kollégánk 3. helyzet lett.

Hierarchikus teljesítmény előrejelzés nyertesei:

  1. Colin Singleton and Nathaniel Charlton from Counting Lab (UK)
  2. James Robert Lloyd from University of Cambridge (UK)
  3. Raphael Nedellec from EDF R&D (France), Jairo Cugliari from INRIA (France) and Yannig Goude from EDF R&D (France)
  4. Souhaib Ben Taieb from Université Libre de Bruxelles (Belgium) and Rob J Hyndman from Monash University (Australia)

Szélenergia előrejelzés nyertesei:

  1. Lucas Eustáquio Gomes da Silva from DTI Sistemas (Brazil)
  2. Ekaterina Mangalova from Siberian State Aerospace University (Russia) and Evgeny Agafonov from Siberian Federal University (Russia)
  3. Gabor I. Nagy from Budapest University of Technology and Economics (Hungary)
  4. Duehee Lee from University of Texas at Austin (USA)

photo.JPG

További linkek:

Információk a GEFCom2012-ről és a GEFCom2014-ről:
http://www.gefcom.org 

Hírek:
http://finance.yahoo.com/news/ieee-power-energy-society-announces-120700338.html
http://www.cnbc.com/id/101094692

(kép forrása: link)

1 komment