Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) Bi (1) bi (13) BI (3) bi-trek (1) biconsulting (7) bigdata (22) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (40) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2017.08.30. 17:25 Gáspár Csaba

Őszi data science választható tárgyak - Nem csak BME hallgatóknak

Címkék: oktatás bme jelentkezés tmit 2017 bigdata választható tárgy datascience

(Hallgatóknak rövidítve:)

BME választható tárgyak hiteles előadóktól:

- Alkalmazott adatelemzés (K-Cs 12h) minden órán laptopoddal dolgozol, Python, R és SAS + data science és gépi tanulás alapjai
- 'Big Data' elemzési eszközök nyílt forráskódú platformokon (Sz 12h) Hadoop, Spark, teljes big data stack

Go to Neptun!

a.jpg

(Külsősöknek, részletek után érdeklődőknek)

Idén is meghirdetjük a BME-n tartott legfontosabb tárgyainkat külsősök számára is. Ez azt jelenti, hogy a műegyetemista hallgatókkal együtt szeptember elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló termek méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

 

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben. 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Szerda 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Mindkét tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően jelentkezési sorrendben történik, várhatóan a hét végén fogunk eredményt hirdetni. A hírlevélre feliratkozók között már néhány nappal korábban már kiküldtük az információt. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer Forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

Szólj hozzá!

2017.05.10. 10:10 Gáspár Csaba

10 éves a dmlab

Címkék: 2017 10éves dmlab dmla1o

Hálás vagyok. Ennek az egyszerű gondolatnak mindenféle variációja kavarog a fejemben, mikor arra gondolok, hogy ma 2017 május 10.-én ünnepeljük a dmlab alakulásának tizedik évfordulóját. Ahogy a tíz évnyi élményt átpörgetem a fejemen, valahogy azt érzem, hogy ez nagyon jó tíz év volt. Annyira pozitív bennem az összkép, hogy szinte hitetlenkedve szedem össze az agyam rejtet zugaiból a nehézségek, a kudarcok élményeit. És mikor ezeket is sorba veszem, méginkább kereknek és jónak látom ezt az időszakot. Hálás vagyok azért, hogy így tekinthetek vissza.


picture1.pngHálás vagyok azokért, akikkel ezt az egészet tíz éve elindítottuk. Ha dmlab indulására gondolok, egy rövid TED videó jut eszembe, ami egy rövid vicces videó elemzésén keresztül mutatja be, hogyan indul el egy mozgalom (link). Kiemeli, hogy egy új kezdeményezés indításánál nem az azt indító vezető személye a legfontosabb, hanem annak az első egy-két társnak a döntése, akik elsőként hozzá csatlakozva vezetővé teszik. Hálás vagyok ezért Nagy Istvánnak, Főző Csabának, majd Ivónak, Prekónak, Attilának, Petinek, majd Gergőnek, Csabinak, Simonnak, és sokáig sorolhatnám ki mindenkinek, akik hittek abban, hogy lehet és érdemes a dmlab kötelékében valami újat és nagyszerűt alkotni.

Hálás vagyok azért a bátorságért és azért vakságért, vakmerőségért, ami ezt a csapatot jellemezte. Bátrak voltunk, mikor új és járatlan, kockázatos utakon kezdtünk el járni, és olykor vakmerők voltunk, mikor nem is voltunk képesek felmérni, mekkora fába vágtuk a fejszénket - és néha milyen jól jött, hogy emiatt megijedni, visszarettenni sem volt lehetőségünk. Hálás vagyok azért, mert ez a kísérletező kedv, ez a szabályok és a berögződött reflexeket felülírni akaró szemlélet, ez a kreatív energia mind a mai napig áthatja a csapatot.

Hálás vagyok, hogy a tíz év során időről-időre feltettük a kérdést magunknak mit és hogyan akarunk elérni közösen. Hálás vagyok Törőért, mert segített nekünk rátalálni egy őszinte és előremutató vízióra, segített megérteni, hogy ahogy a cégnek ugyanúgy eredménye, terméke, hogy milyen munkahelyeket hoz létre, hogy milyen kollegiális viszonyban és hogyan dolgozunk együtt, tudatosodott bennünk, hogy milyen ügyeket, célokat és cégeket szolgálunk és segítünk.

Hálás vagyok a sok projektért, pilotért és oktatásért, hálás vagyok a dmlab-ból induló, “spin-off-oló” startupért és azok sikeréért. Büszkék vagyunk rátok.

Hálás vagyok a tíz évet folyton átszövő változásokért. Még úgy is, hogy tudom, hogy nem minden változás fejlődés, és nem minden fejlődés gyarapodás volt a dmlabban. De álltuk a sarat, megtaláltuk az új helyzetekben a lehetőséget, és szinte kivétel nélkül ki tudtuk használni azt. A napokban kezembe került a dmlab egy kilenc éve született stratégiai terve. Mellbevágó volt belenézni, és látni hogy mennyire keveset változtak a lényegi dolgok tíz év alatt, miközben mégis minden megváltozott: a szakma, a piac, és mi magunk is mennyit fejlődtünk.

Köszönjük.

“Ez jó mulatság, férfi munka volt!”

Szólj hozzá!

2017.03.08. 21:59 Gáspár Csaba

[BreakingNews] A Kaggle-t felvásárolta a Google

Címkék: google verseny startup felvásárlás 2017 kaggle

Ma hajnalban ütött be a hír, hogy a Google felvásárolta a legnagyobb adatbányászati versenyeket szervező oldalt, a Kaggle.com site-ot (első hír itt, hivatalosabbak itt , de a Google a blogposzt írásának időpontjában még hivatalosan nem jelentette be a tranzakciót). A vételárról nincsenek hírek, a 2010-es alapítása óta eddig 12,5 millió dollár befektetést tudott bevonni a cég.


kaggle_vs_google.pngA hír váratlanul ért, de sok szempontból nem annyira meglepő: a Google számára sok dolog jól jöhet a Kaggle portfóliójából. Kaggle a data science közösség egyik központi oldala, saját álláskereső oldalával és a közel félmillió felhasználójával (! - én ezt nem is nagyon akarom elhinni) jó merítés a cégnek már csak toborzási szempontból is. Ezen túlmenően a Kernels nevű kezdeményezésével a Kaggle egy saját gépi tanulási platformot is létrehozott, ami jól fog virítani a Google Cloud embléma alatt is. Talán ez az a pont, ahol mint Kaggle felhasználók a legtöbbet nyerhetünk. Nem hiába, a Google olyan cég, aki hisz az adatok erejében, miért ne hinné el, hogy a data scientist-ek világának közepét is érdemes birtokolnia. 


Másfelöl a felvásárlás azt is bizonyítja számomra, hogy az adatokkal dolgozó cégek és szakemberek univerzumában a nagy techóriások egyfajta hatalmas gravitációjú csillagoknak tekinthetők: egyre gyorsabban szippantják be az ígéretes kezdeményezéseket, az igazán izgalmas dolgok körülöttük történnek. Az itt felhalmozódó hatalmas adat- és tudásvagyonnal egyre nehezebben fognak versenyezni azok a vállalatok, melyek homlokterében az adatokkal való munka egyfajta megtűrt hobby vagy kényszerű próbálkozás.

google_vs_kaggle_1.pngPéldául a napokban találkoztam olyan nagyvállalattal, ahol egyenesen az volt a vélemény, hogy félnek belső kompetenciát építeni, mert ha valaki megtanulná ezt a szakmát a cégen belül, azt biztos hamar lecsábítanák az ilyen emberekre vadászó más cégek. Pedig hosszú távon valójában fordított tendenciák várhatók: hosszú távon az adatvezérelt gondolkodás, az adatokkal való barátság inkább alapkövetelményként fog megjelenni, mint szelekciós szempontként. De a lemaradók megnyugtatására és az élenjárók szomorúsága végett le kell szögeznem: mint minden változás, aminek az emberi fejekben kell végbemennie, sokkal lassabban fog megvalósulni, mint amekkora tempót maga a technológia diktál. 

Gratulálunk a Kaggle csapatának!

Szólj hozzá!

2017.02.01. 15:00 István Nagy

Újra - Nyitott data science képzés

Címkék: oktatás bme python rapidminer

Folytatva a hagyományokat: szeretnénk a figyelmetekbe ajánlani a tavaszi félévben futó data science kurzusunkat a Műegyetemen, amelyben az érdeklődők betekintést nyerhetnek az adatelemzés világába elméleti és gyakorlati órák keretében. A tárgy órái hetente keddenként 10:15-től és minden második pénteken 10:15-től lesznek. Az első alkalom február 7-én, kedden, 10:15-kor kezdődik.

Téma szempontjából az adatelemzés alapjait vesszük át: adatmodell, CRISP-DM, felügyelt és nem felügyelt tanulási eljárások, adatbányászati modellezés, és sok alkalmazási példa: elvándorlás-előrejelzés, kockázatbecslés, szegmentáció, idősorok előrejelzése. Az első hetekben RapidMinerrel dolgozunk, majd a python adatelemzős alapjait sajátítjuk el a gyakorlati alkalmak keretében. Mindenkitől azt kérjük, hogy a gyakorlati órákra hozzon saját számítógépet, amire a megfelelő programcsomagokat telepítette (az ingyenes verziókkal dolgozunk).

A tárgyhoz házifeladat is tartozik, ami egy felügyelt tanulási feladat lesz valós adathalmazon - sőt a kaggle.com rendszerén keresztül egy zárt adatbányászati versenyen is megversenyeztetjük majd a házifeladatra adott megoldásokat. A helyszínről és a pontos beosztásról a jelentkezés után, annak elfogadása esetén tájékoztatunk. 

Már most látszik, hogy elég sok külsős hallgató jelentkezése várható, ezért némi korlátozással is élnünk kell majd: a tárgyra annyi embert tudunk befogadni, ahány hallgató is felvette azt. Ez a jelenlegi állapot szerint 24 fő. Emiatt arra kérünk, hogy amennyiben érdekel a tárgy és szívesen velünk tartanál, úgy jelentkezésed add le az alábbi rövid kérdőív kitöltésével.

UPDATE: A külsős hallgatói jelentkezéseket lezártuk és mindenkit értesítettünk, aki jelezte részvételi szándékát. Köszönjük nektek!

Mindenkit pár napon belül értesíteni fogunk, hogy jelentkezését módunkban áll-e elfogadni. Ez a válaszolás sorrendjétől, valamint a motivációtól fog függeni. Ugyanazon cégtől csak kivételes esetben fogunk nagy számú (3+) jelentkezést befogadni.

Várunk benneteket!

 

A kép forrása.

Szólj hozzá!

2017.01.08. 14:00 Gáspár Csaba

Big data nyugati és keleti szemléletben

Címkék: mém bigdata big data

A Műegyetem büféjében egy közgazdász kolléganőnktől hallottam egy érdekes gondolatot (mémet), melyen az elmúlt hónapban sokat morfondíroztam. Zsuzsa meglátása szerint az európai kultúrában a gazdaságban megjelenő adatokhoz, az azokban megjelenő összefüggésekhez, a ma big data néven futó jelenséghez külön nyugati és keleti (bizánci) megközelítés tartozik. A nyugati gondolkodásmódban az adatokra támaszkodva növelhetjük a hatékonyságunkat, alkalmazkodhatunk a változó környezethez, versenyelőnyhöz juthatunk - így az adatelemzés célja tipikusan a profitnövelés irányába mutat. A keleti (bizánci) szemléletben az adatok gyűjtésének célja az ellenőrzés, az állami vagy egyéb hatalom felügyeleti tevékenységéhez tartozik - célunk az ellenőrzés, a kitűzött célok végrehajtásának ellenőrzése. 

east-vs-west.jpgValóban kézzelfoghatóan különválik ez a két szemlélet, még akkor is, ha egy-egy jól működő szervezeten belül mindkettőnek meg kell jelennie. Ha technológiai szemmel nézzük az gépi tanulási feladatok előrejelzéshez köthető részei inkább a profitmaximalizáló, hatékonyságnövelő szemlélethez köthető, míg az én látásmódomban kicsit a klaszterezés és nagy mértékben az anomália detekció a felügyelő / ellenőrző látásmódhoz köthető. Egy BI vagy riporting rendszer magában nem köthető egy-egy területhez, de a használatuk mögötti motiváció gyakran az egyik szemlélethez húz. 

Az elmúlt héten áttekintettem a fenti szempontból a 2016-os projektjeinket (jó lehetőséget adott erre, mikor az Éviránytű évértékelő munkafüzetét töltöttem ki), és egyértelműen szátváltak erre a két csoportra, még akkor is, ha egyes partnereknél végül mindkét irány megjelent. Az egyik legtipikusabb példa, mikor kamionsofőrök fogyasztási szokásainak elemzését végeztük: elsőként úgy volt megfogalmazva az üzleti kérdés, hogy találjuk meg, mi a különbség a jól fogyasztási adatokkal futó sofőrök és a több üzemanyagot használó kollégáik között. A projekt végkicsengésénél viszont megjelent az az igény, hogy mennyivel jobb lenne a sofőr szokásai, az útviszonyok, az időjárás és a rakomány figyelembevételével olyan útvonaltervezést megvalósítani, ahol a becsült üzemanyagköltséggel és a különböző útdíjakkal egyszerre tudnánk számolni.

Elgondolkodtam azon is, vajon milyen szemlélet jellemző hazai cégekre? Ez cégkultúrától függ, ami alakítható - így talán nem is ez a jó kérdés. Ha az egyének szintjén vizsgáljuk a kérdést, azt mondhatjuk, hogy a magyarok alap beállítottsága inkább a keleti szemlélethez húz. Jó példázza ezt nekem, hogy mikor egy társaságban elmesélem, hogy egy jó és egy rossz kamionsofőr között 3-4 liter fogyasztás-különbség is lehet 100 km-en, a legtöbben azt a zsigeri választ adják, hogy biztos lopják az üzemanyagot. Az adatokból látszik, hogy rengeteg oka lehet a különbségnek (például mennyit használja a tempomatot az vezető), de az alap asszociációnk oda mutat, az adatok valami kis stiklit, csalást, trükközést fognak felfedni.

Fontos kiemelni, hogy ez a kettősség nem a személyes adatokról vagy privacy védelméről szól - de mégis van ide vágó aspektusa. Képzeljük el, hogy a munkahelyünkön minden eddiginél pontosabb és jobb adatgyűjtést vezet be a főnökség, például pontosabb képet fognak kapni az egyes kollégák teljesítményéről. A változást lehet pozitívan látni ("végre látni fogják, milyen sokat tettem a cégért"), vagy negatív módon viszonyulni hozzá ("ki fogják szúrni, hogy pénteken hamarabb szoktam lelépni"), és utána ennek megfelelően lehet támogatni vagy szabotálni a bevezetést. Mindenkire rábízom, hogy mit tenne ő egy ilyen szituációban. 

Bármilyen is az alap beállítottságunk, erre rálátva tudatosan tudjuk integrálni a kétfajta szemlélet előnyeit. Izgalmasabb kérdés számomra, hogy mennyire más módon kell a különböző szemléletű cégeknél egy-egy megoldást bevezetni, mennyire más motivációk és félelmek uralják a gondolkodást a két esetben.

Szólj hozzá!

2016.12.23. 00:04 Gáspár Csaba

A túlterhelt csomagküldők esete - adatelemző szemmel

Címkék: hiba előrejelzés logisztika 2016

Idén az adventi időszak kötelező feladatai közé bekerült a Posta illetve más csomagküldő szolgálatok szidása, miszerint miért nem készültek fel időben a karácsonyi dömpingre. Örök téma ez, bárkivel el lehet róla beszélgetni, mindenkit érint és mindenki ért hozzá - olyan mint az időjárás, a politika vagy a foci. A szállingózó történetek először idén is a Postáról szóltak, de az elmúlt hetekre végülis minden csomagküldőre kiterjedtek, végül nem egyetlen cég bénázásáról, hanem valami általánosabb jelenségről van szó.

Tudvalevő, hogy a karácsonyi webshop őrületre a csomagküldő szolgáltatók is készülnek. Ez a szektor az elmúlt évtized EU-s szabályozási változtatásai kapcsán egy fejlődő, sokszereplős és versenyezni képes iparággá nőtte ki magát, ahol a hétköznapi értelemben van innováció, a legtöbb cég vezetőit kőkemény üzleti racionalitás hatja át: a karácsony a legerősebb időszakuk, biztosan kalkuláltak a megnövekedett feladatokkal. Ahogy a hírekben hallható mentegetőzésből kijön, azt is tudták, hogy nemcsak több, hanem a tavalyinál jóval több csomagot kell elvinni majd. Több helyen is olvashatjuk, hogy a karácsonyi időszak csomagmennyisége évi 20%-kal növekedett az elmúlt években, így a legtöbb helyen erre a mennyiségre lőtték be a kapacitásaikat.

screen_shot_2016-12-22_at_23_44_33.pngÉs itt jön a fordulat - idén a 40%-kal több csomagot adtunk fel. Persze lehetne ezt a hazai webes áruküldés csodájaként is megélni, ünnepelhetnénk a hazai digitális fordulatot (mint ahogy sok más országban egy-egy black friday után a webes cégek azzal dicsekednek mennyivel dőltek meg az eddigi rekordok), ehelyett inkább azt hallhatjuk, hogy ez az óriási különbség mennyire váratlanul érte az előrejelzés szerint 20%-os emelkedésre számító szereplőket.

ÁBRA: Az eNet pont egy évvel ezelőtti infografikájából kivágott rész a hazai webes kereskedelem forgalmáról - Eredeti cikket is ajánlom figyelmetekbe: eNet: E-kereskedelmi körkép 2015

Adatelemzőként persze csak csóválom a fejem. Ha valami három éve 20%-ot nő, akkor a következő évre 20% növekedést prognosztizálni elsőre nem tűnik butaságnak. Csak akkor, ha valamit épp pont a web hajt. Hol hallottunk olyat egy webes trend kapcsán, hogy úgy örökké egyenletesen emelkedett? A weben a dolgok berobbanása vagy elhalása a gyakoribb. Mindemelett 40% növekedés nem berobbanás. És itt kezdek zavarba jönni adatok híján: vajon megvizsgálták a cégek, hogy a sok rendelés közül mely webáruházakra, mely termékcsoportokra volt jellemző a felfutás? Nagy összegekben mernék fogadni, hogy a többlet nem egyenletesen oszlik el. Vagy nem egyenletes vásárlói csoporton. A web világa csak eleinte "lassú víz partot mos" jellegű - később vagy nem lesz semmi, vagy jön a földcsuszamlás. Ez az óriási melléfogás bizony az előrejelzést végzők hibája - a csomagküldés piacát legjobban a webes kiskereskedelem hajtja, ennek elemzése nélkül nem lehet csak a görbére ránézni, és csak úgy továbbhúzni a vonalat.

Hallottam persze furfangos magyarázatokat is - szigorúan a felelősöket minél távolabb keresve. A kedvenc két témám a vasárnapi boltbezárás és a későn érkező hideggel magyarázza a dolgokat. Az első úgy jön a képbe, hogy a vasárnapi boltbezárás időszaka alatt a webáruházak jóval elfogadottabbak lettek az elmúlt években, ez a hatás "gyűrűzött" be most karácsonykor ennyire erősen. Egy másik elmélet azzal magyarázza a dolgokat, hogy későn jött be az igazán hideg hazákba, ami hatására mindig jobban felpörögnek az otthon melegéből rendelhető termékek forgalma. Egyik hatásra vonatkozó elemzéseket se ismerek, de mindkettő inkább műértő okoskodásnak tűnik elsőre.

Mit tegyenek a csomagküldők jövőre? Ezer ötletem van az adatelemzés területén kívülről is, kezdve a novemberben előre megvásárolható futárkapacitástól, a rendelés pillanatában előre kalkulált valós érkezési időpontig. Az adatok jobb kihasználása nem annyit tesz, hogy jövőre komolyabb aparátussal ki tudnak hozni 20+x százaléknyi várható forgalomnövekedést, és ezt higgye el mindenki. Itt folyamatokhoz kellene hozzányúlni, miközben extra nagy források a feladat megoldására nem állhat rendelkezésre.

Leginkább azokat az ajándékozni vágyókat sajnálom, akik félve figyelik a kaput, megjön-e még a csomagjuk karácsony este előtt. Drukkolunk nekik és bízunk hogy nem kuponok gyártásával telik majd a szombat délutánjuk.

Szólj hozzá!

2016.12.12. 13:01 Kazi Sándor

A PISA-felmérés kapcsán - adatelemzés feladat

Címkék: 2016 adatelemzés PISA-felmérés

Pár pillanatra feltódult a magyar online médiában a PISA-felméréssel kapcsolatos hírek hada, mondván, hogy Magyarország leszerepelt, stb. Az Index ki is emelt pár feladatot, hogy az olvasók is tesztelhessék, mit is mér a PISA-felmérés, és hogy hogy teljesítenének rajta. Nade a poszt apropója nem is ez, hanem konkrétan az egyik feladat, ami alább olvasható, illetve az Index kiemelt feladatai között is szerepel:

14207170_29684942a585817e9508b9eefd70e1f5_wm.png

De mi is ezzel a probléma?!

Tegyük fel, hogy csak a csapadéktől függ a dolog. Mit mond nekünk ekkor a napsugárzás?! Ha nem függ tőle, akkor az égegyadtavilágon semmit... Ugyanez igaz fordítva is: ha csak a napsugárzástól függ, akkor sem mond semmit a csapadékmennyiség oszlop. A számokból tehát az alábbi két narratíva vezethető le, ebből kell választani:

  • Ha több a napsütés alacsonyabb lesz a talajnedvesség, és igazából nem függ a csapadékmennyiségtől.
  • Ha több az eső magasabb lesz a talajnedvesség, és igazából nem függ a napsugárzástól

A gond ott keresendő, hogy a fenti feltevések közül mindkettő lehetséges, sőt, (szerintem) leginkább egyszerre mindkettőtől függ a dolog, nem csak az egyiktől; innentől pedig a feladatra nem lehet helyesen válaszolni, mert egyik válasz sem igaz.

Ha a konstruktivitás jegyében feltesszük, hogy az fog kijönni, hogy a dolog az egyiktől egyértelműen jobban függ, mint a másiktól, akkor az alábbi példákat megvizsgálva juthatunk arra, hogy nem is annyira tud "egyértelmű" lenni ez a "jóság"-definíció.

Bonyolultabb összefüggések (kis csalással *) a talajnedvességre:

  1. Alapvetően 1.3%. Minden 100 mm csapadék növeli ezt 7% százalékkal, de 2GJ/m^2 átlagos napsugárzás felett minden további GJ/m^2 csökkenti 2.7 százalékkal.
    Képlettel: 1.4 + 7 * p/100 - max(0, r/1000 - 2) * 2.7
    • 2 GJ/m^2 naponta simán visszaverődik a növényekről, az alatt nem változtat, felette egyenletes a befolyás
    • A csapadékmennyiség egyenletesen befolyásol.
  2. Alapvetően 5%-os. Minden 100 mm csapadék ezt növeli 7.4%-kal, de minden GJ/m^2 napsugárzás pedig csökkenti 2.7 százalékkal.
    Képlettel: 5 + 7.4 * p/100 - r/1000 * 2.7
    • Ugyanaz mint az előző, csak nincs a 2GJ/m^2 korlát...

Melyikre lehet - egy középiskolás ismeretei alapján - azt mondani, hogy valószínűbb, mint a másik? Melyiktől függ? Melyiktől függ "jobban"?

* kis csalással: itt még negatív értékek is kijöhetnének talajnedvességre, ha a fenti képletet alkalmazzuk, de mivel nem vagyok kompetens a talajnedvesség reális értékei tekintetében, inkább nem finomhangoltam a dolgokat ilyen irányba; illetve azzal csak a képlet lenne bonyolultabb, a lényegen nem változtatna.

Mentségek - és miért nem :)

Ha a 440-es és 450-es számok úgy vannak szánva, mint "nem releváns különbség", akkor érhető, hogy erre a következtetésre jut a költő. Ámde miért kéne egy középiskolásnak azt tudni, hogy a százalékban mért talajnedvességet befolyásolja-e relevánsan 10mm csapadék?!

Igen, ki lehet találni, hogy a kérdező mire gondolt, de elvileg nem erről szól a feladatsor. Lehet hivatkozni "Occam borotvájára" is: többnyire a legegyszerűbb megoldás a helyes. De pont az a helyzet itt, hogy a kitöltőnek kritikus gondolkodással és ésszel kell állnia a feladatokhoz, éppen ez az egész felmérés legalapvetőbb elvárása.

Súlyosabb probléma

Ha ezt tényleg így csinálják a gyakorlatban. :D

Sokkal szembetűnőbb viszont az, hogy azt várnák a kitöltőtől, hogy lineáritást feltételezzen. Arra KELL gondoljon a sikeres válaszadáshoz, hogy "hú ez kétszer annyi majdnem, ez meg csak 2-3%-kal több". Pedig a valóságban tisztán lineáris kapcsolat nem nagyon van természetes dolgok között... és még csak - ha jól látom - nem is SI mértékegységek vannak a táblázatban...

Nézzük a jó oldalát!

Legalább nem hőmérséklet van a feladatban... példafeladat: melyik befolyásolja jobban a talajnedvességet: a hőmérséklet Celsius fokban vagy a hőmérséklet Kelvinben?

átlaghőmérséklet (°C) talajnedvesség (% átlaghőmérséklet (Kelvin) átlaghőmérséklet (Fahrenheit)
7 28 280.15 44.6
13.5 18 286.65 56.3

(Az arányok nem véletlenül egyeznek a feladat adataival. A talajnedvesség kapcsán viszont a valósággal való bármilyen egyezés a véletlen műve.)

Zárszó

Szóval alapvetően nem lenne baj azzal, ha feladatban ilyen következtetéseket kell levonni, de ha edukációs céllal várunk el megalapozatlan állításokat, attól rossz lesz a kedvem. Nem segít a szituáción (irányomban), ha ezt mindeközben "adatelemzés"-nek nevezzük. :)

Megjegyzés: természetesen gyanakodtam, hogy a fordítással lehet valami, de az OECD oldalán megnézve az angol verziót, rá kellett döbbenjek, hogy nem.

9 komment

2016.11.08. 17:30 Gáspár Csaba

Data science és big data képzések - Érdeklődők gyűjtése

Címkék: oktatás hírlevél jelentkezés 2017 2016

A napokban sokan megkerestek milyen oktatásokat tartunk a közeljövőben, milyen BME-s előadásokat fogunk megnyitni a külsősök előtt, milyen cégre szabott oktatásokat lehet kérni tőlünk. Hogy ne csak azt mondhassuk, hogy a kövessétek a blogot, arra gondoltam jó ötlet gyűjteni az érdeklődők elérhetőségeti:

Ha szeretnél értesítést kapni előzetesen azokról a data science és big data oktatásokról, melyekben részt veszünk, regisztráld magadat az alábbi oldalon:

Érdeklődőként való regisztráció

proactive.pngA blogon továbbra is jelezni fogjuk az aktuális lehetőségeket, a blog hírlevelét (jelentkezés itt) most újítottuk meg, ott is megírjuk az információkat, ez a lista azonban nem hírlevél. Ha bejelölöd milyen típusú dolgok érdekelnek, és éppen indítunk valami ide vágó oktatást, akkor a regisztráltaknak proaktívan kiküldjük a rájuk vonatkozó információkat. 

Reméljük ez is segít majd azoknak, akik már most tervezik a jövő évi oktatási keretüket is. 

 

ideaw.gifHa nem tudtok várni arra, hogy megjelenjenek a meghirdetett oktatások, vagy egyedi igényetek van, keressetek meg bátran, a legtöbb oktatásunk cégre / személyre szabottan fut, keress meg minket, szívesen javaslunk tematikát és adunk ajánlatot.

Gáspár Csaba: gaspar.csaba@dmlab.hu  +36208234154

Szólj hozzá!

2016.11.03. 21:37 Gáspár Csaba

Csavarjunk egyet az innovatív adatelemzési irányok keresésén

Címkék: menedzsment projektmenedzsment metodika crisp-dm aglitás

crisp_dm.pngA Nagy Könyvben az áll, hogy egy valamirevaló adatbányászati / adatelemzési projektet a CRISP-DM (Cross Industry Standard Process for Data Mining) metodika szerint érdemes menedzselni. Eszerint egy projektnek hat fő fázisa van, (1) első lépésben megértjük az üzleti problémát, majd (2) a hozzá kapcsolódó adatokat, (3) adatátalakításokat végzünk, (4) gépi tanulási vagy statisztikai modelleket futtatunk, (5) kiértékeljük a kapott eredményeket üzleti szempontból, és persze ha minden klappol, akkor (6) hadrendbe állítjuk a megoldást. Nyilván ennél bonyolultabb a helyzet (a részletes leírást a metodikáról itt olvashatunk), szinte mindig van szükség iterációkra, mikor egy vagy több fázist is vissza kell ugranunk az aktuális lépés során tapasztaltak miatt. Érdekes látni, hogy ez iteratív fejlesztés mennyire jól illeszthető a ma egyre jobban terjedő agilis szemlélethez. 

De nem is a CRISP-DM metodikát akarom most kivesézni, felülbírálni - minden hibája ellenére igazán szeretem, gyakran mentett meg minket kényes helyzetekben. Inkább egy újfajta jelenségre szeretném felhívni a figyelmet: egyre többször van lehetőségünk olyan módon elkezdeni egy-egy projektet, hogy nem a legelső fázisnál, az üzleti feladat megértésénél indulunk - hanem a másodiknál, az adatok megismerésénél.

Arról van szó, hogy vannak vállalatok, akik nagyon vágynak arra, hogy valami igazán izgalmas, jelentős üzleti hatást felmutatni képes adatos projektet indítsanak, és a lehetséges partnereket állandóan szondázzák, mondjanak valami igazán ütős use-case-t. Gyakran egy-egy jó pozícióban levő tanácsadó cég is megkeres hasonló feladattal: "bent ülök az X cég big data board-jában, most dolgozzuk ki a stratégiát, ha van valami remek alkalmazási ötletetek, mondjátok el, ha elég jó, lehetne belőle jó üzletet csinálni". 

Nagyon nehéz ilyenkor valami jó javaslattal előállni, faramuci helyzet, hogy nem a megrendelő hozza az üzleti problémát, hanem mi. Ezért ezekben a helyzetekben gyakran azt javasoljuk, forduljunk az adatokhoz: néhány ilyen megkeresést át tudtunk alakítani egy adatvezéreltebb gondolkodás mentén működő projekté:

  • Elsőként hozzáférést kaptunk az adatok egy részhez, és egyszerűen megértettük milyen típusú, mennyiségű és minőségű adattal élnek együtt ezek a cégek. Tipikusan néhány érdekes adatkört adtak oda, ami szerintük is tartogat meglepetéseket.
  • Ezt követően egyfajta data discovery fázisban kicsit megpiszkáltuk az adatokat, mit is rejtenek. Ezek az elemzések egyfajta ad-hoc riportoknak foghatók fel, segítenek abban, hogy ötleteket tudjunk adni arról, mire is használhatók ezek az adatok. Lényeg, hogy itt az adatok is súgnak nekünk.
  • Az adatok ismeretében készítettünk jó sok javaslatot, hogyan lehetne üzletileg kiaknázni az adatokat. Itt a friss, más nézőpontból érkező szemünk adata lehetőségek (és korlátok) mentén leírtunk 10-20 use-case-t, esetenként néhány slide-nyi anyagot szedtünk össze. Egy-egy ilyen javaslatot gyakran néhány, a cégre vonatkozó adattal is megtámogatunk.
  • Ezeket vizsgálta meg a megrendelő üzleti csapata, a use-case-ek jelentős része nem érte el az ingerküszöbüket, de mindig akadt egy-kettő, ami érdekelte őket. Mivel láttak hozzá néhány releváns adatot, gyakran könnyebben meggyőzhetőek ilyenkor, mintha külsősként azt mondom, ez biztos megoldás után kiáltó gond nálatok.
  • Ezt követően általában egy proof-of-concept fázis jön, mikor az adott use-case-re kidolgozzuk az elemzést a múltbeli adatokon, itt bizonyítjuk be, hogy érdemes ez az elemzést, adatbányászati modellezést folytatni.
  • Végül, ha ez utóbbi lépésben is meggyőzők voltunk, akkor foglalkozunk a megoldás integrációjával, ekkor kerülnek fel az eredményeink a dashboard-okra, beépítjük a kalkulációkat a rendszerekbe, és itt dolgozzuk ki hosszú távon hogyan érdemes frissíteni az eredményeket.

gut.jpgLátható, hogy az iteratív, egyre komplexebb megoldásokat kihozó szemlélet itt is megmaradt, de az első pont az adatokról szól, és nem az üzletről. A döntések meghozatalánál persze az is sokat nyomott a latba, hogy így a költségek is fokozatosan jelennek meg. Az adatfeltárás + use-case készítés jóval kisebb feladat (8-21 nap), mint mondjuk a historikus adatokon már futó poof-of-concept megoldás kialakítása, de az igazán komoly befektetést igénylő integráció előtt van egy érvényes döntési pont, ahol múltbeli adatokra támaszkodva jól meg lehet becsülni az üzletre gyakorolt hatását az adott megoldásnak.

Én igazán szeretek így dolgozni, nagyon kreatív és sokkal üzletszagúbb megoldások tudnak így létrejönni. És attól a pillanattól fogva, hogy a partner saját adatain futó elemzésekkel támasztjuk alá a mondandónkat, sokkal érdekesebbek lesznek az elsőre akár túl egyszerű vagy sci-fi jellegű ötletek is.

ideaw.gifÉrdekes számodra ez a megközelítés, mert a Te cégednél is van egy állandó ötletvadászat az innovatív irányokat illetően, de valahogy mindig az az érzésed, hogy a bejövő ötletek valahogy nem hitelesek. Írj nekünk, és mi szívesen segítünk a fenti metodika szerint megtalálni azt, ami nálatok valóban érdemes bevezetni.

Gáspár Csaba: gaspar.csaba@dmlab.hu

Szólj hozzá!

2016.10.08. 15:45 Gáspár Csaba

Adat-alapú vezetés meetup kedden

Címkék: meetup 2016 vezetői képzés

Az big data megoldásokban rejlő lehetőségek kihasználása nem tekinthető pusztán IT feladatnak. Erre a területre is igaz, hogy akkor tudják hatékonyabbá tenni egy-egy vállalat működését, ha az adatvezérelt gondolkodás vezetői szinten is gyökeret ver. A technológiai oldalról számtalan lehetőség van arra, hogy egy a data science vagy big data téma iránt érdeklődő szakember belekóstoljon ezekbe a témákba, csak gondoljunk arra a rengeteg technológiai meetupra, ami ma Budapesten elérhető a nagyközönség számára.

a_6.jpgA vezetői réteg lehetősége sokkal korlátozottabb, ezért is nagy öröm számomra, hogy következő kedden, 2016. október 11.-én tartja a Spark Institute az Adat-alapú vezetés című meetupját. A Spark Institute képzéseivel a vezetői réteget célozzák meg, a változó technológiai környezethez való alkalmazkodásra illetve a felforgató technológiák felhasználására kívánja felkészíteni a résztvevőket.

Ezen a vonalon kerül képbe az adatvezérelt gondolkodás, a big data világának üzleti vonatkozásai. A keddi meetup-on én tartom a felvezető előadást a big data technológiai és üzleti aspektusairól, majd Szukács István (StreamBright Data) fog beszélni az ajánlórendszerekben rejlő lehetőségekről, majd Vértes Balázs (Enbrite.ly) az online hirdetések minőségbiztosításáról.

2016. október 11. 19.00

Adat-alapú vezetés meetup - Spark Institute

Helyszín: LogMeIn - 1061 Budapest, Paulay Ede u 12.

Figyelem, a rendezvényt nem a meetup.com-on szervezik, a részvétel regisztrációhoz kötött,
a rendezvény holnapján erre van lehetőséged

Szólj hozzá!

2016.09.30. 21:00 Gáspár Csaba

Tároljuk-e le ezt az adatot?

Címkék: google adattárolás data science

Egy data scientist a címben szereplő kérdésre egy automatikus igennel szokott válaszolni - ha van valami adatunk, tároljuk le, mi ezen a kérdés. És valóban, mi akadályoz meg minket ebben? Ha belegondolunk, mennyire olcsó ma már az adattárolás, a kérdés felmerülése elsőre furcsán is hathat. Többek előadásában láttam már visszaköszönni a mellékelt ábrát, és én is gyakran használom - azt mutatja meg, hogy az elmúlt 35 évben hogyan zuhant le egyetlen GB adattárolás éves költsége. A születésem környékén több mint egy millió dollárba került volna azt eltárolni, ami ma egy promóciós ajándéknak utánam dobott 8GB-os pendrive-on elfér. Bár sokat keresgéltem, de nem láttam 2015/2016-os adatokat, de az ábrán így is látszik, hogy az elmúlt években már bőven beestünk a 10 dollárcent alatti értékekhez, ennyibe kerül 1GB háttértár kapacitás manapság.

cost-per-gigabyte-large.pngMit is jelent ez? Azt, hogy ha az adatmennyiség nem extrém nagy, akkor egy átlagos nagyvállalatnál az adatok tárolásáról szóló meetinget résztvevő kollégák órabére valószínűleg jelentősen meghaladja a teljes tárolás költségét. 

Mégis meg kell védenem azokat a szervezeteket, ahol nem minden adatot tárolnak, amire valaha rátaláltak vagy valaha birtokoltak. Mert csak egy szempont az, hogy egy ilyen adatot el kell tárolni, de van itt néhány más szempont is:

  • Ha eltároltuk, akkor kinek lesz jogosultsága ezeket az adatokat olvasni? Egy nagyvállalati környezetben ennek eldöntése már nem annyira triviális, mint lementeni azt.
  • Felmerül a kérdés, hogy ha tároljuk az adatot, akkor azt mennyire biztonságosan kell tenni. Nincs-e benne valami olyan érzékeny adat, aminek védelme extra költséget igényel. 
  • Sokszor olyan ügyféladat is lehet az adathalmaz mélyén, amire törlési kényszer van törvényi kötelezettségek miatt. Így a felelőtlenül törölt adatok a végén akár több fejfájást is okozhatnak, mint eredetileg gondoltuk.

Jól látható tehát, hogy a "mindent tároljunk" szabály inkább kihívásokat hoz egy hagyományos óriáscég számára. Az elv bevezetését én csak olyan helyen láttam, ahol (1) az ügyfelekhez köthető személyes adatok kezelése egyszerűsítve volt, (2) ahol minden alkalmazott bátran hozzáférhet (pénzügyi adatok kivételével) minden adathoz, azaz nagyon egyszerű jogosultsági szabályok voltak adathozzáférés szempontjából, (3) és ahol tipikusan rugalmasan bővíthető adattárolási infrastruktúra (pl. AWS) állt rendelkezésre. Ha ezt a három szempontot összeadjuk, könnyű kitalálni, hogy az innovatív, startup világ felöl közelítő techcégek eshetnek bele csak ebbe a körbe.

Pedig valójában minden cégnél van létjogosultsága a "tároljunk mindent" elv feltételeit megteremteni. Ma egyre több iparágban az adatokban rejlő lehetőségek jelentik az egyik legfontosabb feltételét annak, hogy hosszú távon versenyképesek legyenek. Az adatok kiaknázásához pedig - nem meglepő módon - már eltárolt adatok is szükségesek szoktak lenni.

Adalék az árakhoz: Ha megnyitom a Google Drive fiókomat, akkor ott egyetlen gomb megnyomásával az elérhető tárkapacitásomat felnyomhatom 10TB (10*1000GB) területre. Ezért cserébe elég biztonságos hozzáférést, adatvesztés nélküli tárolást kapok úgy, hogy egyszerre 3 példányban tárolják az adataimat olyan adatközpontokban, amik legalább 300km távolságban vannak egymástól - így egy kisbolygó szerencsétlen érkezése sem nagyon veszélyeztetik a családi fotókat. Ezért összesen havi 100$ kérnének most tőlem.

Azaz évente 1GB tárolása 0,012$-ba (alig 35Ft-ba) kerülne.

aaa.jpgSok adat van nálatok is, már foglalkoztok a kiaknázásával, de jó lenne ha valaki friss szemmel is rá tudna nézni, elbeszélgetnél arról milyen módon lehetne még felhasználni azt? Írj bátran nekünk, szívesen gondolkodunk együtt olyanokkal, akiket érdekelnek az innovatív big data és data science megoldások. Cím: gaspar.csaba@dmlab.hu

Szólj hozzá!

2016.09.15. 12:51 Gáspár Csaba

Mi maradt le a bevásárlólistáról? - Ma új hazai adatbányászati verseny indul

Címkék: verseny hazai 2016

A data scientistté válás útjának egyik fontos állomása az adatbányászati versenyeken való indulás. A gépi tanulási eljárásokkal kapcsolatos tudásod, a helyes tesztelési és tanítási rendszer kialakításának a képessége, a jó visszamérési stratégiád ellenőrzésére nagyon alkalmas egy jó versenyen való részvétel. Ezért is népszerű a kaggle.com adatbányászati versenyeket szervező oldal, érdemes követni rajta az eseményeket akkor is, ha nincs időd bekapcsolódni a megmérettetésekbe.

a_5.jpgKülön örülök, ha hazai versenyek indulnak, hiszen ezen események egyfajta indikátorai annak, hogy a hazai adatos közösség hol is tart valójában. Ezért is szeretém külön felhívni a figyelmet a ma induló Cetli  ("Shopping List") Competition versenyre: a Nextent jóvoltából és az ő támogatásukkal induló megmérettetésen a Cetli nevű applikáció adatai felett dolgozhatunk. A versenyt a datapallet.io hosztolja. A verseny során az anonimizált felhasználók bevásárlólistáit láthatjuk, amik júliusi-augusztusi példányaiból találomra eltávolítottak egy-egy elemet. A versenyen résztvevőinek ezeket az eltávolított termékeket kell megbecsülni. 

Ha érdekel, nézz körül a verseny oldalán, majd regisztrálj versenyzőnek. 

Verseny hivatalos oldala 

A verseny indulásáról a ma esti Budapest.py Meetupon fognak bővebben beszélni a verseny szervezői. 

Ha úgy érzed, hogy neked is van olyan adathalmazod, ami kapcsán érdekes lehetne kiírni egy adatbányászati versenyt? Érdekelne, mi lenne az elérhető közel legjobb megoldás, vagy kíváncsi vagy rá, kik értenek igazán az adott fajta feladat megoldásához? Egyszerűen a beszállítóidat szeretnéd megversenyeztetni? Keress meg minket, és mi szívesen segítünk a verseny megfogalmazásában, kiírásában, akár a lebonyolításában.  - Gáspár Csaba gaspar.csaba@dmlab.hu

Szólj hozzá!

2016.08.09. 16:44 István Nagy

Őszi kurzusaink a BME-n

Címkék: oktatás tmit gépi tanulás bigdata BME

Még sokan a szabadságukat töltik, vagy élvezik a nyarat, de a csapatunk elkezdett dolgozni az öszi BME-s kurzusok aktualizálásán. Ennek már hagyományos része, hogy a külsős hallgatók között is megnyitjuk a kurzusainkat. Az előző félévek tapasztalatai alapján minden kurzus esetén legalább annyi külsős hallgató érkezett, mint amennyi diák felvette azt "hivatalos" keretek között. Úgy gondoljuk, hogy mindenki számára előnyös ez az ajánlat: a külsősök tanulhatnak valami újat, a hallgatóknak a kérdések és visszajelzések alapján valódi képük lesz a tanultak felhasználhatóságáról, az oktatóknak pedig mindig izgalmas az interaktív órák tartása.

Jöjjön hát az étlap, miből lehet jelenleg válogatni.

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: később dől el pontosan, de biztosan a Lágymányosi kampusz, Magyar tudósok körútja 2.
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A témát a reguláris kifejezésekkel, illetve az awk szövegfeldolgozóval kezdjük, majd SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy közben a legfontosabb gépi tanulási feladatokat is röviden áttekintjük. A félév során három kisházit adunk a hallgatóknak, majd vizsgával zárul a tárgy. Ezek ugye nem kötelezők a külsős hallgatóknak, de ha valaki meg szeretné méretni magát, annak adunk lehetőséget. Azonban mind a tematika, mind a követelmények átalakítás alatt, szóval itt még lehetnek meglepetések :)

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Kedd 12-14h
Terem: később
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen el fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

 

 Jelentkezés

Mivel mindegyik tárgyon szeretnénk egészséges arányt tartani a belsős és külsős hallgatók között, ezért kérjük, hogy az alábbi form segítségével jelentkezz a tárgyak egyikére. Néhány napon belül visszajelzünk a jelentkezésedről.

Jelentkezési form

(UPDATE: A hallgatói jelentkezések lezárása után, szeptember 5.-vel kezdődő héten jelzünk vissza, hogy ki fért be a meghírdetett külsős keretbe).

Egyedi tematikájú képzések
Felhívjuk a figyelmet arra, hogy szívesen dolgozunk ki személyre vagy cégre szabott tematikát is, ha gyorsabb haladásra és hatékonyabb tanulásra van szükség. Itt sokkal jobban tudunk igazodni a már meglévő kompetenciátokhoz, a képzés gyakorlatai során akár a saját adataitokon végezzük az elemzést. Ezúton más technológiákat is szívesen tanítunk, Python, R, RapidMiner, IBM SPSS Modeler, SAS, Oracle, KNime környezetben is szívesen oktatunk, de big data technológiákhoz is vannak jó képzési javaslataink. Az elmúlt évben több mint tíz ilyen képzést tartottunk, keressetek meg bátran, ha ilyen kérés merül fel bennetek, a tematika rögzítése után gyorsan tudunk árajánlatot adni, a speciális igényeitekhez igazodni.

Ha érdekel, írj néhány sort: Nagy-Rácz István - nagy.istvan@dmlab.hu

A kép forrása

Szólj hozzá!

2016.08.04. 12:19 István Nagy

Idén is CRUNCH konferencia

https-_2f_2fcdn_evbuc_com_2fimages_2f13190254_2f5608145127_2f1_2foriginal.pngTavaly arról írtunk, hogy hazánk big data szempontból is nagykorúvá vált azzal, hogy a Prezi, a UStream és a RapidMiner csapata Budapesten szervezett egy mind előadóiban, mind szervezésében világszínvonalú adatos konferenciát. Idén is megrendezésre kerül a Crunch konferencia. A workshopok listáját böngészve idén is érdemes lesz résztvenni a konferencián, de a hazánkba látogató szakmabeli előadók és hallgatóság a networkingre is viszonylag ritka lehetőséget ad.

A szervezők jóvoltából a blog olvasói az alábbi linken kedvezményesen vehetnek részt a konferencián. Használjátok ki a lehetőséget és találkozzunk a Millenárison idén ősszel is.

Szólj hozzá!

2016.07.28. 23:31 Gáspár Csaba

Lakótársat keresünk - Inspiráló belvárosi iroda

Címkék: iroda 2016 dmlab RapidMiner Enbrite.ly

Mindig meglep, mennyire sokat számít milyen környezetben dolgozik egy csapat. Először ezt akkor éreztem meg, mikor a Radoop és a Dmlab közösen bérelt irodát az Ipar utcában, mikor a szürke egyetemi közegből kiszabadultunk. A jó környezet egyszerűen húz előre, repülsz, nagyobb tempóra tudsz kapcsolni. Sokan félreértik ezt az állításomat, és azt gondolják hogy a design bútor, vicces grafikák és babzsákok háromszögébe kell zárni a kollégákat. De a környezet tágabb értelemben értelmezendő: sokat számít, hogy milyen emberek között ülsz, milyen más cégek azok akik körülötted vannak, kikkel találkozol a konyhában, ha kávézol, és milyen környezetben vagy, ha kilépsz az utcára, vagy ha elmész ebédelni.

moving.jpgEzért szeretem a mi irodánkat, a RED-et, amiben most üresedés van, és ahova új lakótársakat keresünk. Eddig a RapidMiner, az Enbrite.ly és a Dmlab uralta ezt a Madách térnél lévő 400 négyzetméteres teret. Lényegében a régi Kirowsky, majd régi Prezi.com iroda első emeleti szintjéről van szó a Károly körút 9. alatt. Biztos sokatok járt már itt korábban akár egy meetup kapcsán. Most az Enbrite.ly költözik tovább tőlünk a Mosaikba, az iroda közel harmada kiadó.

Ha érdekes lehet nektek, vagy ismersz valakit, akinek megmozgathatja a fantáziáját a dolog, akkor álljon itt néhány infó az irodáról (nyilván a teljesség igénye nélkül):

  • A belvárosban, a Deák tér tőszomszédságában, a Károly körút 9-ben vagyunk, ha valaha dolgoztál ennyire a város közepén, tudod miről beszélek.
  • Egy nagy közös térben van 10-14 szabad asztalunk, ami mellé jár két nagyobb tárgyaló használata, és egy hatalmas közös konyha. Ezen túlmenően van két apróbb telefonálószoba, ahol egy-két fős hívásokat lehet elintézni.
  • Magunk menedzseljük az irodát, a költségeken osztozunk, de a takarítást külső cég végzi.
  • A kényelmünket szolgáló dolgok: Illy kapszulás kávé, ballonos viz, hetente többször gyümölcs. 
  • A közeg főleg adatos világban dolgozó, nyitott emberekből áll.
  • Négyzetméterárak szempontjából kedvező megállapodásunk van a tulajdonossal, a költségeket a csapatok lényegében szétdobják egymás között. Mivel közvetlenül velünk kell szerződnöd, így itt nem gond magában, ha nem tudsz több éves szerződéseket aláírni.

Ha érdekes lehet neked vagy egy ismerősödnek a téma, írj nekünk egy emailt. Nagy-Rácz István: (nagyracz.istvan@dmlab.hu) vagy Gáspár Csaba (gaspar.csaba@dmlab.hu). 

Szólj hozzá!