Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) BI (3) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (24) Big Data (3) big data (6) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (2) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) crunch (1) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (71) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (5) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (40) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2018.09.28. 16:30 István Nagy

Dmlab ❤️ Crunch

Címkék: konferencia crunch data science data engineering

Immár negyedik alkalommal, idén is megrendezésre kerül a régió egyik legnagyobb data science és data engineering happeningje: a Crunch konferencia. A konferencia indulásakor azt írtuk, hogy Budapest ezzel a konferenciával vált nagykorúvá, hiszen egy olyan esemény kerül megrendezésre évről évre, ahol mind az adatokkal kapcsolatos infrasturktúrával, mind az adatok elemzésével foglalkozó vezető cégek, szervezetek és emberek gyűlnek egy helyre, hogy megosszák egymással tapasztalataikat, beszélgessenek és jól érezzék magukat.

A konferencia programjában egyaránt találunk infrastruktúrával és elemzéssel kapcsolatos előadásokat, vannak általános, de vannak igazán fekete öveseknek való előadások egyaránt, az előadók beszélnek magukról az adatokról, de az adatokra alapozott üzleti döntésekről is. Azt gondolom, hogy ha az adatokkal foglalkozol, vagy csupán érdekel ez a terület, mindenképpen hasznosat fog számodra nyújtani ez a konferencia.

 crunch_speakers_animgif.gif

Ha ez nem lenne még elég vonzó, akkor érdemes azt is tudni, hogy ez a konferencia egy 3 az 1-ben esemény: a jegyed megvásárlásával részt vehetsz az azonos időpontban és helyszínen megrendezett Amuse és Impact konferenciákon is. Az Amuse konferencia hasonlóan nagy neveket hoz el számunkra a UX világából, míg az idén elsőként megrendezésre kerülő Impact konferencia a product managementtel foglalkozik, nem egy adatos megoldásról szóló előadással.

location-photo01.jpg

Ha még nincs meg a jegyed, akkor vedd meg most és találkozzunk személyesen is a konferencián. Csapatunk két napos szabadságon lesz, mivel mindannyian ott leszünk a Vasúttörténeti Parkban október 29-én és 30-án.

Ja és a legfontosabb, használd a ADATBÁNYÁSZ50 kuponkódot és 50$-t megspórolsz a jegy árából. A vásárlásod után külön jutalékot nem kapunk, de kíváncsiak vagyunk arra az adatra, ki regisztrált a blogposztunk kapcsán.

CRUNCH AMUSE IMPACT conference teaser from Conferences on Vimeo.

Szólj hozzá!

2018.08.31. 08:00 István Nagy

Ingyenes data science kurzusok a Dmlab szakemberei előadásában

Idén is meghirdetjük a BME-n tartott legfontosabb tárgyainkat külsősök számára is. Ez azt jelenti, hogy a műegyetemista hallgatókkal együtt szeptember elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló termek méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

 Image result for elephant and python

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben. 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Szerda 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Mindkét tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően jelentkezési sorrendben történik, legkésőbb hétfőn fogunk eredményt hirdetni és kedden már indulunk is. A hírlevélre feliratkozóknak már néhány nappal korábban kiküldtük az információt. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

Szólj hozzá!

2018.07.08. 18:23 Gáspár Csaba

Találós kérdés

Címkék: kérdés

c.pngImént egy régi Forbes magazin került a kezembe, amiben egy általam nagyra becsült emberrel készítettek interjút. Az utolsó kérdés-választ idézném itt a cikkből.  

A világ jelentős része az ön útmutatása alapján keresi a boldogságot. Emlékszik, mi volt élete legboldogabb pillanata?


- Nem volt egyetlen kiemelkedő pillanat, a család és a munka tesz boldoggá. Mostanában annak örülök leginkább, ha valami érdekes és váratlan összefüggést találok az adatokban.

Találós kérdésem a következő: kivel készült az interjú?

Szólj hozzá!

2018.06.30. 13:59 Gáspár Csaba

A lendület megszerzése

Címkék: előadás szervezetfejlesztés projektmenedzsment bigdata

Egy korábbi posztunkban 5 pontban foglaltuk össze, hogyan tudjuk a cégünket az adatokban rejlő lehetőségek kiaknázásában előremozdítani. Az első pont a lelkesedés és lendület megszerzése, posztunkban ezt a kérdést járjuk körül.

Egy cég, egy szervezet fejlődési ugrása során egy olyan akadályon kell átjutnia, ami erős változást és így bizonyos fajta ellenállást is tartalmaz. Mikor valaki az adatelemzés irányába akar nyitni, általában már rögzített, jól vagy kevésbé jól, de működő folyamatokat, szemléletet akar megváltoztatni. Ebből kifolyólag az első visszajelzések elutasítóak, gyakran negatívak, azaz a motivációnkat a jelenlegi környezetünkön kívülről kell szerezni (ha cégen belülről fakadna ez természetesen, akkor a cég magától már adatvezérelté vált volna). Ilyen motivációs erőt jelent, ha lelkesedést, valamifajta lendületet gyűjtünk a cégünk adatközpontúbbá tételéhez. Ezt két lépcsőben lehet tenni:

b_1.jpgLelkesítsd be magad! - Érdemes magunkkal, nyilván itt van a legnagyobb cselekvési lehetőségünk. Ekkor ne technológiákról, megoldásokról, adatelemzési módszertanokról olvassunk, hanem keressünk olyan videókat, írásokat, hanganyagokat, esetleg könyveket, melyek inspirálnak. Ezekben olyan történetekre érdemes vadászni, ahol valaki arról lelkendezik, hogyan változtatta meg a környezetét az adatelemzés. Itt direkt előny, ha nem a saját iparágunkhoz kötődik a sztori, akkor nem azon fog járni az agyunk, hogyan adaptálható az adott módszer nálunk. Ezek a legtöbb esetben profi médiatermékek, melyeket gyakran nem is adatelemzők írnak. Onnan tudod, hogy megfelelő anyag került a kezedbe, hogy mikor végeztél vele, akkor egyszerűen azt érzed, hogy tényleg változott a szemléleted, valamit nagyon szeretnél máshogy tenni, hogy valamit most nagyon kezdeni akarsz az adataiddal. 

Néhány ötlet ilyen anyagokra (ezek az én személyes kedvenceim):

  • Videó (18 perc) - Amy Webb: How I hacked online dating - Szórakoztató és fordulatokban gazdag történet arról, hogy adatelemzős szemléletével mire jutott az előadó az online randioldalakon.
  • Film (133 perc) - Moneyball / Pénzcsinálók - Igaz történetet feldolgozó film, amiben Brad Pitt egy kis költségvetésű baseball csapatot hihetetlenül sikeressé tesz azzal, hogy adatelemzéssel támogatva választja ki a megvásárolandó játékosokat. 
  • Könyv (260 oldal) - Numerátorok - Interjúkötet olyan emberekkel, akik a saját üzleti területüket alapvetően felforgatták az adatelemzés segítségével. 
  • "Képeskönyv" (260 oldal) - Information is Beautiful - Infografikákat tartalmazó képeskönyv, amit újra és újra érdemes végiglapozni.  Mint egy felnőtteknek szóló Tesz-vesz város: akárhanyadik végiglapozás során is fogsz találni valami érdekeset. 

A big data jelenség közbeszédbe való 2014-es berobbanása óta ilyen lelkesítő anyagból rengeteg született, néhány egyszerű kereséssel könnyen találunk olyanokat, melyek a mesterséges intelligencia, az önvezető autók, a teljesen adatvezérelt cégek, az automatizálás irányából fogják meg a dolgot. Nézzünk meg, olvassunk el többet is, ne feltétlenül okosabbak, inkább elszántabbak, tettrekészekké kell válnunk tőlük. 

c.jpgLelkesítsük be a csapatod! - Nem hiába emelem ki ezt külön: teljesen más módszerek jönnek itt szóba a fentiekhez képest. Ha csak elkezded küldözgetni a kollégádnak vagy a főnöködnek a grandiózus cikkeket és videókat, inkább hátráltatni fogod a folyamatot, mint segíteni. Fontos itt kiemelni, hogy egy ilyen hordejerű változást az egész cégre vonatkoztatva akkor tudsz elérni, ha te vezeted a cégedet, vagy legalábbis benne vagy a vezetésben. Ezért érdemes inkább a saját embereidre, a közvetlen munkatársaidra, esetleg egy erre fogékony egyik vezetődre koncentrálni. 

Egy csapat belelkesítésére nem ismerek recepteket, de láttam jónéhány sikeres és sikertelen példát. A sikeresek kétfajta csoportba oszthatók:

  1. Az illető a saját lelkesedésétől fűtve összeszedett annyi kompetenciát, hogy egy kisebb adatalapú megoldást készített egy hagyományos feladatára. Néha ez egy megbolondított Excel, néha egy riportáló eszköz, de volt aki egy teljes funkcionalitással bíró analitikus CRM modult is összerakott. Mikor elkészült a megoldás, általában híre ment a cégen belül a dolognak, ami követ dobott az állóvízbe. Fontos ugyanakkor, hogy ezek a mini rendszerek általában gerilla IT megoldások, és emiatt hosszú távon csak kivételes esetben lesznek ezek a programok tényleges céges megoldások. Ez utóbbi jelenséget sokszor nagyon nehezen élik meg azok, akik adatelemzési szemléletét végül átveszi a cég, de másik IT megoldást kezd építeni a feladatra.
  2. A másik lehetőség, hogy a szervezetfejlesztési, képzési vonalba illesztenek be olyan elemeket, amik kapcsán a kollégák is betekintést nyernek a big data lehetőségeibe. Több cégnél is vannak fakultatívan látogatható ismeretbővítő előadássorozatok, gyakran ebbe integrálnak témába vágó inspirációs előadásokat. Mi évente hét-nyolc ilyet előadást tartunk különböző cégeknél. Ezekben a közös minta az, hogy a meghirdetett előadásra a cég központjának minden dolgozója a marketingestől kezdve a rendszergazdákon át egészen a HR-esekig. Ennek megfelelően itt egy olyan ívet rajzolunk fel, ami bemutatja miképpen szövi át a big data világa a hétköznapjainkat kezdve a nagyvállalati marketingtől, a Facebook hirdetéseink át egészen a telefonunkon levő játékokig. Egy ilyen alkalom után még sokszor ott maradok beszélgetni a leglelkesebb résztvevőkkel, a vezetők számára az ő nevük megjegyzése talán az egyik legértékesebb hozadéka egy ilyen alkalomnak. 

Ha egy vezetőben elég erős az elszántság, sokszor ki is hagyják a csoport belelkesítését. Egyszerűen átugranak a második lépcsőre, a kompetencia növelésre: workshopokat szerveznek a dolgozók adatelemzési ötleteinek becsatornázására, vagy adatelemzős céges belső kurzust szerveznek, ahova önkéntes alapon jelentkezhetnek az emberek. Gyakran ekkor derül ki, hogy bár a vezető csak mostanában kezdett az adatokban rejlő erő kiaknázásával foglalkozni, de az kollégái már régóta lelkesek és csak a megfelelő felhatalmazás és támogatás hiányzott eddig. 

A sorozatot folytatva később a következő lépéssel, a kompetencia növelés hogyanjával foglalkozunk.

 

Érdekes lenne a céged számára egy ilyen lelkesítő előadás megtartása? Beintegrálnál egy inspirációs workshopot az általad vezetett digitális transzformációs projektbe. Keress minket bátran:

Gáspár Csaba - +36-20-8234154  vagy info@dmlab.hu 

Szólj hozzá!

2018.04.25. 10:33 Gáspár Csaba

Versbe szedett szakma

Varró Dani írt az NNG felkérésére néhány gyerekverset, amiben egy-egy mai szakmát népszerűsít a gyerekek számára. Így lett versbe szedve az adattudós (data scientist) és a machine learning szakértő élete. A versek zseniálisak, engem a legjobban mindkét vers utolsó sora fogtak meg leginkább. A képek külön zseniálisak, azokat a könyvek stílusát idézik meg bennem, melyeket én magam forgattam tizenegy-néhány éves koromban, illetve azt is megérthetjük belőle, hogy miért pont a csivava és a muffin megkülönböztetésével foglalkozik egy "gépi tanuló tanítója".

Varró Dániel: Adattudós

 

a.jpgHa én úgynevezett adattudós volnék,
minden kis adatnak mélyére hatolnék.
Minden jelenségnek a mélyére ásnék,
big data scientist volna nevem másképp.

Az adattengerbe fejest ugranék én,
hajóroncsok közt a kincset keresgélném,
kutakodnék ott lent verejtékkel, könnyel,
s a felszínre úsznék egy kis igazgyönggyel.

Kifigyelnék mindent lopva, mint a kémek,
kik néznek a neten kínos-fókás mémet,
addig kutatnék, míg meglenne a jóslat:
néznek-e utána cicás videókat.

Sok tényt elemeznék ki az adatokból,
olyat is, mi meglep, olyat is, mi sokkol.
Egy nagy színes ábrán adnék róla képet,
akkor lennék boldog, ha megértenének.

Varró Dániel: Machine Learning szakértő

 

b.jpgRendőr, postás, pék is lennék,
kertésznek is vígan mennék,
de leginkább azért főleg
machine learning szakértőnek.

Nem törődnék semmi mással,
mint a gépi tanulással.
Megtanítanám a gépem,
hogy kell viselkedni szépen.

A férfiaktól a nőket
hogy különböztesse ő meg,
s mi egymástól nem áll távol:
a muffint a csivavától.

Ha ráunt a kiskutyákra,
emberekkel diskurálna,
ámuldozna ám a jónép,
milyen okos számítógép!

Tanítgatnám, nevelgetném,
adatokkal etetgetném,
s ha már kapott elég ételt,
ronggyá verné Lékó Pétert.

Én lennék a soselátott,
bablevesbe belemártott,
sakkozókat kiborító
számítógép idomító!

A verseket tartalmazó könyv ingyen elérhető az alábbi oldalon: Ha nagy leszek..

2 komment

2018.02.02. 11:00 István Nagy

Nyitott data science képzéseink

Idén is meghirdetjük a Műszaki Egyetemen tartott tárgyunk külsősök számára is. Ez azt jelenti, hogy az egyetemista hallgatókkal együtt február elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló terem méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

Ha érdekelnek a data science és gépi tanulás alkalmazási lehetőségei valamint a praktikus elméleti háttér, akkor várunk az Adatelemzési platformoktárgyunkon. A kurzus célja, hogy a hallgatók készség szinten legyenek képesek adatbányászati feladatok megfogalmazására és valós adathalmazok felett ilyen problémák megoldására. Ehhez a tárgy nemcsak az adatbányászat, a gépi tanulás, az adatelemzés elvi hátterét mutatja be, hanem vizuális programozási metodikát használó adatbányászati szoftvereket, platformokat is ismertet, külön figyelmet szentel a ’big data’ elemzési feladatokra megoldást jelentő Hadoop platform bemutatására.

A tárgy hivatalos honlapja
Időpont: keddenként 8.30-10.00-ig és szerdán 10.15-12.00-ig. Az első alkalom időpontja: február 6.
Helyszín: a Műszaki Egyetem Lágymányosi campusának épületeiben

Jelentkezem

A jelentkezés alapvetően jelentkezési sorrendben történik, várhatóan a hét végén fogunk eredményt hirdetni. Nektek, akik a levelezési listán fent vagytok, egy nappal korábban küldjük ki az információkat, hogy előnyötök legyen a blogról érkező többi érdeklődővel szemben. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

Szólj hozzá!

2018.01.25. 21:07 István Nagy

Csatlakozz csapatunkhoz

Címkék: job munkaerő 2018


9b7a02c6-f184-4baa-9240-b74b3303f09d.jpeg

Ha szeretnél olyan projekteken dolgozni, mint amikről a bejegyzéseinkben olvasol.

Ha érdekel a data science vagy a data engineering világa.

Ha olyan termékeket és szolgáltatásokat fejlesztenél, amelyekben adatelemzési megoldások dolgoznak. 

Írj nekünk a job@dmlab.hu címre, keressünk egy közös időpontot, ahol többet mesélhetünk a csapatunkról, projektjeinkről és a lehetőségekről, amelyeket kínálni tudunk, ha csatlakozol hozzánk. Emellett persze arra vagyunk a leginkább kíváncsiak, hogy te merre tervezed a karriered, mik motiválnak a munkahelykeresésben és -választásban.

Találkozzunk!

Szólj hozzá!

2018.01.11. 17:38 Gáspár Csaba

Milyen lépések mentén tudod bevezetni a céged a big data világába

Címkék: 2018 metodika bigdata big data data science Big Data datascience

Egy szervezetfejlesztési workshop során össze kellett gyűjtenünk, hogy milyen módon közelednek a big data világához az általunk támogatott cégek. Egy izgalmas ív került felrajzolásra, ami különösen tanulságos azoknak, akik érzik, szeretnének 2018-ban előrébb lépni az adatok adta lehetőségek kihasználásában. 

a.jpeg

A folyamatot öt fő lépésre lehet bontani:

  1. Lendület és lelkesedés megszerzése - Első lépésben nyitottságra és lelkesedésre van szükség, hogy megmozduljon valami. Ez általában két lépésben történik, először a cég vagy szervezeti egység egyik meghatározó egyénisége rákap a big data ízére: olvas egy jó cikket a neten, egy lelkesítő előadást hall egy konferencián, vagy egyszerűen beleszeret a témába egy régen látott rokonnal beszélgetve. Ezt a lelkesedést általában érdemes kicsit átragasztani a többi szereplőre is, erre remek lehetőségeket adnak a különböző olyan belső workshopok, ahol egy általános big data előadással alapozzuk meg a kollégák pozitív hozzáállását az ügyhöz (ilyen előadásokat mi is szoktunk vállalni, de erről majd később). 
  2. Kompetencia gyűjtése - Kellő induló lendület után a big data világához kapcsolódó kompetenciák gyűjtése a cél. Ez lehet új munkatársak bevonása is, de akár belső adatelemzési kurzusok, vagy megfelelő külső partnerekkel való bizalmi kapcsolat kialakítása is ide kapcsolódik. 
  3. Validáció - A következő fázisban a kompetenciákra támaszkodva kiválasztásra kerül, hogy milyen fajta folyamatokat érdemes átalakítani adatvezérelté. Ez egy részben üzleti feladat, hiszen azt is vizsgálni kell, hogy elérhetőek-e azok az adatok már a cégen belül, amik kulcsszerepet kapnak a ebben a megközelítésben. Itt konkrét adatelemzési feladatok ritkán valósulnak meg, sokkal inkább az újszerű, innovatív adatfelhasználás létjogosultságát kell ellenőrizni.
  4. Proof-of-concept - Ha tudjuk, hol lenne érdemes a big data módszereket használni, nem egy rendszert kell egyből építeni: sokkal fontosabb, hogy ellenőrizzük, hogy megfelelő szinten megoldható-e az data science feladat, amit kitűztünk magunk elé. Ekkor tipikusan historikus adatokon bizonyítjuk, hogy egy jó adatelemzési módszerrel elérhető az üzleti értelemben vett előrelépés az adott módszerrel. Az data science feladatok megoldásán, a gépi tanulási eljárások futtatásán túl ekkor lehet pontosabb megtérülési számításokat is végezni.
  5. Rendszer építése - Ha bizonyításra került, hogy a gépi tanulási eljárásokkal korábban is tudtunk volna előnyöket elérni, akkor érdemes ezeket a jelenben és a jövőben meg is szerezni. Ehhez egy olyan rendszert kell építeni, ami a big data megoldást folyamatosan üzemelteti, időről-időről időre ellenőrzi működését, számszerűsíti az általa elért többletet. Sokan azt hiszeik, hogy ez már csak egy apró lépés az előző pont után, de a valóság az, hogy ami a már ismert múltbeli adatokon jól működött, az jelentős mennyiségű fejlesztést és integrációs feladatot követelhet, ha egy teljes rendszerbe kell azt integrálni. 

Látható, hogy az öt lépés során bárhol el tud akadni a folyamat. Vagy azért, mert a prioritások máshova viszik a fókuszt, és nem szerzi meg a cég a megfelelő kompetenciát, vagy mert a proof-of-concept megoldás eredménye nem jelzi egyértelműen, hogy érdemes egy új rendszert építeni.

Ugyanakkor a fenti modell abban tényleg nagyon sokat segít, hogy azonosítani lehessen, mire is van valakinek szüksége. Például, ha még csak lelkes vagy a big data világa iránt, nem feltétlenül kell még egy konkrét technológia, platform mellett elköteleződnöd, ráérsz ezt majd a 4. és 5. pont között megtenni - még akkor sem, ha úgy gondolod, hogy egyből olyan kompetenciákat akarsz megszerezni, ami a majdani technológiákhoz szervesen kapcsolódik. 

Ha te is éppen a big data világába szeretnéd jobban bevinni a céged, érdemes elgondolkodni, hogy hol is tartasz a fenti folyamatban, és arra fókuszálni, ahol ténylegesen vagy. Tapasztalataink szerint nem érdemes kihagyni egyetlen fejlődési fázist sem, később ez mindig megbosszulja magát. 

Szívesen írunk a fenti fázisokról még tapasztalatokat, áruld el nekünk, neked melyik fázis izgalmas éppen:

Melyik lépést fejtsük ki bővebben - Szavazás

(Kép forrása)

Szólj hozzá!

2017.08.30. 17:25 Gáspár Csaba

Őszi data science választható tárgyak - Nem csak BME hallgatóknak

Címkék: oktatás bme jelentkezés tmit 2017 bigdata választható tárgy datascience

(Hallgatóknak rövidítve:)

BME választható tárgyak hiteles előadóktól:

- Alkalmazott adatelemzés (K-Cs 12h) minden órán laptopoddal dolgozol, Python, R és SAS + data science és gépi tanulás alapjai
- 'Big Data' elemzési eszközök nyílt forráskódú platformokon (Sz 12h) Hadoop, Spark, teljes big data stack

Go to Neptun!

a.jpg

(Külsősöknek, részletek után érdeklődőknek)

Idén is meghirdetjük a BME-n tartott legfontosabb tárgyainkat külsősök számára is. Ez azt jelenti, hogy a műegyetemista hallgatókkal együtt szeptember elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló termek méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

 

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben. 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Szerda 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Mindkét tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően jelentkezési sorrendben történik, várhatóan a hét végén fogunk eredményt hirdetni. A hírlevélre feliratkozók között már néhány nappal korábban már kiküldtük az információt. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer Forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

3 komment

2017.05.10. 10:10 Gáspár Csaba

10 éves a dmlab

Címkék: 2017 10éves dmlab dmla1o

Hálás vagyok. Ennek az egyszerű gondolatnak mindenféle variációja kavarog a fejemben, mikor arra gondolok, hogy ma 2017 május 10.-én ünnepeljük a dmlab alakulásának tizedik évfordulóját. Ahogy a tíz évnyi élményt átpörgetem a fejemen, valahogy azt érzem, hogy ez nagyon jó tíz év volt. Annyira pozitív bennem az összkép, hogy szinte hitetlenkedve szedem össze az agyam rejtet zugaiból a nehézségek, a kudarcok élményeit. És mikor ezeket is sorba veszem, méginkább kereknek és jónak látom ezt az időszakot. Hálás vagyok azért, hogy így tekinthetek vissza.


picture1.pngHálás vagyok azokért, akikkel ezt az egészet tíz éve elindítottuk. Ha dmlab indulására gondolok, egy rövid TED videó jut eszembe, ami egy rövid vicces videó elemzésén keresztül mutatja be, hogyan indul el egy mozgalom (link). Kiemeli, hogy egy új kezdeményezés indításánál nem az azt indító vezető személye a legfontosabb, hanem annak az első egy-két társnak a döntése, akik elsőként hozzá csatlakozva vezetővé teszik. Hálás vagyok ezért Nagy Istvánnak, Főző Csabának, majd Ivónak, Prekónak, Attilának, Petinek, majd Gergőnek, Csabinak, Simonnak, és sokáig sorolhatnám ki mindenkinek, akik hittek abban, hogy lehet és érdemes a dmlab kötelékében valami újat és nagyszerűt alkotni.

Hálás vagyok azért a bátorságért és azért vakságért, vakmerőségért, ami ezt a csapatot jellemezte. Bátrak voltunk, mikor új és járatlan, kockázatos utakon kezdtünk el járni, és olykor vakmerők voltunk, mikor nem is voltunk képesek felmérni, mekkora fába vágtuk a fejszénket - és néha milyen jól jött, hogy emiatt megijedni, visszarettenni sem volt lehetőségünk. Hálás vagyok azért, mert ez a kísérletező kedv, ez a szabályok és a berögződött reflexeket felülírni akaró szemlélet, ez a kreatív energia mind a mai napig áthatja a csapatot.

Hálás vagyok, hogy a tíz év során időről-időre feltettük a kérdést magunknak mit és hogyan akarunk elérni közösen. Hálás vagyok Törőért, mert segített nekünk rátalálni egy őszinte és előremutató vízióra, segített megérteni, hogy ahogy a cégnek ugyanúgy eredménye, terméke, hogy milyen munkahelyeket hoz létre, hogy milyen kollegiális viszonyban és hogyan dolgozunk együtt, tudatosodott bennünk, hogy milyen ügyeket, célokat és cégeket szolgálunk és segítünk.

Hálás vagyok a sok projektért, pilotért és oktatásért, hálás vagyok a dmlab-ból induló, “spin-off-oló” startupért és azok sikeréért. Büszkék vagyunk rátok.

Hálás vagyok a tíz évet folyton átszövő változásokért. Még úgy is, hogy tudom, hogy nem minden változás fejlődés, és nem minden fejlődés gyarapodás volt a dmlabban. De álltuk a sarat, megtaláltuk az új helyzetekben a lehetőséget, és szinte kivétel nélkül ki tudtuk használni azt. A napokban kezembe került a dmlab egy kilenc éve született stratégiai terve. Mellbevágó volt belenézni, és látni hogy mennyire keveset változtak a lényegi dolgok tíz év alatt, miközben mégis minden megváltozott: a szakma, a piac, és mi magunk is mennyit fejlődtünk.

Köszönjük.

“Ez jó mulatság, férfi munka volt!”

Szólj hozzá!

2017.03.08. 21:59 Gáspár Csaba

[BreakingNews] A Kaggle-t felvásárolta a Google

Címkék: google verseny startup felvásárlás 2017 kaggle

Ma hajnalban ütött be a hír, hogy a Google felvásárolta a legnagyobb adatbányászati versenyeket szervező oldalt, a Kaggle.com site-ot (első hír itt, hivatalosabbak itt , de a Google a blogposzt írásának időpontjában még hivatalosan nem jelentette be a tranzakciót). A vételárról nincsenek hírek, a 2010-es alapítása óta eddig 12,5 millió dollár befektetést tudott bevonni a cég.


kaggle_vs_google.pngA hír váratlanul ért, de sok szempontból nem annyira meglepő: a Google számára sok dolog jól jöhet a Kaggle portfóliójából. Kaggle a data science közösség egyik központi oldala, saját álláskereső oldalával és a közel félmillió felhasználójával (! - én ezt nem is nagyon akarom elhinni) jó merítés a cégnek már csak toborzási szempontból is. Ezen túlmenően a Kernels nevű kezdeményezésével a Kaggle egy saját gépi tanulási platformot is létrehozott, ami jól fog virítani a Google Cloud embléma alatt is. Talán ez az a pont, ahol mint Kaggle felhasználók a legtöbbet nyerhetünk. Nem hiába, a Google olyan cég, aki hisz az adatok erejében, miért ne hinné el, hogy a data scientist-ek világának közepét is érdemes birtokolnia. 


Másfelöl a felvásárlás azt is bizonyítja számomra, hogy az adatokkal dolgozó cégek és szakemberek univerzumában a nagy techóriások egyfajta hatalmas gravitációjú csillagoknak tekinthetők: egyre gyorsabban szippantják be az ígéretes kezdeményezéseket, az igazán izgalmas dolgok körülöttük történnek. Az itt felhalmozódó hatalmas adat- és tudásvagyonnal egyre nehezebben fognak versenyezni azok a vállalatok, melyek homlokterében az adatokkal való munka egyfajta megtűrt hobby vagy kényszerű próbálkozás.

google_vs_kaggle_1.pngPéldául a napokban találkoztam olyan nagyvállalattal, ahol egyenesen az volt a vélemény, hogy félnek belső kompetenciát építeni, mert ha valaki megtanulná ezt a szakmát a cégen belül, azt biztos hamar lecsábítanák az ilyen emberekre vadászó más cégek. Pedig hosszú távon valójában fordított tendenciák várhatók: hosszú távon az adatvezérelt gondolkodás, az adatokkal való barátság inkább alapkövetelményként fog megjelenni, mint szelekciós szempontként. De a lemaradók megnyugtatására és az élenjárók szomorúsága végett le kell szögeznem: mint minden változás, aminek az emberi fejekben kell végbemennie, sokkal lassabban fog megvalósulni, mint amekkora tempót maga a technológia diktál. 

Gratulálunk a Kaggle csapatának!

Szólj hozzá!

2017.02.01. 15:00 István Nagy

Újra - Nyitott data science képzés

Címkék: oktatás bme python rapidminer

Folytatva a hagyományokat: szeretnénk a figyelmetekbe ajánlani a tavaszi félévben futó data science kurzusunkat a Műegyetemen, amelyben az érdeklődők betekintést nyerhetnek az adatelemzés világába elméleti és gyakorlati órák keretében. A tárgy órái hetente keddenként 10:15-től és minden második pénteken 10:15-től lesznek. Az első alkalom február 7-én, kedden, 10:15-kor kezdődik.

Téma szempontjából az adatelemzés alapjait vesszük át: adatmodell, CRISP-DM, felügyelt és nem felügyelt tanulási eljárások, adatbányászati modellezés, és sok alkalmazási példa: elvándorlás-előrejelzés, kockázatbecslés, szegmentáció, idősorok előrejelzése. Az első hetekben RapidMinerrel dolgozunk, majd a python adatelemzős alapjait sajátítjuk el a gyakorlati alkalmak keretében. Mindenkitől azt kérjük, hogy a gyakorlati órákra hozzon saját számítógépet, amire a megfelelő programcsomagokat telepítette (az ingyenes verziókkal dolgozunk).

A tárgyhoz házifeladat is tartozik, ami egy felügyelt tanulási feladat lesz valós adathalmazon - sőt a kaggle.com rendszerén keresztül egy zárt adatbányászati versenyen is megversenyeztetjük majd a házifeladatra adott megoldásokat. A helyszínről és a pontos beosztásról a jelentkezés után, annak elfogadása esetén tájékoztatunk. 

Már most látszik, hogy elég sok külsős hallgató jelentkezése várható, ezért némi korlátozással is élnünk kell majd: a tárgyra annyi embert tudunk befogadni, ahány hallgató is felvette azt. Ez a jelenlegi állapot szerint 24 fő. Emiatt arra kérünk, hogy amennyiben érdekel a tárgy és szívesen velünk tartanál, úgy jelentkezésed add le az alábbi rövid kérdőív kitöltésével.

UPDATE: A külsős hallgatói jelentkezéseket lezártuk és mindenkit értesítettünk, aki jelezte részvételi szándékát. Köszönjük nektek!

Mindenkit pár napon belül értesíteni fogunk, hogy jelentkezését módunkban áll-e elfogadni. Ez a válaszolás sorrendjétől, valamint a motivációtól fog függeni. Ugyanazon cégtől csak kivételes esetben fogunk nagy számú (3+) jelentkezést befogadni.

Várunk benneteket!

 

A kép forrása.

Szólj hozzá!

2017.01.08. 14:00 Gáspár Csaba

Big data nyugati és keleti szemléletben

Címkék: mém bigdata big data

A Műegyetem büféjében egy közgazdász kolléganőnktől hallottam egy érdekes gondolatot (mémet), melyen az elmúlt hónapban sokat morfondíroztam. Zsuzsa meglátása szerint az európai kultúrában a gazdaságban megjelenő adatokhoz, az azokban megjelenő összefüggésekhez, a ma big data néven futó jelenséghez külön nyugati és keleti (bizánci) megközelítés tartozik. A nyugati gondolkodásmódban az adatokra támaszkodva növelhetjük a hatékonyságunkat, alkalmazkodhatunk a változó környezethez, versenyelőnyhöz juthatunk - így az adatelemzés célja tipikusan a profitnövelés irányába mutat. A keleti (bizánci) szemléletben az adatok gyűjtésének célja az ellenőrzés, az állami vagy egyéb hatalom felügyeleti tevékenységéhez tartozik - célunk az ellenőrzés, a kitűzött célok végrehajtásának ellenőrzése. 

east-vs-west.jpgValóban kézzelfoghatóan különválik ez a két szemlélet, még akkor is, ha egy-egy jól működő szervezeten belül mindkettőnek meg kell jelennie. Ha technológiai szemmel nézzük az gépi tanulási feladatok előrejelzéshez köthető részei inkább a profitmaximalizáló, hatékonyságnövelő szemlélethez köthető, míg az én látásmódomban kicsit a klaszterezés és nagy mértékben az anomália detekció a felügyelő / ellenőrző látásmódhoz köthető. Egy BI vagy riporting rendszer magában nem köthető egy-egy területhez, de a használatuk mögötti motiváció gyakran az egyik szemlélethez húz. 

Az elmúlt héten áttekintettem a fenti szempontból a 2016-os projektjeinket (jó lehetőséget adott erre, mikor az Éviránytű évértékelő munkafüzetét töltöttem ki), és egyértelműen szátváltak erre a két csoportra, még akkor is, ha egyes partnereknél végül mindkét irány megjelent. Az egyik legtipikusabb példa, mikor kamionsofőrök fogyasztási szokásainak elemzését végeztük: elsőként úgy volt megfogalmazva az üzleti kérdés, hogy találjuk meg, mi a különbség a jól fogyasztási adatokkal futó sofőrök és a több üzemanyagot használó kollégáik között. A projekt végkicsengésénél viszont megjelent az az igény, hogy mennyivel jobb lenne a sofőr szokásai, az útviszonyok, az időjárás és a rakomány figyelembevételével olyan útvonaltervezést megvalósítani, ahol a becsült üzemanyagköltséggel és a különböző útdíjakkal egyszerre tudnánk számolni.

Elgondolkodtam azon is, vajon milyen szemlélet jellemző hazai cégekre? Ez cégkultúrától függ, ami alakítható - így talán nem is ez a jó kérdés. Ha az egyének szintjén vizsgáljuk a kérdést, azt mondhatjuk, hogy a magyarok alap beállítottsága inkább a keleti szemlélethez húz. Jó példázza ezt nekem, hogy mikor egy társaságban elmesélem, hogy egy jó és egy rossz kamionsofőr között 3-4 liter fogyasztás-különbség is lehet 100 km-en, a legtöbben azt a zsigeri választ adják, hogy biztos lopják az üzemanyagot. Az adatokból látszik, hogy rengeteg oka lehet a különbségnek (például mennyit használja a tempomatot az vezető), de az alap asszociációnk oda mutat, az adatok valami kis stiklit, csalást, trükközést fognak felfedni.

Fontos kiemelni, hogy ez a kettősség nem a személyes adatokról vagy privacy védelméről szól - de mégis van ide vágó aspektusa. Képzeljük el, hogy a munkahelyünkön minden eddiginél pontosabb és jobb adatgyűjtést vezet be a főnökség, például pontosabb képet fognak kapni az egyes kollégák teljesítményéről. A változást lehet pozitívan látni ("végre látni fogják, milyen sokat tettem a cégért"), vagy negatív módon viszonyulni hozzá ("ki fogják szúrni, hogy pénteken hamarabb szoktam lelépni"), és utána ennek megfelelően lehet támogatni vagy szabotálni a bevezetést. Mindenkire rábízom, hogy mit tenne ő egy ilyen szituációban. 

Bármilyen is az alap beállítottságunk, erre rálátva tudatosan tudjuk integrálni a kétfajta szemlélet előnyeit. Izgalmasabb kérdés számomra, hogy mennyire más módon kell a különböző szemléletű cégeknél egy-egy megoldást bevezetni, mennyire más motivációk és félelmek uralják a gondolkodást a két esetben.

Szólj hozzá!

2016.12.23. 00:04 Gáspár Csaba

A túlterhelt csomagküldők esete - adatelemző szemmel

Címkék: hiba előrejelzés logisztika 2016

Idén az adventi időszak kötelező feladatai közé bekerült a Posta illetve más csomagküldő szolgálatok szidása, miszerint miért nem készültek fel időben a karácsonyi dömpingre. Örök téma ez, bárkivel el lehet róla beszélgetni, mindenkit érint és mindenki ért hozzá - olyan mint az időjárás, a politika vagy a foci. A szállingózó történetek először idén is a Postáról szóltak, de az elmúlt hetekre végülis minden csomagküldőre kiterjedtek, végül nem egyetlen cég bénázásáról, hanem valami általánosabb jelenségről van szó.

Tudvalevő, hogy a karácsonyi webshop őrületre a csomagküldő szolgáltatók is készülnek. Ez a szektor az elmúlt évtized EU-s szabályozási változtatásai kapcsán egy fejlődő, sokszereplős és versenyezni képes iparággá nőtte ki magát, ahol a hétköznapi értelemben van innováció, a legtöbb cég vezetőit kőkemény üzleti racionalitás hatja át: a karácsony a legerősebb időszakuk, biztosan kalkuláltak a megnövekedett feladatokkal. Ahogy a hírekben hallható mentegetőzésből kijön, azt is tudták, hogy nemcsak több, hanem a tavalyinál jóval több csomagot kell elvinni majd. Több helyen is olvashatjuk, hogy a karácsonyi időszak csomagmennyisége évi 20%-kal növekedett az elmúlt években, így a legtöbb helyen erre a mennyiségre lőtték be a kapacitásaikat.

screen_shot_2016-12-22_at_23_44_33.pngÉs itt jön a fordulat - idén a 40%-kal több csomagot adtunk fel. Persze lehetne ezt a hazai webes áruküldés csodájaként is megélni, ünnepelhetnénk a hazai digitális fordulatot (mint ahogy sok más országban egy-egy black friday után a webes cégek azzal dicsekednek mennyivel dőltek meg az eddigi rekordok), ehelyett inkább azt hallhatjuk, hogy ez az óriási különbség mennyire váratlanul érte az előrejelzés szerint 20%-os emelkedésre számító szereplőket.

ÁBRA: Az eNet pont egy évvel ezelőtti infografikájából kivágott rész a hazai webes kereskedelem forgalmáról - Eredeti cikket is ajánlom figyelmetekbe: eNet: E-kereskedelmi körkép 2015

Adatelemzőként persze csak csóválom a fejem. Ha valami három éve 20%-ot nő, akkor a következő évre 20% növekedést prognosztizálni elsőre nem tűnik butaságnak. Csak akkor, ha valamit épp pont a web hajt. Hol hallottunk olyat egy webes trend kapcsán, hogy úgy örökké egyenletesen emelkedett? A weben a dolgok berobbanása vagy elhalása a gyakoribb. Mindemelett 40% növekedés nem berobbanás. És itt kezdek zavarba jönni adatok híján: vajon megvizsgálták a cégek, hogy a sok rendelés közül mely webáruházakra, mely termékcsoportokra volt jellemző a felfutás? Nagy összegekben mernék fogadni, hogy a többlet nem egyenletesen oszlik el. Vagy nem egyenletes vásárlói csoporton. A web világa csak eleinte "lassú víz partot mos" jellegű - később vagy nem lesz semmi, vagy jön a földcsuszamlás. Ez az óriási melléfogás bizony az előrejelzést végzők hibája - a csomagküldés piacát legjobban a webes kiskereskedelem hajtja, ennek elemzése nélkül nem lehet csak a görbére ránézni, és csak úgy továbbhúzni a vonalat.

Hallottam persze furfangos magyarázatokat is - szigorúan a felelősöket minél távolabb keresve. A kedvenc két témám a vasárnapi boltbezárás és a későn érkező hideggel magyarázza a dolgokat. Az első úgy jön a képbe, hogy a vasárnapi boltbezárás időszaka alatt a webáruházak jóval elfogadottabbak lettek az elmúlt években, ez a hatás "gyűrűzött" be most karácsonykor ennyire erősen. Egy másik elmélet azzal magyarázza a dolgokat, hogy későn jött be az igazán hideg hazákba, ami hatására mindig jobban felpörögnek az otthon melegéből rendelhető termékek forgalma. Egyik hatásra vonatkozó elemzéseket se ismerek, de mindkettő inkább műértő okoskodásnak tűnik elsőre.

Mit tegyenek a csomagküldők jövőre? Ezer ötletem van az adatelemzés területén kívülről is, kezdve a novemberben előre megvásárolható futárkapacitástól, a rendelés pillanatában előre kalkulált valós érkezési időpontig. Az adatok jobb kihasználása nem annyit tesz, hogy jövőre komolyabb aparátussal ki tudnak hozni 20+x százaléknyi várható forgalomnövekedést, és ezt higgye el mindenki. Itt folyamatokhoz kellene hozzányúlni, miközben extra nagy források a feladat megoldására nem állhat rendelkezésre.

Leginkább azokat az ajándékozni vágyókat sajnálom, akik félve figyelik a kaput, megjön-e még a csomagjuk karácsony este előtt. Drukkolunk nekik és bízunk hogy nem kuponok gyártásával telik majd a szombat délutánjuk.

Szólj hozzá!

2016.12.12. 13:01 Kazi Sándor

A PISA-felmérés kapcsán - adatelemzés feladat

Címkék: 2016 adatelemzés PISA-felmérés

Pár pillanatra feltódult a magyar online médiában a PISA-felméréssel kapcsolatos hírek hada, mondván, hogy Magyarország leszerepelt, stb. Az Index ki is emelt pár feladatot, hogy az olvasók is tesztelhessék, mit is mér a PISA-felmérés, és hogy hogy teljesítenének rajta. Nade a poszt apropója nem is ez, hanem konkrétan az egyik feladat, ami alább olvasható, illetve az Index kiemelt feladatai között is szerepel:

14207170_29684942a585817e9508b9eefd70e1f5_wm.png

De mi is ezzel a probléma?!

Tegyük fel, hogy csak a csapadéktől függ a dolog. Mit mond nekünk ekkor a napsugárzás?! Ha nem függ tőle, akkor az égegyadtavilágon semmit... Ugyanez igaz fordítva is: ha csak a napsugárzástól függ, akkor sem mond semmit a csapadékmennyiség oszlop. A számokból tehát az alábbi két narratíva vezethető le, ebből kell választani:

  • Ha több a napsütés alacsonyabb lesz a talajnedvesség, és igazából nem függ a csapadékmennyiségtől.
  • Ha több az eső magasabb lesz a talajnedvesség, és igazából nem függ a napsugárzástól

A gond ott keresendő, hogy a fenti feltevések közül mindkettő lehetséges, sőt, (szerintem) leginkább egyszerre mindkettőtől függ a dolog, nem csak az egyiktől; innentől pedig a feladatra nem lehet helyesen válaszolni, mert egyik válasz sem igaz.

Ha a konstruktivitás jegyében feltesszük, hogy az fog kijönni, hogy a dolog az egyiktől egyértelműen jobban függ, mint a másiktól, akkor az alábbi példákat megvizsgálva juthatunk arra, hogy nem is annyira tud "egyértelmű" lenni ez a "jóság"-definíció.

Bonyolultabb összefüggések (kis csalással *) a talajnedvességre:

  1. Alapvetően 1.3%. Minden 100 mm csapadék növeli ezt 7% százalékkal, de 2GJ/m^2 átlagos napsugárzás felett minden további GJ/m^2 csökkenti 2.7 százalékkal.
    Képlettel: 1.4 + 7 * p/100 - max(0, r/1000 - 2) * 2.7
    • 2 GJ/m^2 naponta simán visszaverődik a növényekről, az alatt nem változtat, felette egyenletes a befolyás
    • A csapadékmennyiség egyenletesen befolyásol.
  2. Alapvetően 5%-os. Minden 100 mm csapadék ezt növeli 7.4%-kal, de minden GJ/m^2 napsugárzás pedig csökkenti 2.7 százalékkal.
    Képlettel: 5 + 7.4 * p/100 - r/1000 * 2.7
    • Ugyanaz mint az előző, csak nincs a 2GJ/m^2 korlát...

Melyikre lehet - egy középiskolás ismeretei alapján - azt mondani, hogy valószínűbb, mint a másik? Melyiktől függ? Melyiktől függ "jobban"?

* kis csalással: itt még negatív értékek is kijöhetnének talajnedvességre, ha a fenti képletet alkalmazzuk, de mivel nem vagyok kompetens a talajnedvesség reális értékei tekintetében, inkább nem finomhangoltam a dolgokat ilyen irányba; illetve azzal csak a képlet lenne bonyolultabb, a lényegen nem változtatna.

Mentségek - és miért nem :)

Ha a 440-es és 450-es számok úgy vannak szánva, mint "nem releváns különbség", akkor érhető, hogy erre a következtetésre jut a költő. Ámde miért kéne egy középiskolásnak azt tudni, hogy a százalékban mért talajnedvességet befolyásolja-e relevánsan 10mm csapadék?!

Igen, ki lehet találni, hogy a kérdező mire gondolt, de elvileg nem erről szól a feladatsor. Lehet hivatkozni "Occam borotvájára" is: többnyire a legegyszerűbb megoldás a helyes. De pont az a helyzet itt, hogy a kitöltőnek kritikus gondolkodással és ésszel kell állnia a feladatokhoz, éppen ez az egész felmérés legalapvetőbb elvárása.

Súlyosabb probléma

Ha ezt tényleg így csinálják a gyakorlatban. :D

Sokkal szembetűnőbb viszont az, hogy azt várnák a kitöltőtől, hogy lineáritást feltételezzen. Arra KELL gondoljon a sikeres válaszadáshoz, hogy "hú ez kétszer annyi majdnem, ez meg csak 2-3%-kal több". Pedig a valóságban tisztán lineáris kapcsolat nem nagyon van természetes dolgok között... és még csak - ha jól látom - nem is SI mértékegységek vannak a táblázatban...

Nézzük a jó oldalát!

Legalább nem hőmérséklet van a feladatban... példafeladat: melyik befolyásolja jobban a talajnedvességet: a hőmérséklet Celsius fokban vagy a hőmérséklet Kelvinben?

átlaghőmérséklet (°C) talajnedvesség (% átlaghőmérséklet (Kelvin) átlaghőmérséklet (Fahrenheit)
7 28 280.15 44.6
13.5 18 286.65 56.3

(Az arányok nem véletlenül egyeznek a feladat adataival. A talajnedvesség kapcsán viszont a valósággal való bármilyen egyezés a véletlen műve.)

Zárszó

Szóval alapvetően nem lenne baj azzal, ha feladatban ilyen következtetéseket kell levonni, de ha edukációs céllal várunk el megalapozatlan állításokat, attól rossz lesz a kedvem. Nem segít a szituáción (irányomban), ha ezt mindeközben "adatelemzés"-nek nevezzük. :)

Megjegyzés: természetesen gyanakodtam, hogy a fordítással lehet valami, de az OECD oldalán megnézve az angol verziót, rá kellett döbbenjek, hogy nem.

9 komment