Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) AI (3) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (5) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (29) big data (12) Big Data (3) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (3) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (3) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) covid19 (2) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) dashboard (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (5) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (17) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (4) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (24) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) power bi (2) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (41) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (7) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (7) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2020.03.24. 18:24 Gáspár Csaba

COVID-19 - Kormányzati intézkedések hatásai az adatok tükrében

covid-19_korma_nyzati_inte_zkede_sek_hata_sai_az_adatok_tu_kre_ben_1111.jpg

Március 17-én tettünk közzé egy dashboard-ot a Waze adatai alapján arról, hogyan esett vissza Európa fővárosaiban az autóforgalom a januári adatokhoz képest. Néhány nappal később írtunk az adatokban fellelhető torzításokról és a Dmlab adatelemzési módszereiről, ahogy ezeket csökkenteni próbáltuk. A wazestats adataival dashboard-unkat azóta is naponta frissítjük.

Szólj hozzá!

2020.03.21. 15:51 Gáspár Csaba

Európa nagyvárosai a Waze statisztikák alapján

Címkék: budapest dashboard vizualizáció covid19 power bi

2_euro_pa_nagyva_rosai_a_waze_statisztika_k_alapja_n.png

Néhány napja hoztunk létre egy dashboard-ot a Waze adatai alapján arról, hogyan esett vissza Európa fővárosaiban az autóforgalom a januári adatokhoz képest (dashboard-ot bemutató blogcikk). Azóta mindennap érkeztek új adatok, melyek fényében külön izgalmas megvizsgálni, mit is mutatnak a statisztikák (itt külön kiemelnénk, hogy az adatok számtalan torzítást tartalmaznak, egyszerűen azért foglalkozunk velük, mert jelenleg nem áll rendelkezésre más összehasonlítási lehetőség ilyen elemzésekre).

bp.pngAlapvetően egy mutatószámra koncentrálunk, amit mi "traffic level"-ként hivatkozunk. Azt fejezi ki, mennyi Waze felhasználó van csúcsidőben az utakon ahhoz képest, hogy mennyien voltak januárban - azaz a járvány európai megjelenése előtt. Fontos, hogy a heti szezonalitás kiküszöbölése végett egy szombati napot mindig a januári szombatokhoz hasonlítunk.

Ha ez az érték most pénteken 60%, akkor az azt jelenti, hogy a januárban csúcsidőben mért aktív Waze felhasználók számának 60%-a volt az utakon a mostani péntek legforgalmasabb órájában. Ha az eredeti diagramok érdekelnek, nézd meg a budapesti statisztikákat, mi is innen gyűjtjük le azokat. Ide a kéthetes óránkénti adatokat illesztettem be.

Az ábrán jól látszik a forgalomcsökkenés - de vajon ez a visszaesés mennyire jelentős? A korábban említett "traffic level" értékekeket látod fővárosonként: a keddi adatok szürkével, a péntekiek pirossal jelennek meg. Lehet látni, hogy London és Berlin még mindig nagy forgalommal bír csúcsidőben, míg a döntő többség kisebb forgalmat produkált pénteken, mint néhány napja, azaz egyre kisebb forgalom jellemző a városokra. 

egyben.png

Budapest is csökkentett a forgalmi mutatóján: napról-napra csökken a forgalom a budapesti utakon (a lenti ábrán Budapestet sötétzöld vonallal és pöttyökkel jelöltük). Egyértelműen Róma szerepel rendre a legkisebb értékkel, de mára Madrid, sőt Párizs is közel azonos szintre süllyedt. (Ha tovább nézelődnél a PowerBI dashbordon, jobban érdekel egy-egy város statisztikája, kattints ide, ha angolul osztanád meg, itt az angol ismertetőnk). 

screenshot_2020-03-21_at_15_35_30.png

 

Ha javaslatod van a dashboard kapcsán, vagy izgalmas adathalmaz van a birtokodban, ami érdekes adalék lehet most a vírus kapcsán, írj nekünk vagy kommentelj bátran.

Ha angolul akarod megosztani a dashboard-ot, javasoljuk annak angol nyelvű összefoglalóját elküldeni a LinkedIn-ről: Social distancing from a data scientist viewpoint

Szólj hozzá!

2020.03.17. 19:00 Gáspár Csaba

Társadalmi izoláció egy data scientist szemével

Címkék: budapest vizualizáció dmlab covid19 power bi

4_ta_rsadalmi_izola_cio_egy_data_scientist_szeme_vel.png

Epidemiológusok szerint a társadalmi távolságtartás növelése hatékony módszer a COVID-19 vírus terjedésének lassítására a kiterjedtség jelen szakaszában. Az Európa szerte bevezetett intézkedések két cél között próbálnak egyensúlyozni: csökkentsük a lakosok találkozásainak számát, miközben a gazdaság védelme és az ellátórendszer fenntartása miatt valamilyen szintű mozgást meg akarunk még engedni. De honnan tudjuk, hogy az intézkedések hatására olyan szinten van a társadalmi izoláció, amit elvárunk? Hogyan lehet egy-egy intézkedés hatását mérni? 

Mint adatelemzőket, minket elsősorban a valós események megfigyelése, az adatokból levonható összefüggések érdekelnek. Ezért mi is nagy érdeklődéssel néztük a hazai internetet bejáró statisztikákat a budapesti Waze felhasználók számának csökkenéséről. De igazán akkor érthetjük meg a hazai számokat, ha össze tudjuk hasonlítani azokat Európa más városainak értékeivel. Készítettünk egy dashboardot, amelyen látható, hogyan változott egy-egy európai nagyváros autóforgalma az elmúlt hetekben.

A hiteles összefüggések feltárása érdekében egy-egy város forgalmát az aktív Waze felhasználók számának maximumával mértük (ebből az adatból tudtunk visszamenőleg is megfelelő mennyiségű adatot gyűjteni a wazestat oldaláról). Arra voltunk kíváncsiak, hogy ha a januári, “békeidőnek” számító adatokat tekintjük egyfajta alapállapotnak, akkor ahhoz képest hogyan változott a forgalom a járvány kitörése óta. Egy hétfőt mindig egy átlagos januári hétfőhöz hasonlítottunk, egy keddet egy átlagos januári keddhez stb. Ezzel a heti szezonalitást elimináltuk, és kezeltük azt a problémát, hogy városonként más-más a mérete a Waze felhasználóbázisának.

A fenti dashboardot te is használhatod, mélyebben bele tudsz merülni az adatokba, kiválaszthatod melyik Európai főváros jelenjen meg a diagramon - az átláthatóság miatt alapból csak néhány várost láthatsz. A bal felső sarokban mind a megjelenítendő városokat, mind a vonaldiagram időtengelyét módosíthatod. Javasoljuk az egész képernyős munkát, ehhez a jobb alsó sarokban levő nyilat érdemes megnyomni. 

image.png

A dashboard elkészítésén túl áttekintettük a legfontosabb összefüggéseket is, ez alapján összefoglaljuk, hogy mit láthatunk most, 2020. március 17-én ezekből az adatokból:

Alapvetően négy csoportba lehet sorolni a mai adatok alapján a vizsgált városokat:

  • A leginkább “befagyott” városnak Róma, Madrid és Pozsony számít, ott egy januári keddi nap autós forgalmának alig több, mint 10% van az utakon.
  • 20%-os szint körüli csoportban van  Lisszabon, Bécs, Brüsszel és Amszterdam.
  • Budapest a 36-45% körüli nagy csomóba tartozik, ide esik Berlin, Párizs és Belgrád is. Budapest itt egy tipikus szereplőnek mondható, vannak mind régiósan mind összeurópai szinten néhány százalékkal kisebb, néhány százalékkal nagyobb értékkel fővárosok.
  • Egyetlen nagy lemaradó került a listába, London, ahol ma még egy normál keddi forgalom háromnegyede tapasztalható, Helsinkiben pont most tartanak a felénél a szokásos forgalomnak

image_1.png

Izgalmas azt is megfigyelni, hogy amikor egy-egy város lépett, mennyire gyorsan ürültek ki az utcák. Gyorsaságban Rómát és Berlint emelném ki, mindkét helyen két nap alatt tudták jelentősen csökkenteni az általunk definiált mutatót, de az elmúlt két nap eseményei Budapesten is a forgalom drasztikus  csökkenését eredményezték.

Milyen következtetést lehet levonni a bemutatott adatokból? Mint majd az internet különböző posztjaiban látni fogjuk, bármilyet. Mi ahhoz vagyunk hozzászokva, hogy a megrendelő döntéshozóival közösen értékeljük ki az eredményeket. Ekkor általában újabb kérdések, újabb elemzési feladatok merülnek fel. Újabb elemzésekre, más adatok bevonására most is nyitottak vagyunk: kommentekben is szívesen fogadjuk az ötleteketet vagy használd elérhetőségeinket (lásd a dmlab.hu oldal alján). 

Azért készítettük ezt a dashboardot a wazestat adatainak felhasználásával, hogy megkönnyítsük az adatok értelmezését, hozzájáruljunk a vírus megfékezéséhez, a tény alapú döntéstámogatás elterjedéséhez. Kérjük felelősen használjátok!

UPDATE:

A következő napokban az új adatok birtokában frissíteni fogjuk a diagramokat. Ha értesítést szeretnél kapni a nagyobb változásokról, vagy érdekes számodra az adat alapú döntéstámogatás, a data science világa, iratkozz fel hírlevelünkre.

Jelentkezés a dmlab hírlevelére

 

Szólj hozzá!

2020.02.07. 13:34 Szalóki Kristóf

Data konferenciák 2020

Javában zajlik a 2020. esztendő, máris elrepült egy hónap belőle. Mint minden évben, ez év januárjában is megfogadtuk, hogy márpedig idén hasznosan fogjuk tölteni a szabadidőnket, több időt fogunk fordítani önfejlesztésre. Mi 2020-ban is összegyűjtöttük azokat a hazai konferenciákat, amikre szerintünk érdemes ellátogatni azoknak, akik érdeklődnek a data science, a big data, a machine learning, vagy a business intelligence iránt.

data_konferencia_k_2020_bori_to_2.jpg

Szólj hozzá!

2020.01.29. 12:59 Gáspár Csaba

Ingyenes data science képzés a Dmlab szakembereinek előadásában - 2020

Az eddigi évekhez hasonlóan 2020-ban is elérhetővé tesszük külsősök számára a BME-n oktatott data science világába bevezető tárgyunkat. 

A korábbi években a műegyetemi óráink igen népszerűnek bizonyultak mind az egyetemi, mind a külsős hallgatóink körében, így idén is arra számítunk, sokan jelentkeztek majd. Két tényező is korlátozza mennyi külsős hallgatót tudunk fogadni a kurzuson: (1) a rendelkezésre álló egyetemi termek befogadóképessége, (2) illetve azon elvünk, miszerint a külsős hallgatók aránya nem haladhatja meg az egyetemista diákokét. Ennek megfelelően előzetes regisztrációt kérünk tőletek, ami kapcsán később értesítünk, hogy tudunk-e fogadni a tárgyon ténylegesen.

6_data_science_a_muegyetemen.png

Szólj hozzá!

2019.11.22. 15:00 Gáspár Csaba

Hetven éves a műegyetemi tanszékünk - TMIT70

Címkék: bme évforduló tmit 2019 dmlab

Idén ünnepli a Műegyetemi tanszékünk fennállásának 70. évfordulóját, éppen ezekben a percekben fogok előadni a Tanszék által szervezett ünnepi szemináriumon. Ebben a posztban a Dmlab történetéből ragadok ki néhány markáns aspektust, és mivel egy történet akkor változik, ha elmeséljük, úgy most is egy másfajta rálátásom lett arról, mi is történt velünk itt az elmúlt tizenöt évben.  tmit.jpg

Szólj hozzá!

2019.10.25. 17:50 Gáspár Csaba

Adatokon innen és túl

A legkülönbözőbb fórumokon képviseljük mekkora lehetőségeket rejt, ha az adatok gyűjtésével, majd feldolgozásával egy adatközpontú gondolkodás irányába mozduljunk el. De mindeddig nem beszéltünk arról, hogy az adatok középpontba helyezésén túl is létezik egy szint.

Pedig ahogy állíthatjuk, hogy valaki a működése területén még nem használja az adatait a döntéshozatalban, úgy annak is van tere, hogy valaki már nem használja azokat. Nagyon ritkán lehet találkozni valódi adaton túli megközelítéssel, és tipikusan nem az egész cég működésére jellemző. Általában egy nagyon erős vízióval és hosszú távú tervekkel rendelkező, szuggesztív vezető keze van a dologban, aki meg tudja győzni a környezetét, hogy emelkedjenek felül az adatok szintjén, ne reflektáljanak a jelen állapotokra, hanem töretlenül haladjanak a kitűzött cél felé. Mert az adatok pont nem fogják támogatni azt, hogy eljussanak oda, ahova akarnak.

Szeretek bepillantást nyerni egy ilyen már-már misztikus működési módba. És nagyon nehéz tettenérni is őket. Már csak azért is, mert sokan úgy gondolják, hogy ez az állapot könnyen elérhető úgy is, hogy sosem nézett rá az adataira. Ez a vakrepülés nem egyezik az erős vízió követésével. A megérzéseinkre, a szakmai tapasztalatainkra való hallgatás nem egyezik azzal a tudatossággal, hogy szilárdan tudom - adott esetben látom is - hogy az adatok éppen nem azt a trendet rajzolják ki, ami alátámasztaná a gondolatmenetem. Az adatokat nem nézni, nem egyezik meg azzal, hogy az adatokat nem látom.

Olyan ez kicsit, mint mikor valaki először lázad a szabályok ellen, majd követi azokat, végül felülemelkedik azokon, túllép azok betű szerinti követésén. A nehézség az, hogy nagyon csalóka a középső állapotból a visszaesés, könnyen összetéveszthető a felülemelkedéssel. 

torta_Banyasz2.jpg

Mi a mai nappal tizenkettedik éve visszük az Adatbányászat Blogot, több mint tizenkettedik éve gondoljuk, hogy az adatokban rejlő erő olyan hatalom, amivel pozitívan lehet növelni a cégek, a szervezetek vagy az egyén lehetőségeit. Tizenkét év alatt minden megváltozott körülöttünk, és megváltozott a Dmlab-ban is. A tizenkét év alatt lecserélődött a szakmánk neve is, az Adatbányászat Blog kifejezést tekintsük "patinánsnak".

De tizenkét év alatt nem változott, hogy azoknak akarunk segíteni, akik előre akarnak haladni az adaton innen. Vagy azoknak, akik az adatokon túl akarnak jutni - mert az adatok erejében az is nagyon hisz, aki le akarja azokat tagadni vagy túl akar azokon lépni.

Boldog szülinapot, Adatbányászat Blog!

Két "csemegével" kedveskedünk nektek a régi írások közül:

  • Érdemes megnézni az első bejegyzést 12 évvel ezelőttről:  Akiket le kell nyilazni...
  • A blog négy éves szülinapján, 2011-ben írtunk egy áttekintő cikket a blogról, illetve hogy hol tartunk. Big data kulcsszó felemelkedése, Radoop indítása, és még sok más dolgok arról, hogy nézett ki 8 éve az adatos szakma. Érdekes, hogy 8 év távlatából is már mennyire történelem mindaz, amit akkor fontosnak lehetett látni a hazai adatelemzős szakmából. - Négy éves születésnap

Szólj hozzá!

2019.09.02. 11:16 Gáspár Csaba

Ingyenes data science képzés a Dmlab szakemberei előadásában

Idén ősszel is meghirdetjük a BME-n oktatott tárgyunkat külsős jelentkezők számára. Ennek megfelelően az egyetemi félév során, azaz a szeptember 9-ei héttel kezdődően, 14 héten keresztül, heti kétszer két órában lehetőséged nyílik betekintést nyerni a big data és a data science világába.

Az óra népszerűsége miatt a férőhelyek száma korlátozott, ennek oka elsősorban az egyetemi terem befogadóképessége, valamint azon alapelvünk, miszerint a külsős hallgatók száma nem haladhatja meg az egyetemi hallgatókét.

 2_data_science_a_muegyetemen.jpg

 

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Tárgy hivatalos tematikája

A középpontban az iteratív módon fejlesztett adatfeldolgozó eljárások vannak, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben.

A tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően időrendi sorrendben történik és először a hírlevél feliratkozói kapnak erre lehetőséget. Szeptember 3-án fogunk eredményt hirdetni és 10-én kedden már indulunk is. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon.

 

(UPDATE: A jelentkezést már lezártuk! - 2019.09.04.12h)

Ha nem sikerült most bekerülnöd az órára, akkor iratkozz fel a hírlevelünkre ezen a linken, így a következő félév előtt hamarabb fogsz értesülni az aktuális képzésünk jelentkezéséről.

Év elején Nagy-Rácz István kollégám összeszedte egy blogposztban milyen adatos képzések érhetők el jelenleg Budapesten. Ha nem jutottál be a fenti képzésre, vagy neked kicsit másra lenne szükséged, itt találsz ötleteket.

Data science képzések - Hol tanítják a big data-t?

Mi a  dmlabbal a legtöbbet úgy oktatunk, hogy egy-egy konkrét csapatnak, cégnek tartunk egyedi képzést, ahol a Megrendelő igényeire szabjuk a tematikát, a használt technológiát, a képzés időpontját és hosszát. Ha ilyen képzési csomag után érdeklődsz, bátran keress meg engem, szívesen átbeszéljük veled mi lenne megfelelő opció:

Gáspár Csaba
gaspar.csaba@dmlab.hu
+36208234154

Szólj hozzá!

2019.07.15. 13:30 István NagyRácz

CRISP-DM módszertan - Mi az és hogyan használd?

 crisp_dm_modszertan.jpg

A CRISP-DM módszertan az egyik leggyakrabban használt módszertan, ami iránytűként szolgál abban, hogyan lehet egy üzletileg sikeres adatelemzési projektet véghezvinni. Ez a cikk a módszertan alapját mutatja be egy valós projekten keresztül.  

Szólj hozzá!

2019.06.13. 10:09 trapphenci

Hol tart ma az AI felhasználhatósága a BIG DATA elemzésben?

Címkék: gépi tanulás bigdata AI deep learning machine learning

hol_tart_ma_a_ai_felhasznalhato_saga_a_big_data_elemzesben.jpg

A Big Data az a nyers input, amelyet meg kell tisztítani, strukturálni és integrálni, mielőtt hasznosítanánk, míg a mesterséges intelligencia a feldolgozott adatokból származó eredmény, intelligencia. A két dolog természetében különbözik.

A Big Data és az AI ma a két legnépszerűbb és leghasznosabb technológia. A mesterséges intelligencia több mint egy évtizede létezik, míg a Big Data csak néhány évvel ezelőtt jött létre. A számítógépek segítségével több millió rekordot és adatot tárolhatunk, de a BIG DATA erejét adatok elemzése biztosítja. 

 

Az adat hajtja az AI-t

 

Azt mondhatjuk, hogy a Big Data és az AI együttesen két csodálatos, modern technológiát tartalmaz, amelyek lehetővé teszik a gépi tanulást, folyamatosan megismétlik és frissítik az adatbankokat, és ugyanezt segítik az emberi beavatkozás és rekurzív kísérletek segítségével. Az MI modellek gyakorta merítenek inspirációt a biológiai tanulás modelljeiből, fontos tulajdonságuk az adatokban rejlő mintázatok önálló felismerése, egyfajta „tapasztalati tanulás”.

A MI három esetben tud optimálisan működni, ha van valamilyen adat, melyek nem teljesen specifikusak a problémánkra nézve - például képek az internetről, rengeteg kép, rengeteg témában - ez elég ahhoz, hogy elég erős általános modelleket építsünk fel. Itt kifejezetten szükséges, hogy erős analógia álljon fenn az általános modell és a saját alkalmazási területünk között. A másik eset, amikor nincsenek jelen nagy tömegben általános adatok, ilyenkor meg kell mutatni a gépi rendszernek az adott folyamatokból származó adatokat, ez a specifikus machine learning; a harmadik eset, amikor valaki, aki a modelleket szolgáltatja (például egy népszerű, „cloudon keresztül” elérhető szolgáltatás) kiválóan ismeri az adott területet, nem kell tréningezni, csak testre szabni a folyamatokat, hiszen minél több az adat annál könnyebben tanul a deep learning rendszer.

 

Mesterséges intelligenciát a kisvállalatoknak is!

 

Nem csak a nagyvállalatoknak jelent növekedési potenciált a MI, hiszen a legkisebb cégben is méretes adatmennyiség halmozódik fel, a bevételekről, a kiadásokról, kommunikációról, annak tartalmáról, a kapcsolati hálózatokról, az alkalmazotti rutinról, a gyártás folyamatáról, a raktározásról, a vásárlásokról. Ebből a feltáratlan adatbányából építkezhet és tanulhat a MI.


Három alapvető dologra van szüksége a vállalatvezetőknek, döntéshozóknak, hogy a MI-ban rejlő lehetőségeket, alkalmazási területeket, alternatívákat megismerjék és integrálhassák: az üzleti probléma meghatározására KPI-szinten, például 3%-os üzemanyag költség csökkentés, mert ezzel egy data scientist tud mit kezdeni; adatra, mert ezek a rendszerek adat nélkül nem működnek és modellre, ami kimondja, hogy mire van szükség.

HÁROM ALAPVETŐ DOLOGRA VAN SZÜKSÉG A MI-HOZ: KPI SZINTEN MEGHATÁROZOTT ÜZLETI PROBLÉMÁRA, RENGETEG ADATRA ÉS EGY MODELLRE.

A vállalatok, KKV-k, cégek az adatvagyon menedzsmenttel tudják hatékonyan elkezdeni a MI-beépítését a cégükbe. Fel kell tárni, hogy hol termelődnek adatok a cégen belül, ezt kell összegyűjteni, feldolgozni és felhasználni.

 

Honnan gyűjtsünk adatot?

 

Az ipar 4.0 alapját mind olcsóbb és gyakoribb szenzorok hálózata, a mesterséges
intelligencia és az azon alapuló gépi tanulás alkotja és mindezt az adatok hajtják meg,
amikből a neurális hálózaton betanulja a gép, hogy mi az optimális, hatékony.

A legtöbben használnak olyan eszközt (pl. közösségi oldal, chatbot, spotify, netflix), aminek működése mögött már ott a mesterséges intelligencia, a gyárakban pedig a megrendelés
előrejelzésétől kezdve a prediktív karbantartásig megjelenik. Akik pedig nem fektetnek ezekbe az új technológiába, lemaradnak a globális versenyben, sőt eltűnnek, mint a
lámpagyújtogató az áram bevezetése után.

Két irányba lehet elindulni, ha adatgyűjtésről van szó: ami már elérhető adat, tudjuk, hogy van, azokat csoportosítani kell, de általában sokkal több adat létezik, mint amennyit ismernek vagy, amit ésszerűen ki lehet használni. Másik lehetőség, hogy minden létező adatot gyűjteni kezdenek. Nagyon fontos, hogy az adatkereslet és az adatkínálat összeérjen, meg kell tanítani a vállalatvezetőket, döntéshozókat arra, hogy lehet ezeket az adatokat használni, meg kell mutatni, hogy milyen lehetőségek vannak az adatelemzésben.

 

Adatok profitra váltása

 

Neuronhálózati mintákon alapuló mesterséges intelligencia használatának egyik fontos területe a prediktív analízis, ami során kizárólag historikus adatokra támaszkodva, mintázatok elemzéséből von le szabályszerűségeket.

Ma már minden iparágban gyűjtik az adatokat a gyártást érintő folyamatok során legyen szó termelésről, beszerzésről, megrendelésekről, értékesítésről vagy ügyfélszolgálatról. Ezek az adatok táplálják a gépi tanulást, a mesterséges intelligencia technológiájával felvértezett rendszereket. Adatok nélkül ezek nem tudnának tanulni, fejlődni, sőt létrejönni sem. Az adatok üzleti döntéseket támogatnak, a stratégia kialakításától a napi működésig.

EL KELL TERJESZTENI AZ ADATOS GONDOLKODÁST!


“A Dmlab, amellett, hogy segítjük a vállalatokat abban, hogy eljussanak az adatalapú döntéshozatalig, zászlónkra  tűztük, hogy megtanítjuk az érdekelteket, hogy mire és hogyan használhatók az adatok. Olyan vállalati programokat nyújtunk, amiben a vállalat munkatársaival közösen építjük meg egy adatos projekt prototípusát, és így a cégek munkavállalói valós problémákra keresnek megoldást a vállalat saját adatvagyonában és így tanulhatják meg a szükséges data science, gépi tanulás, AI vagy big data ismereteket, amelyeket a képzést követően egyből tudnak a napi munkájukban kamatoztatni.” - foglalja össze Nagy-Rácz István, a Dmlab vezetője azon célkitűzésünk lényegét, ami a tudásátadásban rejlik.

 

A leíró adatoktól a gépi tanuláson át a bevétel növekedésig

 

Az adatok döntéshozatalhoz, előrejelzésekhez való felhasználásáig eljutni bonyolult folyamat, amihez sokrétű tudásra van szükség, és az üzlet adatait ismerő és értő csapatra. Egy átlagos magyar szervezet ott tart, hogy standard leíró riportokat és kérdések esetén adhoc riportokat használ, esetleg már vannak statisztikai elemzések, beállított figyelmeztetések. A következő szint, hogy online platformon elérhető real time riportokat lássunk.

Ezek alapján készülhetnek aztán előrejelzések, amik segítenek a jövőbe látni. Az adatvezérelt vállalatoknál pedig nem csak pontos előrejelzések működnek, hanem a teljes szolgáltatást működését is algoritmusok optimalizálják. A mérési pontok meghatározása és kialakítása az alappillére, ami után a vállalati data scientistek olyan kimutatásokat, előrejelzéseket készítenek, amik mentén adatokra támaszkodó döntéseket lehet hozni,
optimalizálni vagy épp automatizálni lehet a folyamatokat, ahol már jelen van a gépi tanulás.

“Ahhoz, hogy egy szervezet adatvezéreltté válhasson, olyan kollegákra van szükség, akik értik és használják az adatokat, bíznak bennük. A legtöbb esetben úgy dolgozunk, hogy miután felmértük, hogy az elemzés melyik szintjén áll egy szervezet, közösen építünk egy prototípust a következőszinthez. Utána éles teszttel bizonyítjuk, hogy egy jó adatelemzési módszerrel elérhetőaz üzleti előrelépés, és csak ezután lépünk tovább. Ez egy evolúciós folyamat, ahol végig kell járni a lépcsőket függetlenül attól, hogy a kihívás a folyamatokban, a pénzügyekben, az értékesítésben vagy az emberi erőforrásokban van.” - jelzi Nagy-Rácz, hogy a gépi tanulásos módszerek milyen széles spektrumon használhatók egy szervezeten belül.

 

Gépi tanulás és mély neurális hálózatok

 

A machine learning egy alkalmazott statisztikai modellezés tág területe, mely során van egy ipari vagy üzleti probléma, rendelkezésünkre áll valamennyi adat, amelyeket – kis túlzással élve – „rádobálunk a gépre, és kérjük a megoldást”. Tehát nem adunk meg szabályszerűségeket, a géptől várjuk, hogy az összes rendelkezésre álló adatból kihozza a megfejtést. A gépi tanulás területén belül az elmúlt évek egyik legígéretesebb technológiája a fent említett mélytanulás- (deep learning) alapú modellalkotás. A deep learning úgy különbözteti meg nagy biztonsággal a kutyát a macskától (vagy önvezető autó esetén a járdát az úttesttől), hogy közben nem magyarázza el a rendszernek senki, hogy mit jelent a kutya és a macska. A deep learning nem utánozza az embert, nem tudása van, hanem tudáselsajátítási képessége.

A deep learning az idegrendszer által inspirált gépi tanuló modell. Egy mély neurális hálózat, akár több száz rétegben keresi a mélyebb összefüggéseket az adatokban az automatizált döntéshozatalhoz. Sokkal többről szól, mint egyszerű adatbányászat, megtalálja az adatok mély összefüggéseit, esetenként címkézetlen, nyers adatokkal is tud dolgozni, és nagy dimenziószámmal is könnyen elbánik. A neurális hálózatok és a deep learning rengeteg eddig nehéznek minősülő problémára képes megoldást adni. A megfigyelések alapján történő modellezés leghatékonyabb eszközévé vált ez a terület. A neuronhálók mély rétegei képesek a folyamatok összefüggéseinek kinyerésére, az események osztályozására, sőt, predikcióra is.

 

Szólj hozzá!

2019.05.02. 11:28 trapphenci

Adattárház - egy új hely az üzleti életben

adattarhaz.jpg

Képzeld el, hogy egy látszólag megoldhatatlan matematikai probléma előtt ülsz, amit rendkívül fontos lenne megoldani! Kapsz egy dobozt, aminek a tartalma segít neked a megoldásban, de amikor kinyitod úgy látod, hogy semmi értelme annak, amit találsz benne: 572 kígyó, egy marék dió, néhány hurkapálcika és egy csomó dühös nyúl. Van még pár millió további doboz, mindegyik hasonlóan zavaros tartalommal, amik elvileg mind segítenek neked, hogy ezt a gigantikus problémát megold..

Még a leginteligensebbek is elvesznek, ha ilyen helyzetbe kerülnek. Miért? Mert annak ellenére, hogy a probléma a saját szakterületükön helyezkedik el (mindannyian értünk a matekhoz), a probléma megoldására szolgáló eszközök olyan formátumban vannak, hogy nem tudjuk azokat értelmezni. Ugyanez a kihívás folyamatosan jelentkezik az üzleti világban, amikor a vállalatok folyamatosan értelmezni próbálják az eltérő adatokat.  

A MIT (Massachusetts Institute of Technology) kutatásai szerint az adatok mindössze 0,5%-át elemezték már és használják az üzleti világban, ami megdöbbentően alacsony szám. A CFO-k számtalan kihívással szembesülnek (pl: kampányelemzés, nyereség előrejelzés, termelés tervezés), amelyek megoldása úgy tűnik, hogy mindig visszavezetnek a üzleti- és ügyféladatokhoz. Ezek az adatok azonban szétszórva, különböző platformokon, az üzleti- és még az informatikai csapat számára is nehezen megérthető módon állnak rendelkezésre és elég nehéz eldönteni a puszta adatok alapján, hogy milyen beavatkozásokra van lehetőség.

A probléma megoldása érdekében a vállalatoknak az adatokat rendszerezni kell, szervezett és hozzáférhető formában kell tárolni azokat. Bár számos módja lehet az adatok szervezettségének kialakítására, van egy eszköz, ami különösen leegyszerűsíti az adatok elemzését, ez az adattárház.

Sokféleképpen definiálják az adattárházat, amit legegyszerűbben egy döntéstámogató adatbázisként lehet meghatározni, olyan témaspecifikus, integrált, időfüggő és fizikailag is tárolt adatgyűjtemény, amely a menedzsment döntéshozó folyamataihoz szükséges.

Az adattárházakban az aggregációk (az egymástól különálló elemek összegyűjtése) olyan big data-elemzéseket tesznek lehetővé, amelyekre korábban nem volt lehetőség. Az aggregációk nagymértékben csökkenthetik a nagyméretű adatkészletek döntéshozáshoz szükséges feloldásának költségeit.

Egy adattárház olyan, mint a beérkezett üzenetek: az információ folyamatosan folyik belőle, amelyek közül néhány hasznos egy adott projekthez, amelyen dolgozol, néhány nem. Mivel minden e-mail egy helyre érkezik, sok szakember készít egy almappát, amelyek szűrik a projekthez kapcsolódó e-maileket. Ez a mappa megfelel az adattárháznak ebben a végtelenül leegyszerűsített forgatókönyvben, amelynek célja, hogy olyan információkat tároljon és rendszerezzen, amelyek az üzleti kihívásra vonatkoznak. A legalapvetőbb formában az adattárház egy olyan adattár, ahol a vállalat az üzleti igényeknek megfelelően tárolhatja és rendezheti az adott célra kialakított adatokat. 

Az egyik legfontosabb iparág, amely ezt a tárolót használja, a kiskereskedelem, ahol a marketing részlegek a kampányokban gyakran küzdenek a ROI meghatározásával, a célzással és a méréssel. Ennek leküzdése érdekében számos vállalat adattárházat használ az üzleti kampányok kezelésére szolgáló adatszervező eszközként. Az adattárház információkat tárol az ügyfelekről, tranzakciókról, termékekről, üzletekről, helyszínekről és még sok minden másról - ezután komplex jelentéseket ad, például a piaci részesedésről, az ügyfélszegmentációról és a folyamatban lévő kampány utáni elemzést készít. Ezek a képességek integrálhatók olyan vizualizációs eszközökkel, mint például a Tableau vagy a Power BI.

1 komment

2019.04.18. 10:20 BKitti

Hogy tehetjük adatok alapján jobb hellyé a világot? - Például a kaggle aktuális versenyeivel

 kaggle_3.jpgAki adatokkal foglalkozik, az biztosan találkozott már a Kaggle versenyeivel, és az ott szabadon felhasználható adatkörökkel. Ha szeretnél te is gyakorolni, és próbálkozni úgy, hogy közben valami társadalmilag is hasznosat hozol létre, megmutatjuk, hogy minek érdemes nekivágni. 

Aktuális versenyek: 

1. Örökbefogadás előrejelzés - mennyire cuki az a kutya? 

Még nyitva van az a verseny, ahol a PetFinder.my bocsájtotta adatbányászok rendelkezésére az örökbefogadási adatait, amiket 2008 óta gyűjt, és több, mint 150 ezer kutya adatait tartalmazza. 

A cél, hogy olyan algoritmus szülessen, ami előrejelzi, hogy egy adott kép és annak a metaadatai alapján mennyire találják cukinak az adott kutyákat a potenciális örökbefogadók. A cél, hogy mesterséges intelligenciával egy képelemző algoritmus szülessen, ami megjósolja, hogy mennyi ideig fog tartani az adott kutyát örökbeadni. 

A legpontosabb predikciót készítő felhasználó 25 ezer dollár díjazásban részesülhet, és akár munkát is kaphat ebben a mesterséges intelligencia projektben. 

2. CarreerVillage.org - kinek kellene feltenni a karrierrel kapcsolatos kérdéseket? 

A CareerVillage 5 év szöveges adatait tette elérhetővé a Kaggle felhasználói számára, hogy előrejelezzék, hogy milyen típusú karrier kérdéssel melyik önkénteshez érdemes fordulni. A platformon 3,5 millió diák van regisztrálva, akiknek 25 ezer önkéntes segít. Vagyis minden egyes önkéntesre 500 diák jut. A Google és a CareerVillage versenyének célja, hogy egy algoritmus segítségével megjósolja, hogy milyen kérdéssel melyik önkénteshez érdemes fordulni. A verseny díjazása 15 ezer dollár. 

3. Földrengés előrejelzés - mikor jön, milyen erős lesz és mekkora területet érint? 

Ebben a versenyben valósidejű szeizmikus adatokat bocsájt rendelkezésre a  Los Alamos National Laboratory, amik alapján azt kell előrejelzni, hogy mennyi idő van a következő földrengésig. Minél pontosabb az előrejelzés, annál hatékonyabban lehet megelőzni az anyagi és emberi veszteségeket. A verseny győztese 50 ezer dollárt vihet haza. 

Lezárt versenyek - ezekkel is érdemes kísérletezni, ha úgy érzed, hogy tét nélkül könnyebb, ráadásul a saját megoldásod össze is tudod hasonlítani a legjobbal. 

1. Mérgező kommentek - ki nehezíti meg az online diskurzust?

Az internetes fenyegetések és zaklatások azt eredményezik, hogy sok ember felhagy a véleményének megosztásával, és a sajátjától eltérő vélemények olvasásával. A legtöbb platformnak kihívást jelent, hogy hatékonyabbá tegye a diskurzust, és sok platformon korlátozzák, vagy megszüntetik a kommentelési lehetőséget. 

A Conversation AI csapata olyan eszközöket fejleszt, amik javíthatják az online beszélgetések minőségét. A kutatás egy része kifejezetten a negatív kommentekre fókuszál. Ebben a versenyben az a feladat, hogy olyan modellt építs, ami képes kategorizálni a negatív kommenteket, hiszen van olyan platform, amely csak a káromkodást akarja szűrni, míg a másiknak kifejezett célja a fenyegető, gyűlölködő kommentek szűrése. A versenyhez kapcsolódó adatkör a Wikipedia talks kommentjeit tartalmazza. 

2. Emberi behatások az Amazon vidékén űrfelvételek alapján  - hol, hogyan és miért irtjuk az esőerdőt? 

Az emberiség minden egyes percben pusztítja a föld tüdejének is nevezett Amazon menti esőerdőket. Ennek köszönhetően csökken a biodiverzitás, élőhelyek szűnnek meg, és változik az éghajlat is. Pontosabb adatok alapján támogathatjuk a döntéshozókat és a kormányokat abban, hogy gyorsabban és hatékonyabban lépjenek fel akár a kismértékű erdőirtások ellen. A Planet tervezte és építette azokat a képalkotó műhold kombinációkat, amik hamarosan naponta gyűjtenek képeket a teljes földterületről, 3-5 méteres felbontásban. Ebben a versenyben a felhasználók ezeket a képeket elemzik annak érdekében, hogy meg tudják különböztetni az ember által okozott erdőfelület csökkenést a természetestől. 

 

Szólj hozzá!

2019.04.12. 13:45 trapphenci

LOGISZTIKA

Címkék: előadás logisztika üzleti reggeli bigdata

big_data_az_intralogisztika_ban.png

Az elmúlt években számos iparágban kutattunk adatokat, találtunk olyan összefüggéseket, amiket érdemes megosztani adott iparág szereplőivel, ilyen a logisztika, és az adatok helye a logisztikában is. Több ehhez kapcsolódó projekt után nagyon sok tapasztalat gyűlt össze, amit szívesen megosztunk.

Szólj hozzá!

2019.04.04. 15:43 BKitti

Hol buknak el a big data projektek?

big_data_fail.jpg

Nem az adattisztításon. Nem a technológiai akadályokon. Nem a finanszírozás hiánya miatt, és nem is azért, mert az adatkörökben nem található válasz az üzleti problémákra. A legtöbb big data projekt buktatója az emberi tényező. 

11 éve dolgozunk az adatiparban. 11 év alatt több 100 projektet terveztünk meg, készítettünk el, és implementáltunk. Ebben a 11 évben jó néhány projektet láttunk elbukni.

A Gartner felmérése szerint az adatprojektek 60%-a elbukik, ugyanis ahhoz, hogy sikerre vigyük, nem elég kiválasztani a megfelelő eszközöket, és technológiákat, arra is szükség van, hogy a vállalati kultúrában, és gondolkodásmódban is változások történjenek, és kreatívan keressük a siker felé vezető utakat. 

Szólj hozzá!

2019.03.29. 12:07 Szalóki Kristóf

Reinforce AI konferencia

Címkék: előadás konferencia dmlab AI machine learning tensorflow reinforce pytorch

Ott voltunk a Reinforce-on, Magyarország első AI konferenciáján. Ez volt az első nagyobb esemény itthon, ami a mesterséges intelligenciát helyezte középpontba, de szervezésben és előadói felhozatalban is felért az olyan híres magyar konferenciák mellé mint a Craft vagy a Crunch. A konferenciára olyan cégektől érkeztek előadók mint a Google, IBM, OpenAI, Uber, Twitter, RapidMiner...stb. A  konferencia két napja alatt a gépi tanulás, illetve azon belül még számos változatos téma technológiai részleteiről halhatott előadást a több, mint 500 résztvevő. Íme az a három, amik a legfontosabbak, ha az aktuális legjobb technológiákhoz kapcsolódó hands-on tudást szeretnél kapni.

 

reinforce_day1_292_gb.jpg

credit to: JSSC

Szólj hozzá!