Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) AI (3) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) bi (13) BI (5) Bi (1) bi-trek (1) biconsulting (7) bigdata (29) big data (12) Big Data (3) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (3) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (3) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) covid19 (2) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) dashboard (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (6) dataskool (1) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (17) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (4) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (25) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (4) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) power bi (2) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (41) RapidMiner (2) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (7) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (7) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2020.05.08. 18:45 Gáspár Csaba

Törzsközönségünknek

Április vége óta a dmlab.hu/blog oldalon visszük tovább a blogunkat. Hogy mégis ezt a posztot olvasod, az azt jelenti, hogy te rendszeresen benézel hozzánk ide az Adatbányászat Blogra, amiért nagyon hálásak vagyunk. Az oldal statisztikáiból látjuk, hogy nem vagytok kevesen, akik időről időre ellátogattok hozzánk. Most kifejezetten hozzátok fordulok.

egy_korszak_ve_ge_2.png

Kérlek írjatok nekünk néhány gondolatot, ami a blogunkhoz, vagy az azon megfogalmazott gondolatokhoz köthető. Segítettünk-e valamivel, vagy pont összekavartunk egy-egy új bejegyzéssel. Szívesen fogadunk bárminemű rövid, vagy hosszabb gondolatot, történetet, amit szívesen eljuttatnál hozzánk (akár anonim módon is). Az összegyűjtött gondolatokból az új helyen, a dmlab blogon meg szeretnénk majd osztani néhányat. Bízom benne, hogy ez is segít majd átszokni az új címre, és továbbra is a törzsközönségünk tagjaként gondolhatunk rátok.

Írd meg nekünk az üzeneted!

Üzenetküldő űrlap

1 komment

2020.04.23. 10:00 István NagyRácz

Egy korszak vége

 

13. 307. 4564. 228 024.

4564 nap alatt 13 szerzőtársammal együtt 307 blogbejegyzést írtunk neked, kedves Olvasó az Adatbányászat Blogon. Ezt 228 024 oldalletöltéssel háláltátok meg. Köszönjük ezúttal is.

Egyszer azonban mindennek vége szakad... Az Adatbányászat Blog bezárja kapuit.

egy_korszak_ve_ge_2.png

Ahogy a mondás tartja, ha egy ajtó bezárul, valahol egy másik kinyílik. Nincs ez most másként sem. Nem búcsúzni jöttünk. Hanem, hogy bejelentsük, hogy elindult csapatunk új weboldala. Mostantól kezdve régi és új blogbejegyzéseinket is itt találod meg. 

Reméljük, hogy a jövőben is velünk tartasz és tovább követsz minket. Találkozzunk az ajtón túl.

 

Szólj hozzá!

2020.04.17. 16:57 István NagyRácz

Data Science képzések - 2020

Ebben a bejegyzésben összegyűjtöttük a Budapestről elérhető data science és big data témájú képzéseket, és a velük kapcsolatos legfontosabb tudnivalókat. Ha adatokkal akarsz dolgozni, az első döntés amit meg kell hoznod, hogy technológiai oldalról érdekel a téma, vagy üzleti oldalról. Ha a technológia foglalkoztat leginkább, akkor fókuszálj a python-ra és az R-re elsősorban, hisz ezek az adatos munka alapvető eszközei manapság.

data_science_ke_pze_sek_2020_1.png

Szólj hozzá!

2020.04.15. 16:43 Gáspár Csaba

A data science kilátásai az új gazdasági helyzetben

Címkék: oktatás piac datascience dataskool

"Az adat az új olaj! ... Te, annak nem esett most az ára?"

Egy reakció "Az adat, mint tartalék erőforrás" című posztra

A gazdaság felbolydulásával majdnem mindenki körül változik az élet: mindenkinek nehezebb, mindenkinek más: van akinek azért, mert szűkült vagy eltűnt a piaca, vagy azért mert megnőttek a feladatai, megrohanták az ügyfelek. Mi folyamatosan próbáljuk felmérni, mely szektorok milyen módon reagálnak az új helyzetre - és hogyan fognak alkalmazkodni, amikor az egészségügy helyett a gazdaság kerül a fókuszpontba.

a_data_science_kila_ta_sai_az_u_j_gazdasa_gi_helyzetben_4.png

Szólj hozzá!

2020.04.13. 09:52 Gáspár Csaba

Az adat, mint tartalék erőforrás

"Az adat az új olaj." - "Az adat az új arany" - "Az adat az új pénz" - Sorolhatnám a hangzatosnál hangzatosabb mondatokat, melyek használatával én is néha fel igyekszem rázni az előadásaim közönségét. Pedig talán elég lenne annyit mondani, hogy az adat ugyanolyan erőforrás vagy ásványi kincs, mint amiről annak idején földrajzból a gazdasági világtérképek segítségével tanultunk. Egy olyan nyersanyag, amit nemrég fedeztünk fel jelentős mennyiségben, és amiből kimagasló értéket képviselő "termékeket" lehet gyártani.

az_adat_mint_tartale_k_ero_forra_s_2.jpg

Szólj hozzá!

2020.03.24. 18:24 Gáspár Csaba

COVID-19 - Kormányzati intézkedések hatásai az adatok tükrében

covid-19_korma_nyzati_inte_zkede_sek_hata_sai_az_adatok_tu_kre_ben_1111.jpg

Március 17-én tettünk közzé egy dashboard-ot a Waze adatai alapján arról, hogyan esett vissza Európa fővárosaiban az autóforgalom a januári adatokhoz képest. Néhány nappal később írtunk az adatokban fellelhető torzításokról és a Dmlab adatelemzési módszereiről, ahogy ezeket csökkenteni próbáltuk. A wazestats adataival dashboard-unkat azóta is naponta frissítjük.

Szólj hozzá!

2020.03.21. 15:51 Gáspár Csaba

Európa nagyvárosai a Waze statisztikák alapján

Címkék: budapest dashboard vizualizáció covid19 power bi

2_euro_pa_nagyva_rosai_a_waze_statisztika_k_alapja_n.png

Néhány napja hoztunk létre egy dashboard-ot a Waze adatai alapján arról, hogyan esett vissza Európa fővárosaiban az autóforgalom a januári adatokhoz képest (dashboard-ot bemutató blogcikk). Azóta mindennap érkeztek új adatok, melyek fényében külön izgalmas megvizsgálni, mit is mutatnak a statisztikák (itt külön kiemelnénk, hogy az adatok számtalan torzítást tartalmaznak, egyszerűen azért foglalkozunk velük, mert jelenleg nem áll rendelkezésre más összehasonlítási lehetőség ilyen elemzésekre).

Szólj hozzá!

2020.03.17. 19:00 Gáspár Csaba

Társadalmi izoláció egy data scientist szemével

Címkék: budapest vizualizáció dmlab covid19 power bi

4_ta_rsadalmi_izola_cio_egy_data_scientist_szeme_vel.png

Epidemiológusok szerint a társadalmi távolságtartás növelése hatékony módszer a COVID-19 vírus terjedésének lassítására a kiterjedtség jelen szakaszában. Az Európa szerte bevezetett intézkedések két cél között próbálnak egyensúlyozni: csökkentsük a lakosok találkozásainak számát, miközben a gazdaság védelme és az ellátórendszer fenntartása miatt valamilyen szintű mozgást meg akarunk még engedni. De honnan tudjuk, hogy az intézkedések hatására olyan szinten van a társadalmi izoláció, amit elvárunk? Hogyan lehet egy-egy intézkedés hatását mérni?

Szólj hozzá!

2020.02.07. 13:34 Szalóki Kristóf

Data konferenciák 2020

Javában zajlik a 2020. esztendő, máris elrepült egy hónap belőle. Mint minden évben, ez év januárjában is megfogadtuk, hogy márpedig idén hasznosan fogjuk tölteni a szabadidőnket, több időt fogunk fordítani önfejlesztésre. Mi 2020-ban is összegyűjtöttük azokat a hazai konferenciákat, amikre szerintünk érdemes ellátogatni azoknak, akik érdeklődnek a data science, a big data, a machine learning, vagy a business intelligence iránt.

data_konferencia_k_2020_bori_to_2.jpg

Szólj hozzá!

2020.01.29. 12:59 Gáspár Csaba

Ingyenes data science képzés a Dmlab szakembereinek előadásában - 2020

Az eddigi évekhez hasonlóan 2020-ban is elérhetővé tesszük külsősök számára a BME-n oktatott data science világába bevezető tárgyunkat. 

A korábbi években a műegyetemi óráink igen népszerűnek bizonyultak mind az egyetemi, mind a külsős hallgatóink körében, így idén is arra számítunk, sokan jelentkeztek majd. Két tényező is korlátozza mennyi külsős hallgatót tudunk fogadni a kurzuson: (1) a rendelkezésre álló egyetemi termek befogadóképessége, (2) illetve azon elvünk, miszerint a külsős hallgatók aránya nem haladhatja meg az egyetemista diákokét. Ennek megfelelően előzetes regisztrációt kérünk tőletek, ami kapcsán később értesítünk, hogy tudunk-e fogadni a tárgyon ténylegesen.

6_data_science_a_muegyetemen.png

Szólj hozzá!

2019.11.22. 15:00 Gáspár Csaba

Hetven éves a műegyetemi tanszékünk - TMIT70

Címkék: bme évforduló tmit 2019 dmlab

Idén ünnepli a Műegyetemi tanszékünk fennállásának 70. évfordulóját, éppen ezekben a percekben fogok előadni a Tanszék által szervezett ünnepi szemináriumon. Ebben a posztban a Dmlab történetéből ragadok ki néhány markáns aspektust, és mivel egy történet akkor változik, ha elmeséljük, úgy most is egy másfajta rálátásom lett arról, mi is történt velünk itt az elmúlt tizenöt évben.  tmit.jpg

Szólj hozzá!

2019.10.25. 17:50 Gáspár Csaba

Adatokon innen és túl

Ebben a blogposztban 2019 végén tekintünk vissza a blogunk 12 éves működésére. Talán ez a cikkünk kapcsolódik legjobban a dmlabról szóló Biznisz Boyz adáshoz. Amíg nem jelenik meg az adás, addig itt a blogon érdemes szétnézni, ha érdekel a dmlab jelene vagy jövője. Néhány kiemelt stori:

A legkülönbözőbb fórumokon képviseljük mekkora lehetőségeket rejt, ha az adatok gyűjtésével, majd feldolgozásával egy adatközpontú gondolkodás irányába mozduljunk el. De mindeddig nem beszéltünk arról, hogy az adatok középpontba helyezésén túl is létezik egy szint.

Pedig ahogy állíthatjuk, hogy valaki a működése területén még nem használja az adatait a döntéshozatalban, úgy annak is van tere, hogy valaki már nem használja azokat. Nagyon ritkán lehet találkozni valódi adaton túli megközelítéssel, és tipikusan nem az egész cég működésére jellemző. Általában egy nagyon erős vízióval és hosszú távú tervekkel rendelkező, szuggesztív vezető keze van a dologban, aki meg tudja győzni a környezetét, hogy emelkedjenek felül az adatok szintjén, ne reflektáljanak a jelen állapotokra, hanem töretlenül haladjanak a kitűzött cél felé. Mert az adatok pont nem fogják támogatni azt, hogy eljussanak oda, ahova akarnak.

Szeretek bepillantást nyerni egy ilyen már-már misztikus működési módba. És nagyon nehéz tettenérni is őket. Már csak azért is, mert sokan úgy gondolják, hogy ez az állapot könnyen elérhető úgy is, hogy sosem nézett rá az adataira. Ez a vakrepülés nem egyezik az erős vízió követésével. A megérzéseinkre, a szakmai tapasztalatainkra való hallgatás nem egyezik azzal a tudatossággal, hogy szilárdan tudom - adott esetben látom is - hogy az adatok éppen nem azt a trendet rajzolják ki, ami alátámasztaná a gondolatmenetem. Az adatokat nem nézni, nem egyezik meg azzal, hogy az adatokat nem látom.

Olyan ez kicsit, mint mikor valaki először lázad a szabályok ellen, majd követi azokat, végül felülemelkedik azokon, túllép azok betű szerinti követésén. A nehézség az, hogy nagyon csalóka a középső állapotból a visszaesés, könnyen összetéveszthető a felülemelkedéssel. 

torta_Banyasz2.jpg

Mi a mai nappal tizenkettedik éve visszük az Adatbányászat Blogot, több mint tizenkettedik éve gondoljuk, hogy az adatokban rejlő erő olyan hatalom, amivel pozitívan lehet növelni a cégek, a szervezetek vagy az egyén lehetőségeit. Tizenkét év alatt minden megváltozott körülöttünk, és megváltozott a Dmlab-ban is. A tizenkét év alatt lecserélődött a szakmánk neve is, az Adatbányászat Blog kifejezést tekintsük "patinánsnak".

De tizenkét év alatt nem változott, hogy azoknak akarunk segíteni, akik előre akarnak haladni az adaton innen. Vagy azoknak, akik az adatokon túl akarnak jutni - mert az adatok erejében az is nagyon hisz, aki le akarja azokat tagadni vagy túl akar azokon lépni.

Boldog szülinapot, Adatbányászat Blog!

Két "csemegével" kedveskedünk nektek a régi írások közül:

 

  • Érdemes megnézni az első bejegyzést 12 évvel ezelőttről:  Akiket le kell nyilazni...
  • A blog négy éves szülinapján, 2011-ben írtunk egy áttekintő cikket a blogról, illetve hogy hol tartunk. Big data kulcsszó felemelkedése, Radoop indítása, és még sok más dolgok arról, hogy nézett ki 8 éve az adatos szakma. Érdekes, hogy 8 év távlatából is már mennyire történelem mindaz, amit akkor fontosnak lehetett látni a hazai adatelemzős szakmából. - Négy éves születésnap

 

UPDATE: Ha mélyebben érdekelnek a dmlab mögött álló emberek, a cég története, vagy csak úgy általában a data science mint üzlet, érdemes meghallgatni a Biznisz Boyz Podcast 2020. február 21.-én megjelent adását, ahol a dmlab vezetői, Gáspár Csaba és Nagy-Rácz István volt a vendég.

screenshot_2020-04-18_at_15_29_36.png

Szólj hozzá!

2019.09.02. 11:16 Gáspár Csaba

Ingyenes data science képzés a Dmlab szakemberei előadásában

Idén ősszel is meghirdetjük a BME-n oktatott tárgyunkat külsős jelentkezők számára. Ennek megfelelően az egyetemi félév során, azaz a szeptember 9-ei héttel kezdődően, 14 héten keresztül, heti kétszer két órában lehetőséged nyílik betekintést nyerni a big data és a data science világába.

Az óra népszerűsége miatt a férőhelyek száma korlátozott, ennek oka elsősorban az egyetemi terem befogadóképessége, valamint azon alapelvünk, miszerint a külsős hallgatók száma nem haladhatja meg az egyetemi hallgatókét.

 2_data_science_a_muegyetemen.jpg

 

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Tárgy hivatalos tematikája

A középpontban az iteratív módon fejlesztett adatfeldolgozó eljárások vannak, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben.

A tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően időrendi sorrendben történik és először a hírlevél feliratkozói kapnak erre lehetőséget. Szeptember 3-án fogunk eredményt hirdetni és 10-én kedden már indulunk is. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon.

 

(UPDATE: A jelentkezést már lezártuk! - 2019.09.04.12h)

Ha nem sikerült most bekerülnöd az órára, akkor iratkozz fel a hírlevelünkre ezen a linken, így a következő félév előtt hamarabb fogsz értesülni az aktuális képzésünk jelentkezéséről.

Év elején Nagy-Rácz István kollégám összeszedte egy blogposztban milyen adatos képzések érhetők el jelenleg Budapesten. Ha nem jutottál be a fenti képzésre, vagy neked kicsit másra lenne szükséged, itt találsz ötleteket.

Data science képzések - Hol tanítják a big data-t?

Mi a  dmlabbal a legtöbbet úgy oktatunk, hogy egy-egy konkrét csapatnak, cégnek tartunk egyedi képzést, ahol a Megrendelő igényeire szabjuk a tematikát, a használt technológiát, a képzés időpontját és hosszát. Ha ilyen képzési csomag után érdeklődsz, bátran keress meg engem, szívesen átbeszéljük veled mi lenne megfelelő opció:

Gáspár Csaba
gaspar.csaba@dmlab.hu
+36208234154

Szólj hozzá!

2019.07.15. 13:30 István NagyRácz

CRISP-DM módszertan - Mi az és hogyan használd?

 crisp_dm_modszertan.jpg

A CRISP-DM módszertan az egyik leggyakrabban használt módszertan, ami iránytűként szolgál abban, hogyan lehet egy üzletileg sikeres adatelemzési projektet véghezvinni. Ez a cikk a módszertan alapját mutatja be egy valós projekten keresztül.  

Szólj hozzá!

2019.06.13. 10:09 trapphenci

Hol tart ma az AI felhasználhatósága a BIG DATA elemzésben?

Címkék: gépi tanulás bigdata AI deep learning machine learning

hol_tart_ma_a_ai_felhasznalhato_saga_a_big_data_elemzesben.jpg

A Big Data az a nyers input, amelyet meg kell tisztítani, strukturálni és integrálni, mielőtt hasznosítanánk, míg a mesterséges intelligencia a feldolgozott adatokból származó eredmény, intelligencia. A két dolog természetében különbözik.

A Big Data és az AI ma a két legnépszerűbb és leghasznosabb technológia. A mesterséges intelligencia több mint egy évtizede létezik, míg a Big Data csak néhány évvel ezelőtt jött létre. A számítógépek segítségével több millió rekordot és adatot tárolhatunk, de a BIG DATA erejét adatok elemzése biztosítja. 

 

Az adat hajtja az AI-t

 

Azt mondhatjuk, hogy a Big Data és az AI együttesen két csodálatos, modern technológiát tartalmaz, amelyek lehetővé teszik a gépi tanulást, folyamatosan megismétlik és frissítik az adatbankokat, és ugyanezt segítik az emberi beavatkozás és rekurzív kísérletek segítségével. Az MI modellek gyakorta merítenek inspirációt a biológiai tanulás modelljeiből, fontos tulajdonságuk az adatokban rejlő mintázatok önálló felismerése, egyfajta „tapasztalati tanulás”.

A MI három esetben tud optimálisan működni, ha van valamilyen adat, melyek nem teljesen specifikusak a problémánkra nézve - például képek az internetről, rengeteg kép, rengeteg témában - ez elég ahhoz, hogy elég erős általános modelleket építsünk fel. Itt kifejezetten szükséges, hogy erős analógia álljon fenn az általános modell és a saját alkalmazási területünk között. A másik eset, amikor nincsenek jelen nagy tömegben általános adatok, ilyenkor meg kell mutatni a gépi rendszernek az adott folyamatokból származó adatokat, ez a specifikus machine learning; a harmadik eset, amikor valaki, aki a modelleket szolgáltatja (például egy népszerű, „cloudon keresztül” elérhető szolgáltatás) kiválóan ismeri az adott területet, nem kell tréningezni, csak testre szabni a folyamatokat, hiszen minél több az adat annál könnyebben tanul a deep learning rendszer.

 

Mesterséges intelligenciát a kisvállalatoknak is!

 

Nem csak a nagyvállalatoknak jelent növekedési potenciált a MI, hiszen a legkisebb cégben is méretes adatmennyiség halmozódik fel, a bevételekről, a kiadásokról, kommunikációról, annak tartalmáról, a kapcsolati hálózatokról, az alkalmazotti rutinról, a gyártás folyamatáról, a raktározásról, a vásárlásokról. Ebből a feltáratlan adatbányából építkezhet és tanulhat a MI.


Három alapvető dologra van szüksége a vállalatvezetőknek, döntéshozóknak, hogy a MI-ban rejlő lehetőségeket, alkalmazási területeket, alternatívákat megismerjék és integrálhassák: az üzleti probléma meghatározására KPI-szinten, például 3%-os üzemanyag költség csökkentés, mert ezzel egy data scientist tud mit kezdeni; adatra, mert ezek a rendszerek adat nélkül nem működnek és modellre, ami kimondja, hogy mire van szükség.

HÁROM ALAPVETŐ DOLOGRA VAN SZÜKSÉG A MI-HOZ: KPI SZINTEN MEGHATÁROZOTT ÜZLETI PROBLÉMÁRA, RENGETEG ADATRA ÉS EGY MODELLRE.

A vállalatok, KKV-k, cégek az adatvagyon menedzsmenttel tudják hatékonyan elkezdeni a MI-beépítését a cégükbe. Fel kell tárni, hogy hol termelődnek adatok a cégen belül, ezt kell összegyűjteni, feldolgozni és felhasználni.

 

Honnan gyűjtsünk adatot?

 

Az ipar 4.0 alapját mind olcsóbb és gyakoribb szenzorok hálózata, a mesterséges
intelligencia és az azon alapuló gépi tanulás alkotja és mindezt az adatok hajtják meg,
amikből a neurális hálózaton betanulja a gép, hogy mi az optimális, hatékony.

A legtöbben használnak olyan eszközt (pl. közösségi oldal, chatbot, spotify, netflix), aminek működése mögött már ott a mesterséges intelligencia, a gyárakban pedig a megrendelés
előrejelzésétől kezdve a prediktív karbantartásig megjelenik. Akik pedig nem fektetnek ezekbe az új technológiába, lemaradnak a globális versenyben, sőt eltűnnek, mint a
lámpagyújtogató az áram bevezetése után.

Két irányba lehet elindulni, ha adatgyűjtésről van szó: ami már elérhető adat, tudjuk, hogy van, azokat csoportosítani kell, de általában sokkal több adat létezik, mint amennyit ismernek vagy, amit ésszerűen ki lehet használni. Másik lehetőség, hogy minden létező adatot gyűjteni kezdenek. Nagyon fontos, hogy az adatkereslet és az adatkínálat összeérjen, meg kell tanítani a vállalatvezetőket, döntéshozókat arra, hogy lehet ezeket az adatokat használni, meg kell mutatni, hogy milyen lehetőségek vannak az adatelemzésben.

 

Adatok profitra váltása

 

Neuronhálózati mintákon alapuló mesterséges intelligencia használatának egyik fontos területe a prediktív analízis, ami során kizárólag historikus adatokra támaszkodva, mintázatok elemzéséből von le szabályszerűségeket.

Ma már minden iparágban gyűjtik az adatokat a gyártást érintő folyamatok során legyen szó termelésről, beszerzésről, megrendelésekről, értékesítésről vagy ügyfélszolgálatról. Ezek az adatok táplálják a gépi tanulást, a mesterséges intelligencia technológiájával felvértezett rendszereket. Adatok nélkül ezek nem tudnának tanulni, fejlődni, sőt létrejönni sem. Az adatok üzleti döntéseket támogatnak, a stratégia kialakításától a napi működésig.

EL KELL TERJESZTENI AZ ADATOS GONDOLKODÁST!


“A Dmlab, amellett, hogy segítjük a vállalatokat abban, hogy eljussanak az adatalapú döntéshozatalig, zászlónkra  tűztük, hogy megtanítjuk az érdekelteket, hogy mire és hogyan használhatók az adatok. Olyan vállalati programokat nyújtunk, amiben a vállalat munkatársaival közösen építjük meg egy adatos projekt prototípusát, és így a cégek munkavállalói valós problémákra keresnek megoldást a vállalat saját adatvagyonában és így tanulhatják meg a szükséges data science, gépi tanulás, AI vagy big data ismereteket, amelyeket a képzést követően egyből tudnak a napi munkájukban kamatoztatni.” - foglalja össze Nagy-Rácz István, a Dmlab vezetője azon célkitűzésünk lényegét, ami a tudásátadásban rejlik.

 

A leíró adatoktól a gépi tanuláson át a bevétel növekedésig

 

Az adatok döntéshozatalhoz, előrejelzésekhez való felhasználásáig eljutni bonyolult folyamat, amihez sokrétű tudásra van szükség, és az üzlet adatait ismerő és értő csapatra. Egy átlagos magyar szervezet ott tart, hogy standard leíró riportokat és kérdések esetén adhoc riportokat használ, esetleg már vannak statisztikai elemzések, beállított figyelmeztetések. A következő szint, hogy online platformon elérhető real time riportokat lássunk.

Ezek alapján készülhetnek aztán előrejelzések, amik segítenek a jövőbe látni. Az adatvezérelt vállalatoknál pedig nem csak pontos előrejelzések működnek, hanem a teljes szolgáltatást működését is algoritmusok optimalizálják. A mérési pontok meghatározása és kialakítása az alappillére, ami után a vállalati data scientistek olyan kimutatásokat, előrejelzéseket készítenek, amik mentén adatokra támaszkodó döntéseket lehet hozni,
optimalizálni vagy épp automatizálni lehet a folyamatokat, ahol már jelen van a gépi tanulás.

“Ahhoz, hogy egy szervezet adatvezéreltté válhasson, olyan kollegákra van szükség, akik értik és használják az adatokat, bíznak bennük. A legtöbb esetben úgy dolgozunk, hogy miután felmértük, hogy az elemzés melyik szintjén áll egy szervezet, közösen építünk egy prototípust a következőszinthez. Utána éles teszttel bizonyítjuk, hogy egy jó adatelemzési módszerrel elérhetőaz üzleti előrelépés, és csak ezután lépünk tovább. Ez egy evolúciós folyamat, ahol végig kell járni a lépcsőket függetlenül attól, hogy a kihívás a folyamatokban, a pénzügyekben, az értékesítésben vagy az emberi erőforrásokban van.” - jelzi Nagy-Rácz, hogy a gépi tanulásos módszerek milyen széles spektrumon használhatók egy szervezeten belül.

 

Gépi tanulás és mély neurális hálózatok

 

A machine learning egy alkalmazott statisztikai modellezés tág területe, mely során van egy ipari vagy üzleti probléma, rendelkezésünkre áll valamennyi adat, amelyeket – kis túlzással élve – „rádobálunk a gépre, és kérjük a megoldást”. Tehát nem adunk meg szabályszerűségeket, a géptől várjuk, hogy az összes rendelkezésre álló adatból kihozza a megfejtést. A gépi tanulás területén belül az elmúlt évek egyik legígéretesebb technológiája a fent említett mélytanulás- (deep learning) alapú modellalkotás. A deep learning úgy különbözteti meg nagy biztonsággal a kutyát a macskától (vagy önvezető autó esetén a járdát az úttesttől), hogy közben nem magyarázza el a rendszernek senki, hogy mit jelent a kutya és a macska. A deep learning nem utánozza az embert, nem tudása van, hanem tudáselsajátítási képessége.

A deep learning az idegrendszer által inspirált gépi tanuló modell. Egy mély neurális hálózat, akár több száz rétegben keresi a mélyebb összefüggéseket az adatokban az automatizált döntéshozatalhoz. Sokkal többről szól, mint egyszerű adatbányászat, megtalálja az adatok mély összefüggéseit, esetenként címkézetlen, nyers adatokkal is tud dolgozni, és nagy dimenziószámmal is könnyen elbánik. A neurális hálózatok és a deep learning rengeteg eddig nehéznek minősülő problémára képes megoldást adni. A megfigyelések alapján történő modellezés leghatékonyabb eszközévé vált ez a terület. A neuronhálók mély rétegei képesek a folyamatok összefüggéseinek kinyerésére, az események osztályozására, sőt, predikcióra is.

 

Szólj hozzá!