Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) AI (3) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (5) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (29) Big Data (3) big data (12) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (3) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (5) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (16) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (4) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (24) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (41) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (7) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2019.11.22. 15:00 Gáspár Csaba

Hetven éves a műegyetemi tanszékünk - TMIT70

Címkék: bme évforduló tmit 2019 dmlab

Idén ünnepli a Műegyetemi tanszékünk fennállásának 70. évfordulóját, éppen ezekben a percekben fogok előadni a Tanszék által szervezett ünnepi szemináriumon. Ebben a posztban a Dmlab történetéből ragadok ki néhány markáns aspektust, és mivel egy történet akkor változik, ha elmeséljük, úgy most is egy másfajta rálátásom lett arról, mi is történt velünk itt az elmúlt tizenöt évben.  tmit.jpg

Szólj hozzá!

2019.10.25. 17:50 Gáspár Csaba

Adatokon innen és túl

A legkülönbözőbb fórumokon képviseljük mekkora lehetőségeket rejt, ha az adatok gyűjtésével, majd feldolgozásával egy adatközpontú gondolkodás irányába mozduljunk el. De mindeddig nem beszéltünk arról, hogy az adatok középpontba helyezésén túl is létezik egy szint.

Pedig ahogy állíthatjuk, hogy valaki a működése területén még nem használja az adatait a döntéshozatalban, úgy annak is van tere, hogy valaki már nem használja azokat. Nagyon ritkán lehet találkozni valódi adaton túli megközelítéssel, és tipikusan nem az egész cég működésére jellemző. Általában egy nagyon erős vízióval és hosszú távú tervekkel rendelkező, szuggesztív vezető keze van a dologban, aki meg tudja győzni a környezetét, hogy emelkedjenek felül az adatok szintjén, ne reflektáljanak a jelen állapotokra, hanem töretlenül haladjanak a kitűzött cél felé. Mert az adatok pont nem fogják támogatni azt, hogy eljussanak oda, ahova akarnak.

Szeretek bepillantást nyerni egy ilyen már-már misztikus működési módba. És nagyon nehéz tettenérni is őket. Már csak azért is, mert sokan úgy gondolják, hogy ez az állapot könnyen elérhető úgy is, hogy sosem nézett rá az adataira. Ez a vakrepülés nem egyezik az erős vízió követésével. A megérzéseinkre, a szakmai tapasztalatainkra való hallgatás nem egyezik azzal a tudatossággal, hogy szilárdan tudom - adott esetben látom is - hogy az adatok éppen nem azt a trendet rajzolják ki, ami alátámasztaná a gondolatmenetem. Az adatokat nem nézni, nem egyezik meg azzal, hogy az adatokat nem látom.

Olyan ez kicsit, mint mikor valaki először lázad a szabályok ellen, majd követi azokat, végül felülemelkedik azokon, túllép azok betű szerinti követésén. A nehézség az, hogy nagyon csalóka a középső állapotból a visszaesés, könnyen összetéveszthető a felülemelkedéssel. 

torta_Banyasz2.jpg

Mi a mai nappal tizenkettedik éve visszük az Adatbányászat Blogot, több mint tizenkettedik éve gondoljuk, hogy az adatokban rejlő erő olyan hatalom, amivel pozitívan lehet növelni a cégek, a szervezetek vagy az egyén lehetőségeit. Tizenkét év alatt minden megváltozott körülöttünk, és megváltozott a Dmlab-ban is. A tizenkét év alatt lecserélődött a szakmánk neve is, az Adatbányászat Blog kifejezést tekintsük "patinánsnak".

De tizenkét év alatt nem változott, hogy azoknak akarunk segíteni, akik előre akarnak haladni az adaton innen. Vagy azoknak, akik az adatokon túl akarnak jutni - mert az adatok erejében az is nagyon hisz, aki le akarja azokat tagadni vagy túl akar azokon lépni.

Boldog szülinapot, Adatbányászat Blog!

Két "csemegével" kedveskedünk nektek a régi írások közül:

  • Érdemes megnézni az első bejegyzést 12 évvel ezelőttről:  Akiket le kell nyilazni...
  • A blog négy éves szülinapján, 2011-ben írtunk egy áttekintő cikket a blogról, illetve hogy hol tartunk. Big data kulcsszó felemelkedése, Radoop indítása, és még sok más dolgok arról, hogy nézett ki 8 éve az adatos szakma. Érdekes, hogy 8 év távlatából is már mennyire történelem mindaz, amit akkor fontosnak lehetett látni a hazai adatelemzős szakmából. - Négy éves születésnap

Szólj hozzá!

2019.09.02. 11:16 Gáspár Csaba

Ingyenes data science képzés a Dmlab szakemberei előadásában

Idén ősszel is meghirdetjük a BME-n oktatott tárgyunkat külsős jelentkezők számára. Ennek megfelelően az egyetemi félév során, azaz a szeptember 9-ei héttel kezdődően, 14 héten keresztül, heti kétszer két órában lehetőséged nyílik betekintést nyerni a big data és a data science világába.

Az óra népszerűsége miatt a férőhelyek száma korlátozott, ennek oka elsősorban az egyetemi terem befogadóképessége, valamint azon alapelvünk, miszerint a külsős hallgatók száma nem haladhatja meg az egyetemi hallgatókét.

 2_data_science_a_muegyetemen.jpg

 

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Tárgy hivatalos tematikája

A középpontban az iteratív módon fejlesztett adatfeldolgozó eljárások vannak, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben.

A tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően időrendi sorrendben történik és először a hírlevél feliratkozói kapnak erre lehetőséget. Szeptember 3-án fogunk eredményt hirdetni és 10-én kedden már indulunk is. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon.

 

(UPDATE: A jelentkezést már lezártuk! - 2019.09.04.12h)

Ha nem sikerült most bekerülnöd az órára, akkor iratkozz fel a hírlevelünkre ezen a linken, így a következő félév előtt hamarabb fogsz értesülni az aktuális képzésünk jelentkezéséről.

Év elején Nagy-Rácz István kollégám összeszedte egy blogposztban milyen adatos képzések érhetők el jelenleg Budapesten. Ha nem jutottál be a fenti képzésre, vagy neked kicsit másra lenne szükséged, itt találsz ötleteket.

Data science képzések - Hol tanítják a big data-t?

Mi a  dmlabbal a legtöbbet úgy oktatunk, hogy egy-egy konkrét csapatnak, cégnek tartunk egyedi képzést, ahol a Megrendelő igényeire szabjuk a tematikát, a használt technológiát, a képzés időpontját és hosszát. Ha ilyen képzési csomag után érdeklődsz, bátran keress meg engem, szívesen átbeszéljük veled mi lenne megfelelő opció:

Gáspár Csaba
gaspar.csaba@dmlab.hu
+36208234154

Szólj hozzá!

2019.07.15. 13:30 István NagyRácz

CRISP-DM módszertan - Mi az és hogyan használd?

 crisp_dm_modszertan.jpg

A CRISP-DM módszertan az egyik leggyakrabban használt módszertan, ami iránytűként szolgál abban, hogyan lehet egy üzletileg sikeres adatelemzési projektet véghezvinni. Ez a cikk a módszertan alapját mutatja be egy valós projekten keresztül.  

Szólj hozzá!

2019.06.13. 10:09 trapphenci

Hol tart ma az AI felhasználhatósága a BIG DATA elemzésben?

Címkék: gépi tanulás bigdata AI deep learning machine learning

hol_tart_ma_a_ai_felhasznalhato_saga_a_big_data_elemzesben.jpg

A Big Data az a nyers input, amelyet meg kell tisztítani, strukturálni és integrálni, mielőtt hasznosítanánk, míg a mesterséges intelligencia a feldolgozott adatokból származó eredmény, intelligencia. A két dolog természetében különbözik.

A Big Data és az AI ma a két legnépszerűbb és leghasznosabb technológia. A mesterséges intelligencia több mint egy évtizede létezik, míg a Big Data csak néhány évvel ezelőtt jött létre. A számítógépek segítségével több millió rekordot és adatot tárolhatunk, de a BIG DATA erejét adatok elemzése biztosítja. 

 

Az adat hajtja az AI-t

 

Azt mondhatjuk, hogy a Big Data és az AI együttesen két csodálatos, modern technológiát tartalmaz, amelyek lehetővé teszik a gépi tanulást, folyamatosan megismétlik és frissítik az adatbankokat, és ugyanezt segítik az emberi beavatkozás és rekurzív kísérletek segítségével. Az MI modellek gyakorta merítenek inspirációt a biológiai tanulás modelljeiből, fontos tulajdonságuk az adatokban rejlő mintázatok önálló felismerése, egyfajta „tapasztalati tanulás”.

A MI három esetben tud optimálisan működni, ha van valamilyen adat, melyek nem teljesen specifikusak a problémánkra nézve - például képek az internetről, rengeteg kép, rengeteg témában - ez elég ahhoz, hogy elég erős általános modelleket építsünk fel. Itt kifejezetten szükséges, hogy erős analógia álljon fenn az általános modell és a saját alkalmazási területünk között. A másik eset, amikor nincsenek jelen nagy tömegben általános adatok, ilyenkor meg kell mutatni a gépi rendszernek az adott folyamatokból származó adatokat, ez a specifikus machine learning; a harmadik eset, amikor valaki, aki a modelleket szolgáltatja (például egy népszerű, „cloudon keresztül” elérhető szolgáltatás) kiválóan ismeri az adott területet, nem kell tréningezni, csak testre szabni a folyamatokat, hiszen minél több az adat annál könnyebben tanul a deep learning rendszer.

 

Mesterséges intelligenciát a kisvállalatoknak is!

 

Nem csak a nagyvállalatoknak jelent növekedési potenciált a MI, hiszen a legkisebb cégben is méretes adatmennyiség halmozódik fel, a bevételekről, a kiadásokról, kommunikációról, annak tartalmáról, a kapcsolati hálózatokról, az alkalmazotti rutinról, a gyártás folyamatáról, a raktározásról, a vásárlásokról. Ebből a feltáratlan adatbányából építkezhet és tanulhat a MI.


Három alapvető dologra van szüksége a vállalatvezetőknek, döntéshozóknak, hogy a MI-ban rejlő lehetőségeket, alkalmazási területeket, alternatívákat megismerjék és integrálhassák: az üzleti probléma meghatározására KPI-szinten, például 3%-os üzemanyag költség csökkentés, mert ezzel egy data scientist tud mit kezdeni; adatra, mert ezek a rendszerek adat nélkül nem működnek és modellre, ami kimondja, hogy mire van szükség.

HÁROM ALAPVETŐ DOLOGRA VAN SZÜKSÉG A MI-HOZ: KPI SZINTEN MEGHATÁROZOTT ÜZLETI PROBLÉMÁRA, RENGETEG ADATRA ÉS EGY MODELLRE.

A vállalatok, KKV-k, cégek az adatvagyon menedzsmenttel tudják hatékonyan elkezdeni a MI-beépítését a cégükbe. Fel kell tárni, hogy hol termelődnek adatok a cégen belül, ezt kell összegyűjteni, feldolgozni és felhasználni.

 

Honnan gyűjtsünk adatot?

 

Az ipar 4.0 alapját mind olcsóbb és gyakoribb szenzorok hálózata, a mesterséges
intelligencia és az azon alapuló gépi tanulás alkotja és mindezt az adatok hajtják meg,
amikből a neurális hálózaton betanulja a gép, hogy mi az optimális, hatékony.

A legtöbben használnak olyan eszközt (pl. közösségi oldal, chatbot, spotify, netflix), aminek működése mögött már ott a mesterséges intelligencia, a gyárakban pedig a megrendelés
előrejelzésétől kezdve a prediktív karbantartásig megjelenik. Akik pedig nem fektetnek ezekbe az új technológiába, lemaradnak a globális versenyben, sőt eltűnnek, mint a
lámpagyújtogató az áram bevezetése után.

Két irányba lehet elindulni, ha adatgyűjtésről van szó: ami már elérhető adat, tudjuk, hogy van, azokat csoportosítani kell, de általában sokkal több adat létezik, mint amennyit ismernek vagy, amit ésszerűen ki lehet használni. Másik lehetőség, hogy minden létező adatot gyűjteni kezdenek. Nagyon fontos, hogy az adatkereslet és az adatkínálat összeérjen, meg kell tanítani a vállalatvezetőket, döntéshozókat arra, hogy lehet ezeket az adatokat használni, meg kell mutatni, hogy milyen lehetőségek vannak az adatelemzésben.

 

Adatok profitra váltása

 

Neuronhálózati mintákon alapuló mesterséges intelligencia használatának egyik fontos területe a prediktív analízis, ami során kizárólag historikus adatokra támaszkodva, mintázatok elemzéséből von le szabályszerűségeket.

Ma már minden iparágban gyűjtik az adatokat a gyártást érintő folyamatok során legyen szó termelésről, beszerzésről, megrendelésekről, értékesítésről vagy ügyfélszolgálatról. Ezek az adatok táplálják a gépi tanulást, a mesterséges intelligencia technológiájával felvértezett rendszereket. Adatok nélkül ezek nem tudnának tanulni, fejlődni, sőt létrejönni sem. Az adatok üzleti döntéseket támogatnak, a stratégia kialakításától a napi működésig.

EL KELL TERJESZTENI AZ ADATOS GONDOLKODÁST!


“A Dmlab, amellett, hogy segítjük a vállalatokat abban, hogy eljussanak az adatalapú döntéshozatalig, zászlónkra  tűztük, hogy megtanítjuk az érdekelteket, hogy mire és hogyan használhatók az adatok. Olyan vállalati programokat nyújtunk, amiben a vállalat munkatársaival közösen építjük meg egy adatos projekt prototípusát, és így a cégek munkavállalói valós problémákra keresnek megoldást a vállalat saját adatvagyonában és így tanulhatják meg a szükséges data science, gépi tanulás, AI vagy big data ismereteket, amelyeket a képzést követően egyből tudnak a napi munkájukban kamatoztatni.” - foglalja össze Nagy-Rácz István, a Dmlab vezetője azon célkitűzésünk lényegét, ami a tudásátadásban rejlik.

 

A leíró adatoktól a gépi tanuláson át a bevétel növekedésig

 

Az adatok döntéshozatalhoz, előrejelzésekhez való felhasználásáig eljutni bonyolult folyamat, amihez sokrétű tudásra van szükség, és az üzlet adatait ismerő és értő csapatra. Egy átlagos magyar szervezet ott tart, hogy standard leíró riportokat és kérdések esetén adhoc riportokat használ, esetleg már vannak statisztikai elemzések, beállított figyelmeztetések. A következő szint, hogy online platformon elérhető real time riportokat lássunk.

Ezek alapján készülhetnek aztán előrejelzések, amik segítenek a jövőbe látni. Az adatvezérelt vállalatoknál pedig nem csak pontos előrejelzések működnek, hanem a teljes szolgáltatást működését is algoritmusok optimalizálják. A mérési pontok meghatározása és kialakítása az alappillére, ami után a vállalati data scientistek olyan kimutatásokat, előrejelzéseket készítenek, amik mentén adatokra támaszkodó döntéseket lehet hozni,
optimalizálni vagy épp automatizálni lehet a folyamatokat, ahol már jelen van a gépi tanulás.

“Ahhoz, hogy egy szervezet adatvezéreltté válhasson, olyan kollegákra van szükség, akik értik és használják az adatokat, bíznak bennük. A legtöbb esetben úgy dolgozunk, hogy miután felmértük, hogy az elemzés melyik szintjén áll egy szervezet, közösen építünk egy prototípust a következőszinthez. Utána éles teszttel bizonyítjuk, hogy egy jó adatelemzési módszerrel elérhetőaz üzleti előrelépés, és csak ezután lépünk tovább. Ez egy evolúciós folyamat, ahol végig kell járni a lépcsőket függetlenül attól, hogy a kihívás a folyamatokban, a pénzügyekben, az értékesítésben vagy az emberi erőforrásokban van.” - jelzi Nagy-Rácz, hogy a gépi tanulásos módszerek milyen széles spektrumon használhatók egy szervezeten belül.

 

Gépi tanulás és mély neurális hálózatok

 

A machine learning egy alkalmazott statisztikai modellezés tág területe, mely során van egy ipari vagy üzleti probléma, rendelkezésünkre áll valamennyi adat, amelyeket – kis túlzással élve – „rádobálunk a gépre, és kérjük a megoldást”. Tehát nem adunk meg szabályszerűségeket, a géptől várjuk, hogy az összes rendelkezésre álló adatból kihozza a megfejtést. A gépi tanulás területén belül az elmúlt évek egyik legígéretesebb technológiája a fent említett mélytanulás- (deep learning) alapú modellalkotás. A deep learning úgy különbözteti meg nagy biztonsággal a kutyát a macskától (vagy önvezető autó esetén a járdát az úttesttől), hogy közben nem magyarázza el a rendszernek senki, hogy mit jelent a kutya és a macska. A deep learning nem utánozza az embert, nem tudása van, hanem tudáselsajátítási képessége.

A deep learning az idegrendszer által inspirált gépi tanuló modell. Egy mély neurális hálózat, akár több száz rétegben keresi a mélyebb összefüggéseket az adatokban az automatizált döntéshozatalhoz. Sokkal többről szól, mint egyszerű adatbányászat, megtalálja az adatok mély összefüggéseit, esetenként címkézetlen, nyers adatokkal is tud dolgozni, és nagy dimenziószámmal is könnyen elbánik. A neurális hálózatok és a deep learning rengeteg eddig nehéznek minősülő problémára képes megoldást adni. A megfigyelések alapján történő modellezés leghatékonyabb eszközévé vált ez a terület. A neuronhálók mély rétegei képesek a folyamatok összefüggéseinek kinyerésére, az események osztályozására, sőt, predikcióra is.

 

Szólj hozzá!

2019.05.02. 11:28 trapphenci

Adattárház - egy új hely az üzleti életben

adattarhaz.jpg

Képzeld el, hogy egy látszólag megoldhatatlan matematikai probléma előtt ülsz, amit rendkívül fontos lenne megoldani! Kapsz egy dobozt, aminek a tartalma segít neked a megoldásban, de amikor kinyitod úgy látod, hogy semmi értelme annak, amit találsz benne: 572 kígyó, egy marék dió, néhány hurkapálcika és egy csomó dühös nyúl. Van még pár millió további doboz, mindegyik hasonlóan zavaros tartalommal, amik elvileg mind segítenek neked, hogy ezt a gigantikus problémát megold..

Még a leginteligensebbek is elvesznek, ha ilyen helyzetbe kerülnek. Miért? Mert annak ellenére, hogy a probléma a saját szakterületükön helyezkedik el (mindannyian értünk a matekhoz), a probléma megoldására szolgáló eszközök olyan formátumban vannak, hogy nem tudjuk azokat értelmezni. Ugyanez a kihívás folyamatosan jelentkezik az üzleti világban, amikor a vállalatok folyamatosan értelmezni próbálják az eltérő adatokat.  

A MIT (Massachusetts Institute of Technology) kutatásai szerint az adatok mindössze 0,5%-át elemezték már és használják az üzleti világban, ami megdöbbentően alacsony szám. A CFO-k számtalan kihívással szembesülnek (pl: kampányelemzés, nyereség előrejelzés, termelés tervezés), amelyek megoldása úgy tűnik, hogy mindig visszavezetnek a üzleti- és ügyféladatokhoz. Ezek az adatok azonban szétszórva, különböző platformokon, az üzleti- és még az informatikai csapat számára is nehezen megérthető módon állnak rendelkezésre és elég nehéz eldönteni a puszta adatok alapján, hogy milyen beavatkozásokra van lehetőség.

A probléma megoldása érdekében a vállalatoknak az adatokat rendszerezni kell, szervezett és hozzáférhető formában kell tárolni azokat. Bár számos módja lehet az adatok szervezettségének kialakítására, van egy eszköz, ami különösen leegyszerűsíti az adatok elemzését, ez az adattárház.

Sokféleképpen definiálják az adattárházat, amit legegyszerűbben egy döntéstámogató adatbázisként lehet meghatározni, olyan témaspecifikus, integrált, időfüggő és fizikailag is tárolt adatgyűjtemény, amely a menedzsment döntéshozó folyamataihoz szükséges.

Az adattárházakban az aggregációk (az egymástól különálló elemek összegyűjtése) olyan big data-elemzéseket tesznek lehetővé, amelyekre korábban nem volt lehetőség. Az aggregációk nagymértékben csökkenthetik a nagyméretű adatkészletek döntéshozáshoz szükséges feloldásának költségeit.

Egy adattárház olyan, mint a beérkezett üzenetek: az információ folyamatosan folyik belőle, amelyek közül néhány hasznos egy adott projekthez, amelyen dolgozol, néhány nem. Mivel minden e-mail egy helyre érkezik, sok szakember készít egy almappát, amelyek szűrik a projekthez kapcsolódó e-maileket. Ez a mappa megfelel az adattárháznak ebben a végtelenül leegyszerűsített forgatókönyvben, amelynek célja, hogy olyan információkat tároljon és rendszerezzen, amelyek az üzleti kihívásra vonatkoznak. A legalapvetőbb formában az adattárház egy olyan adattár, ahol a vállalat az üzleti igényeknek megfelelően tárolhatja és rendezheti az adott célra kialakított adatokat. 

Az egyik legfontosabb iparág, amely ezt a tárolót használja, a kiskereskedelem, ahol a marketing részlegek a kampányokban gyakran küzdenek a ROI meghatározásával, a célzással és a méréssel. Ennek leküzdése érdekében számos vállalat adattárházat használ az üzleti kampányok kezelésére szolgáló adatszervező eszközként. Az adattárház információkat tárol az ügyfelekről, tranzakciókról, termékekről, üzletekről, helyszínekről és még sok minden másról - ezután komplex jelentéseket ad, például a piaci részesedésről, az ügyfélszegmentációról és a folyamatban lévő kampány utáni elemzést készít. Ezek a képességek integrálhatók olyan vizualizációs eszközökkel, mint például a Tableau vagy a Power BI.

1 komment

2019.04.18. 10:20 BKitti

Hogy tehetjük adatok alapján jobb hellyé a világot? - Például a kaggle aktuális versenyeivel

 kaggle_3.jpgAki adatokkal foglalkozik, az biztosan találkozott már a Kaggle versenyeivel, és az ott szabadon felhasználható adatkörökkel. Ha szeretnél te is gyakorolni, és próbálkozni úgy, hogy közben valami társadalmilag is hasznosat hozol létre, megmutatjuk, hogy minek érdemes nekivágni. 

Aktuális versenyek: 

1. Örökbefogadás előrejelzés - mennyire cuki az a kutya? 

Még nyitva van az a verseny, ahol a PetFinder.my bocsájtotta adatbányászok rendelkezésére az örökbefogadási adatait, amiket 2008 óta gyűjt, és több, mint 150 ezer kutya adatait tartalmazza. 

A cél, hogy olyan algoritmus szülessen, ami előrejelzi, hogy egy adott kép és annak a metaadatai alapján mennyire találják cukinak az adott kutyákat a potenciális örökbefogadók. A cél, hogy mesterséges intelligenciával egy képelemző algoritmus szülessen, ami megjósolja, hogy mennyi ideig fog tartani az adott kutyát örökbeadni. 

A legpontosabb predikciót készítő felhasználó 25 ezer dollár díjazásban részesülhet, és akár munkát is kaphat ebben a mesterséges intelligencia projektben. 

2. CarreerVillage.org - kinek kellene feltenni a karrierrel kapcsolatos kérdéseket? 

A CareerVillage 5 év szöveges adatait tette elérhetővé a Kaggle felhasználói számára, hogy előrejelezzék, hogy milyen típusú karrier kérdéssel melyik önkénteshez érdemes fordulni. A platformon 3,5 millió diák van regisztrálva, akiknek 25 ezer önkéntes segít. Vagyis minden egyes önkéntesre 500 diák jut. A Google és a CareerVillage versenyének célja, hogy egy algoritmus segítségével megjósolja, hogy milyen kérdéssel melyik önkénteshez érdemes fordulni. A verseny díjazása 15 ezer dollár. 

3. Földrengés előrejelzés - mikor jön, milyen erős lesz és mekkora területet érint? 

Ebben a versenyben valósidejű szeizmikus adatokat bocsájt rendelkezésre a  Los Alamos National Laboratory, amik alapján azt kell előrejelzni, hogy mennyi idő van a következő földrengésig. Minél pontosabb az előrejelzés, annál hatékonyabban lehet megelőzni az anyagi és emberi veszteségeket. A verseny győztese 50 ezer dollárt vihet haza. 

Lezárt versenyek - ezekkel is érdemes kísérletezni, ha úgy érzed, hogy tét nélkül könnyebb, ráadásul a saját megoldásod össze is tudod hasonlítani a legjobbal. 

1. Mérgező kommentek - ki nehezíti meg az online diskurzust?

Az internetes fenyegetések és zaklatások azt eredményezik, hogy sok ember felhagy a véleményének megosztásával, és a sajátjától eltérő vélemények olvasásával. A legtöbb platformnak kihívást jelent, hogy hatékonyabbá tegye a diskurzust, és sok platformon korlátozzák, vagy megszüntetik a kommentelési lehetőséget. 

A Conversation AI csapata olyan eszközöket fejleszt, amik javíthatják az online beszélgetések minőségét. A kutatás egy része kifejezetten a negatív kommentekre fókuszál. Ebben a versenyben az a feladat, hogy olyan modellt építs, ami képes kategorizálni a negatív kommenteket, hiszen van olyan platform, amely csak a káromkodást akarja szűrni, míg a másiknak kifejezett célja a fenyegető, gyűlölködő kommentek szűrése. A versenyhez kapcsolódó adatkör a Wikipedia talks kommentjeit tartalmazza. 

2. Emberi behatások az Amazon vidékén űrfelvételek alapján  - hol, hogyan és miért irtjuk az esőerdőt? 

Az emberiség minden egyes percben pusztítja a föld tüdejének is nevezett Amazon menti esőerdőket. Ennek köszönhetően csökken a biodiverzitás, élőhelyek szűnnek meg, és változik az éghajlat is. Pontosabb adatok alapján támogathatjuk a döntéshozókat és a kormányokat abban, hogy gyorsabban és hatékonyabban lépjenek fel akár a kismértékű erdőirtások ellen. A Planet tervezte és építette azokat a képalkotó műhold kombinációkat, amik hamarosan naponta gyűjtenek képeket a teljes földterületről, 3-5 méteres felbontásban. Ebben a versenyben a felhasználók ezeket a képeket elemzik annak érdekében, hogy meg tudják különböztetni az ember által okozott erdőfelület csökkenést a természetestől. 

 

Szólj hozzá!

2019.04.12. 13:45 trapphenci

LOGISZTIKA

Címkék: előadás logisztika üzleti reggeli bigdata

big_data_az_intralogisztika_ban.png

Az elmúlt években számos iparágban kutattunk adatokat, találtunk olyan összefüggéseket, amiket érdemes megosztani adott iparág szereplőivel, ilyen a logisztika, és az adatok helye a logisztikában is. Több ehhez kapcsolódó projekt után nagyon sok tapasztalat gyűlt össze, amit szívesen megosztunk.

Szólj hozzá!

2019.04.04. 15:43 BKitti

Hol buknak el a big data projektek?

big_data_fail.jpg

Nem az adattisztításon. Nem a technológiai akadályokon. Nem a finanszírozás hiánya miatt, és nem is azért, mert az adatkörökben nem található válasz az üzleti problémákra. A legtöbb big data projekt buktatója az emberi tényező. 

11 éve dolgozunk az adatiparban. 11 év alatt több 100 projektet terveztünk meg, készítettünk el, és implementáltunk. Ebben a 11 évben jó néhány projektet láttunk elbukni.

A Gartner felmérése szerint az adatprojektek 60%-a elbukik, ugyanis ahhoz, hogy sikerre vigyük, nem elég kiválasztani a megfelelő eszközöket, és technológiákat, arra is szükség van, hogy a vállalati kultúrában, és gondolkodásmódban is változások történjenek, és kreatívan keressük a siker felé vezető utakat. 

Szólj hozzá!

2019.03.29. 12:07 Szalóki Kristóf

Reinforce AI konferencia

Címkék: előadás konferencia dmlab AI machine learning tensorflow reinforce pytorch

Ott voltunk a Reinforce-on, Magyarország első AI konferenciáján. Ez volt az első nagyobb esemény itthon, ami a mesterséges intelligenciát helyezte középpontba, de szervezésben és előadói felhozatalban is felért az olyan híres magyar konferenciák mellé mint a Craft vagy a Crunch. A konferenciára olyan cégektől érkeztek előadók mint a Google, IBM, OpenAI, Uber, Twitter, RapidMiner...stb. A  konferencia két napja alatt a gépi tanulás, illetve azon belül még számos változatos téma technológiai részleteiről halhatott előadást a több, mint 500 résztvevő. Íme az a három, amik a legfontosabbak, ha az aktuális legjobb technológiákhoz kapcsolódó hands-on tudást szeretnél kapni.

 

reinforce_day1_292_gb.jpg

credit to: JSSC

Szólj hozzá!

2019.02.05. 11:12 trapphenci

Anyagmozgatás és adatmozgatás az intralogisztikában

Címkék: adatbányászat big data blockchain

 

 

big_data_az_intralogisztika_ban_kicsi.jpgA cikk eredetileg a Gyártástrend magazinban jelent meg, nyomtatásban.

A negyedik ipari forradalom idején a intralogisztikában nem csak az anyagot szállítjuk és használjuk fel, hanem a keletkező adatokat is. Az adatbányászat a belső anyagmozgatás, a raktározás és a szállítmányozás területén is hozzáadott értéket termel és optimalizálja a folyamatokat. 

Szólj hozzá!

2019.01.30. 22:17 Gáspár Csaba

Nyitott data science órák a Műegyetemen

Címkék: free python artificial intelligence nyitott képzés 2019 rapidminer dmlab bigdata AI BME datascience

data_science_a_muegyetemen.jpg 

Már hagyományosnak mondható módon idén is meghirdetjük a BME-s tárgyaink egy részét külsős hallgatók számára. Hiszünk benne, hogy sokaknak tud segíteni egy olyan program, amiben MSc informatikus hallgatókkal együtt kezdik el tanulni az adatelemzés alapjait. Az elmúlt években minden alkalommal sok-sok ember jelezte, hogy szívesen bejárna hozzánk, így aztán minden évben ugyanannyi külsős hallgató indult neki a félévnek, mint amennyien a műegyetemistaként órarendi keretek között elkezdik azt. 

a.jpgEbben a félévben az "Adatelemzési platformok" című tárgyunk indul, amiben egy alapszintű bevezetést tartunk a data science világába: megtanítjuk a Python nyelv alapjait, a RapidMiner adatelemzési szoftvert, bemutatjuk a legfontosabb gépi tanulási feladatok megoldását, illetve valós adathalmazok segítségével rávilágítunk mennyire izgalmas és szellemi kihívásokkal teli ez a szakma. Kevés az olyan rész, mikor valaki csak a táblánál előad, tipikusan egy-egy témát egyből közösen fel is dolgozunk, mindenki előtt ott van a saját laptopja az elmélet és a gyakorlat kéz a kézben jár. A tárgy részletes tematikáját itt találod: leírás.

Az órákat idén február 6-tól tartjuk hetente két alkalommal, szerdánként keddenként 8h30-10h csütörtökönként minden második szerdánként 10h15-12h tartjuk az órát a Műegyetem lágymányosi kampuszán (Magyar tudósok körútja 2. Q épület).

Ha részt szeretnél venni az órákon, két dologra kérünk:

  • Kérünk gondold át, tényleg lesz-e lehetőséged az órákon részt venni, illetve hogy tudod-e majd követni azt. A tárgy oktatásánál feltételezzük, hogy valaha már programoztál valamilyen programnyelven, nagyjából tudod milyen műveleteket lehet végrehajtani SQL nyelven, és az Excel különböző furfangjai sem hoznak zavarba. 
  • Nagyon sok külsős szokott jelentkezni erre a felhívásunkra, de csak annyi jelentkezőt fogadunk be, hogy a hallgatók és a külsősök száma közel megegyezzen. Ez idén körülbelül 20-25 embert jelent. A jelentkezést alapvetően sorrend alapon bíráljuk el. Hagyományosan a blogunk hírlével feliratkozóinak kicsit korábban küldjük ki a jelentkezési linket, így ők előnyben vannak; ha ez az előny neked is fontos lehet később, érdemes feljelentkezni a hírlevélre (jobb fent a blog oldalán).

A jelentkezéseket most a hétvégén el is bíráljuk, ehhez csatlakozási szándékod jelezd felénk az alábbi oldalon való regisztrációval.

JELENTKEZÉS 2019

(UPDATE: A jelentkezést már lezártuk! - 2019.02.05.11h)

Nemrég Nagy-Rácz István kollégám összeszedte egy blogposztban milyen adatos képzések érhetők el jelenleg Budapesten. Ha nem jutottál be a fenti képzésre, vagy neked kicsit másra lenne szükséged, itt találsz ötleteket.

Data science képzések - Hol tanítják a big data-t?

Mi a  dmlabbal a legtöbbet úgy oktatunk, hogy egy-egy konkrét csapatnak, cégnek tartunk egyedi képzést, ahol a Megrendelő igényeire szabjuk a tematikát, a használt technológiát, a képzés időpontját és hosszát. Ha ilyen képzési csomag után érdeklődsz, bátran keress meg engem, szívesen átbeszéljük veled mi lenne megfelelő:

Gáspár Csaba
gaspar.csaba@dmlab.hu
+36208234154

6 komment

2019.01.25. 13:22 trapphenci

Új tényező a rezsicsökkentésben

Címkék: interjú döntéstámogatás dmlab big data adatelemzés BI

 

uj_tenyezo_a_rezsicsokkentesben_1.jpg A cikk eredetileg a Gyártástrend magazinban jelent meg, nyomtatásban.


Az energiapiac liberalizációja egy új eljárást tett szükségessé az energetikai szektorban, ez pedig nem más, mint az energiafogyasztás minél pontosabb előrejelzése, az adatalapú döntéstámogatás.

Szólj hozzá!

2019.01.24. 13:42 István NagyRácz

Data science képzések - hol tanítják a big data-t?

Címkék: oktatás tanfolyam workshop képzés bigdata datascience

Ebben a bejegyzésben összegyűjtöttük a budapestről elérhető data science és big data témájú képzéseket, és a velük kapcsolatos legfontosabb tudnivalókat. Ha adatokkal akarsz dolgozni, az első döntés amit meg kell hoznod, hogy technológiai oldalról érdekel a téma, vagy üzleti oldalról. Ha a technológia foglalkoztat leginkább, akkor fókuszálj a python-ra és az R-re elsősorban, hisz ezek az adatos munka alapvető eszközei manapság.

data_science_kepzesek.jpg

Szólj hozzá!

2019.01.16. 11:00 Mihalkó Barnabás

5 lépcsőfok a BIG DATA világába

Címkék: big data BI

5_lepcsofok_a_big_data_vilagaba_1.jpg

 

Ha egy vállalat képviselője belelkesül a big data világától, általában ez az első kihívás, ami felmerül benne:

Adatvezérelt vállalatot szeretnék, tudom, hogy rengeteg adatom van, de úgy érzem, túl nagy befektetést igényelne ezeket összegyűjteni, felhasználni és azt sem tudom, hol álljak neki!

Szólj hozzá!