Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (8) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) egészségügy (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2018.11.26. 09:50 Gáspár Csaba

Adatkezelési kultúrák

Címkék: kína usa eu ai big data gdpr

Big data forradalom: adatkezelési erőviszonyok a „cég-állam-egyén szentháromságában”

 Komoly felelősség és páratlan üzleti potenciál. Valahogy így lehetne leírni azt a lehetőséget, amellyel a (személyes) adatok kezelése, birtoklása és az adatelemzés kecsegtet.

Big data forgatókönyvek

Az elmúlt hónapokban éjjel-nappal a GDPR-ról, a téma fontosságáról és az ezzel együtt járó kötelezettségekről lehetetett hallani. Ám valóban „csak” arról van itt szó, hogy illetéktelenek kezébe kerülhetnek érzékeny adatok? Az adatgyűjtés és az adatfelhasználás lehetőségei valójában ennél sokkal színesebbek, és sokszor a leírt rémhíreknél barátságosabbak is lehetnek. Mi több, ha kicsit jobban elmélyedünk a témában, meglehet, hogy saját folyamataink hatékonyságán is dobhatunk egyet. Utánajártunk néhány érdekességnek és a világ ma fellelhető adatkezelési forgatókönyveinek.

 Egy 2007-es európai uniós nyilvános tanulmányban[1] számoltak be arról, hogy az IT, a telekommunikáció, a média és a szórakoztatóipar összefonódása és az üzleti intelligencia fejlődése miatt körülbelül 2015-re különleges jelentőséggel bírnak majd a személyes adatok, melyek birtokosa monopolhelyzetbe kerülhet. A szerzők háromféle adatkezelési forgatókönyvet vázoltak fel. Meglepően jól prognosztizáltak: ezek az adatelemzési, adattárolási gyakorlatok, vagy legalábbis ehhez nagyon hasonlók megjelennek a világ jelentős gazdasági övezeteiben:

  1. Cégközpontú szkenárió
  2. Államközpontú szkenárió
  3. Egyénközpontú szkenárió

 A három nézőpont különböző aspektusokat és lehetőségeket kínál arra, amiért és ahogyan érdemes az adatokkal foglalkoznunk.

Cégközpontú big data forgatókönyv – Az egyesült kapitalista adatliberalizmus

A legjelentősebb adatbányászati nagyhatalmak hazája az Egyesült Államok. Az IT-szektorban vezető helyen szerepel, vállalatai szárnyalnak, így nem meglepő, ha az adatok amerikai cégközpontú megközelítése sokakat csábít, mindenki erre a vonatra próbál felkapaszkodni.

A világ adatvagyonának legnagyobb birtokosait (például: a Google, a Facebook, az Apple, az Amazon, az eBay vagy a Twitter) az amerikai törvények sokszor előnyben részesítik: némi hozzájárulás után szinte szabaddá válik az adatfeldolgozás, sőt, Donald Trump egyik első hivatali intézkedésével engedélyezte az amerikai internetszolgáltatóknak a rajtuk átfolyó ügyféladatok értékesítését. Hazai hasonlattal élve ez olyan lenne, mintha nálunk a Telekom eladásra kínálná számunkra a szomszédunk netforgalmát (kicsit abszurd, nem?). Néha Amerikában is kirobban egy-egy „adatbotrány”, ám ezek száma és jelentősége a birtokolt információhoz képest elenyésző. A netes óriáscégek a megszerzett, megvásárolt adatokra támaszkodva őrületes hatékonyságról tanúskodnak, ami sokakat félelemmel tölt el, míg másokat csábít és kapzsivá tesz ez a döntéstámogató rendszer. Ezt a létező szisztémát leginkább csak belülről lehetne megbolygatni, például trösztellenes törvényekkel. Sokszor felmerült már a Google, a Facebook vagy az Amazon feldarabolásának igénye, mint ahogyan az korábban az AT&T egyeduralkodó amerikai távközlési vállalattal is megtörtént.

Profitorientált vállalati döntéstámogató rendszerek

A módszer keltette érzések és személyes gondolatok lecsupaszítása után elmélyedhetünk a szkenárió lényegi megközelítésében is. Az elv az elérhető legnagyobb hatékonyság-növekedésen alapszik: központjában a folyamatok optimalizálása, az alsóbb döntéshozási pontok támogatása áll, az adatokra pedig a személyes vonal redukálása mellett objektív pénzteremtő erőként tekint. Ez az adatgyűjtési módszer költséget takarít meg és bevételt növel. A Dmlabnál számos referenciánk kapcsolódik ehhez az adatfeldolgozáshoz: részt vettünk már meghibásodások előrejelzésének kidolgozásában, üzemanyagfogyasztás optimalizálásában vagy például az ügyfeleknek kedvezőbb, ugyanakkor a vállalat számára is megfelelő ajánlatadási eljárás megtalálásában.

Államközpontú big data diktatúra – A kínai falanszter informatikai alapjai

A jó öreg Kínát hozhatjuk fel itt legjobb példaként. A világ legősibb folyamatos civilizációja kiválóan kiaknázta az adatbányászat nyújtotta előnyöket is. Itt nem feltétlenül a titkosszolgálati és hírszerzési vonalra gondoltunk (szemben az amerikai NSA-botrányokkal), hanem sokkal inkább hétköznapokhoz köthető információk hasznosítására. Kínában jelenleg működik egy pontrendszer, amely az állampolgárokat minősíti az adatokra lefordítható aktivitása (például iskolázottság, munkahely, pénzügyi mozgás vagy társas kapcsolatok) alapján. Mindezt megspékelve egy hatalmas kiterjedésű állami internetes cenzúrával, amelyen közel kétmillió ember dolgozik. Félelmetes, ám hatékony és hatásos megvalósulása az adatok birtoklásának, amelyet másnéven bizánci információkezelési rendszernek is neveznek.

Csak egy példa a sok közül: Kínában rohamtempóban építik a köztéri kamerarendszert, kísérleti jelleggel már számos közintézményt és iskolát bekameráztak. Utóbbiban figyelemmel kísérik a diákok képességeit, tanulási szokásait és a fegyelmezettséget. Az így nyert adatok feltételezhetően bekerülnek majd az állami döntéstámogató pontrendszer indikátorai közé, és talán a közeljövőben ezen múlik majd, hogy egy állampolgár elegendő pontot „gyűjtött-e” a hitelképességhez, az útlevéligényléshez vagy akár egy közigazgatás álláshely sikeres megpályázásához.

Központosított adatbázis kezelés

Ellenőrzés és kontroll. Ez a két, időnként félelmetesnek ható kulcsszó ebben az államközpontú megközelítésben. Máshol a világon nem tapasztalható ez a merev és szigorú adatkezelési forgatókönyv, ám néhány vállalatnál fellelhető egy-két aspektus. Ezek főként olyan cégek, ahol az adatok szerepe kevésbé a hatékonyságnövelés, sokkal inkább a munkavállalók és a folyamatok kézbentartása, ellenőrzése. A szemlélet elterjedésének erős lökést adtak a különböző videó, képi vagy hanganyagok feldolgozására készített deep learning megoldások.

 A Dmlabnál is találkoztunk már olyan projekttel, amikor e forgatókönyv elveihez folyamodtunk: a Nemzeti Adó- és Vámhivatallal (NAV) közösen dolgoztunk egy hatékonyabb ÁFA-csalás elleni módszer megalkotásán, de említhetjük bármilyen fraud (csalás) ellen szóló megoldási javaslatunkat is.

Egyénközpontú big data – Megkérdőjelezhető európai bizalom és nagymértékű individualizmus az adatkezelésben

Nincs olyan állam (ma még), amelyre egyértelműen rá lehetne húzni ezt a forgatókönyvet, ám az új európai adatkezelési szabályok (GDPR) életbe lépésével kétségtelenül Európa lett a központja ennek a szemléletnek, azaz a személyes adatokkal történő önrendelkezés jogának. A kontinentális (elsősorban svéd) gyakorlatba beleillik a „privacy” védelmének a joga. Jó példa lehet erre a Linux operációs rendszer szellemisége, a PirateBay mögötti ideológia, vagy a hamarosan érvénybe lévő irányelv, miszerint a bankoknak az ügyfél kérésére ki kell adniuk a harmadik fél részére a pénzügyi adatokat. Azért tegyük hozzá, hogy a monopolhelyzetű adatokból élő cégek nem a kontinensről származnak, így egy európai vállalat laza tollvonással válhat az adatokkal kapcsolatos önrendelkezés harcosává.

A magánélet üzleti intelligencia megoldásai

Az európai gondolkodásban fontos szerep jut a magánélet és a különböző szabadságjogok védelmének, a szigorú adatvédelmi szabályoknak. E szerint a világkép szerint a privacy-nak, azaz a magánéletnek, az információnak, mint magántulajdonnak kellene a legnagyobb hangsúlyt kapnia a haszon és az ellenőrzés helyett. Az Európai Unió az egyik leglelkesebb képviselője ennek a felfogásnak, ám a kontinentális földrész jóval kisebb erőt tudhat magáénak, mint amekkora lendülettel az USA vagy Kína vetette bele magát a téma kiaknázásába. A helyzethátrány oka leginkább az, hogy az elképzelések motorja inkább az EU intézményrendszere, amelyhez (egyelőre) még nem párosul felhajtóerőként a felhasználók tudatossága. Írásunk mellé ajánlunk még egy (szerintünk jó) cikket az európai adatvédelemmel kapcsolatos dilemmákról.

 Szétnézve az üzleti folyamataink között ez a módszer egy kicsit kakukktojásnak tűnhet, de bármily meglepő, az adatokat a haszonszerzése igénye nélkül egyszerűen „wellbeing-re” is lehet használni, ha mondjuk arra törekszünk, hogy az ügyfeleinknek vagy a munkatársainknak jobb legyen. Ilyen lehet a working log rendszer alapján egy egyénre szabott szabadságajánló vezetői információs rendszer, valamilyen belső HR-analitikai megoldás vagy például a felhasználói adatok visszaszolgáltatása az ügyfelek számára.

Semmi sem fekete vagy fehér, és olykor a szürkét is nehéz meglátni

A világ társadalmai nem kategorizálhatók egyértelműen e három forgatókönyv mentén: általában e három big data forgatókönyv egyvelegével találkozhatunk egy-egy országban, ami a technológiai trendek fejlődésével gyorsan változik, egyre változatosabbak az adatfelhasználási lehetőségek, így érdemes figyelemmel kísérni a trendeket.

 A személyes és üzleti adatok védelme, ugyanakkor az információszabadság kettősége egy olyan erő, amellyel sokan (vissza)élnek. Az óvatosságon túllépve a lehetőséget kell meglátni ebben a száguldó vonatban, és lehetőleg minél előbb felülni rá.

 

[1] WORLD ECONOMIC FORUM (2007): Digital Ecosystem - Convergence between IT, Telecoms, Media and Entertainment: Scenarios to 2015. World Scenario Series, 2007

 

Szólj hozzá!

2018.11.22. 12:50 Szalóki Kristóf

Rákos megbetegedések diagnosztizálása adatokkal 72 óra alatt

Címkék: egészségügy képfeldolgozás hackhaton image processing cancer detection

 

 A csapat tagjai: Nádai Bence Szalóki Kristóf, Adriana Custode, Vuchetich Bálint, és Rabatin Gábor 

Októberben került megrendezésre első alkalommal a JunctionXBudapest, a híres finn hackhaton, a Junction előversenyeként. Már nyáron eldöntöttük a Dmlabnál, hogy próbára tesszük magunkat és elindulunk a versenyen. A háromnapos megmérettetés alatt új emberekkel, cégekkel ismerkedtünk meg és rengeteget tanultunk ezen rövid idő alatt is. 

Felvetődhet a kérdés, hogy mi is az a Junction X Budapest? A Junction eredetileg egy Finnországban megrendezett hackhaton, amelyre az évek során annyira megnőtt az érdeklődés, hogy úgy döntöttek, egy új sorozatot indítanak JunctionX néven a világ különböző pontjain. Budapestre a TechEmbassy csapata hozta el nekünk a versenyt, akik már első alkalommal is nagyon színvonalas eseményt szerveztek.

 A hackhaton lényege, hogy rövid idő alatt kell elkészíteni, felvázolni vagy megvalósítani egy olyan ötletet, amivel megnyerheted a versenyt. Ezzel mi sem voltunk másképp, ám ötletünk megvalósításáig hosszadalmas út vezetett. Nekünk péntek 19 órától vasárnap 13 óráig volt lehetőségünk megvalósítani az innovatív és olykor lehetetlennek tűnő elképzeléseinket.

 Először választanunk kellett egyet a négy challange közül, melyen versenyezni kívántunk. A péntek esténk azzal telt, hogy eldöntsük, hogy a Nokia vagy a Varian feladatát válasszuk. Végül az utóbbi mellett döntöttünk, amelyet egy cseppet sem bántunk meg. A Varian feladata agyi tumorok detektációja volt MRI és CT képeken. A feladat tehát képfeldolgozás volt, ahol nem szabták meg, hogy milyen technológiát használhatunk, a cél az volt, hogy találjuk meg nekik a tumorokat a valós felvételeken.

 A feladat jelentőségét mutatta, hogy elmondásuk szerint a saját mérnökeik számára is rendkívül nagy nehézséget jelent a tumorok automatikus felismerése, így egy jó megoldás valóban megkönyítené a vállalat munkáját. Péntek este jött egy, akkor még lehetetlennek tűnő ötlet, mely az idő előrehaladtával egyre megvalósíthatóbbnak tűnt.

 Ezen ötletünk alapján az MRI felvételekből készítettünk egy 3D-s agyat, benne a tumorral, amit egy VR környezetben jelenítettünk meg. Az ötletünket hallva a Varion munkatársai nem gondolták, hogy képesek leszünk elkészíteni ilyen rövid idő alatt tervünket. Szombat délelőttől egészen vasárnap 13 óráig megállás nélkül a megoldáson dolgozva sikerült elkészítenünk azt, amiben oly kevesen hittek az ottlévők közül - köztük néha mi magunk is. Vasárnap délutánra elkészült a 3D-s vizualizációnk.

 A tumorok megtalálásához első lépésként fel kellett dolgoznunk a kapott DICOM formátumú fájlokat. Ezen fájlformátumot az egészségügyben használják különféle orvosi gépek által készített felvételek tárolására. A beolvasást követően különféle transzformációkat (Grey Scaling) és szűréseket (Antistropic filter, Erosion, Dilation) hajtottunk végre a képeken a szükségtelen részek eltüntetése és a fontos részek kiemelése érdekében. Az előfeldolgozott képeken ezután következhetett a tumor keresése. Első ötletünk egy neurális háló volt, azonban az adatok egységességenek hiányában, illetve azok kis elemszáma miatt ezt elvetettük. Végül az OpenCV könyvtár segítségével oldottuk meg a feladatot, ahol a feldolgozott képeken kerestük a megfelelő attribútumokkal rendelkező, tumorokhoz hasonlító alakzatokat.

A tumor detektálása az alábbi folyamatok végrehajtásával valósult meg:

 

A tumor megtalálását követően a 3D-s vizualizáció elkészítése következett. A vizualizáció a Unity nevű program felhasználásával történt, ahol raymarching segítségével az MRI képekből felépítettük a vizsgált agy háromdimenziós modelljét. A modellben a detekció során megtalált tumort pontosan helyeztük el, mivel a tumor elhelyezkedését ismertük, azonban a pontos alakját nem, ezért a verseny alatt egy elipszoiddal szemléltettük azt. Az agyat nem csupán nézni lehetett, hanem különféle attribútumok változtatásával vizsgálni is; a vágósíkok elhelyezése a különböző tengelyeken, az intenzitás, a küszöbérték állitása mind egyénileg testreszabható volt. Ehhez készítettünk egy virtuális valóság applikációt, és egy Samsung Gear VR szemüveg segítségével mutattuk be a projektünket a többi csapat számára.

A megoldásunk mindenki tetszését elnyerte. Próbáltunk innovatívak és merészek lenni, ennek ellenére kategóriánk első helyét sajnos nem sikerült elnyernünk, mindenesetre a Community Challengen legjobb magyar csapatként 8. helyezést értünk el a 44 résztvevő közül.

A hackhaton nagyon jó élmény volt számunkra, és megmutatta, hogy képesek vagyunk bármit elkészíteni, amit csak kigondolunk. 

2 komment

2018.11.21. 09:51 Nádai Bence

Empátia az üzleti világban

 

Lead with your EARS, not with your MOUTH

Ahogy azt már bizonyára hallottátok, csapatunkkal ellátogattunk a térség egyik legfontosabb adatos konferenciájára, a Crunch-ra, amely idén másik két rangos konferenciával párhuzamosan került megrendezésre. Az egyik ezek közül az Amuse, a másik pedig az Impact, ami Product Owner, illetve Product Management témákban vonultatott fel érdekesebbnél érdekesebb előadásokat. Ami engem a legjobban megfogott és elgondolkoztatott, az Paul Ortchanian előadása volt, ami alapvetően arról szólt, hogy projektmenedzserként hogyan bánjunk azokkal az emberekkel, akikkel együtt dolgozunk. Figyeljünk oda rájuk, és szánjunk rá időt, hogy meghallgassuk őket. Az előadás nyitó mondata a következő volt:

 

 

Minden egyes projekt során, amin sok ember dolgozik elkerülhetetlen az, hogy az emberek nézőpontjai ütköznek egymással, és nem találják meg a közös hangot. Projektmenedzserként nagyon fontos az, hogy tudjuk, hogy miként lehet konszenzust teremteni. Nem érvényesülhet mindenki akarata, hiszen az káoszhoz vezetne, azonban mindenki véleményét meg kell hallgatni, és megtalálni azt a megoldást, amivel mindenki egyet tud érteni.

 

              You are not going to win every battle.

Az empátia a kulcsa mindennek; megkönnyíti a kommunikációt az emberekkel és segít elérni azt, hogy egy csapatként haladjunk előre a cél felé. Meg kell próbálnunk a másik szemszögéből nézni a világot és megérteni az ő nézőpontját is. Ezt úgy érhetjük el, hogy bevonunk másokat is a megoldás keresésébe, ugyanis a jővőről együtt kell döntenünk.

              The future needs to agreed on as a group.

Az emberek nem hiába születtek két füllel és egy szájjal – mondta az előadó. Projektmenedzserként egy aranyszabály lehet, hogy kétszer annyit hallgassunk, kérdezzünk, mint amennyit beszélünk. Minél több információnk van, minél több véleményt meghallgatunk, annál inkább tudunk majd olyan döntést hozni, amely mindenkinek megfelel, és el is fogadják. Erre egy nagyon egyszerű és könnyen érthető példát hozott az előadó, hogy megértsük mire is gondol: “A példa kedvéért tegyük fel, hogy egy túlsúlyos ember elmegy a doktorhoz, mert baj van a vérnyomásával, nagyon magas. A doktor már az elején tudja, hogy mivel lehetne megoldani a problémát, a páciensnek le kellene fogynia és a magas vérnyomás megszűnne. Azonban, ha a orvos csak ennyit mondana a betegnek, akkor szinte biztosak lehetünk abban, hogy a betegünk nem kezdene el diétázni. Ehelyett a doktor előszőr megvizsgálja a beteget; a sztetoszkóppal meghallgatja a szívét, megkérdezi mit dolgozik, mi a hobbija, mennyire stresszes, vagyis kialakít vele egy bensőséges kapcsolatot. Ezután elküldi a pácienst vérvételre és egyéb vizsgálatokra, majd leül beszélgetni vele, hogy kielemezzék az eredményeket. Elmondja, hogy a vérvétel alapján az látszik, hogy a betegnek magas a koleszterinszintje, emellett magas a vérnyomása, tehát megalapozza a döntését tényekkel, majd ezután azt mondja, hogy a látottak szerint le kellene fogynia a betegnek.”

A projektjeinkben, amiken a csapatunkkal dolgozunk is mindig az a fő cél, hogy az ügyfeleink és partnereink végül azt kapják, amit üzletileg a legjobban tudnak használni. Mivel az adatok világában ez a dolog a projektek elején eléggé homályos tud lenni, ezért a fenti jótanácsokat mi is beépítjük az összes ügyféllel történő kommunikációba.

Szólj hozzá!

2018.11.12. 07:45 Szalóki Kristóf

Etika a mesterséges intelligencia világában

Címkék: artificial intelligence datasource ethics machine learning Cruncconf gépi tanuló algoritmus

Egyre többször felvetődik az etikusság és a döntéshozatali felelősség kérdése ahogy közelítünk az általános mesterséges intelligenciához.

Több cég algoritmusairól derült ki az utóbbi időben, hogy szexisták, vagy rasszisták. 

Amíg a tanulóalgoritmus az ember által adott információk alapján fog döntéseket hozni, addig ugyanolyan elfogult lesz, mint az emberek. 

Szabad-e, és ha igen, hogyan lehet konfigurálni a modelleket?

img_9679_kicsi_1.JPG
AI Ethics, Impossibility Theorems and Tradeoffs címmel tartott előadást Chris Stucchio az idei Crunchconfon. Elfogulatlanul mutatta be a területet, de azért sejthető volt, hogy van álláspontja a témában.

Két nagyon erős példát hozott:

  1. Amerikában az igazságügyben használt COMPASS algoritmus, mely segítségével predikciót hajtanak végre, hogy eldöntsék, hogy a börtönbüntetésének minimális idejét letöltött személyek visszaengedhetők-e a társadalomba vagy sem. Mint kiderült, a modell elfogult volt a feketebőrű bűnözőkkel szemben. Kérdés, hogy helyesen cselekszünk-e, ha olyan adatokat is szolgáltatunk a gépi tanuló rendszerünknek, amik alapján mi sem ítélnénk meg szívesen az embereket. Melyik a helyes döntés etikai szempontból? Csökkenteni a bűntények számát úgy, hogy az azonos attribútumokkal rendelkező elítéltek közül azt a személyt börtönben tartjuk, akinek színes a bőre, vagy eltekinteni ettől és kockáztatni a bűntények elszaporodását? 
  2. Stucchio másik példáját a pénzügyi szektorból hozta. Felmérések alapján az ázsiai emberek fizetik vissza legnagyobb eséllyel a jelzálogkölcsönt, míg a feketebőrű emberek a legkisebb valószínűséggel. A machine learning modell számára, mely elvégzi a bankoknak a szükséges predikciót, etikus cselekedet lenne átadni azokat az attribútumokat, mint például a személy bőrszíne vagy egyéb kényes adat? Sajnos vagy sem, mindenki maga dönti el, hogy hol van az a határ, melyet nem akar átlépni egy kicsivel több profit megszerzése érdekében. Míg a gazdasági szektorban csak a pénz a tét, addig az igazságügyben emberi életek és sorsok is múlhatnak a kérdésen.

img_9677_kicsi.JPG

Az előadás fő mondanivalója szerint próbáljunk meg a lehetőségekhez mérten mindent formalizálni és mérhetővé tenni az igazságosságot egy meghatározott metrika segítségével.

Ha van saját véleményed a témában kíváncsiak vagyunk rá, írd meg kommentben.
Ha pedíg érdekelt a leírás, itt tudsz többet olvasni a témáról: Delayed Impact of Fair Machine Learning

3 komment

2018.11.09. 16:26 Gáspár Csaba

Crunch Conference 2018 - Mint szakmai tükör

Címkék: konferencia beszámoló crunch impact projektmenedzsment 2018 amuse bigdata product management

Különleges helyzetben van a Crunch konferencia, mivel az előadók szándékai eléggé tiszták: nem akarnak valami bonyolult dolgot elmagyarázni nekünk, mint egy tudományos konferencián, nem egy PR eseményen vagyunk, ahol mindennek a főszponzor megoldásszállító marketingüzenetét kell hordoznia, de nem is egy zárt szakmai közösség találkozóján, ahol mindenki az ügyfeleknek vagy a versenytársaiknak kommunikálva egyre nagyobbat mond.

A Crunch előadóin azt láttam, hogy van egy jó gondolatmenetük, egy elfogadható / fejlődő céges adatvezérelt rendszerük, amiről egyszerűen szívesen mesélnek. Az ebből fakadó őszinteség eredménye pedig az, hogy a konferencia egyfajta tükérként tud szolgálni a hallgatóságnak, amibe belenézve elég sokat megtudhatunk magunkról.

csapat_kicsinyitett_2.JPG Dmlab a Crunchonfon. 

Mivel 2018-ban lényegében mindenhonnan a big data, az AI, az ezekre épülő megoldások folynak, miközben a legtöbb hír, anyag, siker mögött elég kétes szándékok, ügyes marketingfogások, vagy újságírói nagyotmondás húzódik, ezért sokakban az lehet az érzés, hogy mindenhol máshol fantasztikus adatvezérelt folyamatokkal építik a jövő sikeres vállalkozásait, amitől egyfajta lemaradottság-érzés alakul ki bennünk.

Ezért is volt üdítő látni, hogy nagy, neves cégek adatelemző szakembereit hallgatva kiderült, hogy nagyon hasonló problémákkal, nagyon hasonló megoldási javaslatokkal dolgoznak a legnagyobbak is, mint amikkel idehaza is összefutunk. Izgalmas volt látni többek között a Runtastic, a Slack, a LinkedIn, az Uber adattudósait mesélni arról a felépített folyamatokról, rendszerekről, kihívásokról és a nehézségekről. 

Látva a nemzetközi szinten jelentős cégek működését, nekem az volt a Crunch fő tanulsága, hogy nemzetközi szinten is vállalhatók azok a dilemmák, problémák, nehézségek és az ezekre kiépülő megoldások, amikkel mi magunk is dolgozunk. Nem csak nekünk okoz nehézséget egy folyamatosan újra és újra épülő modell üzemeltetése, máshol is ugyanúgy fáj a fejük a heterogén környezetektől, ugyanúgy dilemma másnak is, mitől lesz valami egyszeri vagy ismétlődő elemzés. Nyilván a hazai adatos világ le van maradva a fejlett gazdaságoktól, de szakmai oldalról ez a lemaradás nem érzékelhető. Jó volt ezt látni a tükörben.

A Crunch mellett két másik konferenciára is bejárásunk volt ugyanazzal a belépővel: a UX témában futó Amuse és a product managment témában futó Impact egy konferenciahelyszínen volt velünk. Mindkettő egy-egy ígéretetes előadására átmentem, és az Impact - nevéhez híven - nagyon nagy hatással is volt rám. Az a bő egy óra, amit ott töltöttem, elementáris erővel hatott rám, beláttatta velem, hogy mennyire vakon próbálkoztunk eddig a Dmlab megoldásainak termékesítése során. Ha úgy vesszük, ez is egyfajta tükörként funkcionált nálam, csak itt az elégedett mosoly helyett az a döbbenet ült ki az arcomra, amit akkor látsz, ha egy féléves gyerek először döbben rá, hogy a tükörben mit is lát.

Szólj hozzá!

2018.10.25. 01:53 Gáspár Csaba

11! - Mennyire volt előrelátható a big data jelenség?

Címkék: trendek blog évforduló 2018 big data

Ma van a blogunk 11. születésnapja, én ilyenkor szeretek visszanézni az első blogbejegyzésünkre (Akiket le kell nyilazni...) , majd körülnézni mit is gondoltam a "détás" világról sok-sok évvel ezelőtt. Az idei visszatekintő olvasás során különösen érdekesnek találtam, hogy annak idején mennyire nem volt látható előre a big data jelenség berobbanása.

big_data_eredetmonda_gaspar_csaba_dmlab_1.png2013 végén már arról írunk, hogy mennyire mindent elsöpört abban az évben a big data (2013 - Ami tényleg történt - A nagy változás), hogyan hódította meg mainstream médiát is ez új szemlélet / divat / jelenség. Míg maga az egész folyamatot elindító Hadoop rendszer 2005-ben indult, nyolc év kellett ahhoz, hogy jelentős szerephez is jusson az adat feldolgozásával foglalkozó IT szegmensben. 

Nyolc év soknak tűnik elsőre, de a valóság az, hogy ennél sokkal rövidebb idő alatt robbant be a köztudatba. Hogy szemléltessem ezt megnéztem, hogy mikor írtuk ki a blogra először azt, hogy big data. 2011 májusában használtuk először ezt a szót a blogon (Adattárház Fórum 2011 - Beharangozó), ott is abban az összefüggésben hogy a konferencián futó előadásom "Adatbányászat a BigData világában" címet viselte, amiben lényegében a Radoop megoldásunk alapötletéről, annak létjogosultságáról beszéltem. 

Annyira új dolog volt ez akkor, hogy még 2011 év elején több olyan cikket is írtunk a blogon, ami az eljövendő trendekről ír, és ezekben a Hadoopnak, big data világnak még nyoma sincs:

  • BI Évkönyv Konferencia - Élőben (2011. március) - Ebben a posztban elég részletesen beszámolunk Arató Bence félnapos minikonfernciájáról, ahol az aktuális technológiai trendeket is összefoglalta. Big data szót én nem írtam le a beszámolóban, lehet hogy megemlítette Bence, de biztos hogy nem volt fajsúlyos gondolat. Az összefoglaló alapján akkor azt vártuk, hogy a mobil készülékeken futó BI, a gyors BI és a felhő alapú BI megoldások fogják felforgatni a világot.
  • Dan Sommler - BI trendek a nagyvilágban (2011. április) - Ha valaki azt gondolja, hogy csak Magyarországon nem látszódott a jövő, azoknak jó példa lehet az ugyanabban az évben meghallgatott előadás részletes beszámolója, ahol a Gartner nemzetközi BI trendekről alkotott elképzeléseiről lehetett hallani. Itt még a nyílt forráskódú megoldások lassú erősödéséről illetve arról lehetett hallani, hogy jön fel a felhő, a közösségi és a minta alapú BI - bármit is jelentsen ez az utóbbi fogalom. 

bi_trends_2010_dmlabbudapest_gasparpapanekcsaba.pngTrendek címkefelhőbe foglalva (2010. január) - Ez egy bő évvel korábbi anyag, amiben az előző évek BI trendelemzési cikkeinek tartalmát hasonlítottam össze, és jeleztem melyik kifejezés erősödik, melyik gyengül az adott években (átmásoltam ehhez a poszthoz a címkefelhőt (ez akkor még menő vizualizáció volt) - szavak mérete az előfordulással arányos, a piros szavak erősödtek, a kékek kikoptak az előző évek trendelemző cikkeinek szóhasználatához képest). Látható hogy a közösségi hálók, a performance management, az SaaS vonal erősödött. Ha nagyon bele akarja látni valaki a big data előképét, akkor a cloud és a real time kulcsszavak is megjelentek, de aki emlékszik arra, hogy akkor ez mit jelentett a BI-ban, az jól érzi, hogy valójában közük sem volt a big data-hoz.

 

A fenti, szó szerint historikus adatok alapján azt lehet mondani, hogy a hazai és nemzetközi "adatos" közösséget két év alatt tarolta le a big data láz. És ez nem csak a szavak szintjén értendő: az egész adatos ökoszisztéma, a piac, az adatokhoz való viszony, a témával foglalkozó szakemberek létszáma, köre, a használt technológiák mind-mind gyökeresen átalakultak azóta. Szinte már kínos olvasni, mennyire mást gondoltunk a BI jövőjéről a kétezer-tizes évek első éveiben, mint ami most az évtized végén megvalósult.

Tanulság számomra az, hogy ebben a forrongó, változó, zajos adatos környezetben méginkább felértékelődnek a veterán szakemberek tapasztalata. És őket is csak arról érdemes kérdezni, hogy hol vagyunk most - és kevésbé arról, hogy mit fog hozni a területen a következő 5 év.  

Szólj hozzá!

2018.09.28. 16:30 István NagyRácz

Dmlab ❤️ Crunch

Címkék: konferencia crunch data science data engineering

Immár negyedik alkalommal, idén is megrendezésre kerül a régió egyik legnagyobb data science és data engineering happeningje: a Crunch konferencia. A konferencia indulásakor azt írtuk, hogy Budapest ezzel a konferenciával vált nagykorúvá, hiszen egy olyan esemény kerül megrendezésre évről évre, ahol mind az adatokkal kapcsolatos infrasturktúrával, mind az adatok elemzésével foglalkozó vezető cégek, szervezetek és emberek gyűlnek egy helyre, hogy megosszák egymással tapasztalataikat, beszélgessenek és jól érezzék magukat.

A konferencia programjában egyaránt találunk infrastruktúrával és elemzéssel kapcsolatos előadásokat, vannak általános, de vannak igazán fekete öveseknek való előadások egyaránt, az előadók beszélnek magukról az adatokról, de az adatokra alapozott üzleti döntésekről is. Azt gondolom, hogy ha az adatokkal foglalkozol, vagy csupán érdekel ez a terület, mindenképpen hasznosat fog számodra nyújtani ez a konferencia.

 crunch_speakers_animgif.gif

Ha ez nem lenne még elég vonzó, akkor érdemes azt is tudni, hogy ez a konferencia egy 3 az 1-ben esemény: a jegyed megvásárlásával részt vehetsz az azonos időpontban és helyszínen megrendezett Amuse és Impact konferenciákon is. Az Amuse konferencia hasonlóan nagy neveket hoz el számunkra a UX világából, míg az idén elsőként megrendezésre kerülő Impact konferencia a product managementtel foglalkozik, nem egy adatos megoldásról szóló előadással.

location-photo01.jpg

Ha még nincs meg a jegyed, akkor vedd meg most és találkozzunk személyesen is a konferencián. Csapatunk két napos szabadságon lesz, mivel mindannyian ott leszünk a Vasúttörténeti Parkban október 29-én és 30-án.

Ja és a legfontosabb, használd a ADATBÁNYÁSZ50 kuponkódot és 50$-t megspórolsz a jegy árából. A vásárlásod után külön jutalékot nem kapunk, de kíváncsiak vagyunk arra az adatra, ki regisztrált a blogposztunk kapcsán.

CRUNCH AMUSE IMPACT conference teaser from Conferences on Vimeo.

Szólj hozzá!

2018.08.31. 08:00 István NagyRácz

Ingyenes data science kurzusok a Dmlab szakemberei előadásában

Idén is meghirdetjük a BME-n tartott legfontosabb tárgyainkat külsősök számára is. Ez azt jelenti, hogy a műegyetemista hallgatókkal együtt szeptember elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló termek méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

 Image result for elephant and python

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben. 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Szerda 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Mindkét tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően jelentkezési sorrendben történik, legkésőbb hétfőn fogunk eredményt hirdetni és kedden már indulunk is. A hírlevélre feliratkozóknak már néhány nappal korábban kiküldtük az információt. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

Szólj hozzá!

2018.07.08. 18:23 Gáspár Csaba

Találós kérdés

Címkék: kérdés

c.pngImént egy régi Forbes magazin került a kezembe, amiben egy általam nagyra becsült emberrel készítettek interjút. Az utolsó kérdés-választ idézném itt a cikkből.  

A világ jelentős része az ön útmutatása alapján keresi a boldogságot. Emlékszik, mi volt élete legboldogabb pillanata?


- Nem volt egyetlen kiemelkedő pillanat, a család és a munka tesz boldoggá. Mostanában annak örülök leginkább, ha valami érdekes és váratlan összefüggést találok az adatokban.

Találós kérdésem a következő: kivel készült az interjú?

Szólj hozzá!

2018.06.30. 13:59 Gáspár Csaba

A lendület megszerzése

Címkék: előadás szervezetfejlesztés projektmenedzsment bigdata

Egy korábbi posztunkban 5 pontban foglaltuk össze, hogyan tudjuk a cégünket az adatokban rejlő lehetőségek kiaknázásában előremozdítani. Az első pont a lelkesedés és lendület megszerzése, posztunkban ezt a kérdést járjuk körül.

Egy cég, egy szervezet fejlődési ugrása során egy olyan akadályon kell átjutnia, ami erős változást és így bizonyos fajta ellenállást is tartalmaz. Mikor valaki az adatelemzés irányába akar nyitni, általában már rögzített, jól vagy kevésbé jól, de működő folyamatokat, szemléletet akar megváltoztatni. Ebből kifolyólag az első visszajelzések elutasítóak, gyakran negatívak, azaz a motivációnkat a jelenlegi környezetünkön kívülről kell szerezni (ha cégen belülről fakadna ez természetesen, akkor a cég magától már adatvezérelté vált volna). Ilyen motivációs erőt jelent, ha lelkesedést, valamifajta lendületet gyűjtünk a cégünk adatközpontúbbá tételéhez. Ezt két lépcsőben lehet tenni:

b_1.jpgLelkesítsd be magad! - Érdemes magunkkal, nyilván itt van a legnagyobb cselekvési lehetőségünk. Ekkor ne technológiákról, megoldásokról, adatelemzési módszertanokról olvassunk, hanem keressünk olyan videókat, írásokat, hanganyagokat, esetleg könyveket, melyek inspirálnak. Ezekben olyan történetekre érdemes vadászni, ahol valaki arról lelkendezik, hogyan változtatta meg a környezetét az adatelemzés. Itt direkt előny, ha nem a saját iparágunkhoz kötődik a sztori, akkor nem azon fog járni az agyunk, hogyan adaptálható az adott módszer nálunk. Ezek a legtöbb esetben profi médiatermékek, melyeket gyakran nem is adatelemzők írnak. Onnan tudod, hogy megfelelő anyag került a kezedbe, hogy mikor végeztél vele, akkor egyszerűen azt érzed, hogy tényleg változott a szemléleted, valamit nagyon szeretnél máshogy tenni, hogy valamit most nagyon kezdeni akarsz az adataiddal. 

Néhány ötlet ilyen anyagokra (ezek az én személyes kedvenceim):

  • Videó (18 perc) - Amy Webb: How I hacked online dating - Szórakoztató és fordulatokban gazdag történet arról, hogy adatelemzős szemléletével mire jutott az előadó az online randioldalakon.
  • Film (133 perc) - Moneyball / Pénzcsinálók - Igaz történetet feldolgozó film, amiben Brad Pitt egy kis költségvetésű baseball csapatot hihetetlenül sikeressé tesz azzal, hogy adatelemzéssel támogatva választja ki a megvásárolandó játékosokat. 
  • Könyv (260 oldal) - Numerátorok - Interjúkötet olyan emberekkel, akik a saját üzleti területüket alapvetően felforgatták az adatelemzés segítségével. 
  • "Képeskönyv" (260 oldal) - Information is Beautiful - Infografikákat tartalmazó képeskönyv, amit újra és újra érdemes végiglapozni.  Mint egy felnőtteknek szóló Tesz-vesz város: akárhanyadik végiglapozás során is fogsz találni valami érdekeset. 

A big data jelenség közbeszédbe való 2014-es berobbanása óta ilyen lelkesítő anyagból rengeteg született, néhány egyszerű kereséssel könnyen találunk olyanokat, melyek a mesterséges intelligencia, az önvezető autók, a teljesen adatvezérelt cégek, az automatizálás irányából fogják meg a dolgot. Nézzünk meg, olvassunk el többet is, ne feltétlenül okosabbak, inkább elszántabbak, tettrekészekké kell válnunk tőlük. 

c.jpgLelkesítsük be a csapatod! - Nem hiába emelem ki ezt külön: teljesen más módszerek jönnek itt szóba a fentiekhez képest. Ha csak elkezded küldözgetni a kollégádnak vagy a főnöködnek a grandiózus cikkeket és videókat, inkább hátráltatni fogod a folyamatot, mint segíteni. Fontos itt kiemelni, hogy egy ilyen hordejerű változást az egész cégre vonatkoztatva akkor tudsz elérni, ha te vezeted a cégedet, vagy legalábbis benne vagy a vezetésben. Ezért érdemes inkább a saját embereidre, a közvetlen munkatársaidra, esetleg egy erre fogékony egyik vezetődre koncentrálni. 

Egy csapat belelkesítésére nem ismerek recepteket, de láttam jónéhány sikeres és sikertelen példát. A sikeresek kétfajta csoportba oszthatók:

  1. Az illető a saját lelkesedésétől fűtve összeszedett annyi kompetenciát, hogy egy kisebb adatalapú megoldást készített egy hagyományos feladatára. Néha ez egy megbolondított Excel, néha egy riportáló eszköz, de volt aki egy teljes funkcionalitással bíró analitikus CRM modult is összerakott. Mikor elkészült a megoldás, általában híre ment a cégen belül a dolognak, ami követ dobott az állóvízbe. Fontos ugyanakkor, hogy ezek a mini rendszerek általában gerilla IT megoldások, és emiatt hosszú távon csak kivételes esetben lesznek ezek a programok tényleges céges megoldások. Ez utóbbi jelenséget sokszor nagyon nehezen élik meg azok, akik adatelemzési szemléletét végül átveszi a cég, de másik IT megoldást kezd építeni a feladatra.
  2. A másik lehetőség, hogy a szervezetfejlesztési, képzési vonalba illesztenek be olyan elemeket, amik kapcsán a kollégák is betekintést nyernek a big data lehetőségeibe. Több cégnél is vannak fakultatívan látogatható ismeretbővítő előadássorozatok, gyakran ebbe integrálnak témába vágó inspirációs előadásokat. Mi évente hét-nyolc ilyet előadást tartunk különböző cégeknél. Ezekben a közös minta az, hogy a meghirdetett előadásra a cég központjának minden dolgozója a marketingestől kezdve a rendszergazdákon át egészen a HR-esekig. Ennek megfelelően itt egy olyan ívet rajzolunk fel, ami bemutatja miképpen szövi át a big data világa a hétköznapjainkat kezdve a nagyvállalati marketingtől, a Facebook hirdetéseink át egészen a telefonunkon levő játékokig. Egy ilyen alkalom után még sokszor ott maradok beszélgetni a leglelkesebb résztvevőkkel, a vezetők számára az ő nevük megjegyzése talán az egyik legértékesebb hozadéka egy ilyen alkalomnak. 

Ha egy vezetőben elég erős az elszántság, sokszor ki is hagyják a csoport belelkesítését. Egyszerűen átugranak a második lépcsőre, a kompetencia növelésre: workshopokat szerveznek a dolgozók adatelemzési ötleteinek becsatornázására, vagy adatelemzős céges belső kurzust szerveznek, ahova önkéntes alapon jelentkezhetnek az emberek. Gyakran ekkor derül ki, hogy bár a vezető csak mostanában kezdett az adatokban rejlő erő kiaknázásával foglalkozni, de az kollégái már régóta lelkesek és csak a megfelelő felhatalmazás és támogatás hiányzott eddig. 

A sorozatot folytatva később a következő lépéssel, a kompetencia növelés hogyanjával foglalkozunk.

 

Érdekes lenne a céged számára egy ilyen lelkesítő előadás megtartása? Beintegrálnál egy inspirációs workshopot az általad vezetett digitális transzformációs projektbe. Keress minket bátran:

Gáspár Csaba - +36-20-8234154  vagy info@dmlab.hu 

Szólj hozzá!

2018.04.25. 10:33 Gáspár Csaba

Versbe szedett szakma

Varró Dani írt az NNG felkérésére néhány gyerekverset, amiben egy-egy mai szakmát népszerűsít a gyerekek számára. Így lett versbe szedve az adattudós (data scientist) és a machine learning szakértő élete. A versek zseniálisak, engem a legjobban mindkét vers utolsó sora fogtak meg leginkább. A képek külön zseniálisak, azokat a könyvek stílusát idézik meg bennem, melyeket én magam forgattam tizenegy-néhány éves koromban, illetve azt is megérthetjük belőle, hogy miért pont a csivava és a muffin megkülönböztetésével foglalkozik egy "gépi tanuló tanítója".

Varró Dániel: Adattudós

 

a.jpgHa én úgynevezett adattudós volnék,
minden kis adatnak mélyére hatolnék.
Minden jelenségnek a mélyére ásnék,
big data scientist volna nevem másképp.

Az adattengerbe fejest ugranék én,
hajóroncsok közt a kincset keresgélném,
kutakodnék ott lent verejtékkel, könnyel,
s a felszínre úsznék egy kis igazgyönggyel.

Kifigyelnék mindent lopva, mint a kémek,
kik néznek a neten kínos-fókás mémet,
addig kutatnék, míg meglenne a jóslat:
néznek-e utána cicás videókat.

Sok tényt elemeznék ki az adatokból,
olyat is, mi meglep, olyat is, mi sokkol.
Egy nagy színes ábrán adnék róla képet,
akkor lennék boldog, ha megértenének.

Varró Dániel: Machine Learning szakértő

 

b.jpgRendőr, postás, pék is lennék,
kertésznek is vígan mennék,
de leginkább azért főleg
machine learning szakértőnek.

Nem törődnék semmi mással,
mint a gépi tanulással.
Megtanítanám a gépem,
hogy kell viselkedni szépen.

A férfiaktól a nőket
hogy különböztesse ő meg,
s mi egymástól nem áll távol:
a muffint a csivavától.

Ha ráunt a kiskutyákra,
emberekkel diskurálna,
ámuldozna ám a jónép,
milyen okos számítógép!

Tanítgatnám, nevelgetném,
adatokkal etetgetném,
s ha már kapott elég ételt,
ronggyá verné Lékó Pétert.

Én lennék a soselátott,
bablevesbe belemártott,
sakkozókat kiborító
számítógép idomító!

A verseket tartalmazó könyv ingyen elérhető az alábbi oldalon: Ha nagy leszek..

2 komment

2018.02.02. 11:00 István NagyRácz

Nyitott data science képzéseink

Idén is meghirdetjük a Műszaki Egyetemen tartott tárgyunk külsősök számára is. Ez azt jelenti, hogy az egyetemista hallgatókkal együtt február elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló terem méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

Ha érdekelnek a data science és gépi tanulás alkalmazási lehetőségei valamint a praktikus elméleti háttér, akkor várunk az Adatelemzési platformoktárgyunkon. A kurzus célja, hogy a hallgatók készség szinten legyenek képesek adatbányászati feladatok megfogalmazására és valós adathalmazok felett ilyen problémák megoldására. Ehhez a tárgy nemcsak az adatbányászat, a gépi tanulás, az adatelemzés elvi hátterét mutatja be, hanem vizuális programozási metodikát használó adatbányászati szoftvereket, platformokat is ismertet, külön figyelmet szentel a ’big data’ elemzési feladatokra megoldást jelentő Hadoop platform bemutatására.

A tárgy hivatalos honlapja
Időpont: keddenként 8.30-10.00-ig és szerdán 10.15-12.00-ig. Az első alkalom időpontja: február 6.
Helyszín: a Műszaki Egyetem Lágymányosi campusának épületeiben

Jelentkezem

A jelentkezés alapvetően jelentkezési sorrendben történik, várhatóan a hét végén fogunk eredményt hirdetni. Nektek, akik a levelezési listán fent vagytok, egy nappal korábban küldjük ki az információkat, hogy előnyötök legyen a blogról érkező többi érdeklődővel szemben. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

Szólj hozzá!

2018.01.25. 21:07 István NagyRácz

Csatlakozz csapatunkhoz

Címkék: job munkaerő 2018


9b7a02c6-f184-4baa-9240-b74b3303f09d.jpeg

Ha szeretnél olyan projekteken dolgozni, mint amikről a bejegyzéseinkben olvasol.

Ha érdekel a data science vagy a data engineering világa.

Ha olyan termékeket és szolgáltatásokat fejlesztenél, amelyekben adatelemzési megoldások dolgoznak. 

Írj nekünk a job@dmlab.hu címre, keressünk egy közös időpontot, ahol többet mesélhetünk a csapatunkról, projektjeinkről és a lehetőségekről, amelyeket kínálni tudunk, ha csatlakozol hozzánk. Emellett persze arra vagyunk a leginkább kíváncsiak, hogy te merre tervezed a karriered, mik motiválnak a munkahelykeresésben és -választásban.

Találkozzunk!

2 komment

2018.01.11. 17:38 Gáspár Csaba

Milyen lépések mentén tudod bevezetni a céged a big data világába

Címkék: 2018 metodika bigdata big data data science Big Data datascience

Egy szervezetfejlesztési workshop során össze kellett gyűjtenünk, hogy milyen módon közelednek a big data világához az általunk támogatott cégek. Egy izgalmas ív került felrajzolásra, ami különösen tanulságos azoknak, akik érzik, szeretnének 2018-ban előrébb lépni az adatok adta lehetőségek kihasználásában. 

a.jpeg

A folyamatot öt fő lépésre lehet bontani:

  1. Lendület és lelkesedés megszerzése - Első lépésben nyitottságra és lelkesedésre van szükség, hogy megmozduljon valami. Ez általában két lépésben történik, először a cég vagy szervezeti egység egyik meghatározó egyénisége rákap a big data ízére: olvas egy jó cikket a neten, egy lelkesítő előadást hall egy konferencián, vagy egyszerűen beleszeret a témába egy régen látott rokonnal beszélgetve. Ezt a lelkesedést általában érdemes kicsit átragasztani a többi szereplőre is, erre remek lehetőségeket adnak a különböző olyan belső workshopok, ahol egy általános big data előadással alapozzuk meg a kollégák pozitív hozzáállását az ügyhöz (ilyen előadásokat mi is szoktunk vállalni, de erről majd később). 
  2. Kompetencia gyűjtése - Kellő induló lendület után a big data világához kapcsolódó kompetenciák gyűjtése a cél. Ez lehet új munkatársak bevonása is, de akár belső adatelemzési kurzusok, vagy megfelelő külső partnerekkel való bizalmi kapcsolat kialakítása is ide kapcsolódik. 
  3. Validáció - A következő fázisban a kompetenciákra támaszkodva kiválasztásra kerül, hogy milyen fajta folyamatokat érdemes átalakítani adatvezérelté. Ez egy részben üzleti feladat, hiszen azt is vizsgálni kell, hogy elérhetőek-e azok az adatok már a cégen belül, amik kulcsszerepet kapnak a ebben a megközelítésben. Itt konkrét adatelemzési feladatok ritkán valósulnak meg, sokkal inkább az újszerű, innovatív adatfelhasználás létjogosultságát kell ellenőrizni.
  4. Proof-of-concept - Ha tudjuk, hol lenne érdemes a big data módszereket használni, nem egy rendszert kell egyből építeni: sokkal fontosabb, hogy ellenőrizzük, hogy megfelelő szinten megoldható-e az data science feladat, amit kitűztünk magunk elé. Ekkor tipikusan historikus adatokon bizonyítjuk, hogy egy jó adatelemzési módszerrel elérhető az üzleti értelemben vett előrelépés az adott módszerrel. Az data science feladatok megoldásán, a gépi tanulási eljárások futtatásán túl ekkor lehet pontosabb megtérülési számításokat is végezni.
  5. Rendszer építése - Ha bizonyításra került, hogy a gépi tanulási eljárásokkal korábban is tudtunk volna előnyöket elérni, akkor érdemes ezeket a jelenben és a jövőben meg is szerezni. Ehhez egy olyan rendszert kell építeni, ami a big data megoldást folyamatosan üzemelteti, időről-időről időre ellenőrzi működését, számszerűsíti az általa elért többletet. Sokan azt hiszeik, hogy ez már csak egy apró lépés az előző pont után, de a valóság az, hogy ami a már ismert múltbeli adatokon jól működött, az jelentős mennyiségű fejlesztést és integrációs feladatot követelhet, ha egy teljes rendszerbe kell azt integrálni. 

Látható, hogy az öt lépés során bárhol el tud akadni a folyamat. Vagy azért, mert a prioritások máshova viszik a fókuszt, és nem szerzi meg a cég a megfelelő kompetenciát, vagy mert a proof-of-concept megoldás eredménye nem jelzi egyértelműen, hogy érdemes egy új rendszert építeni.

Ugyanakkor a fenti modell abban tényleg nagyon sokat segít, hogy azonosítani lehessen, mire is van valakinek szüksége. Például, ha még csak lelkes vagy a big data világa iránt, nem feltétlenül kell még egy konkrét technológia, platform mellett elköteleződnöd, ráérsz ezt majd a 4. és 5. pont között megtenni - még akkor sem, ha úgy gondolod, hogy egyből olyan kompetenciákat akarsz megszerezni, ami a majdani technológiákhoz szervesen kapcsolódik. 

Ha te is éppen a big data világába szeretnéd jobban bevinni a céged, érdemes elgondolkodni, hogy hol is tartasz a fenti folyamatban, és arra fókuszálni, ahol ténylegesen vagy. Tapasztalataink szerint nem érdemes kihagyni egyetlen fejlődési fázist sem, később ez mindig megbosszulja magát. 

Szívesen írunk a fenti fázisokról még tapasztalatokat, áruld el nekünk, neked melyik fázis izgalmas éppen:

Melyik lépést fejtsük ki bővebben - Szavazás

(Kép forrása)

Szólj hozzá!

2017.08.30. 17:25 Gáspár Csaba

Őszi data science választható tárgyak - Nem csak BME hallgatóknak

Címkék: oktatás bme jelentkezés tmit 2017 bigdata választható tárgy datascience

(Hallgatóknak rövidítve:)

BME választható tárgyak hiteles előadóktól:

- Alkalmazott adatelemzés (K-Cs 12h) minden órán laptopoddal dolgozol, Python, R és SAS + data science és gépi tanulás alapjai
- 'Big Data' elemzési eszközök nyílt forráskódú platformokon (Sz 12h) Hadoop, Spark, teljes big data stack

Go to Neptun!

a.jpg

(Külsősöknek, részletek után érdeklődőknek)

Idén is meghirdetjük a BME-n tartott legfontosabb tárgyainkat külsősök számára is. Ez azt jelenti, hogy a műegyetemista hallgatókkal együtt szeptember elejétől 14 héten keresztül lehet a data science és a big data világába betekintést kapni. 

A kezdeményezés igen népszerű, de a helyek számát korlátozzák (1) a rendelkezésre álló termek méretei, illetve (2) az az elvünk, hogy nem engedünk be több külsős érdeklődőt a tárgyra, mint ahány egyetemi hallgató jelentkezett az órára.

 

Ha az adatelemzéssel kapcsolatos programnyelvekhez szeretnél érteni

Tárgy neve: Alkalmazott adatelemzés (Applied Data Analytics, azaz ADA)
Kedd és csütörtök 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Az iteratív módon fejlesztett adatfeldolgozó eljárások vannak a középpontban, az adatelemzés programozási nyelveit tanítjuk nektek. A téma a data science alapfeladatainak megoldása abban az esetben, ha valamilyen programozási nyelven kell megoldani a problémát: SAS programozási nyelvet, Python és R programozást tanítunk úgy, hogy az órákon mindenki a saját gépén ugyanúgy készíti a programkódot, mint az előadó a kivetítőn. Igazi közös gondolkodás, szemléletátadás is így válik lehetségessé, hiszen itt tényleg bezavarnak a valós adatok sajátosságai, nem minden csodaszép, mint a machine learning könyvekben. 

Ha a big data technológiák dzsungelében szeretnél tájékozódni

Tárgy neve: 'Big Data' elemzési eszközök nyílt forráskódú platformokon
Szerda 12-14h
Terem: Lágymányosi kampusz, Magyar tudósok körútja
Tárgy hivatalos tematikája

Itt a Dmlab big data szakemberei adnak betekintést a területen kialakult technológiai stack felépítésébe. A MapReduce, Hadoop alapoktól indulunk, és a legújabb technológiákig jutunk el. Nyilván mindben teljesen nem fogunk tudni elmélyedni, de aki ezt a kurzust végighallgatja, az könnyen fog tájékozódni a big data technológiák között. A félév végén egy ZH és egy házifeladat alapján kapnak jegyet a hallgatók, külön kérésre a külsős kollégák is megmérettethetik magukat ezeken a számonkéréseken.

Mindkét tárgyra itt tudtok külsősként jelentkezni: JELENTKEZÉS

A jelentkezés alapvetően jelentkezési sorrendben történik, várhatóan a hét végén fogunk eredményt hirdetni. A hírlevélre feliratkozók között már néhány nappal korábban már kiküldtük az információt. A részvételnek nincs külön feltétele, a kurzuson való részvétel ingyenes. Van lehetőség arra is, hogy hivatalosan beiratkozz néhány tízezer Forintért a BME-re erre a tárgyra, ebben az esetben hivatalosan le is vizsgáztatunk, és mint hallgató vehetsz részt a tárgyon. 

3 komment