Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (3) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) bi (13) BI (3) Bi (1) bi-trek (1) biconsulting (7) bigdata (21) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (14) bme (1) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (1) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (22) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (5) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2016.11.03. 21:37 Gáspár Csaba

Csavarjunk egyet az innovatív adatelemzési irányok keresésén

Címkék: menedzsment projektmenedzsment metodika crisp-dm aglitás

crisp_dm.pngA Nagy Könyvben az áll, hogy egy valamirevaló adatbányászati / adatelemzési projektet a CRISP-DM (Cross Industry Standard Process for Data Mining) metodika szerint érdemes menedzselni. Eszerint egy projektnek hat fő fázisa van, (1) első lépésben megértjük az üzleti problémát, majd (2) a hozzá kapcsolódó adatokat, (3) adatátalakításokat végzünk, (4) gépi tanulási vagy statisztikai modelleket futtatunk, (5) kiértékeljük a kapott eredményeket üzleti szempontból, és persze ha minden klappol, akkor (6) hadrendbe állítjuk a megoldást. Nyilván ennél bonyolultabb a helyzet (a részletes leírást a metodikáról itt olvashatunk), szinte mindig van szükség iterációkra, mikor egy vagy több fázist is vissza kell ugranunk az aktuális lépés során tapasztaltak miatt. Érdekes látni, hogy ez iteratív fejlesztés mennyire jól illeszthető a ma egyre jobban terjedő agilis szemlélethez. 

De nem is a CRISP-DM metodikát akarom most kivesézni, felülbírálni - minden hibája ellenére igazán szeretem, gyakran mentett meg minket kényes helyzetekben. Inkább egy újfajta jelenségre szeretném felhívni a figyelmet: egyre többször van lehetőségünk olyan módon elkezdeni egy-egy projektet, hogy nem a legelső fázisnál, az üzleti feladat megértésénél indulunk - hanem a másodiknál, az adatok megismerésénél.

Arról van szó, hogy vannak vállalatok, akik nagyon vágynak arra, hogy valami igazán izgalmas, jelentős üzleti hatást felmutatni képes adatos projektet indítsanak, és a lehetséges partnereket állandóan szondázzák, mondjanak valami igazán ütős use-case-t. Gyakran egy-egy jó pozícióban levő tanácsadó cég is megkeres hasonló feladattal: "bent ülök az X cég big data board-jában, most dolgozzuk ki a stratégiát, ha van valami remek alkalmazási ötletetek, mondjátok el, ha elég jó, lehetne belőle jó üzletet csinálni". 

Nagyon nehéz ilyenkor valami jó javaslattal előállni, faramuci helyzet, hogy nem a megrendelő hozza az üzleti problémát, hanem mi. Ezért ezekben a helyzetekben gyakran azt javasoljuk, forduljunk az adatokhoz: néhány ilyen megkeresést át tudtunk alakítani egy adatvezéreltebb gondolkodás mentén működő projekté:

  • Elsőként hozzáférést kaptunk az adatok egy részhez, és egyszerűen megértettük milyen típusú, mennyiségű és minőségű adattal élnek együtt ezek a cégek. Tipikusan néhány érdekes adatkört adtak oda, ami szerintük is tartogat meglepetéseket.
  • Ezt követően egyfajta data discovery fázisban kicsit megpiszkáltuk az adatokat, mit is rejtenek. Ezek az elemzések egyfajta ad-hoc riportoknak foghatók fel, segítenek abban, hogy ötleteket tudjunk adni arról, mire is használhatók ezek az adatok. Lényeg, hogy itt az adatok is súgnak nekünk.
  • Az adatok ismeretében készítettünk jó sok javaslatot, hogyan lehetne üzletileg kiaknázni az adatokat. Itt a friss, más nézőpontból érkező szemünk adata lehetőségek (és korlátok) mentén leírtunk 10-20 use-case-t, esetenként néhány slide-nyi anyagot szedtünk össze. Egy-egy ilyen javaslatot gyakran néhány, a cégre vonatkozó adattal is megtámogatunk.
  • Ezeket vizsgálta meg a megrendelő üzleti csapata, a use-case-ek jelentős része nem érte el az ingerküszöbüket, de mindig akadt egy-kettő, ami érdekelte őket. Mivel láttak hozzá néhány releváns adatot, gyakran könnyebben meggyőzhetőek ilyenkor, mintha külsősként azt mondom, ez biztos megoldás után kiáltó gond nálatok.
  • Ezt követően általában egy proof-of-concept fázis jön, mikor az adott use-case-re kidolgozzuk az elemzést a múltbeli adatokon, itt bizonyítjuk be, hogy érdemes ez az elemzést, adatbányászati modellezést folytatni.
  • Végül, ha ez utóbbi lépésben is meggyőzők voltunk, akkor foglalkozunk a megoldás integrációjával, ekkor kerülnek fel az eredményeink a dashboard-okra, beépítjük a kalkulációkat a rendszerekbe, és itt dolgozzuk ki hosszú távon hogyan érdemes frissíteni az eredményeket.

gut.jpgLátható, hogy az iteratív, egyre komplexebb megoldásokat kihozó szemlélet itt is megmaradt, de az első pont az adatokról szól, és nem az üzletről. A döntések meghozatalánál persze az is sokat nyomott a latba, hogy így a költségek is fokozatosan jelennek meg. Az adatfeltárás + use-case készítés jóval kisebb feladat (8-21 nap), mint mondjuk a historikus adatokon már futó poof-of-concept megoldás kialakítása, de az igazán komoly befektetést igénylő integráció előtt van egy érvényes döntési pont, ahol múltbeli adatokra támaszkodva jól meg lehet becsülni az üzletre gyakorolt hatását az adott megoldásnak.

Én igazán szeretek így dolgozni, nagyon kreatív és sokkal üzletszagúbb megoldások tudnak így létrejönni. És attól a pillanattól fogva, hogy a partner saját adatain futó elemzésekkel támasztjuk alá a mondandónkat, sokkal érdekesebbek lesznek az elsőre akár túl egyszerű vagy sci-fi jellegű ötletek is.

ideaw.gifÉrdekes számodra ez a megközelítés, mert a Te cégednél is van egy állandó ötletvadászat az innovatív irányokat illetően, de valahogy mindig az az érzésed, hogy a bejövő ötletek valahogy nem hitelesek. Írj nekünk, és mi szívesen segítünk a fenti metodika szerint megtalálni azt, ami nálatok valóban érdemes bevezetni.

Gáspár Csaba: gaspar.csaba@dmlab.hu

Szólj hozzá!

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr9411925729

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.