Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

 

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) 2019 (1) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (11) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (2) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ai (1) AI (3) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (2) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (5) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (29) Big Data (3) big data (12) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blockchain (1) blog (6) bme (2) BME (15) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) cancer detection (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (5) datasource (1) data engineering (1) data mining (1) data science (8) deep learning (1) diplomamunka (1) dmla1o (1) dmlab (15) döntési fák (1) döntéstámogatás (1) drill (1) e-commerce (1) egészségügy (1) előadás (24) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) eu (1) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) free (1) freebase (1) gartner (2) gazdasagi informatikus (2) gdpr (1) gépi tanulás (5) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hackhaton (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) image processing (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) interjú (1) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képfeldolgozás (1) képzés (6) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) kína (1) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (73) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (2) machine learning (3) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyitott (1) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (24) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (10) pytorch (1) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (41) RapidMiner (2) rcomm (7) refine (1) reinforce (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanfolyam (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) tensorflow (1) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) usa (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (4) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (2) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2013.04.29. 21:02 Gáspár Csaba

Prediktív analitikai megoldások tesztelése

Címkék: teszt fejlesztés kérdés algoritmus véleméy

A legtöbb esetben olyan adatbányászati projekteken dolgozunk, ahol egy-egy olyan elemzési feladatot kell megoldani, ahol a megoldásunk hatékonyságát "elég" egy független teszthalmazon tesztelni. Persze többféleképpen is tesztelünk, hogy érvényes, stabil megoldást kapjunk, ami valós összefüggések modellezése által képes predikálni egy-egy felügyelt tanulási feladatban. 

use-your-tools.jpgDe mi történik akkor, mikor új eljárás feljesztésébe kezdünk. Ekkor a célunk, hogy legyen egy jól implementált, minden esetben a matematikai értelemben rögzített specifikációnak megfelelő algoritmusunk. Hogyan nézzük meg, hogy egy adott implementáció tényleg megfelel a specifikációnak?

Ez egy látszólag triviális feladat, de gondoljuk végig hogy mennyiben más mint a poszt elején megadott: ott szinte mindegy, hogy azt csinálja egy eljárás, mint amit hiszünk róla, hiszen a lényeg, hogy ténylegesen hatékonyan működjön az adott teszthalmazon (persze nem ilyen triviális a feladat, hiszen a későbbi alkalmazási rétegben sem szabad hibáznia). De ha egy döntési fa egyel több vagy kevesebb szintet épít, mint amit mi eredetileg gondoltunk, nem gond. A szoftver íróit úgy tekintjük, hogy elvégezték a tesztelést és akár fekete dobozként is tekinthetünk implementációs szempontból az adott algoritmusra.

Szóval mit tegyünk, ha új eljárást implementálunk? Vegyük azt a esetet, amiben most mi is vagyunk: egy tőlünk független programozó csapat implementálja az eljárásokat, akik nem is feltétlenül értik minden részletében melyik részlépés milyen célt szolgál a specifikációban. Tesztelés kapcsán jönnek a jó programozói gondolatok: legyenek unit tesztjeink, smoke tesztjeink, stb. illetve adjunk nekik néhány olyan bemenetet, amin meg tudjuk "kézzel" határozni, hogy mi a kívánt kimenet. Ugye itt minden adatbányásznak el kezd viszketni a tenyere: mekkora az az adathalmaz, ami értelmes méretű és "kézzel"/"papíron" kiszámítható rá egy-egy komplexebb eljárás kívánt kimenete. Ugye itt némi numerikus hibákkal is számolni kell, az még kezelhető, de nagy adathalmazt legyártani nehéz, valós adatok esetén lehetetlen.

Adatbányászként persze tudunk speciálisan tesztelni is: az eljárást úgy paraméterezzük, hogy már meglévő eljárások működésére hasonlítson a kimenet és nézzük a kimenetek korrelációját, el tudunk rejteni egy-egy feladatban erős összefüggéseket és megfigyeljük tényleg megtalálja-e az algoritmus ezeket; lépésenként végigkövetjük a logokat, hogy tényleg azt csinálja-e az eljárás, mint amit elvárunk tőle.

Jók ezek a megoldások, de látszik, hogy nem garantálják a tökéletességet. Nektek van tapasztalatotok, sztoritok a témához? Biztos vagyok benne, hogy más is belefutott már ilyen szituációba, kíváncsi lennék, hogyan bírkóztatok meg vele. Mi a tapasztalat a "gyári" eljárásokkal, tapasztalataitok szerint mennyire vannak azok kitesztelve?

(Kép forrása)

4 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr585253329

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

teaház 2013.05.21. 15:38:58

Sziasztok!

Nekem sajnos még ennél is rosszabb tapasztalataim vannak. Hosszú évekig banki környezetben láttam modellépítést, csináltam modell validálást - banki /megrendelői/ oldalon ülve.
Az a tapasztalatom, hogy
- egyrészt az alapadatok nagyon sokszor teljesen megbízhatatlanok, s mivel ezek ellenőrzése (értsd: az adatminőség biztosítása) a szolgáltatók /tanácsadók / adatbányászok részéről plusz időt, plusz munkát és ezzel természetesen plusz díjazást is jelent, ezért sokszor a megbízó ezt nem akarja a projekt scope-jába beletartozónak tekinteni, s nem fordít erre pénzt és figyelmet. A szolgáltatói oldal pedig ebbe sajnos belemegy! Leírják a modelldokumentációban, hogy mivel az adattisztítás, az adatminőség biztosítás nem artozott a feladataik közé, az adattárházban tárolt adatok minőségét ellenőrzöttnek és megfelelőnek tekintik. Nem az!
- másrészt: az ilyen adatokon épülő modellekelőrejelző képessége vajon milyen? Van-e értelme ilyen modellekben magasan képzett szakemberek által fejlesztett és programozott, vagy akár "gyári", de mindenképpen szofisztikált eljárások tesztelésével, visszamérésével, a modell teljesítményének javításával fáradozni, amikor amit ez a modell "mondani" tud, abban hinni nem szabad! Legtöbbször a minimum évenkénti modellvalidáláskor ki is derül ez. Itt azonban sok más is színezheti a képet: pl.: válság előtti adatokon épült a modell, de bőven válság utáni, rossz minőségű portfolió az, amin validálunk. Boldogan megállapítjuk, hogy a modell minimum is félrekalibrált a fenti okokból és újra kell kalibrálni. DE: mi van, ha ez a hatás elfedi az eredendően rossz adatok okozta másik hatást, amivel eddig senki nem törődött? Semmi! Továbbra sem fog senki törődni vele, hogy - pláne 1-2 évvel a modellfejlesztés után - szétszálazza az összekuszálódott okokat. >>>> ROSSZ A MODELL! Így születnek a modellek a "polcnak". Soha többé nem használják őket, a szakma hitele meg töpörödik. :)

Pedig mi volt az igazi ok?

Az Andego blogján épp a minap jelent meg egy új bejegyzés, ami sokban ehhez hasonló kérdéseket feszeget. Hogyan vállalhat fel egy adatbányász cég %-ra célértékeket, ráadásul "sikerdíjjal", mint "kvázi mozgóbérrel" megspékelve, ha a felek kölcsönösen tudják, hogy a szerződésüknek olyan pontjai vannak, amik lehetetlenné teszik a becsületes munkát és így a megbízható eredményeket?

A Piackutatás.blog egy korábbi blogbejegyzésében ír arról is, hogy a piackutató szakma válságban van, mert évtizedek teletek el anélkül - bár tudta, mit kellett volna tennie -, hogy NEVELTE volna a megrendelőit, a "fogyasztó közönségét". Most meg már késő, mert szakmailag ugyan kevésbé felkészült, de a piacon szélesebb látókörrel rendelkező, átfogóbb eredményeket produkáló konkurensei "elorozzák" a vevőit, akik ezektől a konkurensektől fogyasztásra kész, rövid elemzéseket kapnak, amikben kimondják a kérdésekre a választ, nem csak odaadják az elemzési eredményeket és sorsára hagyják a vevőt, hozza meg ezek alapján a saját döntését ő maga! Ez is rosszul hangzik, vállalni kell a felelősséget és kimondani az eredményeket! Ugyanakkor ma a nem a képzett piackutatók által kimondott eredmények mögött sokszor szakmai sarlatánság van, de a rövid, ütős, színes, szagos végtermék ezt feledteti. A csalódás már csak akkor jön, amikor a szolgáltató már rég "levonult" és eltűnt a pénzével. Ez újabb bizalmatlanságot szül.

TANULSÁGOK:
1. a vevőt nevelni kell.
2. bármily nagy is a kényszer, nem szabad nemtelen alkukba belemenni és a szakmaiságból engedni a megbízásért, mert utána hiába vannak az algoritmus kitesztelések, a %-os beígért siker-eredmények, a visszamérések, a monitorozás, az újrakalibrálások (amik sokszor persze tényleg indokoltak, csak nem más dolgok helyett!!), a több oldalas anyabanki modellvalidációs utasítások, amiket végrehajtunk, mégis marad a nagy semmi! A modell (és a becsület) meg megy a polc sarkába!

Mindkét fél súlyosan hibás! Az eredendő problémát kell megoldani a fentiek mellett, mert minden a szemétszerű adatokon alapult következtetés rontja a hitelességet, mégpedig egyébként igazságtalanul! Nehogy későn ébredjünk!

Üdv: Teaház

Gáspár Csaba 2013.06.06. 21:00:55

@teaház: Itt nem annyira a modellekre gondoltunk, hanem arra, hogyan tesztelsz, ha egy új modellező eljárást szeretnél írni. A modellek visszamérése más téma, ez pusztán adatbányászati szoftverfejlesztési témát jelent.

teaház 2013.06.08. 17:03:30

@Gáspár-Papanek Csaba:

szia,

tudom igen, világos.
Amit írtam, az csak eszembe jutott arról, amiről Te írsz, hogy új modellező eljárást írnak az adatbányászok és kérdés, hogy ezt milyen módszerrel lehetne minél jobban tesztelni és implementálni. Ez szakmailag magas színvonalú tevékenység, valódi fejlesztés. De én pont arra szerettem volna rávilágítani, hogy az utóbbi években sajnos találkozni lehetett - hogy úgy mondjam - messze ez "alatti" problémákkal is és amig azok meg nem oldódnak, addig kvázi kicsit akadémikusnak tűnik a fenti kérdés, azaz az, hogy hogyan teszteljünk újonnan létrehozott, kifejlesztett adatbányászati eljárásokat?
Természetesen ez csak és kizárólag annak a közegnek a kritikája részemről, amely ez a kritikát megérdemli. Vannak olyan területek, ahol kiáltó a szakadék a szakmai csúcsok és a hétköznapi szakmai lét között. Nagy a gap a felfogás, a bizalom, a már megvalósultak használata és elfogadottsága, valamint a csúcstechnológiák, illetve egyedi megoldások belépése/beléptetése között.
Nyilván az a cél, hogy minél magasabb színvonalú megoldások szülessenek azonban ehhez elsősorban kell a kiérdemelt kölcsönös bizalom és a fogadóoldali ("kiművelt") szakmai igény(esség) is. Erről tanúskodik más szakmák "sorsa" is.
Csupán ezt akartam megjegyezni, nekem ez valóban csak eszembe jutott a témáról, nem kapcsolódik a kérdés megválaszolásához közvetlenül, de ha e téren tapasztalattal rendelkező kolléga megosztja itt az eredeti témára volnatkozó ötleteit, azt természetesen én is érdeklődve várom.
Üdv: Teaház

Gáspár Csaba 2013.06.10. 11:37:17

@teaház: Értem, hogy a kesergésed egy sokkal hétköznapibb témát érintett, de ettől függetlenül a tesztelési kérdés még létezik.

Megértem a kesergésedet is. A visszamérés kérdése adatbányászati szakmai szempontból kritikus, üzletileg mégis kevésbé hangsúlyos, és ennek erős üzleti okai vannak. Ha mi ezt a folyamatot támogatjuk, sokkal inkább érzem azt, hogy alkalmazkodnunk kell ehhez az igényhez, mint keseregni, hogy nem úgy történnek a dolgok, ahogy a mi szempontunkból ideális lenne. Nekem mindig gyanús ha a körülmények áldozatának érzem megam. Látható, hogy az adott szituáció nem a legjobb - de változtatni mi magunk és magunkon tudunk.

A másik sarokpont, hogy a bizalmat hiányolod a mi irányunkba, de ugyanakkor nagyon bizalmatlan vagy az üzlet terület rátermetségével kapcsolatban te magad is. A bizalom kiépüléséhez szükséges, hogy elfogadjuk: ha elmondtuk a megrendelőnek logikusan, miért kellene máshogy meghatározni a célokat, és ő mégsem változtat, annak megvan az oka, bíznunk kell abban, hogy az együttműködés szempontjából jó döntést hozott.

A legjobbakat:
Csaba