Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.04.23. 19:28 Gáspár Csaba

Mosogat, főz, ír, bányászik

Címkék: könyv 2010 adatbányászat tracking nyomkövetés iqsys iqsymposium

A több mint egy hete zajlott IQSymposium kapcsán írt posztsorozatunk következő állomásaként Fajszi Bulcsú (IQSys) előadása kerül a középpontba. Bulcsú lényegében azt foglalta össze előadásában, hogy az IQSysben dolgozva hogyan látja az adatbányászatot, annak fejlődését, mely pontokra kell helyezni szerinte a hangsúlyt. Az előadás könnyed stílusa megengedett néhány aranyköpést is: az adatbányászati munka miatt kénytelenek gyakran az adattisztítással is foglalkozni, azaz aki szeret főzni, annak sajnos mosogatni is kell (pontosítást szívesen fogadok), illetve felhívta a figyelmet arra, hogy az egyik esettanulmány jellegű szekcióelőadásban bemutatják majd, hogyan ötvözték a SAS és az Oracle hátrányait.

A teljes tartalom ismertetése helyett három momentumot szeretnék kiemelni Bulcsú gondolataiból. Elsőként azt, hogyan definiálta az adatbányászatot. Parttalan vita lenne, ha a definíción magán sokat molyolnánk, nincs általánosan elfogadott és vitathatatlan verzió. De pont a vitathatóság az izgalmas ebben. Ezért is szállok vitába Bulcsú definíciójának azon részállításával, hogy adatbányászatot mindig olyan adatokon végzünk, amelyek eredetileg nem az elemzés célját szolgálták. Való igaz, hogy gyakran kell hozott anyagból dolgoznunk, más operatív rendszerek melléktermékeként megjelenő adathalmazokkal teljesen más feladatot megoldanunk. Szerintem ez nem az adatbányászat mivoltából, hanem az üzleti környezetből következik. Tipikusan nem engedheti meg egy adatbányászati tartalommal bíró projekt, hogy saját céljaihoz külön, célzott adatgyűjtést végezzen. Ezen túlmenően az elemzés fókuszában levő ügyfelek felé is rosszul kommunikálható, hogy direkt elemzési célokra kérünk tőlük adatokat. 

És ha már kötözködöm, jöjjön egy IQSymposiumos ellenpélda. Az IQSymposiumra regisztrált látogatók nyakába olyan névtáblákat lógattak, melyeken a résztvevőhöz köthető vonalkód volt olvasható, majd a szekcióelőadások termei előtt belépéskor rögzítették a vonalkódokat. Nyilvánvalóan nagyon értékes és érdekes adathalmazhoz jutottak a szervezők a résztvevők nyomkövetésével: névszerint láthatóvá vált számukra, hogy kinek melyik előadás volt érdekes. Az értékes adatok elemzése során használt adatbányászati eljárásokról állíthatjuk, hogy nem újrahasznosított, hanem célirányosan gyűjtött adatokat dolgoz fel.

Érdeklődéssel hallgattam arról is, hogy az IQSysben folyt projektek során hogyan alakult át az adatbányászati feladatok jellege. Bulcsú ezeket három generációra osztotta, maga a felosztás gondolatmenete nem volt teljesen tiszta számomra (megfejtéseket szívesen fogadunk a kommentben). Az első lépcsőn a pénzintézeti adatbányászat (hitelbírálat, keresztértékesítés állt), a második lépcsőn a lemorzsolódás előrejelzés, termékaffinitás, kampányoptimalizáció, early warning jellegű megoldások, illetve a viselkedésalapú ügyfélszegmentáció állnak, míg a jelenlegi harmadik generációt a kapcsolati hálók, a lemorzsolódáselőrejelzés, kockázatkezelés, csalásdetektálás jelenti.

Véleményem szerint a kapcsolati hálók megjelenése ténylegesen fontos, új elem az elemzés területén. Korábban a demográfiai adatok mellett a viselkedést leíró, aggregált információk felhasználása számított újdonságnak, újszerű megközelítésnek, most az entitások kapcsolata az ami felrázza a kialakult struktúrákat. A kapcsolati hálók világával persze nem zárul be a világ, véleményem szerint az elemi tranzakciók, idősor jellegű adatok nem aggregátumokra támaszkodó feldolgozási módja, illetve a kimondott, leírt szó, szöveg megzabolázása az, ami új dimenziókat fog adni az elemzéseknek. És még akkor nem beszéltünk a tranzakciós szokások, kapcsolati háló időbeli változásait figyelembe vevő elemzésekről. Én úgy fogalmaznám meg a változás jellegét, hogy a strukturált adatok mellett a (félig) strukturálatlan vagy egyedi struktúrával rendelkező adatok egyre nagyobb szerepet kapnak.

Megjegyzem, hogy az előbbi feldolgozás kizárólag az input adatok irányából járja körül a terület változásait. Tudom, hogy üzleti megfontolások miatt az ezeréves elemzési technikák (logisztikus regresszió, döntési fa) kirobbanthatatlannak tűnnek, de hitem szerint lassú elmozdulás itt is várható (a tengerentúlon a banki gyakorlatban ezen túlmutató technikák már megjelentek).

Az áttöréshez mozdulni kell fejben az adatelemzőnek, de még inkább az üzleti oldalnak. Merem állítani, hogy a továbblépéshez leginkább az üzleti oldal tudását, szemléletét kell változtatni, fejleszteni, ezek most a legszűkebb keresztmetszetek. Látja ezt az IQSys is, és mert lépni is az ügyben: a konferencián bemutatott új könyvük elsődleges célja, hogy az üzleti oldalt nevelje, a közös nyelv kialakítását elősegítse. Jól mutatja ezt az a gesztus is, hogy minden megjelent látogatónak ajándékba adtak egy példányt a könyvből.

Az üzleti döntéshozók, a BI felhasználók fejlesztése közös szakmai érdekünk, minden ilyen kezdeményezést örömmel támogatunk.

Van ötletetek arra, milyen módon lehet az adatelemzési, adatbányászati szemléletet az üzleti szférában erősíteni, terjeszteni?

2 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr461946314

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Gáspár Csaba 2010.04.23. 20:47:01

Gáspár-Papanek Csaba 2010.04.23. 20:45:56
Egyből találtam is egy érdekes vonatkozást a záró kérdéshez: Az Adattárház Fórum 2010 konferenciához ( www.adattarhazforum.hu/2010 ) egy külön adatbányászati workshop fog kapcsolódni, ahol kiscsoportos keretek között konkrét tudáshoz juthatnak az érdeklődők (Workshopokról bővebben, mert el van rejtve az oldalon: www.adattarhazforum.hu/2010/program_workshop.shtml )

István Nagy 2010.04.24. 08:04:38

A három generáció lényegét én abban éreztem, hogy az elsőben csak statikus - demográfiai, állandó termékjellemzésre szolgáló - adatokat használtak. A második generációban az ügyfelek viselkedési, tranzakciós adatait is felhasználták, abból fix táblát gyártva és azt elemezve. A harmadik generáció pedig megpróbálja majd felhasználni az entitások felett értelmezett kapcsolati hálózatot: legyen az emberek közötti kapcsolat, vagy egyéb entitások kapcsolata.