Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.04.08. 10:54 Gáspár Csaba

IX SPSS Konferencia - Beharangozó

Címkék: adatvédelem privacy konferencia beharangozó webanalitika ibm spss privacy preserving data mining

A konferenciaidény beindultával a múltkori konferencia beharangozó után egy újabb: április 21-én kerül megrendezésre a IX. SPSS Konferencia. A délelőtti szakasz központi témája az adatvédelem, délután pedig olyan előadásokra számíthatunk, melyek az adatelemzés, az adatbányászat új aspektusaira világítanak rá (a program itt érhető el).

A tematika kapcsán elsőre felmerült bennem a kérdés, hogy miért jelenik meg az adatvédelem ennyire hangsúlyosan. Kétségkívül nagy nevek fognak nyilatkozni a témában, de az adatvédelmet tipikusan valami szükséges rossznak, valami megkötésnek, kényszernek tekinti a szakma, és valójában keveset tud róla. Pedig potenciált kellene benne látni: vannak adathalmazok, melyeket nem tárolhatunk, nem köthetünk össze, van, mikor anonimizálni kell az adatokat, vagy titkosítani. A tipikus hozzáállás, hogy vagy áthágni kell a szabályokat, vagy tiltott területként elkerülni ezeket a területeket.

Pedig számtalan adatbányászati eljárás, technika lett kidolgozva arra, hogy a problémákat úgy oldjuk meg, hogy az adatvédelem és az elemzés kibékítve, egymást erősítve dolgozzon. Hány szakembernek mond valamit, a k-anonimitás vagy a privacy-preserving data mining? A konferencia kapcsán talán érdemes lenne elgondolkodni, hogy ezen az aknákkal kirakott mezőn van-e tényleges üzleti lehetőség. A kidolgozott algoritmusok valóban nagyon akadémikus jellegűek, gyakran mondvacsinált problémákat oldanak csak meg, de jó kiindulási alapot jelenthetnek arra, hogy olyan megoldások szülessenek, melyek képesek azon ügyféladatok tulajdonságait átmenteni, mikor törvényi kötelezettség miatt törölni kell már az ügyféltörténetet. Vagy két cég úgy tudná egymás adathalmazában rejlő összefüggéseket kihasználni, hogy konkrét adatokat nem is cserélnek ki egymással, csak az adatbányászati modellek részstruktúráit. Számtalan ötlet mellé egy-egy piaci lehetőség társítható.

A konferencia utolsó szekciójában én is szót kapok, első ránézésre lerágott csontnak tűnő webes adatbányászati témában fogok előadni. Mégis izgalmasnak, frissnek tartom az előadásom üzenetét, ennek oka, hogy az elmúlt három hónapban közel tíz olyan társasággal beszélgettem, konzultáltam, adtam elő, aki saját webes környezetében (webáruháztól a webes hírmagazinig terjedően) érdekes, új problémákkal kapcsolatban kérte ki véleményünket. Ezek kapcsán egy olyan izgalmas prediktív analitikai világot szeretnék bemutatni az előadásomban, ami nem ismerhető meg könyvekből, vagy a netet böngészve, csakis a webáruházak, hírportálok kulisszái mögül szemlélve, az üzlet és a prediktív analitika kooperációjával tárható fel.

7 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr911903824

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Gáspár Csaba 2010.04.08. 10:57:11

Tudom, hogy furcsa, hogy saját posztomhoz szólok hozzá, de felmerült bennem egy adatvédelmi kérdés: mi lenne ha a bankok a különböző jó és rossz adós listák összeállítása helyett egyfajta jó és rossz adóst jellemző modelleket cserélgetnének. Van ennek valamilyen adatvédelmi akadálya? Szerintem ez egy tökéletes kérdés lesz majd a konferencia előadói számára.

István Nagy 2010.04.08. 11:09:55

@Gáspár-Papanek Csaba: Nem hiszem, hogy az egyes bankokban az ügyfelekhez tartozó adatok tárolásának formátuma akárcsak megközelítően azonos lenne. De még ennél is sokkal nagyobb akadálynak érzem azt, hogy az ügyféladatok tárolásának adatmodellje magában is olyan mértékben tartalmazza az adott banki üzleti értékeit - viselkedési adatokat felhasználó modelleknél még inkább -, hogy ettől nem szívesen válnak meg, az amúgy is konzervatívan gondolkodó bankok.

jegalma 2010.04.08. 11:21:49

A rossz adósok definícióját a bankok a hatályos szabályozásokból (Bázel II) vezetik le. Emiatt ez elé egységes, ami alapvető elvárás egy közös rossz adós nyilvántartási rendszerhez fenntartásánál. (Gondold csak meg, hogy mi lenne, ha nem konzisztens módon vinnék fel a nyilvántartásba a rossz adósokat). A bankok rossz adós modelljei versenyelőnyt jelenthetnek: ha jobban ki tudják szűrni a potenciálisan rossz adósokat, akkor nyereségesebbek lehetnek. Ha a modelljeiket cserélgetnék, akkor a jobb modellel rendelkező bankok erről a versenyelőnyről lényegében lemondanának. Ezért ez szerintem inkább elméleti adatvédelmi kérdés, valós igény nem áll mögötte.

István Nagy 2010.04.08. 16:40:36

@jegalma: Nem is a célváltozó nem egyezőségére gondoltam, hanem arra, hogy mi alapján mondjuk meg, hogy valaki rossz adós. Bár valóban itt is vannak átfedések, de tapasztalat szerint ezek a változók bankonként változnak.

Gáspár Csaba 2010.04.08. 21:10:20

Én valahogy úgy képzelem, hogy azt mondja egymásnak öt bank, hogy ime itt van 10 egyértelmű változó, amihez tartozó konkrét ügyfélértékeket nem oszthatjuk meg egymással, illetve nagyon nagy üzleti érték van magában abban is, hogy nekem milyen domográfiai adatokkal rendelkező ügyfeleim vannak. Ezért aztán mind az öten egyfajta statisztikát, vagy adatbányászati modellt építünk, amibe reményeink szerint csak az az infó kerül bele, hogy ki mennyire jó adós. Ezt megosztom a többiekkel, és megkapom az ő adataikat is. Kérdés, hogy mi az a modell, amit ezután még használni is tudnak a bankok, és ténylegesen csak annyi üzleti értéket képvisel, ami miatt megosztani akarjuk. Lehet, hogy az öt bank egymással szemben veszít az előnyéből, de a többi bankkal szemben nyer, illetve általában az egész üzletág nyer: hitem szerint a itt nem feltétlenül nulla összegű játékról van szó, lehet a kooperációból olyan értéket is termelni, amit nem más kárára szerzek meg.

Persze tisztában vagyok azzal, hogy a bankos esetben ez nagyon utópisztikus, de nem vagyok benne biztos, hogy ha valaki ténylegesen jó technológiát tud felmutatni, nem lesz-e néhány szereplő, aki akár ki is próbálná a dolgot.

A labda szerintem most az akadémiai szféránál illetve az innovatív vállalatoknál van (nálunk): be kell bizonyítani, hogy a feladat megoldható. Én biztosan felrakom a témát a lehetséges diplomatervek közé. Ha valaki úgy érzi szívesen gondolkodna együtt velünk az ügyön, bátran jelentkezzen.

_Hose_ 2010.04.12. 20:36:33

Az előadásod anyagát (jobb esetben az egész előadást :) megosztod majd a konferencia után?

Gáspár Csaba 2010.04.13. 23:22:50

@_Hose_: Emlékeim szerint az SPSS ki szokta rakni az előadások anyagait a weboldalára, a linket majd ide is betűzzük.