Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) bi (13) BI (3) Bi (1) bi-trek (1) biconsulting (7) bigdata (24) Big Data (3) big data (6) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (2) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) data mining (1) data science (6) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (5) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) RapidMiner (2) rapidminer (40) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2011.09.23. 11:10 Gáspár Csaba

Versenyelőny adatelemzéssel - UPDATED

Címkék: trendek előadás konferencia idc bigdata

Most indul az előadásom az IDC Business Intelligence Roadshow 2011 budapesti állomásán "Adat az új olaj? - Mit ígér az adatbányászat" címen. Az előadásom célja az, hogy rámutassak mennyi új technológia, lehetőség, üzleti feladat jelent meg az elmúlt években a BI és azon belül is a prediktív analitika, az adatbányászat területén. Arra próbálom lelkesíteni a közönséget, hogy önmaga is nyisson az adatközpontú szemlélet irányába. Itt láthatjátok az előadás prezi.com alatt készült verzióját.

Az előadás végén néhány könyvet ajánlottam azoknak, akik szeretnének találni valami olyan írást, ami alapján maguk is jobban el tudnak mélyülni ebben a szemléletben. Olyan könyvek ezek, amik inkább ismeretterjesztő, elgondolkodtató művek, nem technológiai, matematikai hátteret adó írások. Én ezeket ajánlottam:

  • Stephen Baker: Numerátorok
  • Barabási Albert-László: Villanások
  • Thomas H. Davenport, Jeanne G. Harris: Competing on Analytics: The New Science of Winning 
  • Barabási Albert-László: Behálózva
  • Fajszi Bulcsú - Cser László - Fehér Tamás: Üzleti haszon az adatok mélyén

Szerintetek mivel lehetne még kiegészíteni a listát? Ötleteket kommentben szívesen fogadunk.

UPDATE: Időközben megjelent Kővári Attila blogbejegyzése a hazai és nemzetközi trendeket firtató IDC előadás összefoglalójával. A számok ismertetésén túl jó felvetéseket lehet olvasni az adatok a posztban, ajánlom mindenkinek.

16 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr723247286

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

_Hose_ 2011.09.30. 12:43:12

Nagyon találó a design :)

tnsnames.ora 2011.10.01. 16:50:28

Én csak a sorrenden változtatnék. ;) Az én sorrendem az alábbi lenne.

Az első könyv poziciója elvitathatatlanul és jó sok időre bérelt helyűnek tűnik. :o)

Másodiknak lehetne venni amúgy Barabási Behálózva című könyvét. Élvezetes is értékes is. Viszont mégis csak egy spéci terület az adatbányászaton belül, ezért vettem előrébb az IqSys-es könyvet, az ajánlati listán. Megjegyzem az utóbbinak van egy első (vékonyabb) kötete is, igen nehezen hozzáférhető formában, azt is érdemes lehet elolvasni. Iletve várományosak vagyunk egy harmadik kötetre is.

A másik Barabási könyvnek már nem sok hozzáadott értéke van a témában, szvsz, de el lehet olvasni, akinek kedve van hozzá.

De ha nem haragszik meg a blogposzt írója, ha ő írna egy könyvet én azonnal igyekezném felhabzsolni. ;)

* Stephen Baker: Numerátorok
* Fajszi Bulcsú - Cser László - Fehér Tamás: Üzleti haszon az adatok mélyén
* Barabási Algert-László: Behálózva
* Barabási Albert-László: Villanások
* Thomas H. Davenport, Jeanne G. Harris: Competing on Analytics: The New Science of Winning

Ha valaki megnézi például az Amazont: elképesztő mennyiségű könyv van és vár megjelenésre az adatbányászat témában. Jó drágák, sokszor jó redundánsak sőt egyenesen értéktelenek, míg csomó mindenről nincs jó könyv.

Amit én ajánlanék, de nem tudok, hogy erre lenne konkrét könyv az az adatbányászati sikersztorik: erőforrás-, idő-, költség-felhasználással, profittal, stb. A numerátorok egyfajta folytatása, mélyebbre ásása formájában.

Jó lenne olvasni egy adatbányász-versenyes könyvet is.

stb.

tnsnames.ora 2011.10.01. 18:54:11

Egy könyv eszembejutott, kár hogy nincs fordítása a magyar közönségnek.

Ian Ayres - Super Crunchers: Why Thinking-by-Numbers Is the New Way to Be Smart
www.amazon.com/Super-Crunchers-Thinking-Numbers-Smart/dp/0553805401

Kis formátumú 272 oldalas könyv, de közvélekedés, hogy meghatározó irodalom. Még én is megemlékeztem róla annó a blogomon.
:o)

Gáspár Csaba 2011.10.03. 19:32:24

Köszönjük a tippeket, valóban én is a numerátorokat javaslom elsőre. Néhol egy kicsit hatásvadász, de igazán inspiráló tud lenni, rámutat arra, hogy számtalan olyan helyen is lehet adatelemzéssel előnyt elérni, ahol az ember elsőre nem is gondolná, hogy ennek van jelentősége.

tnsnames.ora 2011.10.04. 12:46:54

Éltem "update-s" ajánlatottal ;) És azonnal dobtam egy hátast. Légyszí' segíts értelmezni.

A "statisztikai elemző szoftver" magába foglalja-e az adatbányászatot? Ha igen miért, ha nem, akkor hol van az adatbányászat?

Én egyébként szomorú vagyok a százalékok miatt. Aminek értelmét látnám (csoportmunkaszoftver, adatbányászat, keresés, szöveganalitika) az csak 33%, holott talán fordítva 66%-nak kéne lennie.

Innentől fogva nem is "mérgesítem" magam tovább az egész felméréssel... ;)

Gáspár Csaba 2011.10.06. 00:24:54

@tnsnames.ora: Szerintem a statisztikai elemző szoftverekbe számolták szerintem az adatbányászattal kapcsolatos alkalmazásokat.

Ugyanakkor csodálkozom hogy furcsa neked ez a 66%-33% arány. Tipikusan az BI lekérdező, feltáró megoldásaiból jelentősen többet használnak, mint a fejlett statisztikai módszerekből. Riporting megoldás, dashboard, jelentések használata több helyen kell, mint statisztikai elemzés vagy prediktív analitika, nem meglepő hát hogy volumenben ezek eladása megelőzi az általad említett megoldásokat.

Ezen túlmenően jóval több alkalmazott is használja azt egy adott cégnél, így egy adott cégre vetítve is jelentősebb szokott lenni ezek licenszdíja. Az már más kérdés, hogy a prediktív analitika komplexitása miatt fajlagosan több tanácsadói munkát követel meg, és gyakran jelentősebb ROI-t indukál. De nagyon speciális helyzetekben tudom csak elképzelni, hogy egy cégnél az adatbányászat, a keresés, szöveganalitika fejlettebb legyen mint a cég riporting rendszere.

tnsnames.ora 2011.10.06. 07:16:05

@Gáspár-Papanek Csaba:

I.
Hát ha beleszámolták az adatbányászatot a statisztikai elemző szoftverek közé, az
(1) Nem helyes, és nem segíti a jó összkép kialakulását az olvasókban
(2) Megkérdőjelezi olvasatomban a felmérés hitelességét. Hozzáértők csinálták-e használhatók-e a kapott információk avagy csak "zajnövelés". Persze az IDC név jól csenghet ("hisznek nekik sokan"), de az ilyen esetek nem feltétlen javítják az image-t.
(3) A problémás 66%-33% értékelését is pregnánsan befolyásolják.

2.
Nem egyértelműen fogalmaztam, ezért "csodálkoztál" :o) Érteni értem a 66-33% arányt és maga a dolog egyáltalán nem furcsa nekem se.

Viszont amikor azt írtam "értelmét látnám", akkor arra céloztam, hogy mibe kéne inkább fektetniük a megrendelőknek (szerintem)

A dashboard meg riporting, jelentések alapvetően
* működési költséget igénylő hagyományos cuccok az olvasatomban,
* jó sok overheaddel,
* tapasztalat szerint felesleges körökkel,
* nehezen pénzzé tehető outputokkal,
* zajjal spékelten
* mennyiségi szemlélettel (minöségi szemlélet ellenében), kominatorikus robbanás jelleggel
* sokszor a "fingreszelés" jegyében.

Igaz van egy nagyon nagy előnye az említett "66%"-nak (pl.: egy adatbányászattal szemben):
* értik a felhasználók,
* van rá motivációjuk és céges esélyük élni vele (pénzt allokálni rá)
* ha ilyen van addig is "van munka" a cégnél a potenciális felhasználóknak, pörgetik vele a mókuskereket.

Szóval én
* válságtünetnek érzem ennek a 66%-33%-ba való "bemerevedést" az "intelligencia" kárára.
* tartom hogy szomorúnak szomorúnak érzem a szinten maradást
* A riport-szaporodásban én elsősorban bürokráciát, egyre nehezebb, komplexebb, költségesebb, szerteágazóbb, adott esetben migrálhatatlanabb adatforrásokat érzékelek
* Sokkal hosszabb költséges utakat a várható haszon szempontjából sokkal kérdésesebb versenyelőnyökhöz.

Prekopcsák Zoltán · http://prekopcsak.hu 2011.10.06. 23:08:25

Én is sokkal jobban élvezem a prediktív analitikai projekteket, de azzal nem értek egyet, hogy a dashboard és reporting "fingreszelés" lenne, vagy hogy nehezen pénzzé tehető outputot generálna.

A döntéshozásban abszolút kritikus, hogy tényadatok álljanak rendelkezésre, és a reportok böngészése bizony sokszor ötleteket és döntéseket generál. A Google Analytics-ben sem nagyon találunk prediktív dolgot, mégis rengeteg segít abban, hogy konverziót növeljünk, megtaláljuk a kihasználatlan lehetőségeket, vagy a weboldal hibáit. Én kifejezetten jó értéknek tartom a 33%-ot, és én sem hiszem hogy jó ha ez a szám 40-50% fölé növekszik.

tnsnames.ora 2011.10.07. 15:35:00

@Prekopcsák Zoltán:

* Egy kis pontosítás a 33%-ba nemcsak a prediktív analitika számítódik bele az én korábbi csoportosításom által, hanem (csoportmunkaszoftver, adatbányászat, keresés, szöveganalitika). Illetve az IDC-nél effektíve meg sem jelenik az adatbányászat ugye. :o))

* Riportoknál többféle gond van, itthon Magyarországon, szvsz:

(A) Az egy fontos adat, hogy hány húsvér ügyfele van mondjuk egy banknak. És ezt nem tudja megmondani pontosan különféle DQM-problémák miatt például. Bár nem a riporting mint műfaj a hibás a konkrét esetben, mégis használhatatlan az eredménye.
Csomó riport foglalkozik evvel a problémával saját magán belül saját magával. Analógia: adóbeszedés önmagában is csomó adóforint elköltését implikálja (olvasaomtban egyébként helytelenül).

(B) Másik probléma kör a komplexitás. Túl sok riport, túl sok adat, túl kevés információ. Pláne ha mindez a kombinatorikus robbanás jegyében zajlik.

(C) Harmadik probléma a riporting hiányos változásmenedzsmentje, adminisztrálása. Amiről ha jól értem a tegnapi twitter egyik bejegyzését másnak is feltűnt. Riportálással remekül lehet látszattevékenységeket folytatni sokszor valós eredmény nélkül.

(D) Tartom, hogy nagyon nagy az overhead, hosszú az életcikluson belül a csak pénzköltés ideje a forintosítható eredményhez képest.

Abban viszont azért egyetértek, amit mondasz, hogy van olyan feladat, ahol lehet értelmesen riportálni, bár a dashboardokról egy fokkal azért nehezebben vagyok meggyőzhető. Azonban az arányokat továbbra is vitatom.

Itt nem az a kérdés, hogy riportálásos projektet csinálok szívesebben, vagy adatbányászosat. hanem hogy úgy vélem, adott esetben jobban látom egy-két döntéshozónál, hogy az ügyfél-cég miből tudna jobban profitot növelni, pusztán csak jobb informatika révén is. Ha a riportolás jobb mutatókat generálna - ökölszabályszerűen - én is nagy barátja lennék.

Gáspár Csaba 2011.10.08. 00:20:48

@tnsnames.ora: Örülök, hogy ilyen parázs vita alakult ki a kommentek között.

Szóval tovább fűzve a riporting vs. fejlett BI vitát: tegyük fel, hogy van egy döntéshozónk, vezetőnk, aki a bevételek növelését szeretné elérni. Az egyik fülébe az adatelemző suttog: "csinálj prediktív analitikát, legyenek személyre szabott hirdetések, nőni fog a bevétel", míg a másik fülében mondjuk egy marketinges suttog: "csináljunk egy remek reklámkampányt, támogassuk meg egy Facebook játékkal és egy okostelefonokon futó játékkal, mindenki minket tőlünk fog vásárolni". Ott ül szegény döntéshozó, de csak az egyikre van pénze. Hogyan tudná megmondani, melyik csábításra hallgasson. Közgazdászként a marketingről sokat hallott, adatelemzésből mondjuk valamennyi többváltozós statisztikát. Kire hallgasson?

Nyilvánvalóan az lenne a legjobb, ha megfogná a tényadatokat, és egy adhoc riporting megoldással megbecsültetné, hogy milyen hatást lehetne elérni a két módszerrel. Hogy nem lehet megmondani előre ez alapján. Persze hogy nem, de azért a múlt adatainak feldolgozásával lehet valamilyenfajta becslést tenni az alapján, hogy korábban egy reklámkampány mennyit tudott dobni az eladásokon, vagy hogy mennyire lehet hatékony egy személyre szabott megkeresés. De riporting nélkül még akkor sem tudná megbecsülni egy vezető a dolgot, ha a két módszer hatékonysága között nagyságrendi különbség van.

Végül egy saját élmény a témában: az egyik első önálló projektemben egy cégnek csináltunk adatbányászati projektet, aminek egyik korai lépésében csináltunk egy adatprofilozást. Az eredményekkel el akartam menni hozzájuk, hogy beszéljünk az adatelőkészítés dolgairól, de hogy ne ott lássák először az adatokat, átdobtam mailben a ppt-t előző nap.

Másnap reggel jött a telefon, hogy ne menjek a megbeszélésre. Az általam adott aggregált diagramokon olyan dolgokat láttak, amiket korábban soha, maga az egyszerű leírás az adatokról annyira gyökeresen más stratégiát követel a cégtől, hogy most három napig a teljesen át kell állítaniuk taktikai szinten a cég működését.

Ezért is hiszek nagyon abban, hogy a BI-nak megvannak a maga lépcsőfokai, melynek alján a riporting dolgok vannak, később a fejlett analitika, és persze vannak esetek, mikor be lehet előzni, de a legegészségesebb, ha szép lassan minden kiépül.

tnsnames.ora 2011.10.08. 07:27:49

@Gáspár-Papanek Csaba:

Én is nagyon örülük neki, hogy van tér, mód megvitatni ilyen szakmai kérdéseket, offline és mások által követhető módon. Részemről köszönet érte.

Egyetértek nem átugorható a riporting, én azt fájlalom, hogy kvázi még mindig ott toporgunk és nem jutunk tovább előrébb az általad is említett BI-lépcsőn.

Illetve ismét hangsúlyozom nemcsak a prediktív analitika "hiányzik" nekem, miközben a riportolás "sok".

A felhozott példáddal a következő problémáim van.

* Mennyire fontos az időtényező az általad említett döntéshozónál? Van-e annyi idő, hogy (A) egyértelműen a legjobbnak tűnő illetve,
(B) legegzaktabb (magyarán legkevésbé intuitív)
döntést hozza-e a vezető.

* Ha van idő, akkor a műfaj nem a riport vonatkozásokat erősíti, hanem az adatbányászati elemzések módszertanát vetíti előre, mik a fontos tényezők, milyen súlyúak, hogy befolyásolják a jövőt stb.

* Szakmai értelemben nagyon durvát fogok előre is elnézést kérek érte, de nekem ez az alábbi az olvasatom.
A riporting (meg az OLAP) egyértelműen a múlt megértését támogatják, de csak azt. Az adatbányászati elemzés meg a jövő megértését is próbálja egzakt keretek közé szorítani. Ennyivel több, ezért fontos az utóbbi.

* Persze lehet dönteni idő szorításában és/vagy kevésbé egzakt (intuitív) alapokon, de lássuk be az más kávéház, a mai komplex, adatokkal meg, digitális lábnyomokkal szerencsére jól ellátott, kombinatorikus robbanásos világban.

* Kérdés mit tekintünk riportingnak. Benne foglaltatik-e például egy új (pláne elosztott, némileg redundáns(?) versengő) adatpiac építése-e.

Az én olvasatomban több minden miatt sem lenne szabad része legyen, csak implikálhatja.
- AZ IDC felmérésnek sem része. Egy DW-építés triviális implicit alapkövetelmény, ha BI-ról akarunk beszélni.
- Más a tervezési módszertan
- Analógia: annó sem úgy volt, hogy valaki gondolt egyet és létrehozott egy táblát/mezőt az adatbázisban, mert kell neki valami. Kapcsolatok IS vannak ugyanis a vállalati információs elemek között.
- Egy uj riporting plusz információs igényét bele kell ágyazni változásmenedzsment részeként, szétdivergálást elkerülendő, a cég életébe.
- Ha így nézzük a riporting nem más mint egy módszertanilag kicsit tuningolt csicsázott lekérdezés. Könnyű szaporítani no meg mennyiségi és minőségi káoszt csinálni vele. Mindehhez egy "rásegítő" kérdés: ha valaki SQL-t ír: el szokta-e menteni filerendszerbe/adatbázisba, hogy legközelebb csak elővegye, ha kell, avagy kevésszer ment és egyszerűbb neki újra begépelnie az sql-t!
- STB, és még tengernyi dolog miért nem riporting projekt hatásköre (csak érintettségű) a céges DW-fejlesztés.
(A) Az én durva konlúzióm (és bekövéríteném, ha lehetne) -> minél jobbak az adatforrások, annál feleslegesebb a riporting.
(B) Kiválasztani melyik riport a leghasznosabb, leginformatívabb. Az igen az feladat, az üzleti intelligencia. Ez viszont már nem riporting műfaj.

Végül utolsó (durva) érvem, egy adatprofilozás kevésbé a riporting sajátja, inkább az adattárház fejlesztéseké meg a standalone adatbányászati elemzéseké. Ami esélyesen torkollik aztán DQM-be, ami meg torkollhat klaszterezésbe, osztályozásba amik klasszikusan adatbányász-feladatok már effektíve is (egy deduplikáció során).
Egy fikarcnyi riport nélkül is.

A mondandóm érdekében mémileg sarkítottam, extrapoláltam, nyilván a valóság ennél összetettebb, finomabb. De a valóságot nem fogjuk blogposzt kommentekben megérteni és kijavítani. .o)

tnsnames.ora 2011.10.08. 10:15:37

Na még egy érv a riporting projektek ellenében. ;)

Biztos mindenki hallott a devizahitelek 180-as végtörlesztéses elképzeléséről illetve rapid módon való törvénybefoglalásáról.

A dolog csak annyiban érdekes itt, hogy egyik pillanatról a másikra két nagy bank (Erste és Raiffeisen) Magyarországról való kivonulást kommunikált ki (amit aztán visszavont)

Hol tudja "lekövetni" a riporting a maga ciklusidejével meg és (általa is generált) problématengerével, a szükséges reakciók révén az ilyen labilisnak tűnő időket, ha cél, hogy ne csak intuitive döntsünk?

Gáspár Csaba 2011.10.08. 11:37:50

@tnsnames.ora: Úgy látom, azért annyira nincs messze az álláspontunk, mint azt korábban - talán a sarkítás miatt - gondoltam.

Két gondolatot ragadnék ki: az egyik, hogy az adatprofilozás nem riporting. Talán rossz szót használtam, az adatbányászati projektek elején folyó adatfeltáráshoz csináltam annak idején ábrákat. A konkrét példában azt mutattam meg, hogy egy adott csatornánkon érkező ügyfelek milyen módon befolyásolják a célváltozót (kb. a cégnél vásárolt termékek összértékét). Azért azt érezni lehet itt, hogy ez inkább a riporting világába tartozik.

A másik igen sarkalatos állításod, hogy ha jó az adat, akkor kevésbé kell riporting. Én pont fordítva gondolkodtam, de remélem megmagyarázod majd ezt a kijelentést.

Végül annyit, hogy én a riporting fogalmát elég tágan értelmezem: standard riportok, adhoc riportok és az én olvasatomban az OLAP megoldások is ide tartoznak. Csak azért írom ezt, mert gyakran úgy érzem, hogy a riporting megoldásoknál mindig valami irreleváns, használhatatlan, túl sok információt tartalmazó valamiről beszélsz. Képzeljünk el inkább valami nagyon pofás, jól használható, lefúrásokat, ad-hoc elemzéseket támogató jó megoldást, adatbányászatnál sem a bóvli, visszamérést sosem alkalmazó, túltanult modelleket használó megoldásokról beszélünk.

tnsnames.ora 2011.10.08. 13:03:45

Egy hete zárult "inverz" projekt kick-off meetinggel egy dw-migrációs brutális projekt az életemben, aminek része bírtam lenni. 1400 db töltő ETL-job, sokezer tábla, sokezer procedura, egy-egy procedura sokszor sokezer 3GL kódban megírt kódsor. Globálisan nézve valami horrorisztikus riporting vonzattal. Ha ellenséges vagyok a riportiggal, akkor végsősorban tudjátok be ennek. ;)

A riporting számomra (1) algoritmusos, logikusan levezethető (2) mondhatni szabványos dolog, ahol már nehéz bármiféle melegvizet feltalálni. Biztos van benne innovációs potenciál, de akkor mit mondjak például egy adatbányászatban lévő innovációs potenciálra? ;)

Igen sajnos a riporting számomra sokszor azt jelenti amit te is írsz. De ha elrugaszkodunk a gyarló gyakorlattól, én teoretice is vitatom legalább a hatalmas perdöntő súlynak helyességét: például cost-benefit alapon is.

Az adatprofilozás -> en.wikipedia.org/wiki/Data_profiling, vannak rá szoftveres megoldások is, pl.: Oracle-nek. Én alapvetően az adatintegráció részének (első lépésének) gondolom. Ez jóval egyszerűbb, jóval inkább riportingba tartozó téma annál amit te mondasz ügyfélkör-célváltozó témában (ami jóval komplexebb)

De én még ezt a szimpla adatprofilozást sem utalnám a riporing topikba, ugyanis szemben avval a gyakori potenciális hibával, amikor csak entitásokat/táblákat és oszlopokat adatprofiloznak, én alapvetően idegondolom a kapcsolatok adatprofilozását is. Márpedig az már O(n^2)-es probléma, amit hagyományos brute force riportinggal nem lehet triviálisan jól kezelni.

Amit te hozol példa az már kökeményen elemzési-rész, ráadásul szabad szöveggel, (nem puszta triviális atomi információ kész riportból). Már ha jól értelek.

Igen a riport nálam is ad-hoc, standard riportok és én is említettem az OLAP-ot.

Kompromisszumos ajánlatom neked a témában -> ha a múlt megérthető a cégen belül az általad említett lefúrásokkal meg egyéb riporting technikákkal, illetve tud érdemben alkalmazkodni a változásokhoz: akkor én is szükségesnek, jónak meg támogatandónek tekintem a riportingot ebben az esetben.
Az én egyetlen problémám, hogy ilyet még nem láttam: biztos rossz körökben forgolódtam. Míg jó adatbányászatos projektet nem is egyet. ;)

Adatbányászat visszamérés nélkül nézetem szerint sarlatánság (tendenciájában). A példádnál maradva ezzel inkább az analóg, ha riporting output csak elkészül, de senki nem használja. /Azért csendben megjegyezném, adatbányászati projekteknél, főleg ha csak projektbudget elköltésről van szó csupán, még ma is maradoznak el visszamérések: ilyen értelemben jó volt a felhozott példa/

Hogy a jó adatforrás (és mögötte lévő projekt) miért implikálja a riporting eliminálását, az egy nagyon nehéz és hosszú téma, nemigazán akarnám itt most összecsapni. Már így is kezd túl sok lenni belőlem.

tnsnames.ora 2011.10.08. 13:21:19

Újabb mazsola/adalék, riporting-ellenesség jegyében:

Riportingolás egyik klasszuikus eglatáns példája pénzintézeteknél a kötelező jelentés. Ahhoz, hogy ezt valaki érdemben értse mit jelent, annak bele kellett kóstolnia: kezdve avval, hogy hogyan hazudjunk konzisztensen, ha ez követelmény.

Ami tárgyunk szempontjából viszont most fontos; a PSZÁF mindig is brutális riportingot várt el a saját kontrolljához. Csak éppen a devizahitelezés országot rombadöntő jellegét nem sikerült annó kiolvasni belőle (pedig ez sok hétköznapi embernek sikerült riporting nélkül is).

Ne értenének a témához a PSZÁF-ban, nem lennének megfizetve, ne lennének korrektek? Ezek költői kérdések, váloszolja meg mindenki ahogy tudja.

tnsnames.ora 2011.10.16. 10:30:27

Na akkor az adósságom, hogy a jó adatrendszer miért eliminálja (nálam) a riportingot. Már sikerült annyira összeszednem a gondolataimat, hogy egy draft leírást elengedjek egy kommentben.

Absztrakt folyamat szintjén mi a riporting?

* gép(riporting) -> ember interakció
* kivált egy ember keltette (re)akciót

(1) ember felé
[a]saját maga felé magyarán refelexiven gondolkodásba esés avagy
[b]másik ember felé

(2)egy újabb gépi akciót (manuális input, program indítás, stb.)

Kezdjük távolról egy (könyves) analógiával.

1.kérdéskör:
(A) Meg akarjuk tanulni az analízist. (Ki|Meg)veszünk - régi statikus metódussal - egy akár pusztán egy szerző által írt, tartalmában releváns, koherens kétkötetes könyvet a könyvtárból és ha megértjük, tehát esélyesen meg is jegyezzük általa, ilymódon valszeg átmegyünk majd a vizsgán.

(B) Up-To-Date akarjuk magunkat tartani például adatbányászatból - modernkori metódussal. A folyamatosan ömlő szakirodalom (csak az amazon.com-on láthatóan, plusz cikkek tömege) ömlik ránk. Az adat és információ kombinatorikusan robban, ijesztően redundáns, borzalmasan zajos módon, csak mazsolázni tudunk (van időnk). Lehet, hogy elolvasunk egy új könyvet és három mondatban leírható a veleje. Úgy vélem: túl sok melő, túl nagy szemétdombon, túl kevés várható haszonnal.

Az gondolom, hogy a mai üzleti élet a (B) verzióval harmonizál, sokszor a káosz határát súrolva.

2.kérdéskör:
Elkezdjük-e azonnal olvasni az új könyveket, avagy tartalomjegyzékben abstractokban gondolkozunk-e előbb, még elolvasás elött?

3.kérdéskör
Linuxos vagy SQL-es módiban (parancssorban persze, merthogy ugye a GUI "felesleges") elkezdünk-e manuálisan kivonatolni avagy felmerül-e a gépi kivonatolás gondolata. És akkor máris befigyel az adatbányászat, ugye... ;)

Váltsunk vissza riportingra:

Mik a jó riporting-output ismérvei?

(1) gyors, gombnyomásra azonnal jön, mobilon megtekinthető, a nap 24 órájában akár (ha a szerver offline/elérhetetlen akkor is).

(2) releváns legyen

(3) befogadható szükséges minimális a mennyisége, relevancia szerint csökkenően rendezett listából. Addig olvashassam, amíg akarom/bírom.

(4) megbízható legyen: megfelelő kérdésre megfelelő válasz és ezt tudjam is mint felhasználó. Analógia: "a számítógép nem azt csinálja amit akarsz, hanem amire utasítod". ;)

(5) a minimalitással összhangban minél alacsonyabb komplexitású legyen (atomi, dekomponált, elosztott számítástechnika jegyében), jogosultságot is könnyebb adminisztrálni, párhuzamosítási/skálázási törekvéseket is jobban támogatja.

(6) rugalmas/adaptív legyen a mögötte lévő információs rendszer. Ne cserélni kelljen, hanem kozisztensen bővíteni, módosítani gyorsan/hatékonyan.

(7) Legyen használva!!!! Amit nem használunk az zaj és szemét, illetve plusz költségeket generál például egy migrálásnál.

(8) Világosan legyen szétválasztva, hogy mi az ember, mi a gép hatásköre.

Mi a modernkori informatikus feladata?

(A) Legyen a megrendelőnél sokkal okosabb/bölcsebb, komplexebb, nagyobb tudású? A való világot képezze le egy "riportingnak" nevezett homokozóba, ahol lehet játszani, klikkelgetni, amit aztán meg is lehet unni és/vagy elavulttá (vagy csak csökkenő hozzáadott érték-növekedésű) tud lenni? Van-e erre kedv, idő? Nekem ez az egész úgy ahogy van nem tetszik!

(B) Én azt gondolom (absztrakt módon)
(1) az informatikus az üzleti megrendelővel együtt határozza meg a fontos kérdéseket
(b) tapossa ki az útját, hogy a jövőben keletkező új kérdések, új prioritások hogyan kezelődjenek, változásmenedzsment keretében.
(c) Végül implementálja a kérdésekből a válaszokba vezető utat.
(d) Occam borotvája elvén, zaj és redundanciamentesen, dekomponáltan, skálázhatóan.

(B) gondolatmenetnek az adatbányászattal való bárminemű rokonsága nem a véletlen műve. :o))))

Uralni kell tudni a mennyiségileg, minőségileg robbanó információs állapotteret, a riporting meg, a statikusságával, problémáival, ennek a legrosszabb módja, elvileg is (szerintem).