Adatbányászat Blog

A Dmlab szakmai blogja - dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adattárház (5) adattárház fórum (6) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) agy (2) ajánló (8) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) api (2) Arató Bence (2) bank (1) barabási (2) beharangozó (18) bejelentés (2) belami (1) best practice (5) beszámoló (14) bi (13) Bi (1) BI (3) bi-trek (1) biconsulting (7) bigdata (15) big data (3) Big Data (2) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (9) bootcamp (1) brainstorming (1) bsp (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) data mining (1) data science (4) diplomamunka (1) dmlab (10) döntési fák (1) drill (1) e-commerce (1) előadás (20) élő közvetítés (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (1) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (2) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (3) google (6) google analytics (1) graphlab (1) gravity (3) greenplum (1) hadoop (10) hallgatók (2) hálózatelemzés (2) hálózatkutatás (1) hálózatok (2) hazai (1) hiba (3) hírlevél (1) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (3) jmp (2) kaggle (1) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (1) képzés (2) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (67) könyv (5) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kutatás (2) lemorzsolódás (1) licensz (1) magyar telekom (1) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (10) mellékspecializáció (1) mém (2) memóriacentrikus (1) menedzsment (1) metaadat (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (15) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (14) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (3) publikáció (1) python (4) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (38) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (7) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (1) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (1) teradata (2) teszt (1) text mining (1) tmit (2) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (16) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (16) videó (3) vizualizáció (4) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2014.11.20. 08:12 István Nagy

Óriási siker a Slush pitch versenyén

Alig telt el öt hónap azóta, hogy itt a blogon is bejelentettük, hogy az első olyan technológiai spin-offot, a Radoopot, amelyet a Dmlab inkubált, felvásárolta a RapidMiner, most egy újabb remek hírt szeretnénk veletek megosztani a csapatunkkal kapcsolatban.

A Slush konferencián, ahol a Prezi bejelentette, hogy elérték a 50M felhasználót, valamint, hogy következő körös növekedésre szánt befektetést kaptak (amihez ezúton is gratulálunk), csapatunkkal az enbrite.ly-val elhoztuk a legjobb pitchért járó díjat és a vele járó 500.000 eurós befektetési lehetőséget. 

Az enbrite.ly-ban egy olyan terméket fejlesztünk, amely a weboldalakon lévő felhasználók viselkedésének elemzésével kiszúrja a robotokat és a gyanús forgalmat, és így az egész online reklámpiacot ellenőrizhetőbbé és átláthatóbbá teszi. A szolgáltatás nem egészen fél éve, még csak egy papírlapon élt, mára már valódi ügyfelekkel rendelkező és számos külső megerősítéssel bíró dologgá nőtte ki magát. A szolgáltatás mögötti infrastruktúrát a Dmlabban fejlesztettük és további számos, óriási domain tudással rendelkező emberrel alkotjuk ezt a remek csapatot, akikkel most egy jelentős mérföldkőhöz értünk. 

További hírek a témában:

A kép forrása

Szólj hozzá!

2014.11.17. 10:00 Ragány Csaba

RapidMiner tippek - A Building Block-ok

Címkék: best practice rapidminer

A tervezettnél egy kicsit hosszabb szünet után újra a billentyűzet mögé ültem blogírás céljából. A téma továbbra is a RapidMiner, bár mostanában ritkábban használom (használjuk) ezt a szoftvert, ennek ellenére bőven van mit írni róla. Persze itt nem kilométeres “how-to” leírásokra gondolok; - ahogy eddig, úgy ezután is olyan témákat szeretnék elővenni, melyekről máshol nemigen, vagy csak nagyon elvétve lehet olvasni. A korábbi három bejegyzésem néhány apró, de annál inkább zavaró hiányosságot illetve azok megoldásait, kikerülési lehetőségeit tartalmazta. Ezzel szemben a mostani írásom inkább a RapidMiner-ben rejlő egyik nagyszerű képesség kiaknázásáról, nevezetesen a “Building Block-okról” szól.

wood toys 28 Blocks colorful waldorf building blocks

Szólj hozzá!

2014.11.12. 21:12 Ragány Csaba

Google Cloud Platform meetup és conTEXT konferencia

Címkék: google meetup cloud computing

A következő hetekben két igazán érdekes rendezvényt is tartanak Budapesten, melyekre ezúton hívjuk fel a figyelmeteket. Az egyik egy meetup, melynek témája a Google saját fejlesztésű platformja, a Google Cloud Platform, ahol a Google nemzetközi mérnökei és a Doctusoft fejlesztői mutatják be a Google Cloud Platformot és a benne rejlő lehetőségeket, elsősorban startup-ok és a rapid app development iránt érdeklődők számára. A másik pedig a conTEXT - szöveganalitika magyarul konferencia a Clementine Consulting szervezésében, ahol neves előadók egyebek mellett hang- és szövegbányászatról, vélemény-, szentiment- és emóció elemzésről illetve az IBM Watsonról tartanak előadásokat.

Cloud-Computing-cap

A conTEXT konferencia november 20-án kerül megrendezésre (egész napos eseményként), a programról és az előadókról bővebben ezen az oldalon olvashattok.

A meetup-ra pedig alább egy kis kedvcsináló:

A Google Cloud Platform (GCP) egy olyan rendszer, mely építőkockáinak segítségével a fejlesztések időben felgyorsíthatóak, legyen szó egy weboldal vagy egy komplex alkalmazás létrehozásáról. A startup modell is pont azért életképes, mert a nagyobb szoftverfejlesztő vállalatokkal szemben gyorsabban képesek reagálni a környezet változásaira, a felhasználó igényekre, így az ötletek és az abból születő alkalmazások is gyorsan cserélődnek, változnak. A Google Cloud Platform eszközeivel pont ez a rugalmasság, agilitás valósítható meg, ráadásul költséghatékony módon. Azonban ennél is fontosabb a  skálázhatóság, vagyis az, hogy a platform akkor is képes kiszolgálni a felhasználókat, ha egyik nap még csak egy felhasználónk van, másnap pedig már egy millió.

Persze a GCP nem csak a startup világban tud értéket teremteni, hanem bármilyen vállalatnál, ahol elvárás a gyors és agilis fejlesztés, illetve ahol a cloud a vállalati stratégia részét képezi, ügyfél és fejlesztői oldalon egyaránt. Talán az egyik leghíresebb Cloud Platformos példa a Rovio-é, akik az Angry Birds nevű alkalmazással futottak be. A számos verziót megélt játék előtt, nagyon sok próbálkozásuk volt, de sajnos egyik sem érdekelte a közönséget. Az alkalmazásaikat azonban a Google App Engine-en fejlesztették, így viszonylag gyorsan tudták a különböző ötleteket megvalósítani úgy, hogy közben talpon is tudtak maradni, és a kitartás végül meghozta a sikert számukra. További GCP ügyfelek a Snapchat, Wix, Feedly stb.

A Google Cloud Platform legfontosabb szolgáltatásai az alábbiak:

  • Compute Engine: a Google infrastruktúra szolgáltatása (IaaS)
  • App Engine: fejlesztői platform beépített szolgáltatásokkal, API-készlettel (PaaS)
  • Cloud Datastore: NoSQL adatbázis
  • Cloud SQL:  MySQL adatbázis
  • BigQuery: analítikai  szolgáltatás nagy adathalmazok számára (Big Data)
  • Cloud Endpoints: elkészíti a RESTful szolgáltatásokat előre a mobilplatformokra, így lényegesen felgyorsítja a fejlesztést
  • Prediction API:  öntanuló algoritmus, korábbi adatokból jósol jövőbeli kimeneteleket

Ha mindezekről bővebben szeretnétek hallani, gyertek el a november 26-ai meetup-ra (kezdés 19-kor), melyen a részvétel ingyenes, azonban regisztrációhoz kötött. Az előzetes program az alábbiak szerint alakul:

  1. A Google Cloud Platform fejlesztői szemmel - Jens Bussmann, Google Cloud Platform Lead, DACH & CEE
  2. Google App Engine fejlesztési kihívások és tapasztalatok - Tőzsér Tamás, Google App Engine fejlesztő - Doctusoft (Google for Work Partner)
  3. Google Cloud Platform Live Demo - Jens Kuehlers, Google, Cloud Platform Solutions Engineer

 További információért keressétek fel az alábbi honlapot, ahol regisztrálni is tudtok.

A kép forrása.

Szólj hozzá!

2014.10.31. 15:30 Gáspár Csaba

Miért jó data scientist-ként dolgozni?

Címkék: oktatás felmérés 2014 bigdata mellékspecializáció adat- és médiainformatika

Erre a kérdésre kell majd válaszolnom hamarosan olyan hallgatóknak, akik az új Adat- és Médiainformatika mellékspecializációnk (más néven szakirányunk) után érdeklődnek. A jól összeállított tárgytematikán túl arról is beszélni szeretnék neki, hogy miért is érdemes ezt a szakmát választani. Nekem szenvedélyem ez a szakma, de nagyon szívesen meghallgatnám az olvasóközönséget arról, ő miért szeret az adatelemzés, az adatbányászat vagy az üzleti intelligencia területén dolgozni. 


ilovebd.jpgArra kérlek benneteket, töltsétek ki az alábbi form-ot, írjatok nekem néhány ötletet , gondolatot - a nagyon hosszú történeteket mailben várom a gaspar.csaba@dmlab.hu címre. Nem követelmény, hogy data scientist legyél, elég ha egyszerűen szereted az adatok világában való munkádat. A kitöltés teljesen anonim, csak annyit teszünk nyilvánossá, amennyit a form végén megadott válaszaidban engedsz nekünk.

 

Miért jó dolog az adatok világában dolgozni? - Kérdőív

UPDATE: Ha továbbra is ilyen aktívak lesztek, ígérem írok a válaszokból egy jó blogbejegyzést is. Válaszokat szívesen fogadunk november végéig.

2 komment

2014.10.29. 11:15 Gáspár Csaba

Közvetítés a HVG Big Data a marketingben konferenciájáról - UPDATED

Címkék: előadás konferencia közvetítés 2014 bigdata

A mostanában önállóvá vált HVG "Big Data a marketingben" című konferencián ülök, a Twitter közvetítésnek van már nálunk hagyománya, most is érdemes néha benézni erre a posztra.

 

Hamarosan ugyanitt kirakom az Prezi.com előadásomat is, érdemes lesz visszanézni.

UPDATE: Gyengélkedik a Twitter kereső megoldása, a posztjaimat az ezen a linken nagyobb valószínűséggel látni fogod

UPDATE2: Az előadásomhoz tartozó prezentációt itt lent láthatjátok, a szokásosnál kevesebb rajta a szöveg, így a beszéd nélkül inkább benyomásokat lehet csak szerezni róla. Röviden azt az üzenetet akartam átadni a közönségnek, hogy mint ahogy a mobil iparág nagyon újrarendezi a marketing világát, úgy a big data jelenség és a big data technológiák is nagy hatással vannak a történésekre.

Szólj hozzá!

2014.10.22. 19:26 Gáspár Csaba

Ha nem tanulsz belőle, nem érdemes hibázni

Címkék: ajánló konferencia siker 2014 bigdata

UPDATE: Egyből a posztban is hibáztam, a Kudarkonferenciát 2014 novemberében tartják. Elnézést - tanultam belőle.

A hosszú hétvégén tartják meg az első hazai Kudarckonferenciát. Előzetes terveimmel ellentétben nem tudok ott lenni, de maga a gondolat nagyon izgalmas - halljunk arról, hogy ki mit csinált rosszul, tanulhassunk belőle. Emlékszem többször nekifutottunk, hogy erre a tematikára építsünk egy Data Science Meetup alkalmat (akkor még ez Adatbányász Meetup volt), de végül nem jött össze: a kudarcokról mindenki szívesen meghallgat másokat, de csak nagyon biztonságos környezetben kezd el beszélni saját történeteiről. Ráadásul a magyar mentalitás kiemelkedően kudarckerülő, nagyobbra értékeli a társadalom azokat, akik el sem indultak, mint akik nekiveselkedtek, de elbuktak.

aaaa_blog-photo-failure-success.jpgAz alap attitűdök megváltoztatása nem célunk, de a igyekszünk jó példával elől járni: két esetet felvázolok egy-egy kudarcunkról, amiket nemrég követtünk el, és utólag elég mókásak voltak.

1. epizód

Az Amazon felhőjében csináltunk nemrég egy új projektet, ahol a bankkártya adatok megadásával práhuzamosan a konfigurációt végző kollégánk bejelölte enterprise support checkboxot. Bár óránként néhány dolláros szerverbérlésként indult a dolog, csak ez az opció havi 15 000 USD költséget jelentett volna. Nagy pánik volt, mikor kiderült a hiba. A dolog szerencsésen zárult (hamar felhívtak, hogy tényleg komolyan gondoljuk-e a kérést), de kellett idő hozzá, hogy a konfigurációt végző kolléga is nevetve emlékezzen vissza erre az esetre.

2. epizód

Az egyik üzleti ötletünk validálására készítettünk egy angol weboldalt, ahol az egyes opciók iránti igény felmérését tűztük ki célul. Felsoroltuk a lehetőségeket, és egy linket adtunk meg, ahol további információk jelentek meg. Egy nagyobb AdWords kampány után izgatottan néztük a látogatási adatokat, vajon a termék melyik opciójának linkjét kattintották szívesebben a potenciális felhasználóink.
Az eredmények ismeretében kiderült, hogy a felsorolás első elemét olvasták a legtöbben; a második lehetőség lett a ranglista második helyén; és így tovább - lényegében az egyhónapos tesztidőszakból megtudtunk, hogy az emberek a felsorolásokat tipikusan az elején kezdik elolvasni. Kihagytuk az ilyen validációs lépés egyik alapfeladatát: nem véletlen sorrendben mutattuk be az opciókat, hanem mindenki ugyanabból a listából választhatta ki, melyik opcióról olvasna szívesebben. 

Aki számára mégsem érdekes a most szombati Kudarckonferencia, azoknak ajánlani másik lehetőséget is a jövő hétre: október 29.-én lesz a HVG Big Data a marketingben című konferenciája, ennek a plenáris szakaszában én is meg fogok szólalni.

Szólj hozzá!

2014.09.05. 17:48 Gáspár Csaba

Data science választható tárgyaink a BME-n

Címkék: oktatás előadás 2014 adatbányászati technológiák bigdata big data BME Big Data

A most szeptemberben a Műegyetemen oktatott tárgyainkat szeretnénk a figyelmetekbe ajánlani. Ebben a félévben két választható tárgyunk indul két kurrens témában.

Az "Adatbányászati technológiák" című tárgyunk különlegessége, hogy műhelymunkával egybekötve tanítjuk meg a hallgatókat az adatelemzés, az adatbányászat fortélyaira: az előadásokat és a gyakorlatokat összekeverve mutatjuk be, hogyan lehet megoldani egy-egy valós adathalmaz felett definiált adatbányászati problémát. A fókuszban az egyes szoftverek vannak, RapidMinertől, a SAS Guide-on át végül még a Python alapú megoldásokig is eljutunk. 

education.pngEzt a tárgyat azért szeretem nagyon, mert izgalmas végignézni, hogyan formálódik egy-egy hallgató szemlélete a hetek során, hogyan tud a végén egy házifeladat keretei között megoldani egy teljes adatelemzési problémát. Sokat tanulok ebből arról, hogyan érdemes tanítani ezt a szakmát.

A másik gyöngyszemünk a "Big Data eszközök nyílt forráskodú platformokon" nevű tárgy, ahol a teljes Hadoop stack-et, a hozzá kapcsolódó kihívásokat és projekteket mutatják be a kollégák. Bizton veszem, hogy ez az egyik legjobb hazai big data tárgy, nem hiába van akkora érdeklődés is rá. 

A BME hallgatói (függetlenül attól, milyen karon tanulnak) még jelentekezhetnek ezekre a tárgyakra, de ha valaki külsősként akar bejelentkezni, azok jelentkezését is várjuk (mail: gaspar@tmit.bme.hu).

Itt jegyezném meg, hogy egyre több olyan megkeresés is érkezik hozzánk, hogy az adatelemzési, adatbányászati vagy big data technológiai kihelyezett kurzusokat tartsunk náluk - ha van nyitottság bennetek, szívesen egyeztetünk tematikát, adunk árajánlatot. A tapasztalatok azt mutatják, hogy a végzett szakemberek tanulási tempója és szemlélete annyira más, hogy egy-egy ilyen külön alkalmon jelentősen többre lehet jutni, mint egy tantervi órán a hallgatók között. 

Adatbányászati technológiák:   szerda-péntek 12h15 - BME. I. épület - IL105

Big Data elemzési eszközök nyílt forráskódú platformokon: szerda 12h15 - BME. Q épület - QBF10

A kép forrása egy blogposzt, ahol a hallgatók kikopásának előrejelzéséről elmélkednek: Unlock the Secrets of Education with Big Data

7 komment

2014.08.06. 10:00 Ragány Csaba

RapidMiner tippek - A Filter és a Loop operátorok

Címkék: best practice rapidminer

Mind a klasszikus adatbányászati, mind pedig a tágabb teret lefedő data science feladatok megoldásainak egyik alapvető eleme a sorok szűrése, ami a RapidMiner-ben a Filter Examples operátorral valósítható meg. Kevésbé gyakori eljárás az adattáblák sorainak iteratív feldolgozása, amit hacsak lehet, kerülni kell pl. új attribútumok generálásával és ezek alapján a sorok szűrésével majd a keletkezett új és a régi adattáblák összekapcsolásával, hiszen pl. néhány millió sor iterációja igencsak költséges megoldást eredményezhet egy Generate Attributes, Filter Examples és Join operátorhármas alkalmazásához képest. Tegyük fel, hogy kisebb méretű adattáblával dolgozunk és a feladat sajátossága miatt elkerülhetetlen a RapidMiner valamely Loop operátorának használata. Ekkor a sorszintű iterációra alapvetően három lehetőségünk van: a Loop, a Loop Values és a Loop Examples operátorok (a többi speciális Loop operátor részletezésétől most eltekintünk). Kérdés, hogy mikor melyiket válasszuk illetve, hogy helyesen döntöttünk-e?

Szólj hozzá!

2014.07.23. 10:00 Ragány Csaba

RapidMiner tippek - A Crawl Web operátor

Címkék: best practice rapidminer

Az előző RapidMiner tippek blogbejegyzésre érkezett pozitív visszajelzéseknek megfelelően - melyeket ezúton is köszönünk - a mostani írás is a RapidMiner mélyebb ismertetéséről, egészen pontosan a Crawl Web operátor trükkös működéséről illetve használatáról szól. A web-barangolás nem egy tipikus nagyvállalati feladatkör, hiszen meglehetősen ritka az olyan adatelemzési feladat egy multi cégen belül, ahol az első lépések között az internetről kell begyűjtenünk bizonyos weboldalak linkjeit és tartalmait további elemzés céljából. Ennek megfelelően a RapidMiner-ben ez a task csak egy kiegészítő révén valósítható meg (Web Mining Extension), melyet ezidáig majd 50.000-szer töltöttek már le. Kérdés, hogy mennyire hatékony a RapidMiner Crawl Web operátora illetve, hogy mi mennyire ismerjük azt?

 

3 komment

2014.07.18. 17:01 Gáspár Csaba

Aranyhal egy kívánsággal

Címkék: média oktatás üzleti modell bigdata

Egy nagyon kedves újságírónak meséltem a napokban arról, milyen nehézségei vannak a hazai üzleti életben az adatelemzés terjedésének. Felidéztem, hogy néhány éve viccesen azt mondtuk, hogy ha egy kívánságunk lehetne ezen a piacon, akkor az lenne, hogy a megrendelői oldal felső vezetői számára tarthassunk egy tréninget az adatközpontú gondolkodásról.

goldfish.JPGArra próbáltam utalni ezzel akkoriban, hogy technológiailag, kompetencia szempontjából jóval komplexebb és jobb rendszereket tudunk létrehozni, mint amit be tudna fogadni a legtöbb hazai megrendelő. Most tekintsünk el attól a ténytől, hogy a változást nem magunkon akartuk kezdeni, de ezt elhárítom azzal, hogy az aranyhaltól olyan dolgokat szoktak kérni, amit amúgy önmagunktól nem feltétlenül tudunk véghezvinni.

Az újságíróval való beszélgetés akkor kapott plusz csavart, mikor - jó kérdezőhöz méltóan - azt firtatta, hogy miről beszélnék ezeknek a felsővezetőknek. Bevallom férfiasan a kérdés letaglózott, és nagyon nehezen tudtam érdemi dolgokat kinyögni. Ha kifognám az aranyhalat és ott ülne velem szemben ez a sok ember, mit lenne érdemes elmondani nekik?

Azóta sokat törtem a fejemet erről, és most a menü körülbelül így néz ki:

  • Adatokban rejlő érték kiaknázásának korát éljük - mesélnék sok-sok példát, esettanulmányt, ahol valami fontos szerepet kapott az, hogy az adatokat felhasználták.
  • Mesélnék arról, hogy az adatvezérelt gondolkodás mit jelent, hogy mekkora ereje van első lépésben az egyszerű riportoknak is, később milyen komoly hatása lehet egy prediktív analitikai megoldásnak.
  • Azt hangoztatnám, hogy az üzleti intelligencia folyamatai mentén a cégkultúrának is változnia kell, és ezt első lépésben a legjobban a vezetőn érdemes elkezdeni. Kikérdezném őket, ők mit kérnének a saját cégükkel kapcsolatban egy olyan aranyhaltól, aki csak adatelemzési, adatfelhasználási kívánságokat teljesít.
  • Végül elmondanám, hogy milyen lehetőségei vannak arra, hogy ezen az úton lépjen. Mit érdemes csapaton belül megoldani, hogyan juthat olyan szakemberhez, aki a témában jártas, hol lehet oktatásban részesíteni a kollégákat, melyik tanácsadó csapatokkal érdemes együttműködni. Elmondanám, hogy szerintem a piacon mi most a marketing-lufi és mi a tényleges értéket teremtő irány.

Nem vagyok meggyőződve, hogy ez a helyes csomag, de azt hiszem lelkesen, csillogó szemmel tudnám képviselni, hogy az adatok szintjére is érdemes alámerülni, ha fejlődni akarunk. Azt hiszem egyre több hiteles szakemberre, sikertörténetre, hazai pozitív és negatív példára van szükség ahhoz, hogy ez az ügy a felsővezetőkig eljusson, hogy hatást keltsen. A big data jelenségnek köszönhetően sosem látott módon berobbant ez a téma a köztudatba, fontos lenne, hogy ebből a szempontból is ki tudjuk aknázni ezt a lehetőséget.

Szólj hozzá!

2014.07.03. 11:15 István Nagy

Kérdőív - Szoftverhasználati tippek


Időről időre felmerül az igény, hogy miért nem írunk több olyan bejegyzést, ahol egy adott eszközzel kapcsolatos gyakorlati tanácsokat írunk le, egy-egy érdekesebb probléma megoldásának menetét, vagy egy-egy, a szoftver logikai felépítéséből adódó buktatóra adott megoldásunkat. Szeretnénk felmérni, hogy a blog olvasótáborának mekkora igénye van ilyen bejegyzésekre, és azon belül is milyen szoftverekkel kapcsolatos tippeket olvasnátok a leginkább.

Ezért mindenkit arra kérek, hogy az alábbi nagyon rövid kérdőívet töltse ki:

KÉRDŐÍV

A kép forrása.

Szólj hozzá!

2014.06.30. 10:00 István Nagy

RapidMiner tippek - Valós attribútum nominálissá alakítása

Címkék: best practice rapidminer

A következő bejegyzés Ragány Csaba kollégánk írása, aki csapatunk egyik, ha nem a legtapasztaltabb RapidMiner felhasználója.

Az elmúlt hetekben több fontos esemény is történt a RapidMiner háza táján, melyek közül az egyik - nem meglepő módon -, hogy a KDNuggets felmérésében idén is a RapidMiner bizonyult a legnépszerűbb adatelemző szoftvernek, megőrizve, sőt növelve ezzel vezető helyét a piacon. Ennek ellenére úgy gondolom, hogy a RapidMiner megítélése többek számára is igencsak kettős. Egyrészt a jól eltalált felhasználói felületének köszönhetően az alkalmazás használatának elsajátítása meglehetősen addiktív, a szerteágazó kiegészítőkkel pedig az adatelemzési feladatok palettájának jelentős része lefedhető. Így nemcsak a kezdő vagy “alkalmi” adatbányászok, de a “főállásúak” gyakori eszközévé is vált a szoftver. A másik oldalról viszont könnyen találhatjuk magunkat olyan feladattal szemben, melynek megoldása RapidMiner-rel egyáltalán nem hatékony, vagy egyenesen lehetetlen vállalkozásnak tűnik. Előbbiek mögött első helyen a gyatra memóriakezelést szokták említeni, melyről a tavaly novemberi RapidMiner fizetős verzió megjelenésének apropóján mi is írtunk. Utóbbiak alatt pedig a szoftvert jellemző apró hiányosságokra és bugokra gondolhatunk, melyek megszűntetésére úgy tűnik, a cég kevesebb figyelmet fordít. Ehelyett a fókusz - az őszi váltással összhangban - inkább a nagyvállalatok kiszolgálására irányul, amit többek között a Radoop felvásárlása is alátámaszt.

2 komment

2014.06.17. 15:32 Prekopcsák Zoltán

A RapidMiner felvásárolta a Radoopot

Címkék: siker felvásárlás 2014 rapidminer dmlab radoop rapid-i

Nagy örömmel osztom meg veletek a hírt, hogy a RapidMiner felvásárolta a big data elemzésekkel foglalkozó startup cégünket, a Radoopot. A felvásárlás egy hatalmas szakmai siker a számunkra, hiszen 3-4 év munkáját validálta ezzel a RapidMiner, és biztosítja, hogy a létrehozott termék még nagyobb piacokat hódítson meg.

radoop_es_rapidminer.jpgA Radoop a Dmlab spin-off vállalkozásaként indult 2011-ben azzal a céllal, hogy a big data elemzéseket ugyanolyan egyszerűvé tegye, mint amit a grafikus adatelemző szoftverektől megszokhattunk. Akkoriban még nem volt ennyire egyértelmű, hogy a Big Data trend és maga a Hadoop technológia ennyire jelentős szerepet ér el 2014-re, és gyakorlatilag a nagy adat elemzések de-facto szabványává válik. A RapidMiner grafikus felületével integrált elosztott adatelemzési megoldásunk az elmúlt években sokat fejlődött, jelentős nemzetközi sajtóvisszhangot is kapott, valamint olyan cégeket sikerült ügyfelünknek megnyernünk, mint a Schneider Electric, a Prezi, a Ustream, a Fractal Analytics, illetve még jónéhány nemzetközi vállalat akik inkább a névtelenséget választották.

A felvásárlás kapcsán az egyik fontos szempontunk volt, hogy a Radoop csapata továbbra is a budapesti irodában maradjon, és megalapítsa a RapidMiner big data divízióját. A következő években ez a cég egy dinamikusan bővülő big data kutató és fejlesztő központtá válik, amely egyre több magyar fejlesztőnek és elemzőnek ad majd olyan munkát, amivel egy globális piacvezető analitikai cég termékfejlesztésében tölthet be kulcsszerepet. Szép szakmai siker van mögöttünk, és egy izgalmas szakmai kihívás áll előttünk.

Ugyanakkor ez a felvásárlás nemzetközi szinten is jelentősnek mondható, hiszen az egyik legelső big data felvásárlás a piacon, melyet valószínűleg több tucat hasonló összeolvadás követ majd. A RapidMiner és a Radoop összeolvadása egy korai lépés, amely mindenképp előnybe helyez minket a versenytársakkal szemben, és közösen az egyik legfejlettebb analitikai platformot tudjuk nyújtani az ügyfeleinknek.

Ezúton is szeretném megköszönni a Radoop csapatának a kitartó munkát, a Dmlabnak az inkubációt és rengeteg segítséget, valamint a magyar BI és adatbányászati szakmai közeg biztatását. Remélem, hogy a Radoop sikere jó példát mutat majd a többi magyar startupnak, hogy Magyarországról is lehet globálisan sikeres cégeket létrehozni.

A felvásárlásról további részletek az alábbi linkeken olvashatóak:

(Kép forrása) 

2 komment

2014.06.13. 16:48 Gáspár Csaba

Az adat, mint társadalmi erőforrás

Címkék: data science

Az adatok értékével kapcsolatban sok frappáns megfogalmazást olvastam már: az adat az új olaj, ma már nem “az idő pénz”, hanem “az adat pénz”. De csak mostanában gondolkodtam el mélyebben az adatról, mint egy ország, egy társadalom erőforrásáról.

Kétségtelen, hogy napjaink digitális technológiájával átszőtt világában egyre több adat kerül rögzítésre. Az adatokat a legritkább esetben rögzítik adatelemzés céljából, általában a szolgáltatások operatív biztosítása, vagy azok számlázása, elszámolása kapcsán rögzítik őket (vagy azokat). Ugyanakkor minden rögzített adattag lényegében érték, gyakran kincs, ha adatelemzési, adatbányászati szempontból nézünk rá. Ez az érték tehát elsődlegesen magától keletkezik és kiaknázható.

bigdata_megujuloeroforras.pngUgyanakkor a kiaknázás kapcsán felmerül a kérdés, hogy ezen adatok újrahasznosítása ténylegesen érdeke-e a társadalomnak. Az egyén oldaláról gyakran a privacy védelme, féltése ad korlátot ennek, üzleti oldalról pedig gyakran a valós üzleti mechanizmusok felfedésének az akadályozása gátolja ezt a kiaknázási folyamatot. Ez utóbbira erős példa, hogy az adatok tételes feltárásából a egyes korrupcióval érintett vagy hibás üzleti döntéseire is fény derülhet. 

Az adatok gyűjtésével és feldolgozásával kapcsolatban végül is háromfajta kérdésre kell választ adnia egy-egy szervezetnek, társadalmi csoportnak:

(1) El tudjuk-e fogadni az adatokban látható, valós tényeken alapuló igazságot, vagy ragaszkodunk a tényeket kisebb részben tartalmazó, de számunkra gyakran rövid távon előnyösebb, általunk generált magyarázatokhoz?

(2) Az adatokban rejlő tények elfogadása után képesek vagyunk-e változtatni, hogy az adatok ismételt elemzésével láthatóvá váljanak erőfeszítéseink hatásai

(3) Képesek vagyunk-e megálljt parancsolni akkor, mikor az adatokban rejlő összefüggések etikus felhasználásának határához érünk. 

Mindhárom kérdés jellemzője, hogy nem technológiai korlátokról szól. Az üzleti életnek, a társadalomnak kell megadnia az egyes kérdésekre a választ, az első ponttól eljutni a harmadik pontig. Hogy egy szervezet számára melyik téma okoz nagy nehézséget, jól leírja, hol tart az adatelemzés területén. A nagy, nemzetközi webáruházaknál inkább a harmadik kérdésre adott válasz körül vannak gyakran problémák, míg tipikusan a közigazgatási, állami rendszerekben az első pont környékén akadnak gondok.

Talán a fenti gondolatmenet után nem meglepő, hogy az adatokhoz való viszonyt inkább társadalmi, mint technológiai kérdésnek gondolom, az adatot társadalmi erőforrásnak tekintem. Ez azt is jelenti, hogy nem annyira technológiai kérdés mennyire fogjuk felhasználni kihasználni az adatok mélyén rejlő értékeket, sokkal inkább ez a kérdés az emberek témához való viszonyán múlik. Ezért érezzük mi is a Dmlabban kiemelkedően fontosnak az oktatást, a hazai szakmai közélet fejlesztését, az adatok értékének képviseletét a társadalom felé. Ez több, mint üzleti érdekünk, ez az identitásunkat meghatározó missziónk kiemelkedő része.

Szólj hozzá!

2014.06.02. 14:14 Barta Gergő

Ingyenesen letölthető a SAS Studio

Címkék: oktatás szoftver open source BME SAS

A SAS nagynevű, régi motoros a BI és adatelemzés területén. Bár az elmúlt évek válsága könnyen a költségkímélőbb eszközök felé fordította a figyelmet, a hazai multiknál, pénzintézeteknél továbbra is megkerülhetetlen szereplőnek látszik. A piaci igényekhez igazodva mi is aktívan oktatjuk a Műszaki Egyetemen, két választható tárgy keretei között foglalkozunk a grafikus elemző eszközökkel (Guide és Miner) illetve a Base SAS programozásával is.

Számunkra különösen jó hír, hogy a trendeket felismerve a SAS jelentős energiákat fektetett az elmúlt években a klasszikus programozói felületének fejlesztésébe is. Bár tegyük is hozzá egyből, hogy volt honnan előrelépni: a múlt századi kezelőfelület, a programozást megkönnyítő kényelmi funkciók kvázi teljes hiánya ugyanis sokakat eltántorított eddig.

A SAS egy elegáns húzással a feltuningolt eszközt beköltöztette a böngészőbe, sőt, a múlt héten SAS Studio néven mindenki számára ingyenesen elérhetővé tette. Egy teljes értékű csomagot kapunk, ahol a kiszolgáló logika a háttérben dolgozó virtuális gépen fut, érdemes kipróbálni. A szoftver mellé oktatási anyagokat is kapunk és a csalóka név ellenére személyes használat esetén nem szükséges hozzá egyetemi jogosultság, ugyanis a SAS terminológiájában dicséretes módon az akadémiai világba a felnőttképzés, önképzés is belefér. Ezzel a lépéssel a cég egyszerre igyekszik szélesíteni a jövőbeli felhasználói rétegét és kifogni a szelet az olyan kezdeményezések vitorlájából, melyekről már korábban írtunk.

A SAS szoftverei sohasem a baráti árazásukról voltak híresek, éppen ezért szimpatikus gesztus, ahogy az akadémiai igényeket szem előtt tartva évek óta kedvezményesen biztosítják az eszközeiket oktatási célra. Mostantól azonban mindenki számára nyitott a lehetőség. Autodidakta elemzők, régi és új hallgatók hajrá!

 

Szólj hozzá!