Adatbányászat Blog

A dmlab szakmai blogja: dmlab.hu

A dmlab üzleti oldala:
promo.dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adattárház (5) adattárház fórum (6) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) agy (2) ajánló (9) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) api (2) Arató Bence (2) bank (1) barabási (2) Barabási (1) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) BI (3) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (16) big data (3) Big Data (2) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) BME (10) bootcamp (1) brainstorming (1) bsp (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) data mining (1) data science (4) diplomamunka (1) dmlab (10) döntési fák (1) drill (1) e-commerce (1) előadás (20) élő közvetítés (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (1) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (2) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (3) google (6) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (2) hálózatkutatás (1) hálózatok (2) hazai (1) hiba (3) hírlevél (1) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (3) jmp (2) kaggle (1) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (1) képzés (3) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (67) könyv (5) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kutatás (2) lemorzsolódás (1) licensz (1) magyar telekom (1) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (10) mellékspecializáció (1) mém (2) memóriacentrikus (1) menedzsment (1) metaadat (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (16) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (14) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (3) publikáció (1) python (8) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (39) RapidMiner (1) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (7) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (1) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (1) teradata (2) teszt (1) text mining (1) tmit (2) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (16) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (16) videó (3) vizualizáció (4) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2015.07.29. 10:00 Ragány Csaba

Python - A pandas szépségei (3. rész)


Ez a bejegyzés az egy héttel ezelőtti Python - A pandas szépségei (2. rész) poszt folytatása illetve egyben a sorozat lezárása. Túl sok felvezető szöveget itt sem szeretnék, úgyhogy íme a befejező epizód:

Szólj hozzá!

2015.07.22. 10:00 Ragány Csaba

Python - A pandas szépségei (2. rész)

Címkék: python best practice pandas


Ez a bejegyzés az egy héttel ezelőtti Python - A pandas szépségei (1. rész) poszt folytatása. Túl sok felvezető / összefűző szöveget nem szeretnék ejteni, úgyhogy íme a folytatás:

Szólj hozzá!

2015.07.15. 10:00 Ragány Csaba

Python - A pandas szépségei (1. rész)

Címkék: python best practice pandas


Megint eltelt pár hónap, mire megszületett ez a bejegyzés, s közben több dolog is történt a Python-t illetően. Egyrészt lezárult a KDNuggets idei éves szoftverhasználati felmérése, melyen a Python úgy lett a negyedik helyezett, hogy az előtte végző 3 másik eszközzel szemben - immár második éve - jelentősen magasabb növekedést ért el az előző évi saját eredményéhez képest, mint a többiek, illetve csupán bő 1%-nyi (33 db) szavazattal maradt csak le az R mögötti második helyezésről, szóval tényleg érdemes megtanulni a két nyelv közül legalább az egyiket. Másrészt sorra érkeznek a Python illetve az egyes Python csomagok újabb verziói: bő másfél hónapja publikálták a 2.7.10-es verziót, de egyre érik a végleges 3.5.0 Python is a jelenlegi 3.4.3 után, a csomagokat illetően pedig pl. a pandas 0.16.2 is egy hónapja jelent meg és július végén érkezik a 0.17.0-ás verzió. Illetve időközben kijött az Anaconda 2.3.0-ás verziója is, ami már tartalmazza többek között ezeket a frissítéseket is. Harmadrészt pedig itt a blogon az előző, Python bevezetőről szóló poszt a leglátogatottabbak egyike lett, ami külön öröm számomra, úgyhogy szakítottam végre egy “kis” időt, hogy a pandas rejtelmeiről is írjak ezt-azt. Remélem a Python és a pandas alapjaival már mindenki tisztában van (de ha még nem, akkor itt a remek alkalom), így egy nagyobbat ugorva a fókuszt egyből azokra a pandas-os apró, elsőre nem triviális működési mechanizmusokra, lehetőségekre, érdekességekre és adott esetben korlátokra illetve hiányosságokra helyezem, melyekről máshol csak elvétve írnak, pedig kezdő Python adatelemzőként könnyen belefuthat hasonlókba az ember. Hogy a történet kicsit izgalmas is legyen, kitaláltam egy jó fél oldalas feladatot a mondanivaló köré, így ez a poszt sem lesz valami rövid (sőt-sőt!!!). Ha kíváncsi vagy, hogy hogyan és milyen futási idő mellett lehet Python-ban ilyen terjedelmű problémákat akár 1, azaz egy darab (!) kódsorral megoldani, olvass tovább!

pandas.jpg

Szólj hozzá!

2015.05.29. 10:37 István Nagy

Álláskeresés data területen

Mihez kezdhet az ember, ha szeretne elhelyezkedni bármilyen adattal kapcsolatos területen? A külföldi álláskereső portálok csak úgy hemzsegnek az ilyen jellegű álláshirdetésektől. Csak, hogy egy példát említsünk: a monster.com álláshirdetéseket tartalmazó portálon a data scientist kulcsszóra több mint ezer találatot kapunk. Az adatok feldolgozásához értő embernek nem tart sok ideig az alábbi ábrán látható dashboard összeállítása, ahol mind időbeli, mind területi eloszlásban nyomon követheti a nyitott data science-szel kapcsolatos pozíciókat.

Ehhez képest mi a helyzet Magyarországon? A profession.hu portálon - a bejegyzés írásának pillanatában - egy darab hirdetést találunk, ha rákeresünk a data scientist kulcsszóra. Hazánkban bár egyre nagyobb az igény az adatfeldolgozás különböző területeihez értő emberekre, mégsem a megszokott csatornákon keresztül talál egymásra az állást kereső és a pozíciót meghirdető cég. Ennek oka lehet, hogy a hazai szakmai közösség mérete nem túlságosan nagy és az emberek sem annyira mobilak, mint a tengerentúlon.

A leggyakoribb mód, hogy a cég HR munkatársa akár személyesen, akár fejvadász (esetleg köztes body shopper) cégeken keresztül veszi fel közvetlenül a kapcsolatot a kiszemelt szakemberrel. Gondolom mások is sűrűn kapnak megkereséseket akár a Linkedin-en keresztül is a különböző pozíciókkal kapcsolatban.

Egy másik nagyon hasznos forrás az ilyen jellegű munkát kereső embereknek a BI Portál havi rendszerességgel összeállított listája a hazai BI és DW álláshirdetésekről, ami nagyon sűrűn tartalmaz adatbányászati állásokat is.

Következzen most egy újabb lehetőség azoknak, akiket akár gyakorlott szakemberekként, akár pályakezdőként, de érdekel az adatokkal kapcsolatos munka világa. A BI meetup csoport keretében és a Budapest Data Fórum 2015-ös konferenciájához szorosan kapcsolódva Arató Bence és csapata egy Data Job Fair állásbörzét rendez. A nyílt esten számos szakmai előadással megspékelve egy kifejezetten az adatokkal foglalkozó szakembereknek szánt állásbörzére kerül sor. Az egész esti program mindenki számára nyílt és ingyenes.  Sőt, a csütörtök éjfélig jelentkezők még nyerhetnek is egy a teljes Data Fórum három napjára érvényes belépőt.

Az este teljes programja elérhető a datajobfair.hu oldalon. A tervezett időbeosztás:

  • 17:30 Kapunyitás
  • 17:45 Data Cinema filmvetítések
  • 18:30 Data Carreers előadások
  • 19:15 HR Pitch Competition
  • 20:00 Big Data előadás
  • 21:00 Záróra

A toborzó cégek standjai 17:30-tól állnak a látogatók rendelkezésére. Bónuszként az egész rendezvény alatt kézműves Kaltenecker Kras és Weizen csapolt sörök várnak a hallgatóságra.

Szólj hozzá!

2015.04.15. 10:00 Ragány Csaba

Python - Kezdetek

Címkék: python best practice


Egy ideje már gondolkodtam azon, hogy Python-os bejegyzést is írjak, de egyrészt a DMLab-ban nálam jóval tapasztaltabb Python-os kollégák is vannak, másrészt a Python kezdeteihez tele a net ismertetőkkel, leírásokkal és tutorialokkal, ha pedig már a kódolás közben nem tudnánk valamit, elég nagy valószínűséggel korábban már megkérdezte valaki az adott dolgot Stackoverflow-n, vagy ha nem, a mi kérdésünkre is egészen biztosan nagyon hamar érkezik válasz. Harmadrészt viszont a több mint 54.000 Python modulnak köszönhetően a Python nyelv annyira sokrétű, hogy futószalagon lehetne gyártani a bejegyzéseket (amiket szerencsére bőven van aki olvas, köszönet érte :) A fentiek értelmében, és mert persze adatbányászattal foglalkozunk, Python-os témában is csak egy-két érdekességnek illetve hiánypótlónak gondolt írást tervezek, melyek közül az első értelem szerűen ez a kedvcsinálónak szánt bevezető poszt, ami azon adatelemzők számára lehet hasznos, akik még csak tervezgetik a Python-ban való elmélyülést vagy csak nemrég írták meg első szkriptjeiket. De persze azt sem tartom kizártnak, hogy a tapasztaltabbak is találhatnak némi újdonságot a következő sorokat olvasva.

codeeval2015.001.jpg

6 komment

2015.03.18. 10:00 Ragány Csaba

RapidMiner tippek - Adatbázis-rendszer monitorozása

Címkék: best practice rapidminer


Nagyjából egy hónapja jelent meg az adatbányászati és prediktív analitikai eszközök idei, Gartner által készített szokásos kiértékelése, mely a RapidMiner esetén sok újdonságot illetve változást nem hozott: a cég idén is a vezetők között szerepel, picit több vízióval. Őszintén szólva számomra kisebb meglepetés, hogy a Radoop felvásárlásával nem ugrottak valamelyest az előző évi értékelésükhöz képest, bár az igaz, hogy a Big Data képesség ma már alapvető tulajdonsággá vált egy adatelemző szoftver esetében. A csupán minimális változás egyik okaként többek között az általunk is többször említett “lack of documentation” is feltüntetésre került, amin ez a blogbejegyzés aligha változtat, mindenesetre az alábbiakban egy igen érdekes use-caseről olvashattok, aminek egyik apropója a szintén kb. egy hónapja megjelent Gartner adattárházakra vonatkozó elemzése, amin jószerével nagyvállalati adattárház cégek szerepelnek. De mi köze a RapidMiner-nek az adattárházakhoz?

illustration_tnm

Szólj hozzá!

2015.02.26. 00:45 Gáspár Csaba

Péntek esti Villanások

Címkék: ajánló 2015 Barabási beharangazó

Első alkalommal ajánlok figyelmetekbe a blogon tévéműsort - a Spektrum készített egy saját gyártású műsort Barabási Albert László egyik központi gondolatából kiindulva: az legtöbb emberről nagy bizonyossággal megmondható, hol lesz egy nap, egy hét múlva. A filmben a Villanások című könyv alapgondolatát járják körbe ismeretterjesztő aspektusból, itt láthatjátok a műsor beharangozóját.A

Akik már olvasták Barabási könyveit, azok szakmai oldalról sok meglepetésre nem számíthatunk ebből a szélesebb közönséghez szóló műsorban, de azért mindenképpen érdemes lehet megnézni, milyen módon kerül bemutatásra a data science területének ez az ága a hétköznap emberének. Mondjuk adatokkal dolgozó szakemberként talán ezzel a műsorral tudod a legjobban bemutatni a rokonságnak, milyen kérdésekkel foglalkozol. 

A műsor igazi tartalmáról csak nagyon kevés információm van. Az biztos, hogy Barabásin túl néhány hazai szakember is megszólal majd a sorozatban, ezek között várhatóan én is meg fogok jelenni. Erre igen büszke vagyok, de valójában fogalmam sincs, mi is lesz végül berakva a velem készült interjúból, így most inkább lámpalázas vagyok - ilyen ez a popszakma...

Villanások - Spektrum 
2015. február 27.   20h30
További részek: március 6., 13., 20. - ugyanúgy 20h30

Szólj hozzá!

2015.02.11. 09:40 Gáspár Csaba

Tavaszi data science óráink

Címkék: oktatás python gyakorlat képzés 2015 bigdata BME RapidMiner

Hagyományosan szívesen várunk titeket a Műegyetem tartott óráinkon. A hagyomány annyira erős, hogy már most kilencen jelezték, hogy részt vesznek a tárgyainkon, pedig lehetőségről a blogon még csak most írunk.

edu.jpgIdén két tárgyat tartunk, az első órákat ezen a héten tartottuk, de nem kell aggódni, ezek nélkül is könnyen be lehet kapcsolódni. 

Adatelemzési platformok - Bevezetés a data science világába

Előadás: szerdánként 8h15-10h - BME Q. épület - QA240
Gyakorlat: minden második csütörtökön 10h15-12h - BME Q. épület - QBF10 (első alkalom: február 12.)

Az új mellékspecializációnk (mellékszakirányunk) első tárgya, nagy lelkesedéssel futunk neki, most tartjuk először. Az adatbányászati alapfeladatokon, az adatelemzési alapgondolatokon futunk végig, beletanulunk a RapidMiner és a Python nyelvű adatelemzésbe, illetve betekintést adunk a big data technológiák világába. Nagyon sok témát tettünk bele a tárgyba, talán többet is, mint ami egy ekkora óraszámba belefér, ezért számítunk a hallgatók aktív befogadó munkájára. Szerdánként beszélünk az elméletről, csütörtökön egy-egy gyakorlatot tartunk, ahova mindenképpen érdemes saját laptopot is hozni, hogy együtt tudjunk dolgozni.

Customer Analytics - Ügyfélanalaitika

hétfőnként 12h15-14              BME - I. épület - I.L.105 
csütörtökönként 14h15-16     BME - I. épület - I.L.105

A gazdaságinformatikusi képzésünk angol nyelvű tárgya, fókuszában az ügyfélanalitika áll. Kisebb közönségnek adunk elő, kicsit több időnk van az egyes témák átrágására. Technológiai oldalról itt kicsit változtatunk a hagyományos esetekhez képest, előtérbe jön itt is a RapidMiner és a Python nyelv.

Az órákhoz bárki csatlakozhat, függetlenül attól, hogy BME hallgató-e, vagy sem. Egyetlen kérésünk van, hogy ha külsősként, nem a tantervi keretek között csatlakoznál hozzánk, kélek vedd fel előtte velünk a kapcsolatot mailben (Írj nekem - gaspar@tmit.bme.hu). Ennek kapcsán a belső anyagokat is meg tudom majd veled osztani. Várunk benneteket. Ha pedig úgy érzed, neked nem a legjobb, ha 14 héten keresztül hetente csak egyszer-egyszer ülsz be egy órára, akkor keress meg minket, jelentős tapasztalatunk van személyre szabott oktatási programok összeállításában és megszervezésében is.

Szólj hozzá!

2014.12.29. 12:29 Gáspár Csaba

Big data évértékelő

2014 egyértelműen a big data jelenség diadalújta volt. Egy ennyire gyorsan növő hype kifejlődésének egyik sarokpontja, mikor elkezdenek arról cikkezni, mikor fog az őrület lecsengeni, mikor pukkad ki a felfújt marketingbuborék. Már neve is van a kiábrándulás utáni kornak, a jól ismert vészjósló mondat jól körülírja a félelmet: "Big-data winter is comming".

2015newyear.pngSzerintem azonban a big data jelenség más természetű, nem egy lecsengő, majd konszolidált szinten visszatérő buzzwordként fog mindez a fejünkben maradni. A big data ma már olyan szinten áthatja a széles tömegek, cégek gondolkodását, hogy sokkal inkább fog hasonlítani ez a görbe a mobiltelefonok körüli technológiai hullámra.

A mobil világ gyökeresen változtatta meg globális szinten az emberek mindennapjait, és ez a hatás nem múlik, tovább fokozódik. Nyilván a mobil világon belül vannak lecsengett témák, vannak kifutott technológiák, épp hogy életben levő, korábban fényes napokat megélt cégek és márkák. De a mobil, az okostelefonok világa csúcssebességgel tör előre - még akkor is, ha ma már nem abban van az üzlet, amiben az őrület kirobbanásakor sokan megtalálták a számításukat.

Hasonló forgatókönyvet várok a big data, az adatelemzés, az adatok felhasználásának új útjainak irányában is. El fog tűnni egy-egy korábban elpusztíthatatlannak tűnő technológia, vállalat, de a big data szelleme, az eköré felépíthető világ bővülése továbbra is jelentős marad. A sok-sok egymáshoz adódó kisebb hype ciklusból egy folyamatosan, bár később egyre lassabban növekvő big data trendgörbe fog kirajzolódni.

Hogy mikor térünk át a jelenlegi exponenciális szakaszról a lineáris növekedési pontba? Nem gondolom, hogy ezt a pontot 2015-ben fogjuk elérni, vagy legalábbis nem fogjuk észrevenni. 2015-ben inkább a korrekciók éve lesz: az első big data projekek tapasztalatai most épülnek be azoknak a gondolkodásába, akik az elmúlt 1-2 évben hallottak erről a területről először. Egyszerűbben bölcsebben, tapasztaltabban fognak hozzáállni a big data ígéretéhez.

2015nw.jpgDmlab számára is nagyon erős volt a 2014-es év. Nagy projekteket zártunk, új partnerekkel kezdtünk el dolgozni, és berobbantunk a startupok világába is, hogy csak a sikeres próbálkozásokat említsem: a dmlabból induló Radoopot a nyáron felvásárolták, a technológiánkat felhasználó Enbrite.ly megnyerte Európa egyik legnagyobb startup versenyét. Új data science szakirányt indítunk éppen a BME-n, és soha ilyen sokat nem oktattunk még céges kihelyezett tanfolyamokon. Őszintén megmondom, az év dmlab évének áttekintése kapcsán azt éreztem, hogy a 2014 számunkra két évnyi eseményt hozott.

2015 a data science világában dolgozók cégeknek, így a dmlabnak is felrobbanó big data világához való alkalmazkodásról kell hogy szóljon. A növekedés ugyanis a korábban fixnek hitt struktúrákt szakít szét, minden ami működött ebben a világban az elmúlt években, nem biztos, hogy életképes lesz a jövőben. Az adaptivitás, a megújulás képessége ebben az időszakban éppolyan fontos lesz, mint a legújabb technológiák gyors befogadása. Ez alapján ahogy 2014 a "big data" éve volt, úgy 2015 az "reorganizáció" éve lesz.

Minden kedves olvasónknak boldog Új Évet, sok változást, és mégtöbb adatot kívánok!

1 komment

2014.11.20. 08:12 István Nagy

Óriási siker a Slush pitch versenyén

Alig telt el öt hónap azóta, hogy itt a blogon is bejelentettük, hogy az első olyan technológiai spin-offot, a Radoopot, amelyet a Dmlab inkubált, felvásárolta a RapidMiner, most egy újabb remek hírt szeretnénk veletek megosztani a csapatunkkal kapcsolatban.

A Slush konferencián, ahol a Prezi bejelentette, hogy elérték a 50M felhasználót, valamint, hogy következő körös növekedésre szánt befektetést kaptak (amihez ezúton is gratulálunk), csapatunkkal az enbrite.ly-val elhoztuk a legjobb pitchért járó díjat és a vele járó 500.000 eurós befektetési lehetőséget. 

Az enbrite.ly-ban egy olyan terméket fejlesztünk, amely a weboldalakon lévő felhasználók viselkedésének elemzésével kiszúrja a robotokat és a gyanús forgalmat, és így az egész online reklámpiacot ellenőrizhetőbbé és átláthatóbbá teszi. A szolgáltatás nem egészen fél éve, még csak egy papírlapon élt, mára már valódi ügyfelekkel rendelkező és számos külső megerősítéssel bíró dologgá nőtte ki magát. A szolgáltatás mögötti infrastruktúrát a Dmlabban fejlesztettük és további számos, óriási domain tudással rendelkező emberrel alkotjuk ezt a remek csapatot, akikkel most egy jelentős mérföldkőhöz értünk. 

További hírek a témában:

A kép forrása

Szólj hozzá!

2014.11.17. 10:00 Ragány Csaba

RapidMiner tippek - A Building Block-ok

Címkék: best practice rapidminer

A tervezettnél egy kicsit hosszabb szünet után újra a billentyűzet mögé ültem blogírás céljából. A téma továbbra is a RapidMiner, bár mostanában ritkábban használom (használjuk) ezt a szoftvert, ennek ellenére bőven van mit írni róla. Persze itt nem kilométeres “how-to” leírásokra gondolok; - ahogy eddig, úgy ezután is olyan témákat szeretnék elővenni, melyekről máshol nemigen, vagy csak nagyon elvétve lehet olvasni. A korábbi három bejegyzésem néhány apró, de annál inkább zavaró hiányosságot illetve azok megoldásait, kikerülési lehetőségeit tartalmazta. Ezzel szemben a mostani írásom inkább a RapidMiner-ben rejlő egyik nagyszerű képesség kiaknázásáról, nevezetesen a “Building Block-okról” szól.

wood toys 28 Blocks colorful waldorf building blocks

Szólj hozzá!

2014.11.12. 21:12 Ragány Csaba

Google Cloud Platform meetup és conTEXT konferencia

Címkék: google meetup cloud computing

A következő hetekben két igazán érdekes rendezvényt is tartanak Budapesten, melyekre ezúton hívjuk fel a figyelmeteket. Az egyik egy meetup, melynek témája a Google saját fejlesztésű platformja, a Google Cloud Platform, ahol a Google nemzetközi mérnökei és a Doctusoft fejlesztői mutatják be a Google Cloud Platformot és a benne rejlő lehetőségeket, elsősorban startup-ok és a rapid app development iránt érdeklődők számára. A másik pedig a conTEXT - szöveganalitika magyarul konferencia a Clementine Consulting szervezésében, ahol neves előadók egyebek mellett hang- és szövegbányászatról, vélemény-, szentiment- és emóció elemzésről illetve az IBM Watsonról tartanak előadásokat.

Cloud-Computing-cap

A conTEXT konferencia november 20-án kerül megrendezésre (egész napos eseményként), a programról és az előadókról bővebben ezen az oldalon olvashattok.

A meetup-ra pedig alább egy kis kedvcsináló:

A Google Cloud Platform (GCP) egy olyan rendszer, mely építőkockáinak segítségével a fejlesztések időben felgyorsíthatóak, legyen szó egy weboldal vagy egy komplex alkalmazás létrehozásáról. A startup modell is pont azért életképes, mert a nagyobb szoftverfejlesztő vállalatokkal szemben gyorsabban képesek reagálni a környezet változásaira, a felhasználó igényekre, így az ötletek és az abból születő alkalmazások is gyorsan cserélődnek, változnak. A Google Cloud Platform eszközeivel pont ez a rugalmasság, agilitás valósítható meg, ráadásul költséghatékony módon. Azonban ennél is fontosabb a  skálázhatóság, vagyis az, hogy a platform akkor is képes kiszolgálni a felhasználókat, ha egyik nap még csak egy felhasználónk van, másnap pedig már egy millió.

Persze a GCP nem csak a startup világban tud értéket teremteni, hanem bármilyen vállalatnál, ahol elvárás a gyors és agilis fejlesztés, illetve ahol a cloud a vállalati stratégia részét képezi, ügyfél és fejlesztői oldalon egyaránt. Talán az egyik leghíresebb Cloud Platformos példa a Rovio-é, akik az Angry Birds nevű alkalmazással futottak be. A számos verziót megélt játék előtt, nagyon sok próbálkozásuk volt, de sajnos egyik sem érdekelte a közönséget. Az alkalmazásaikat azonban a Google App Engine-en fejlesztették, így viszonylag gyorsan tudták a különböző ötleteket megvalósítani úgy, hogy közben talpon is tudtak maradni, és a kitartás végül meghozta a sikert számukra. További GCP ügyfelek a Snapchat, Wix, Feedly stb.

A Google Cloud Platform legfontosabb szolgáltatásai az alábbiak:

  • Compute Engine: a Google infrastruktúra szolgáltatása (IaaS)
  • App Engine: fejlesztői platform beépített szolgáltatásokkal, API-készlettel (PaaS)
  • Cloud Datastore: NoSQL adatbázis
  • Cloud SQL:  MySQL adatbázis
  • BigQuery: analítikai  szolgáltatás nagy adathalmazok számára (Big Data)
  • Cloud Endpoints: elkészíti a RESTful szolgáltatásokat előre a mobilplatformokra, így lényegesen felgyorsítja a fejlesztést
  • Prediction API:  öntanuló algoritmus, korábbi adatokból jósol jövőbeli kimeneteleket

Ha mindezekről bővebben szeretnétek hallani, gyertek el a november 26-ai meetup-ra (kezdés 19-kor), melyen a részvétel ingyenes, azonban regisztrációhoz kötött. Az előzetes program az alábbiak szerint alakul:

  1. A Google Cloud Platform fejlesztői szemmel - Jens Bussmann, Google Cloud Platform Lead, DACH & CEE
  2. Google App Engine fejlesztési kihívások és tapasztalatok - Tőzsér Tamás, Google App Engine fejlesztő - Doctusoft (Google for Work Partner)
  3. Google Cloud Platform Live Demo - Jens Kuehlers, Google, Cloud Platform Solutions Engineer

 További információért keressétek fel az alábbi honlapot, ahol regisztrálni is tudtok.

A kép forrása.

Szólj hozzá!

2014.10.31. 15:30 Gáspár Csaba

Miért jó data scientist-ként dolgozni?

Címkék: oktatás felmérés 2014 bigdata mellékspecializáció adat- és médiainformatika

Erre a kérdésre kell majd válaszolnom hamarosan olyan hallgatóknak, akik az új Adat- és Médiainformatika mellékspecializációnk (más néven szakirányunk) után érdeklődnek. A jól összeállított tárgytematikán túl arról is beszélni szeretnék neki, hogy miért is érdemes ezt a szakmát választani. Nekem szenvedélyem ez a szakma, de nagyon szívesen meghallgatnám az olvasóközönséget arról, ő miért szeret az adatelemzés, az adatbányászat vagy az üzleti intelligencia területén dolgozni. 


ilovebd.jpgArra kérlek benneteket, töltsétek ki az alábbi form-ot, írjatok nekem néhány ötletet , gondolatot - a nagyon hosszú történeteket mailben várom a gaspar.csaba@dmlab.hu címre. Nem követelmény, hogy data scientist legyél, elég ha egyszerűen szereted az adatok világában való munkádat. A kitöltés teljesen anonim, csak annyit teszünk nyilvánossá, amennyit a form végén megadott válaszaidban engedsz nekünk.

 

Miért jó dolog az adatok világában dolgozni? - Kérdőív

UPDATE: Ha továbbra is ilyen aktívak lesztek, ígérem írok a válaszokból egy jó blogbejegyzést is. Válaszokat szívesen fogadunk november végéig.

2 komment

2014.10.29. 11:15 Gáspár Csaba

Közvetítés a HVG Big Data a marketingben konferenciájáról - UPDATED

Címkék: előadás konferencia közvetítés 2014 bigdata

A mostanában önállóvá vált HVG "Big Data a marketingben" című konferencián ülök, a Twitter közvetítésnek van már nálunk hagyománya, most is érdemes néha benézni erre a posztra.

 

Hamarosan ugyanitt kirakom az Prezi.com előadásomat is, érdemes lesz visszanézni.

UPDATE: Gyengélkedik a Twitter kereső megoldása, a posztjaimat az ezen a linken nagyobb valószínűséggel látni fogod

UPDATE2: Az előadásomhoz tartozó prezentációt itt lent láthatjátok, a szokásosnál kevesebb rajta a szöveg, így a beszéd nélkül inkább benyomásokat lehet csak szerezni róla. Röviden azt az üzenetet akartam átadni a közönségnek, hogy mint ahogy a mobil iparág nagyon újrarendezi a marketing világát, úgy a big data jelenség és a big data technológiák is nagy hatással vannak a történésekre.

Szólj hozzá!

2014.10.22. 19:26 Gáspár Csaba

Ha nem tanulsz belőle, nem érdemes hibázni

Címkék: ajánló konferencia siker 2014 bigdata

UPDATE: Egyből a posztban is hibáztam, a Kudarkonferenciát 2014 novemberében tartják. Elnézést - tanultam belőle.

A hosszú hétvégén tartják meg az első hazai Kudarckonferenciát. Előzetes terveimmel ellentétben nem tudok ott lenni, de maga a gondolat nagyon izgalmas - halljunk arról, hogy ki mit csinált rosszul, tanulhassunk belőle. Emlékszem többször nekifutottunk, hogy erre a tematikára építsünk egy Data Science Meetup alkalmat (akkor még ez Adatbányász Meetup volt), de végül nem jött össze: a kudarcokról mindenki szívesen meghallgat másokat, de csak nagyon biztonságos környezetben kezd el beszélni saját történeteiről. Ráadásul a magyar mentalitás kiemelkedően kudarckerülő, nagyobbra értékeli a társadalom azokat, akik el sem indultak, mint akik nekiveselkedtek, de elbuktak.

aaaa_blog-photo-failure-success.jpgAz alap attitűdök megváltoztatása nem célunk, de a igyekszünk jó példával elől járni: két esetet felvázolok egy-egy kudarcunkról, amiket nemrég követtünk el, és utólag elég mókásak voltak.

1. epizód

Az Amazon felhőjében csináltunk nemrég egy új projektet, ahol a bankkártya adatok megadásával práhuzamosan a konfigurációt végző kollégánk bejelölte enterprise support checkboxot. Bár óránként néhány dolláros szerverbérlésként indult a dolog, csak ez az opció havi 15 000 USD költséget jelentett volna. Nagy pánik volt, mikor kiderült a hiba. A dolog szerencsésen zárult (hamar felhívtak, hogy tényleg komolyan gondoljuk-e a kérést), de kellett idő hozzá, hogy a konfigurációt végző kolléga is nevetve emlékezzen vissza erre az esetre.

2. epizód

Az egyik üzleti ötletünk validálására készítettünk egy angol weboldalt, ahol az egyes opciók iránti igény felmérését tűztük ki célul. Felsoroltuk a lehetőségeket, és egy linket adtunk meg, ahol további információk jelentek meg. Egy nagyobb AdWords kampány után izgatottan néztük a látogatási adatokat, vajon a termék melyik opciójának linkjét kattintották szívesebben a potenciális felhasználóink.
Az eredmények ismeretében kiderült, hogy a felsorolás első elemét olvasták a legtöbben; a második lehetőség lett a ranglista második helyén; és így tovább - lényegében az egyhónapos tesztidőszakból megtudtunk, hogy az emberek a felsorolásokat tipikusan az elején kezdik elolvasni. Kihagytuk az ilyen validációs lépés egyik alapfeladatát: nem véletlen sorrendben mutattuk be az opciókat, hanem mindenki ugyanabból a listából választhatta ki, melyik opcióról olvasna szívesebben. 

Aki számára mégsem érdekes a most szombati Kudarckonferencia, azoknak ajánlani másik lehetőséget is a jövő hétre: október 29.-én lesz a HVG Big Data a marketingben című konferenciája, ennek a plenáris szakaszában én is meg fogok szólalni.

Szólj hozzá!