Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) bi (13) BI (3) Bi (1) bi-trek (1) biconsulting (7) bigdata (22) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (2) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktív modellezés (1) prediktiv modellezés (5) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2014.02.10. 11:00 István Nagy

Személyre szabott keresési találatok

Címkék: kereső verseny

A felhasználók múltbéli böngészései és viselkedése alapján sok webes szereplő szeretné személyre szabottá tenni oldalát, hogy az ügyfelei minél inkább úgy érezzék, hogy a gondolataikat is ki tudja találni az adott rendszer. Az orosz keresőóriás, a Yandex is azon igyekszik, hogy a bejelentkezett felhasználói korábbi keresési viselkedése alapján sorrendezze a keresési találatokat. 

Az "orosz Google" egy adatbányászati verseny keretein belül kérte a data scientist-ek közösségét, hogy egy anonim felhasználói adatbázis alapján javítsák a személyre szabott sorrendezési algoritmusukat. A versenyen kollégánk, Simon Gábor sikeresen szerepelt és elhozta a 8. helyezést.

Hányadik lettél a versenyen?

8

Hányan indultak a versenyen?

194, ebből 92-en verték meg a default benchmark-ot, a többiek közül elég sokan csak beküldték a benchmark-ot, nem értem hogy ez miért volt jó nekik (Megjegyzés: Ennek az a célja, hogy még az ilyen alapmegoldások is előrelendítik a Kaggle felhasználóit a rendszer összesített ranglistáján.).

Mi volt a probléma, amit meg kellett oldani?

A Yandex az ”orosz Google”, és azt szerette volna, hogy egy keresésre eredetileg felhasználófüggetlen módon visszaadott találatokat az egyes felhasználók korábbi keresési session-jei és az adott session-beli előzményei alapján rendezzük újra személyre szabott módon. Tehát ez egy ’learning to rank’ feladat volt.

Miért döntöttél úgy, hogy nevezel?

Kíváncsi voltam, hogy mennyire vagyok képes egy átlagos személyi számítógéppel, mennyire tudok megbirkózni ekkora adatmennyiséggel, és maga a feladat is érdekes volt.

Milyen adatelőkészítési műveleteket csináltál?

Először is a nyers click log fájlokból python-nal létrehoztam táblázatos formájú fájlokat (ezzel a kezdeti 16 GB-ból ennek több mint kétszerese lett), amiket KNIME-ban manipulálgattam tovább. Számos különböző aggregációt végeztem, például hogy egy bizonyos keresőkifejezésnél egy adott url-re mennyi az átlagos relevancia stb., és ezeket hozzájoin-oltam a vizsgált keresési találatokhoz. A modellépítéshez a tanítóhalmaz 5 736 333 user-jéből csak 200,000-et használtam fel, de az aggregátumokat az egész tanító adathalmazon számítottam. Ezen kívül próbáltam például külön modellezni az alacsonyabb illetve a magasabb click entrópiájú kereséseket (minél ”egyértelműbb”, annál alacsonyabb a click entrópiája), de ezt nem hozta az elvárt javulást.

Milyen modelleket használtál?

Az R GBM implementációját (a KNIME-os R Extension-ön keresztül hívva), mert annak volt egy olyan változata, amely eleve csoportonkon belüli rangosorolást tanul, és közvetlenül lehetett vele a verseny célfüggvényére (NDCG) optimalizálni.

Mi volt a legérdekesebb/legfontosabb/legmeglepőbb felismerés az adatokban?

Érdekes volt, hogy a Yandex titokban tartotta, hogy az adatokban használt időegység mennyi tényleges időnek felel meg, pl. ha egy kattintás után 50-399 időegységig nem kattintott új találatra, az releváns találatnak, ha 400+ időegységig nem kattintott új találatra, az pedig nagyon releváns találatnak számított, de azt nem tudhattuk, hogy ez hány másodperc. A felhasználók, a keresési term-ek, a domain-ek, és az url-ek mind anonimizálva voltak.

Milyen eszközöket használtál?

Adatelőkészítésre python és KNIME, modellezésre R.

Tanulságok a verseny kapcsán?

Bizonyos pontoknál összedobtam egy quick&dirty megoldást, hogy lássam, hogy van-e értelme annak, amit csinálok. Néha viszont erre is építettem a következő lépéseket, és amikor vissza kellett menni kicserélni a hack-et, az nem volt annyira kellemes. A versenyt végül is egy Yandex-es ürge nyerte meg (aki így díjra nem is volt jogosult), tehát ők valószínűleg elég jól csinálják amit csinálnak...

A kép forrása

2 komment

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr255800363

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

BeluGa 2014.02.10. 11:28:51

Szép eredmény, gratulálok a mester fokozathoz :)

ui.:
eligible <-> jogosult

Gáspár Csaba 2014.02.10. 11:44:29

@BeluGa: Köszönjük a gratulációt, külön jól esik, hogy a Kaggle ranglista 10 helyén jövőtől kapjuk.