Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (4) 2018 (4) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) amuse (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) artificial intelligence (1) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (15) BI (3) bi (13) Bi (1) bi-trek (1) biconsulting (7) bigdata (25) Big Data (3) big data (7) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (6) BME (14) bme (2) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) Cruncconf (1) crunch (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) datascience (2) datasource (1) data engineering (1) data mining (1) data science (7) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (22) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) ethics (1) etikus (1) etl (2) évforduló (3) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) gépi tanuló algoritmus (1) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) impact (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (2) jmp (2) job (1) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (2) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (72) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) machine learning (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (2) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (2) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (23) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) product management (1) projekt (1) projektmenedzsment (6) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas fórum (1) sas forum (3) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (2) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (6) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (9) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) választható tárgy (1) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2010.11.28. 15:26 Prekopcsák Zoltán

Google Refine - adattisztítás haladóknak

Címkék: google szöveg open source freebase nyílt forráskód klaszterezés refine adattisztítás

Alig két hete jött ki a Google egy új nyílt forráskódú megoldással, amelynek alapjait a Metaweb felvásárlása során szerezte meg. A Metaweb leginkább a Freebase adatbázis építése kapcsán lett ismert, amit sokan a szemantikus web első használható mintapéldájának látnak. Ez tulajdonképpen egy nyílt adatbázis, ahol az információk rengeteg metaadattal vannak ellátva és sok kereszthivatkozás köti őket össze. Míg a Wikipedián szabad szemmel hamar megtaláljuk egy film adatlapján a rendezőt, addig a Freebase esetén mindez explicit módon tárolva van, ezáltal API-kon keresztül bárki lekérdezheti és gépek számára is feldolgozhatóvá teheti. A két oldalon megtalálható adatok között nincs nagy eltérés, de az alapvető különbséget akkor érezzük, ha mondjuk meg szeretnénk mondani, hogy kedvenc színészünk mekkora Kevin Bacon-számmal rendelkezik. Míg a Wikipedián vagy az IMDB-n manuálisan állnánk neki a reménytelen feladatnak, addig a Freebase esetén erre egyszerű alkalmazást lehet írni.

A mai bejegyzés fő témája mégsem a Freebase, hanem annak Gridworks nevű megoldása, amely a Google által újracsomagolva Google Refine néven látta meg a napvilágot. A szoftver célja, hogy megkönnyítse az adattisztítás folyamatát és lehetővé tegye, hogy a Google és a Freebase API-jain keresztül további adatokat kapcsoljunk a táblánkhoz. A szoftver háttérfolyamatként indul, amelyet egy böngészőből irányíthatunk és a megszokott Google színek és felület mellett érhetjük el a formázási és táblázatkezelési funkciókat. A Google saját szkriptnyelveit is használhatjuk bonyolultabb transzformációkhoz, de szerencsére ehhez részletes súgót és előnézetet is kapunk, így kezdőként is pár perc alatt át tudunk alakítani egy zavaros dátumformátumot értelmezhető év-hó-nap formára.

Az eddig említett funkciók megtalálhatóak az SPSS vagy a Rapid-I eszközeiben is, bár kétségtelen, hogy itt néha elegánsabban lehet megoldani bizonyos dolgokat. Azonban a Refine rendelkezik néhány olyan funkcióval, amely néhány használat után kínzóan hiányzik a többi szoftverből. Ilyen például a szöveges mezők klaszterezése, amivel a szoftver automatikusan felismeri például egy budapesti cím különböző változatait, és ajánlatot tesz egy általános alakra. Ezzel a módszerrel gyorsan javíthatóak az elírások is, és a funkció demók illetve saját tesztek alapján is remekül működik. Részletesebb bemutató erről ebben a videóban.

A másik tipikus feladat, amit eddig nem tudtunk programozás nélkül megoldani, az az új struktúrálatlan információk hozzácsatolása a táblához. Miután kitisztítottunk egy táblát, melyben országonkénti adataink vannak, a Freebase API-n keresztül egyszerű felületen kapcsolhatjuk hozzá az ország népességét, GDP-növekedését és egyéb adatait. Szintén gyakran előforduló feladat, hogy egy táblában kezdő- és végpont címek vannak, és szeretnénk megtudni a két pont közötti távolságot. Erre a Refine-ban használhatjuk a Google Maps viszonylag egyszerűen paraméterezhető API-ját, és kódolási munka nélkül kapjuk meg a választ.

Egyelőre még nem nyúztuk a szoftvert hatalmas adatbázisokkal, de az már most látszik, hogy szöveges adatok tisztításához és API-kon keresztül további adatok bevonásához egy nagyon hatékony eszközt hozott létre a Google.

2 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr812475681

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

_Hose_ 2010.11.29. 10:10:19

Húúú, már töltöm is le. Remélem lesz időm játszani vele a héten.
Köszi a cikket!

(U.I: Tudom, hogy én kértem a screen shotokat, de így eléggé felismerhetetlenek a képek. Nem tud olyat az oldal, hogy kis java ablakban felugranak a képek nagyban?)

Prekopcsák Zoltán · http://prekopcsak.hu 2010.11.29. 10:23:16

Alapból nincs ilyen felugró ablak lehetőség, de majd megpróbáljuk belehekkelni a rendszerbe.

Ha rájöttél, hogy meg lehet-e oldani a karakterkódolásos problémát Refine-ban, akkor majd szólj! Nekem nem volt ilyen adatom, de abban bízom, hogy a Cluster & Edit funkció megoldja.