Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2010.11.28. 15:26 Prekopcsák Zoltán

Google Refine - adattisztítás haladóknak

Címkék: google szöveg open source freebase nyílt forráskód klaszterezés refine adattisztítás

Alig két hete jött ki a Google egy új nyílt forráskódú megoldással, amelynek alapjait a Metaweb felvásárlása során szerezte meg. A Metaweb leginkább a Freebase adatbázis építése kapcsán lett ismert, amit sokan a szemantikus web első használható mintapéldájának látnak. Ez tulajdonképpen egy nyílt adatbázis, ahol az információk rengeteg metaadattal vannak ellátva és sok kereszthivatkozás köti őket össze. Míg a Wikipedián szabad szemmel hamar megtaláljuk egy film adatlapján a rendezőt, addig a Freebase esetén mindez explicit módon tárolva van, ezáltal API-kon keresztül bárki lekérdezheti és gépek számára is feldolgozhatóvá teheti. A két oldalon megtalálható adatok között nincs nagy eltérés, de az alapvető különbséget akkor érezzük, ha mondjuk meg szeretnénk mondani, hogy kedvenc színészünk mekkora Kevin Bacon-számmal rendelkezik. Míg a Wikipedián vagy az IMDB-n manuálisan állnánk neki a reménytelen feladatnak, addig a Freebase esetén erre egyszerű alkalmazást lehet írni.

A mai bejegyzés fő témája mégsem a Freebase, hanem annak Gridworks nevű megoldása, amely a Google által újracsomagolva Google Refine néven látta meg a napvilágot. A szoftver célja, hogy megkönnyítse az adattisztítás folyamatát és lehetővé tegye, hogy a Google és a Freebase API-jain keresztül további adatokat kapcsoljunk a táblánkhoz. A szoftver háttérfolyamatként indul, amelyet egy böngészőből irányíthatunk és a megszokott Google színek és felület mellett érhetjük el a formázási és táblázatkezelési funkciókat. A Google saját szkriptnyelveit is használhatjuk bonyolultabb transzformációkhoz, de szerencsére ehhez részletes súgót és előnézetet is kapunk, így kezdőként is pár perc alatt át tudunk alakítani egy zavaros dátumformátumot értelmezhető év-hó-nap formára.

Az eddig említett funkciók megtalálhatóak az SPSS vagy a Rapid-I eszközeiben is, bár kétségtelen, hogy itt néha elegánsabban lehet megoldani bizonyos dolgokat. Azonban a Refine rendelkezik néhány olyan funkcióval, amely néhány használat után kínzóan hiányzik a többi szoftverből. Ilyen például a szöveges mezők klaszterezése, amivel a szoftver automatikusan felismeri például egy budapesti cím különböző változatait, és ajánlatot tesz egy általános alakra. Ezzel a módszerrel gyorsan javíthatóak az elírások is, és a funkció demók illetve saját tesztek alapján is remekül működik. Részletesebb bemutató erről ebben a videóban.

A másik tipikus feladat, amit eddig nem tudtunk programozás nélkül megoldani, az az új struktúrálatlan információk hozzácsatolása a táblához. Miután kitisztítottunk egy táblát, melyben országonkénti adataink vannak, a Freebase API-n keresztül egyszerű felületen kapcsolhatjuk hozzá az ország népességét, GDP-növekedését és egyéb adatait. Szintén gyakran előforduló feladat, hogy egy táblában kezdő- és végpont címek vannak, és szeretnénk megtudni a két pont közötti távolságot. Erre a Refine-ban használhatjuk a Google Maps viszonylag egyszerűen paraméterezhető API-ját, és kódolási munka nélkül kapjuk meg a választ.

Egyelőre még nem nyúztuk a szoftvert hatalmas adatbázisokkal, de az már most látszik, hogy szöveges adatok tisztításához és API-kon keresztül további adatok bevonásához egy nagyon hatékony eszközt hozott létre a Google.

2 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr622475681

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

_Hose_ 2010.11.29. 10:10:19

Húúú, már töltöm is le. Remélem lesz időm játszani vele a héten.
Köszi a cikket!

(U.I: Tudom, hogy én kértem a screen shotokat, de így eléggé felismerhetetlenek a képek. Nem tud olyat az oldal, hogy kis java ablakban felugranak a képek nagyban?)

Prekopcsák Zoltán · http://prekopcsak.hu 2010.11.29. 10:23:16

Alapból nincs ilyen felugró ablak lehetőség, de majd megpróbáljuk belehekkelni a rendszerbe.

Ha rájöttél, hogy meg lehet-e oldani a karakterkódolásos problémát Refine-ban, akkor majd szólj! Nekem nem volt ilyen adatom, de abban bízom, hogy a Cluster & Edit funkció megoldja.