Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (2) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) Barabási (2) barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) BI (3) Bi (1) bi (13) bi-trek (1) biconsulting (7) bigdata (21) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (1) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) data mining (1) data science (5) diplomamunka (1) dmlab (11) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (1) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (22) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) SPSS (3) spss (13) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (5) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2016.09.30. 21:00 Gáspár Csaba

Tároljuk-e le ezt az adatot?

Címkék: google adattárolás data science

Egy data scientist a címben szereplő kérdésre egy automatikus igennel szokott válaszolni - ha van valami adatunk, tároljuk le, mi ezen a kérdés. És valóban, mi akadályoz meg minket ebben? Ha belegondolunk, mennyire olcsó ma már az adattárolás, a kérdés felmerülése elsőre furcsán is hathat. Többek előadásában láttam már visszaköszönni a mellékelt ábrát, és én is gyakran használom - azt mutatja meg, hogy az elmúlt 35 évben hogyan zuhant le egyetlen GB adattárolás éves költsége. A születésem környékén több mint egy millió dollárba került volna azt eltárolni, ami ma egy promóciós ajándéknak utánam dobott 8GB-os pendrive-on elfér. Bár sokat keresgéltem, de nem láttam 2015/2016-os adatokat, de az ábrán így is látszik, hogy az elmúlt években már bőven beestünk a 10 dollárcent alatti értékekhez, ennyibe kerül 1GB háttértár kapacitás manapság.

cost-per-gigabyte-large.pngMit is jelent ez? Azt, hogy ha az adatmennyiség nem extrém nagy, akkor egy átlagos nagyvállalatnál az adatok tárolásáról szóló meetinget résztvevő kollégák órabére valószínűleg jelentősen meghaladja a teljes tárolás költségét. 

Mégis meg kell védenem azokat a szervezeteket, ahol nem minden adatot tárolnak, amire valaha rátaláltak vagy valaha birtokoltak. Mert csak egy szempont az, hogy egy ilyen adatot el kell tárolni, de van itt néhány más szempont is:

  • Ha eltároltuk, akkor kinek lesz jogosultsága ezeket az adatokat olvasni? Egy nagyvállalati környezetben ennek eldöntése már nem annyira triviális, mint lementeni azt.
  • Felmerül a kérdés, hogy ha tároljuk az adatot, akkor azt mennyire biztonságosan kell tenni. Nincs-e benne valami olyan érzékeny adat, aminek védelme extra költséget igényel. 
  • Sokszor olyan ügyféladat is lehet az adathalmaz mélyén, amire törlési kényszer van törvényi kötelezettségek miatt. Így a felelőtlenül törölt adatok a végén akár több fejfájást is okozhatnak, mint eredetileg gondoltuk.

Jól látható tehát, hogy a "mindent tároljunk" szabály inkább kihívásokat hoz egy hagyományos óriáscég számára. Az elv bevezetését én csak olyan helyen láttam, ahol (1) az ügyfelekhez köthető személyes adatok kezelése egyszerűsítve volt, (2) ahol minden alkalmazott bátran hozzáférhet (pénzügyi adatok kivételével) minden adathoz, azaz nagyon egyszerű jogosultsági szabályok voltak adathozzáférés szempontjából, (3) és ahol tipikusan rugalmasan bővíthető adattárolási infrastruktúra (pl. AWS) állt rendelkezésre. Ha ezt a három szempontot összeadjuk, könnyű kitalálni, hogy az innovatív, startup világ felöl közelítő techcégek eshetnek bele csak ebbe a körbe.

Pedig valójában minden cégnél van létjogosultsága a "tároljunk mindent" elv feltételeit megteremteni. Ma egyre több iparágban az adatokban rejlő lehetőségek jelentik az egyik legfontosabb feltételét annak, hogy hosszú távon versenyképesek legyenek. Az adatok kiaknázásához pedig - nem meglepő módon - már eltárolt adatok is szükségesek szoktak lenni.

Adalék az árakhoz: Ha megnyitom a Google Drive fiókomat, akkor ott egyetlen gomb megnyomásával az elérhető tárkapacitásomat felnyomhatom 10TB (10*1000GB) területre. Ezért cserébe elég biztonságos hozzáférést, adatvesztés nélküli tárolást kapok úgy, hogy egyszerre 3 példányban tárolják az adataimat olyan adatközpontokban, amik legalább 300km távolságban vannak egymástól - így egy kisbolygó szerencsétlen érkezése sem nagyon veszélyeztetik a családi fotókat. Ezért összesen havi 100$ kérnének most tőlem.

Azaz évente 1GB tárolása 0,012$-ba (alig 35Ft-ba) kerülne.

aaa.jpgSok adat van nálatok is, már foglalkoztok a kiaknázásával, de jó lenne ha valaki friss szemmel is rá tudna nézni, elbeszélgetnél arról milyen módon lehetne még felhasználni azt? Írj bátran nekünk, szívesen gondolkodunk együtt olyanokkal, akiket érdekelnek az innovatív big data és data science megoldások. Cím: gaspar.csaba@dmlab.hu

Szólj hozzá!

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr9211755673

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

Nincsenek hozzászólások.