Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

Hírlevél

Iratkozz fel hírlevelünkre, hogy mindig naprakészen tudjunk tájékoztatni.
Feliratkozás
Leiratkozás

Címkék

10éves (1) 2007 (1) 2010 (23) 2011 (27) 2012 (13) 2013 (23) 2014 (5) 2015 (6) 2016 (10) 2017 (3) adaptív (1) adat- és médiainformatika (1) adatárusítás (1) adatbányászat (10) adatbányászati algoritmusok (1) adatbányászati alkalmazások (2) adatbányászati meetup (1) adatbányászati oktatás (1) adatbányászati technológiák (4) adatelemzés (1) adatelemzési platformok (1) adattárház (5) adattárház fórum (6) adattárolás (1) adattisztítás (1) adatvédelem (2) advise (2) aegon (1) aglitás (1) agy (2) ajánló (11) ajánlórendszerek (1) aktivitás felismerés (1) algoritmus (1) alkalmazás (3) állásajánlat (1) amazon ec2 (1) ambiens (1) ami (1) analitika (1) analytics (1) andego (3) apache (1) api (2) Arató Bence (3) bank (1) barabási (2) Barabási (2) beharangazó (1) beharangozó (18) bejelentés (2) belami (1) best practice (9) beszámoló (14) Bi (1) bi (13) BI (3) bi-trek (1) biconsulting (7) bigdata (21) Big Data (2) big data (5) biopen (1) biztosító (1) BI Akadémia (1) bi consulting (1) bi start (1) blog (5) bme (1) BME (14) bootcamp (1) brainstorming (1) bsp (1) budapest (1) business analytics (1) business analytics szakirány (1) churn (2) ci (1) címkefelhő (2) CIO (1) clementine (1) Clementine Consulting (1) cloud computing (2) cognos (1) credit scoring (1) crisp-dm (1) crm (2) csalásdetektálás (1) DataExpert (1) dataexplorer (1) datapest (1) data mining (1) data science (5) diplomamunka (1) dmla1o (1) dmlab (12) döntési fák (1) drill (1) e-commerce (1) előadás (21) előrejelzés (1) élő közvetítés (1) Enbrite.ly (1) energetika (1) esemény (2) esettanulmány (3) etikus (1) etl (2) évforduló (2) fejlesztés (2) felmérés (5) felsőoktatás (1) felület (1) felvásárlás (3) film (1) fizetés (1) forecasting (1) forgalomelőrejelzés (2) foursquare (1) fraud detection (1) freebase (1) gartner (2) gazdasagi informatikus (2) gépi tanulás (4) google (8) google analytics (1) graphlab (1) gravity (3) greenplum (1) gyakorlat (1) hadoop (10) hallgatók (2) hálózatelemzés (3) hálózatkutatás (2) hálózatok (3) hazai (2) hiba (4) hírlevél (2) hive (1) honlap (1) HR (1) HVG (1) i5 (1) ibm (6) ibm modeler (1) ibm spss (3) icdm (1) idc (2) idősor (1) idősorok (1) ieee (1) iir (1) infobright (1) információbróker (1) innováció (5) innovatívBI (1) innovativ bi (4) inspiráció (1) intelligencia (2) Internet Hungary (1) iqsymposium (19) iqsys (16) iroda (4) jelentkezés (1) jmp (2) kaggle (2) kampánymenedzsment (1) kapcsolati hálók (1) karrier (1) kdd (3) kdnuggets (2) képzés (4) kérdés (1) kérdőív (1) kerekasztal (1) keresés (1) kereső (1) keresztvalidáció (4) klaszterezés (2) knime (1) kockázati tőke (1) kollaboratív munka (1) kompetencia (1) konferencia (70) könyv (6) környezet (1) közlekedés (1) közösség (2) közösségi hálózatok (4) közvetítés (6) kritika (1) küldetés (1) kürt akadémia (1) kutatás (2) lemorzsolódás (1) licensz (1) live (1) logisztika (1) magyar telekom (2) mahout (1) mapreduce (1) marketplace (1) média (2) meetup (11) mellékspecializáció (1) mém (3) memóriacentrikus (1) menedzsment (3) metaadat (1) metodika (1) microsoft (1) mobil (5) mobil bi (4) modeler (2) modell (3) morgan stanley (1) motion chart (1) munkaerő (1) mysql (1) mytraffic (4) nemzetközi (5) nemzetközi összehasonlítás (1) netflix prize (1) networking (1) next big thing (1) nips (1) nosql (1) nyílt forráskód (4) nyomkövetés (1) offline áruházak (1) okostelefon (1) oktatás (22) olvasók (1) online áruházak (1) online kutatás (1) open source (19) open source bi (3) operatorfa (1) osbi (12) összehasonlítás (1) ötletek (2) pandas (2) paradoxon (1) pascal (1) pentaho (1) personal data mining (1) phd (2) philips (1) piac (3) pikk (1) pilot (1) PISA-felmérés (1) pmml (1) politika (2) powerpivot (1) prága (1) praktiker (1) prediktív analitika (2) prediktív analitka (1) prediktiv modellezés (5) prediktív modellezés (1) prezi (15) privacy (1) privacy preserving data mining (1) projekt (1) projektmenedzsment (4) publikáció (1) python (9) radoop (12) random forest (1) rapid-i (2) rapidanalytics (7) rapidminer (40) RapidMiner (2) rcomm (7) refine (1) Rexer Analytics (1) rsctc (1) R nyelv (7) saas (1) sap (1) SAS (20) sas enterprise miner (2) sas enterpris guide (1) sas entprise miner (1) sas forum (3) sas fórum (1) siker (3) simptech (1) sixtep (2) smarthabits (1) spike sorting (1) sportanalitika (1) spss (13) SPSS (3) spss clementine (3) spss hungary (5) spss modeler (6) ssd (1) starschema (2) startup (9) statisztika (1) survey (1) svm (1) szabad szoftver (1) szakmai (1) szavazó eljárások (2) szélenergia (1) szélerőmű (1) szervezetfejlesztés (1) szociális hálók (1) szoftver (5) szöveg (1) szövegbányászat (2) sztaki (2) tableau (1) talend (2) támogatás (1) tanulmány (1) tanulság (1) távolság (1) technológia (1) tedx (1) telekommunikáció (2) teradata (2) teszt (1) text mining (1) tmit (5) toborzás (1) tőzsdei előrejelzés (1) tracking (1) trendek (8) tudományos (1) tunedit (1) twitter (17) ügyfél (1) üzleti intelligencia (3) üzleti modell (3) üzleti reggeli (3) validáció (4) válogatás (1) válság (1) változás (1) vélemény (1) véleméy (1) verseny (20) vezetői képzés (1) videó (3) vizualizáció (5) web (4) web2 (2) webanalitika (3) webshop (1) weka (2) wikipedia (2) workshop (1) yahoo (2) Címkefelhő

TWitter a csapat tagjaitól

2016.12.12. 13:01 Kazi Sándor

A PISA-felmérés kapcsán - adatelemzés feladat

Címkék: 2016 adatelemzés PISA-felmérés

Pár pillanatra feltódult a magyar online médiában a PISA-felméréssel kapcsolatos hírek hada, mondván, hogy Magyarország leszerepelt, stb. Az Index ki is emelt pár feladatot, hogy az olvasók is tesztelhessék, mit is mér a PISA-felmérés, és hogy hogy teljesítenének rajta. Nade a poszt apropója nem is ez, hanem konkrétan az egyik feladat, ami alább olvasható, illetve az Index kiemelt feladatai között is szerepel:

14207170_29684942a585817e9508b9eefd70e1f5_wm.png

De mi is ezzel a probléma?!

Tegyük fel, hogy csak a csapadéktől függ a dolog. Mit mond nekünk ekkor a napsugárzás?! Ha nem függ tőle, akkor az égegyadtavilágon semmit... Ugyanez igaz fordítva is: ha csak a napsugárzástól függ, akkor sem mond semmit a csapadékmennyiség oszlop. A számokból tehát az alábbi két narratíva vezethető le, ebből kell választani:

  • Ha több a napsütés alacsonyabb lesz a talajnedvesség, és igazából nem függ a csapadékmennyiségtől.
  • Ha több az eső magasabb lesz a talajnedvesség, és igazából nem függ a napsugárzástól

A gond ott keresendő, hogy a fenti feltevések közül mindkettő lehetséges, sőt, (szerintem) leginkább egyszerre mindkettőtől függ a dolog, nem csak az egyiktől; innentől pedig a feladatra nem lehet helyesen válaszolni, mert egyik válasz sem igaz.

Ha a konstruktivitás jegyében feltesszük, hogy az fog kijönni, hogy a dolog az egyiktől egyértelműen jobban függ, mint a másiktól, akkor az alábbi példákat megvizsgálva juthatunk arra, hogy nem is annyira tud "egyértelmű" lenni ez a "jóság"-definíció.

Bonyolultabb összefüggések (kis csalással *) a talajnedvességre:

  1. Alapvetően 1.3%. Minden 100 mm csapadék növeli ezt 7% százalékkal, de 2GJ/m^2 átlagos napsugárzás felett minden további GJ/m^2 csökkenti 2.7 százalékkal.
    Képlettel: 1.4 + 7 * p/100 - max(0, r/1000 - 2) * 2.7
    • 2 GJ/m^2 naponta simán visszaverődik a növényekről, az alatt nem változtat, felette egyenletes a befolyás
    • A csapadékmennyiség egyenletesen befolyásol.
  2. Alapvetően 5%-os. Minden 100 mm csapadék ezt növeli 7.4%-kal, de minden GJ/m^2 napsugárzás pedig csökkenti 2.7 százalékkal.
    Képlettel: 5 + 7.4 * p/100 - r/1000 * 2.7
    • Ugyanaz mint az előző, csak nincs a 2GJ/m^2 korlát...

Melyikre lehet - egy középiskolás ismeretei alapján - azt mondani, hogy valószínűbb, mint a másik? Melyiktől függ? Melyiktől függ "jobban"?

* kis csalással: itt még negatív értékek is kijöhetnének talajnedvességre, ha a fenti képletet alkalmazzuk, de mivel nem vagyok kompetens a talajnedvesség reális értékei tekintetében, inkább nem finomhangoltam a dolgokat ilyen irányba; illetve azzal csak a képlet lenne bonyolultabb, a lényegen nem változtatna.

Mentségek - és miért nem :)

Ha a 440-es és 450-es számok úgy vannak szánva, mint "nem releváns különbség", akkor érhető, hogy erre a következtetésre jut a költő. Ámde miért kéne egy középiskolásnak azt tudni, hogy a százalékban mért talajnedvességet befolyásolja-e relevánsan 10mm csapadék?!

Igen, ki lehet találni, hogy a kérdező mire gondolt, de elvileg nem erről szól a feladatsor. Lehet hivatkozni "Occam borotvájára" is: többnyire a legegyszerűbb megoldás a helyes. De pont az a helyzet itt, hogy a kitöltőnek kritikus gondolkodással és ésszel kell állnia a feladatokhoz, éppen ez az egész felmérés legalapvetőbb elvárása.

Súlyosabb probléma

Ha ezt tényleg így csinálják a gyakorlatban. :D

Sokkal szembetűnőbb viszont az, hogy azt várnák a kitöltőtől, hogy lineáritást feltételezzen. Arra KELL gondoljon a sikeres válaszadáshoz, hogy "hú ez kétszer annyi majdnem, ez meg csak 2-3%-kal több". Pedig a valóságban tisztán lineáris kapcsolat nem nagyon van természetes dolgok között... és még csak - ha jól látom - nem is SI mértékegységek vannak a táblázatban...

Nézzük a jó oldalát!

Legalább nem hőmérséklet van a feladatban... példafeladat: melyik befolyásolja jobban a talajnedvességet: a hőmérséklet Celsius fokban vagy a hőmérséklet Kelvinben?

átlaghőmérséklet (°C) talajnedvesség (% átlaghőmérséklet (Kelvin) átlaghőmérséklet (Fahrenheit)
7 28 280.15 44.6
13.5 18 286.65 56.3

(Az arányok nem véletlenül egyeznek a feladat adataival. A talajnedvesség kapcsán viszont a valósággal való bármilyen egyezés a véletlen műve.)

Zárszó

Szóval alapvetően nem lenne baj azzal, ha feladatban ilyen következtetéseket kell levonni, de ha edukációs céllal várunk el megalapozatlan állításokat, attól rossz lesz a kedvem. Nem segít a szituáción (irányomban), ha ezt mindeközben "adatelemzés"-nek nevezzük. :)

Megjegyzés: természetesen gyanakodtam, hogy a fordítással lehet valami, de az OECD oldalán megnézve az angol verziót, rá kellett döbbenjek, hogy nem.

9 komment

A bejegyzés trackback címe:

http://adatbanyaszat.blog.hu/api/trackback/id/tr2212035167

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben.

XEP 2016.12.13. 19:39:31

"természetesen gyanakodtam, hogy a fordítással lehet valami"
A fejedben van a hiba, ne máshol keresd.

Szalóki István 2016.12.14. 17:24:45

Megnézve az adatelemzés táblázatát ( egy pillanat), majd elolvasva a válaszlehetőségeket (másik pillanat), szinte azonnal adja magát a helyes válasz: az 1. tanulónak van igaza. Kazi Sándor "problémakifejtése" számomra egy megmosolyogtató tohuvabohu.Egy fiatal, friss gondolkodású
középiskolásnak, de akár egy általános iskolai tanulónak is ez a feladat nem lehet probléma, mert ez nem egy bonyolult talajnedvességi számításbeli ismereteket igényel, hanem józan logikai gondolkodási képességet.

Kazi Sándor 2016.12.15. 16:36:56

@Szalóki István: Köszönöm a véleményt, illetve azt is, hogy ezt nem névtelenül kaptam, mint a másikat. Magyarázkodásba, vitába vagy ilyesmibe itt a komment szekcióban nem bocsátkoznék a témát illetően, de emailben szívesen beszélgetek róla (keressen meg bátran).
Lévén, ez egy adatelemzési szakmai blog, nem ügyeltem rá, hogy mindenhol közérthető legyen a bejegyzés, alapvetően statisztikai ismereteket feltételezek már az elejétől; de a bejegyzés maga éppenhogy arról szól, hogy az ön által megemlített "első két pillanat" matematikai értelemben éppen önmagunk potenciális félrevezetéséről szól.
A tohuvabohu szót sem olvastam még, de utánanéztem, és bekerült a szótáramba. :)

Zsóka Madau 2016.12.16. 07:03:16

@Kazi Sándor: Azért szeretném tudni a feladat helyes megoldását, és itt most nem az ön fejtegetésére gondolok. Nem hinném, hogy a dolog ennyire bonyolult lenne. Én ugyan rendelkezem statisztikai ismeretekkel, statisztikus lévén, de megbocsásson, az ön eszmefuttatása számomra is egy tohuvabohu.

Zsóka Madau 2016.12.16. 07:07:02

@Szalóki István: Számomra is egyértelmű a feladat, mégpedig az ön okfejtését tartom igaznak. Azért most már azt is szeretném tudni, vajon mi a helyes válasz?

Szalóki István 2016.12.16. 11:34:25

A feleségem is szeretné tudni. Szerintem az 1.

subidubidu 2016.12.18. 12:30:56

Van általános iskolás és középiskolás gyerekem is. Az elsőst nem kérdeztem meg :-), de a nagyobbaknak - már a negyedikesnek is - egyértelműen az 1. válasz a helyes.
Valószínűleg nem tudnak annyira sokat, hogy az ismereteik bezavarjanak, a faék egyszerűségre mennek. ;-P

feketekefe 2016.12.19. 07:32:30

Teljesen egyetertek, rossz a feladat, ugyanezt gondoltam en is! A tobbi feladatban is vannak hasonlo problemak. Az igazan okos gyerekeknek ez problemat okozhat, kiveve ha a sajat fejuk helyett a kozepesen okos feladat kituzo fejevel probalnak gondolkodni.

Kazi Sándor 2016.12.19. 20:08:06

@subidubidu: Igen, a kiíró szerint is az 1. válasz a helyes (linkelve is van fentebb az OECD oldalán a feladatsor mindenféle nyelveken).
Javaslom azért a hőmérsékletes példát is fejlécek nélkül odaadni a lurkóknak, hátha ott is ez a döntés születik, hogy az első oszloptól függ (holott ugyanaz a hőmérséklet van mindegyik oszlopban, csak át van váltva a másik két közismert skálára). Persze nincs velük baj, ha a feladatkiíró szerinti helyes választ jelölik, szó nincs ilyenről!
A probléma nem azzal van, hogy túlbonyolítható a feladat. Bármilyen feladat túlbonyolítható... a gond azzal van, hogy ez nem túlbonyolítás (elvileg). Hanem - és ezt boncolgatja a poszt is - hogy ez hibás prekoncepciókra épít. Ez olyan, mintha mutatnánk egy képet egy, a betonon képződő délibábról valakinek, és megkérdeznénk, hogy vizes-e az út, és azt várnánk, hogy igent válaszol. Erről szól az egész poszt, ezt a "délibábot" próbáltam viszonylag egyszerűen megmagyarázni, hogy miért is az.
(( Azon az apróságon, hogy a korrelációt összemosták az ok-okozattal, már annyira meg sem lepődtem, hogy nem is említettem a posztban, olyannyira általános ez manapság. Van egy vicces kis videó (nem általam) ami ezzel (is) foglalkozik: youtu.be/XbJ2ywoOQJQ ))