Adatbányászat Blog

Az Adatbányász Blogon a dmlab szakértőinek írásait olvashatod a big data és data science területéről.

dmlab.hu - Big data és data science tanácsadás
"Ha örülsz, hogy fejedre nőttek az adatok."

Keress minket bátran:
- Nagy-Rácz István +36704595669
- Gáspár Csaba +36208234154
- info@dmlab.hu

2016.12.12. 13:01 Kazi Sándor

A PISA-felmérés kapcsán - adatelemzés feladat

Címkék: 2016 adatelemzés PISA-felmérés

Pár pillanatra feltódult a magyar online médiában a PISA-felméréssel kapcsolatos hírek hada, mondván, hogy Magyarország leszerepelt, stb. Az Index ki is emelt pár feladatot, hogy az olvasók is tesztelhessék, mit is mér a PISA-felmérés, és hogy hogy teljesítenének rajta. Viszont a poszt apropója nem is ez, hanem konkrétan az egyik feladat, ami alább olvasható, illetve az Index kiemelt feladatai között is szerepel:

14207170_29684942a585817e9508b9eefd70e1f5_wm.png

De mi is ezzel a probléma?!

Tegyük fel, hogy csak a csapadéktől függ a dolog. Mit mond nekünk ekkor a napsugárzás?! Ha nem függ tőle, akkor az égegyadtavilágon semmit... Ugyanez igaz fordítva is: ha csak a napsugárzástól függ, akkor sem mond semmit a csapadékmennyiség oszlop. A számokból tehát az alábbi két narratíva vezethető le, ebből kell választani:

  • Ha több a napsütés alacsonyabb lesz a talajnedvesség, és igazából nem függ a csapadékmennyiségtől.
  • Ha több az eső magasabb lesz a talajnedvesség, és igazából nem függ a napsugárzástól

A gond ott keresendő, hogy a fenti feltevések közül mindkettő lehetséges, sőt, (szerintem) leginkább egyszerre mindkettőtől függ a dolog, nem csak az egyiktől; innentől pedig a feladatra nem lehet helyesen válaszolni, mert egyik válasz sem igaz.

Ha a konstruktivitás jegyében feltesszük, hogy az fog kijönni, hogy a dolog az egyiktől egyértelműen jobban függ, mint a másiktól, akkor az alábbi példákat megvizsgálva juthatunk arra, hogy nem is annyira tud "egyértelmű" lenni ez a "jóság"-definíció.

Bonyolultabb összefüggések (kis csalással *) a talajnedvességre:

  1. Alapvetően 1.3%. Minden 100 mm csapadék növeli ezt 7% százalékkal, de 2GJ/m^2 átlagos napsugárzás felett minden további GJ/m^2 csökkenti 2.7 százalékkal.
    Képlettel: 1.4 + 7 * p/100 - max(0, r/1000 - 2) * 2.7
    • 2 GJ/m^2 naponta simán visszaverődik a növényekről, az alatt nem változtat, felette egyenletes a befolyás
    • A csapadékmennyiség egyenletesen befolyásol.
  2. Alapvetően 5%-os. Minden 100 mm csapadék ezt növeli 7.4%-kal, de minden GJ/m^2 napsugárzás pedig csökkenti 2.7 százalékkal.
    Képlettel: 5 + 7.4 * p/100 - r/1000 * 2.7
    • Ugyanaz mint az előző, csak nincs a 2GJ/m^2 korlát...

Melyikre lehet - egy középiskolás ismeretei alapján - azt mondani, hogy valószínűbb, mint a másik? Melyiktől függ? Melyiktől függ "jobban"?

* kis csalással: itt még negatív értékek is kijöhetnének talajnedvességre, ha a fenti képletet alkalmazzuk, de mivel nem vagyok kompetens a talajnedvesség reális értékei tekintetében, inkább nem finomhangoltam a dolgokat ilyen irányba; illetve azzal csak a képlet lenne bonyolultabb, a lényegen nem változtatna.

Mentségek - és miért nem :)

Ha a 440-es és 450-es számok úgy vannak szánva, mint "nem releváns különbség", akkor érhető, hogy erre a következtetésre jut a költő. Ámde miért kéne egy középiskolásnak azt tudni, hogy a százalékban mért talajnedvességet befolyásolja-e relevánsan 10mm csapadék?!

Igen, ki lehet találni, hogy a kérdező mire gondolt, de elvileg nem erről szól a feladatsor. Lehet hivatkozni "Occam borotvájára" is: többnyire a legegyszerűbb megoldás a helyes. De pont az a helyzet itt, hogy a kitöltőnek kritikus gondolkodással és ésszel kell állnia a feladatokhoz, éppen ez az egész felmérés legalapvetőbb elvárása.

Súlyosabb probléma

Ha ezt tényleg így csinálják a gyakorlatban. :D

Sokkal szembetűnőbb viszont az, hogy azt várnák a kitöltőtől, hogy lineáritást feltételezzen. Arra KELL gondoljon a sikeres válaszadáshoz, hogy "hú ez kétszer annyi majdnem, ez meg csak 2-3%-kal több". Pedig a valóságban tisztán lineáris kapcsolat nem nagyon van természetes dolgok között... és még csak - ha jól látom - nem is SI mértékegységek vannak a táblázatban...

Nézzük a jó oldalát!

Legalább nem hőmérséklet van a feladatban... példafeladat: melyik befolyásolja jobban a talajnedvességet: a hőmérséklet Celsius fokban vagy a hőmérséklet Kelvinben?

átlaghőmérséklet (°C) talajnedvesség (% átlaghőmérséklet (Kelvin) átlaghőmérséklet (Fahrenheit)
7 28 280.15 44.6
13.5 18 286.65 56.3

(Az arányok nem véletlenül egyeznek a feladat adataival. A talajnedvesség kapcsán viszont a valósággal való bármilyen egyezés a véletlen műve.)

Zárszó

Szóval alapvetően nem lenne baj azzal, ha feladatban ilyen következtetéseket kell levonni, de ha edukációs céllal várunk el megalapozatlan állításokat, attól rossz lesz a kedvem. Nem segít a szituáción (irányomban), ha ezt mindeközben "adatelemzés"-nek nevezzük. :)

Megjegyzés: természetesen gyanakodtam, hogy a fordítással lehet valami, de az OECD oldalán megnézve az angol verziót, rá kellett döbbenjek, hogy nem.

9 komment

A bejegyzés trackback címe:

https://adatbanyaszat.blog.hu/api/trackback/id/tr9712035167

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

XEP 2016.12.13. 19:39:31

"természetesen gyanakodtam, hogy a fordítással lehet valami"
A fejedben van a hiba, ne máshol keresd.

Szalóki István 2016.12.14. 17:24:45

Megnézve az adatelemzés táblázatát ( egy pillanat), majd elolvasva a válaszlehetőségeket (másik pillanat), szinte azonnal adja magát a helyes válasz: az 1. tanulónak van igaza. Kazi Sándor "problémakifejtése" számomra egy megmosolyogtató tohuvabohu.Egy fiatal, friss gondolkodású
középiskolásnak, de akár egy általános iskolai tanulónak is ez a feladat nem lehet probléma, mert ez nem egy bonyolult talajnedvességi számításbeli ismereteket igényel, hanem józan logikai gondolkodási képességet.

Kazi Sándor 2016.12.15. 16:36:56

@Szalóki István: Köszönöm a véleményt, illetve azt is, hogy ezt nem névtelenül kaptam, mint a másikat. Magyarázkodásba, vitába vagy ilyesmibe itt a komment szekcióban nem bocsátkoznék a témát illetően, de emailben szívesen beszélgetek róla (keressen meg bátran).
Lévén, ez egy adatelemzési szakmai blog, nem ügyeltem rá, hogy mindenhol közérthető legyen a bejegyzés, alapvetően statisztikai ismereteket feltételezek már az elejétől; de a bejegyzés maga éppenhogy arról szól, hogy az ön által megemlített "első két pillanat" matematikai értelemben éppen önmagunk potenciális félrevezetéséről szól.
A tohuvabohu szót sem olvastam még, de utánanéztem, és bekerült a szótáramba. :)

Zsóka Madau 2016.12.16. 07:03:16

@Kazi Sándor: Azért szeretném tudni a feladat helyes megoldását, és itt most nem az ön fejtegetésére gondolok. Nem hinném, hogy a dolog ennyire bonyolult lenne. Én ugyan rendelkezem statisztikai ismeretekkel, statisztikus lévén, de megbocsásson, az ön eszmefuttatása számomra is egy tohuvabohu.

Zsóka Madau 2016.12.16. 07:07:02

@Szalóki István: Számomra is egyértelmű a feladat, mégpedig az ön okfejtését tartom igaznak. Azért most már azt is szeretném tudni, vajon mi a helyes válasz?

Szalóki István 2016.12.16. 11:34:25

A feleségem is szeretné tudni. Szerintem az 1.

subidubidu 2016.12.18. 12:30:56

Van általános iskolás és középiskolás gyerekem is. Az elsőst nem kérdeztem meg :-), de a nagyobbaknak - már a negyedikesnek is - egyértelműen az 1. válasz a helyes.
Valószínűleg nem tudnak annyira sokat, hogy az ismereteik bezavarjanak, a faék egyszerűségre mennek. ;-P

feketekefe 2016.12.19. 07:32:30

Teljesen egyetertek, rossz a feladat, ugyanezt gondoltam en is! A tobbi feladatban is vannak hasonlo problemak. Az igazan okos gyerekeknek ez problemat okozhat, kiveve ha a sajat fejuk helyett a kozepesen okos feladat kituzo fejevel probalnak gondolkodni.

Kazi Sándor 2016.12.19. 20:08:06

@subidubidu: Igen, a kiíró szerint is az 1. válasz a helyes (linkelve is van fentebb az OECD oldalán a feladatsor mindenféle nyelveken).
Javaslom azért a hőmérsékletes példát is fejlécek nélkül odaadni a lurkóknak, hátha ott is ez a döntés születik, hogy az első oszloptól függ (holott ugyanaz a hőmérséklet van mindegyik oszlopban, csak át van váltva a másik két közismert skálára). Persze nincs velük baj, ha a feladatkiíró szerinti helyes választ jelölik, szó nincs ilyenről!
A probléma nem azzal van, hogy túlbonyolítható a feladat. Bármilyen feladat túlbonyolítható... a gond azzal van, hogy ez nem túlbonyolítás (elvileg). Hanem - és ezt boncolgatja a poszt is - hogy ez hibás prekoncepciókra épít. Ez olyan, mintha mutatnánk egy képet egy, a betonon képződő délibábról valakinek, és megkérdeznénk, hogy vizes-e az út, és azt várnánk, hogy igent válaszol. Erről szól az egész poszt, ezt a "délibábot" próbáltam viszonylag egyszerűen megmagyarázni, hogy miért is az.
(( Azon az apróságon, hogy a korrelációt összemosták az ok-okozattal, már annyira meg sem lepődtem, hogy nem is említettem a posztban, olyannyira általános ez manapság. Van egy vicces kis videó (nem általam) ami ezzel (is) foglalkozik: youtu.be/XbJ2ywoOQJQ ))