: Adateltitkolás, ökonometria és a kommunista diktatúra

Egy olvasónk elküldte a Korrupciókutató Központ grafikonját.

A Korrupciókutatók biztatónak tartják a szennyvíz-koncentráció adait, mivel a koronavírus örökítőanyagának koncentrációja a szennyvízben szinte mindenhol csökkenő tendenciát mutat. Ez az adat egy-két hetes eltolással korrelál a fertőzöttek számában, mivel a székletben-vizeletben már akkor jelen van a koronavírus örökítőanyaga, amikor még tünetek nem alakultak ki (de már továbbfertőz a fertőzött). Tehát ha valóban napok óta csökkenő trend van, az biztató, mert akkor egy-két héten belül a regisztrált új fertőzöttek számában is csökkenő trend lesz.

Ami az igazán tanulságos a grafikonban, az nem ez. Eleve azért nem osztom meg a grafikont posztban, mert nem szeretném, ha hamis reményt adva elterjedne hirtelen. Ugyanis a módszer és az adatbázis, amiből készült, többet mondd el a magyar járványhelyzetről, mint hogy milyen következtetésekre jutnak.

A nyilvánosságra hozott adatok ugyanis nem számszerűek, hanem csak mondanak egy fokozatott (alacsony-mérsékelt-emelkedett-magas) és egy tendenciát (csökken-stagnál-emelkedik). A korrupciókutatók egyszerűen annyit csináltak, hogy a koncentráció fokozatainak adtak egy számot (alacsony 1, mérsékel 2 stb) és ezt napról-napra összeadják. Ebből kijön egy grafikon, ami ebben az állapotában erősen a madárjóslásra emlékeztet.

Kapaszkodjunk, most jön a kemény rész.

A Korrupciókutató kiásott egy NNK-tanulmányt, amelyben benne van az országos jelentés módszertana (milyen koncentráció pl. a “mérsékelt”) és egy dátum-koncentráció grafikon, amihez azonban nem tartozik adatmelléklet. Na itt jön a full Kelet-Európa, a Korrupciókutató (feltételezve, hogy egy Excel-lel automatikusan generált grafikonról van szó) fogott egy centimétert és megmérte hogy milyen számokat tartalmaz a grafikon.

Tehát még egyszer: monitorról, centiméterrel. A XXI. században. Miért baj ez?
A közelmúlt számtalan ipari forradalmának egyike a “big data” forradalom. A big data leegyszerűsítve annyit tesz, hogy olyan adatmennyiségek állnak már rendelkezésre, amelyek

egy ember vagy kutatócsoport számára felmérhetetlenek
megfelelő adatelemző szoftverekkel viszont nagyonis kezelhetők
kezelésük során olyan jelenségek figyelhetők meg, amelyeknek megfigyelésére az adatfelvételkor nem gondoltak.

A big data adatelemző szemlélet magával hoz pár komoly szemléletváltást. Ilyen például az, hogy a nagyon sok adat miatt, kevésbé érzékeny az adatminőségre. Olvastam pl. egy argentin borászatról, amely az 1-2 hitelesített hiperszuper időjárásállomása mellett kitelepített a dűlőkre több tucatnyi sima kínai gyártmányú, lakossági weather stationt és javult az adatminősége, mivel a több mérési pont nagyobb előnnyel járt mint a kevés, de pontosabb.

A másik jellemző, hogy rengeteg korreláció van, amelynek az adatbányász szoftver nem tudja az okát. Aztán lehet hogy ezeknek nincsen semmi jelentősége, de az adatbányász szoftvernek nincsenek elvárásai, és nem is zár ki korrelációkat azon az alapon, hogy á, ez tuti valami hiba lesz.

A dolog eredménye egy csomó váratlan felfedezés. Exobolygók tucatjait fedezték fel úgy, hogy csillagászati távcsövek évekkel ezelőtti eredményeire (irgalmatlan mennyiségű adat) eresztettek rá adatelemző szoftvereket. Az adatelemző szoftver úgy “tanulja rá magát” az adatbázisra, mint ahogy a gyerek nyelvet tanul, vagyis nem tudja miért kell a “Hol” szót használnia, ha meg szeretné tudni egy tárgy helyét, de megfigyeli és megtanulja, hogy a “Hol” szó után jön egy adat a tárgy pontos helyéről.
A dolog eredménye pl. az, hogy a megfelelő adatok birtokában egy drogérialánc hamarabb tudja, hogy valahol influenzajárvány van, mint hogy a járványmegfigyeléssel megbízott háziorvosok elkezdenék beküldeni laborvizsgálatra az influenzagyanús mintákat. Gyakran olyan dolgokból, hogy XY tea (mely mondjuk kicsit izzaszt, és jólesik meginni ha az embernek kezdődő hőemelkedése van) elkezd jobban fogyni.

A koronavírussal kapcsolatban is meg fognak születni ezek a megfigyelések…ott ahol az adatok nyilvánosak lesznek.
Nemcsak a jogállami átláthatóság kedvéért fontos tehát az, hogy legyenek nyilvános adatok. Hanem mert ma már egy olyan kicsi országban is mint Magyarország, többezer ember munkája az adatelemzés.

Adatelemzők próbálják kitalálni, hogy mennyi parizert kell és mikor küldeni az egyházastoportyáni Penny Marketbe, hogy ne legyen sok selejtáru, de ne legyen készlethiány se, adatelemzők próbálják megjósolni, hogy mennyi készpénzállomány legyen egy biztosítónál, mikor mennyi káresemény kifizetésére kell készülni, természettudományi kutatásoknál elvárás ma már a nagy adatmennyiséggel dolgozás és így tovább.

Vagyis ha látszanak a nyers adatok, akkor megtöbbszörözzük az esélyét annak, hogy egyszercsak valaki szóljon, hogy hahó, ugye látjuk, hogy a koronavírus hirtelen kitörését előrejelző szennyvíz-változásokat előrejelzi (hasamra ütök most) a dobozos kóla fogyasztásának megugrása? Ma már egyre több tudományos áttörést ilyen felismerések indítanak el.

…ahol nyilvánosak az adatok. Meg van Magyarország, ahol egy pdf összefoglalóban levő Excel grafikonból colstok segítségével kell “adatbányászni”. Mert az állampolgár hülye, csak az állam okos. Beschränkter Untertanenverstand, korlátolt alattvalói elme, mondták erre Poroszorszában. Csak az a XVIII. században volt, most meg a XXI. van, ideje lenne ledolgozni ezt a laza három-négyszáz év lemaradást és teljes adatnyilvánosságot bevezetni, nemcsak a koronavírussal kapcsolatban.

Adateltitkolás, ökonometria és a kommunista diktatúra

Kapcsolódhat

Folytatódik a magyar küzdelem az uniós pénzekért

Lezuhant a repülőgép, amin Moszkva szerint Jevgenyij Prigozsin utazott

Költözik a Múzsa!

Padok rendbetétele miatt hívott rendőröket Gárdony fideszes polgármestere kutyapárti aktivistákra

Két hét sincs az iskolakezdésig, de még mindig tárgyalnak a tanév rendjéről