It’s a trap! – Egy adatvizualizáció buktatói I.

Adattárházak Olvasási idő:3 perc

adatvizualizáció

Egy adatvizualizáció számtalan ponton megbukhat. Ha nagyon mélyremenően szeretnénk megvizsgálni a témát, akkor már az adatok rögzítésétől, illetve kiválasztásától kellene elindulnunk e felfedezés felé. Egy ilyen adatvizualizáció – annak típusától függően – számtalan csapdát rejthet mind a készítő, mind a befogadó számára. Blogsorozatunk következő két részében ezeket a hibalehetőségeket mutatjuk be.

Nem megfelelő adatok választása

Az alábbi ábra Európa 1507-es villamos energiafogyasztását szemlélteti egy országonkénti hőtérkép vizualizációval, viszont a nem megfelelő évválasztás miatt ez egyetlen színre korlátozódik.

adatvizualizáció

Ez a fajta vizualizáció egyébként – a megfelelő év választása mellett – látványos módon is elkészíthető. Ahogy azt a következő ábrán láthatjuk, az évszám (2014) és a mértékegység (Megawattóra / fő) módosításával máris egy mutatós és informatív illusztrációt kapunk Európa villamosenergia fogyasztásáról.

adatvizualizáció

A nem megfelelő adatok választásához hasonló hiba lehet a nem tetsző adatok kihagyása. Ez esetben egyszerűen úgy dönt a vizualizáció készítője, hogy például mivel adott évben jelentős visszaesés volt a cég bevételeiben, ezért azt az évet nem tünteti fel a prezentált ábráján, ezáltal egy sokkal kellemesebb képet festve.

Adatok nem hatékony átalakítása

Az előző hőtérképpel ellentétben nem minden esetben érdemes az egy főre eső adatokkal dolgoznunk, mert előfordulhat, hogy az adataink teljesen eltorzulnak általa. Ez történt a következő oszlopdiagramon is, amely a kontinensenkénti egy főre jutó népességet ábrázolja.

adatvizualizáció

Ezt sokkal látványosabb módon is szemléltethetjük, ha nem az egy főre eső értékeket használjuk, és feltüntetjük akár a kontinensek területét is, mely segítségével már könnyedén összehasonlíthatóak a földrészek.

adatvizualizáció

Kevésbé hatásos vizualizációs módszer-, vagy rossz szín választása

Ez a két problémakör csak azért nem került szétbontásra, mert sajnos nemrég összetalálkoztam egy olyan fatérkép diagrammal, ahol egyrészt az alkalmazott módszer sem volt jó választás, a feliratok és területek színének “összhangja” pedig még annyira sincs jelen az ábrán, így nagyrészt olvashatatlan feliratokat, s ezáltal értelmezhetetlen vizualizációt tárva elénk. Emellett a megjelenített adatok számossága is hagy némi kívánnivalót maga után.

adatvizualizáció

A fatérkép diagramok helyes és helytelen használatát hosszasan lehetne boncolgatni, de jelen esetben nem ez a cél. Amire a példa elsősorban fel kívánja hívni a figyelmet, az a helyes, nem megtévesztő színhasználat, és az olvasható feliratok (pozíció, méretezés, szín, stb.) alkalmazása.

Félrevezető adatvizualizációk készítéséhez az eddig felsorolt hibákat is fel lehet használni, ám léteznek ezeknél kifinomultabb technikák is, melyek egy hozzáértő kezéből kikerülve kevésbé feltűnőek, ezáltal viszont sokkal “veszélyesebbek” lehetnek a vizualizációt befogadó személyek számára. Lássuk most ezeket!

Torz tengelyek

A legtöbb ilyen módszer egy nagyon egyszerű trükkön alapszik, ami a vizualizációban szereplő tengelyek skálázásának különféle eltorzítása, s ezt követően a tengely beosztás megjelenítésének kevésbé feltűnő színnel való ábrázolása, vagy teljes eltüntetése a vizualizációról. Ezáltal a tengelyt az agy próbálja rekonstruálni, általában pontatlanul, így a vizualizáció eléri célját, miszerint torz hatást kelt valamilyen irányba, növelve az ábrázolt tények hatását valótlan módon.

A legegyszerűbb példa, amikor csak egyszerűen olyan mértéket választunk a tengelyünk léptékének, amihez képest az ábrázolás teljesen más képet fest, mint valójában.

Az alábbi vonaldiagramokon jól látható a függőleges (Forint) tengely léptékének jelentősége. Míg az első esetben az árbevétel egy napról napra változó heti képet mutat, a torzított tengellyel bíró második ábrán ugyanez az árbevétel egy konstans, vízszintes, változástól mentes heti képet fest, mintha egy teljesen másik adathalmaz ábrázolását szemléltetné, pedig csak a tengely beosztása került megváltoztatásra. A tengely maga fel van tüntetve, de még így is megtévesztő lehet ez az ábra. Ennél még megtévesztőbb eredmény érhető el, ha a függőleges tengely megjelenítését teljesen elhanyagoljuk és mondjuk csak az egyik konkrét pontban feliratozzuk azt, az értelmezést “segítendő”.

 

 

adatvizualizáció

adatvizualizáció

adatvizualizáció

A vízszintes tengellyel is elérhető ilyesféle manipuláció, többféle módon is. Ezek közül az egyik trükk hasonló az eddigiekhez, a vízszintes tengely léptékének helyenkénti megváltoztatása, vagy másképpen gumiszalag-szerű skála használata. Erre a legklasszikusabb példát hozom, azt a Washington Post-ban megjelent vizualizációt, mely az orvosok nettó jövedelmét állítja szembe más szakemberekével. Az ábra egy oszlopdiagram, mely kisebb dekorációs elemekkel fűszerezve jeleníti meg a bizonyos évekhez tartozó értékeket. S mivel ezek az évek, habár időben távolabb esnek egymástól, az ábrán ugyanolyan messze vannak, ezáltal torz képet tárnak elénk (két érték közötti 8 éves távlat ugyanolyan távol esik egymástól, mint 2 vagy 1 év távlat). Ebből azt a következtetést vonhatjuk le első ránézésre, hogy az 1939-1976 közötti időszakban az orvosok és más szakemberek fizetései is egyenletesen emelkedtek, csak eltérő mértékben. Ám ez téves!

.adatvizualizáció

Egyenletes léptékű vízszintes tengely használata esetén ugyanaz az ábra teljesen más képet fest. Így már jól látható, hogy az orvosok fizetése korántsem egyenletesen növekedett, hanem exponenciálisan, ám a további szakemberek esetében kevésbé észrevehető a torzítás. Az is jól látható a diagramon, hogy az adatok eloszlása hogyan alakult, vagyis hogy a korábbi évekről ritkábban álltak rendelkezésre vagy kerültek felhasználásra adatok, míg a későbbi évekről egyre sűrűbben.

adatvizualizáció

Konklúzió

Számtalan további példa létezik a megismert trükkök még vadabb kiaknázására, és természetesen még rengeteg olyan kis apró csel van, melyekkel hasonló megtévesztések érhetőek el. Ezek nagy része nem csak a figyelmetlenségre, felszínesség általi torzításra alapszik, hanem – ahogy már láthattuk is – pszichológiai alapú megtévesztéssel próbálja meg lefesteni a valós adatokat. Blogsorozatunk következő részében ilyen, és ehhez hasonló példákat hozunk még Nektek, maradjatok Velünk! :)

Tóth Ádám, Big Data fejlesztő – Nextent Informatika Zrt.