Miért fontos az adatvizualizáció?

Egyéb Olvasási idő:3 perc

Mindennapjainkat oly módon átszövik az adatok, hogy akár egy telefonhívást bonyolítunk, akár egy webshop kínálatában böngészünk, vagy csak egyszerűen cikkeket olvasunk egy hírportálon, akarva-akaratlanul hatalmas mennyiségű adatot generálunk. Sőt, amennyiben legalább egy okoskészüléket hordunk magunknál, ezekben az esetekben maga a közlekedés, vagy bármilyen pozíció változtatás nélküli tevékenység is, meglepő módon sok adatot biztosít rólunk. Összességében elmondható, hogy a digitális lábnyom, amit bármelyikünk hagy nap mint nap, sokkal nagyobb, mint gondolnánk.

Becslések szerint 2020-ra a Földön átlagosan 1 másodperc alatt 1.7 MB adat/fő fog előállni. Ez napi szinten 143 GB (kerekítve)/fő. A problémát az jelenti, hogy ilyen méretű adatok nyers formájukban az emberi agy számára felfoghatatlanok, feldolgozhatatlanok.

Az adatok értelmezése

Első pillantásra talán már két szám közötti különbség is nehezen érzékelhető. Ha ez a két szám például a 99 és a 9999, ez nem jelent különösebb problémát, akkor sem, ha ezek mondjuk virágok egy mezőn, és azt próbáljuk eldönteni, hogy melyik mezőn van több virág. Viszont ha a szóban forgó értékek a 99999 és 999999 – tagolás és egymás alá rendezés nélkül -, akkor már korántsem olyan egyértelmű a helyzet. Amennyiben 5- vagy több számjegyű értékekkel állunk szemben, az agyunk már nehezebben tud különbséget tenni ezek között. A Miller-féle törvény szerint a rövidtávú memória kapacitása átlagosan 7±2 egység, mely jelen példa esetében a számjegyek.

Példaképp vegyünk néhány országot és népességi adataikat. Ha meg szeretnénk határozni, hogy a felsorolt országok közül melyik rendelkezik a legtöbb illetve a legkevesebb lakossal, akkor beletelik egy kis időbe, mire ezeket a számokat nyers formátumban össze tudjuk hasonlítani. Egy egyszerű adatvizualizáció ilyenkor is segíthet.

Ország Népesség
Brazília 210867954
Banglades 166368149
Indonézia 266794980
Pakisztán 200813818
Nigéria 195875237
Oroszország 143964709

Egyszerű adatvizualizáció

Az adatvizualizáció szerepe

A sokdimenziós adathalmazok ábrázolása gyakori probléma számtalan területen, ugyanis az ember 2, de legfeljebb 3 dimenziós vizualizációkat tud értelmezni, ez utóbbit pedig már csak nehézkesen. Az adatvizualizáció éppen ezért kiemelkedően fontos lépés az adatbázis struktúrájának, és a tartalmazott adatok közötti összefüggéseknek a megértésében.

3 dimenziós vizualizáció
3 dimenziós vizualizáció
2 dimenziós vizualizáció
2 dimenziós vizualizáció

Célunk jellegét tekintve 2 nagy csoportra oszthatjuk az adatvizualizációs módszereket:

  • Az adathalmaz teljes, vagy majdnem teljes részét, mint struktúrát vizualizáló módszerek (pl.: főkomponens-elemzésen alapuló dimenzióredukció, többdimenziós skálázás, Kohonen-féle Self-Organizing Map, stb.)
  • Az adathalmaz jelentősen kisebb, specifikusabb részét vizualizáló módszerek (pl.: oszlopdiagram, tortadiagram, szórásdiagram, lineáris regresszió, stb.)

Általában ez utóbbi kategóriába tartozó módszerek alkalmazása a gyakoribb, mivel tudjuk, hogy mire vagyunk kíváncsiak, így csak az ahhoz szükséges adatokat ragadjuk ki és vizsgáljuk meg. Ez egyszerűbb is, mert adott észleléshez (pl.: országok népessége) tartozó adataink típusa megegyezik. Ellentétben egy adatbázis teljes struktúrájával, mely egymástól teljesen elkülönülő, más mértékegységben kifejezett adatokat is tartalmazhat, melyek összehasonlítása, kapcsolatainak vizsgálata egyéb előkészületeket is igényelne, vagy teljesen másfajta módszereket követelne meg.

 

Népesség országonként
Forrás: http://www.worldometers.info/world-population/population-by-country/

Ugyanúgy, mint a matematikai statisztikában, az adatvizualizációban – ami lényegében nem más, mint alkalmazott statisztika – is megkülönböztetünk:

  • leíró módszereket, melyek csak és kizárólag a meglévő adatainkra alapoznak, további külső tényezőket nem vesznek figyelembe
  • következtető módszereket, melyek alkalmazásakor tisztában kell lennünk azzal, hogy az általunk birtokolt adatok csak egy részét képezik a teljes egésznek, s az is előfordulhat, hogy nem teljesen “hibátlanok”, így egyéb külső tényezőket is figyelembe veszünk, illetve a meglévő adataink között feltárható összefüggések segítségével próbálunk következtetni az adathalmazunkat jellemző általános viselkedésre

A használt módszerekről

A mindennapi életben elég gyakori, hogy kénytelenek vagyunk a következtető módszerre támaszkodni, ha minél valósághűbb eredményt szeretnénk elérni, ugyanis viszonylag ritka az olyan eset, amikor minden adatunk rendelkezésre áll egy adott problémakör kapcsán. Fontos megjegyezni, hogy ez nem azt jelenti, hogy a leíró módszerek hasztalanok lennének, csupán arról van szó, hogy nem árt tisztában lennünk azzal, hogy az általunk alkalmazott módszer hatóköre mire is terjed ki pontosan. Tekintsük az átlagot, mint leíró módszert: például ismerjük az átlagkeresetet a magyarországi munkavállalók körében, de amennyiben következtetni szeretnénk arra, hogy ez a jövőben hogyan fog változni, akkor már  több adat, és másfajta, összetettebb módszerek szükségesek, mint például korábbi évek átlagkeresetei és lineáris regresszió.

Az említett példák (pl.: országok népessége sávdiagrammal szemléltetve) talán nagyon is kézenfekvőnek és egyértelműnek tűnhetnek, mivel ezekkel már mindenki találkozott az iskolában, illetve sok más cikkben. Nem véletlen, hiszen ezek az egyszerűbb módszerek pontosan azt a célt szolgálják, hogy egyszerűen, de hatásosan képezzék le az adatokat, mindenki számára érthető, és látványos módon. Így, amennyiben képesek vagyunk az adatainkat a megfelelő módszerrel vizualizálni, majd ez által a bennük rejlő információkat meg is érteni, akkor olyan tudás birtokába juthatunk, amely elsőre láthatatlan volt számunkra.

Ám nem árt vigyázni, ugyanis hiába egyszerű elkészíteni egy adatvizualizációt, könnyen félrevezethetjük magunkat vagy másokat azzal, ha nem vagyunk elég körültekintőek a módszerek, és azok részleteinek megválasztása kapcsán. Blogsorozatunk következő részében ilyen hibázási lehetőségeket, illetve szándékos félrevezetéshez használt módszereket mutatunk be.

Tóth Ádám, Big Data fejlesztő – Nextent Informatika Zrt.

[cegajanlo id=”nextent”]

Kövess minket a Facebook és Instagram oldalunkon is, hogy ne maradj le semmiről!