Fejlett dokumentumfeldolgozás Big Data technikákkal

Adattárházak Olvasási idő:2 perc

dokumentumfeldolgozás

Egy professzionális dokumentumkezelő rendszer kiépítése bármely szervezet számára elengedhetetlen. A rendszer általában olyan funkciókat valósít meg, mint a dokumentumtárolás, a dokumentumok osztályozása, a hozzáférés-ellenőrzés és kollaboráció. Szép, de elegendő? Tényleg hatékonyan tudja a szervezet használni ezen fájlokban tárolt információkat?

Ebben a posztban megmutatjuk, hogyan gyűjthetünk és használhatunk fel értékes információkat a strukturálatlan dokumentumokból Big Data eszközök és technikák segítségével.

A vállalatok többsége nagy mennyiségű strukturálatlan adattal foglalkozik, számos formátumban. A legnépszerűbb típusok a Word, az Excel vagy a PDF különböző változatai, de megemlítendőek a szkennelt dokumentumok és más képek is. Az egyesített folyamatok nagy kihívást jelentenek a különböző fájltípusok miatt. A jó hír az, hogy a Big Data egyik fő definíciója „a különböző adatok feldolgozása” (a „nagy volumen” vagy „gyors sebesség” mellett), ennek okán hatékony Big Data eszközök állnak rendelkezésünkre. Segítségével a dokumentumok metaadatait elemezhetjük, egységes szöveges formátumban szerezhetjük be a tartalmat a beolvasott dokumentumokból, vagy létrehozhatunk egy „Google-szerű” belső keresőmotort. Az egyéni Big Data alkalmazás kifejlesztéséhez (a korábban ismertetett funkciókkal) számos nyílt forráskódú szoftver komponenst használhatunk. Vizsgáljunk meg ezek közül részletesen néhány érdekes Content Extractor és OCR megoldást!

Apache Tika – Az Apache Tika eszközkészlet több mint ezer különböző fájltípus (például ppt, xls és PDF) metaadatait, szövegét detektálja és nyeri ki. Mindezen dokumentumok egyetlen interfészen keresztül értelmezhetők, így a Tika hasznos lehet keresőmotorok indexeléséhez, tartalomelemzéshez, fordításhoz és még sok máshoz. Az Apache Tika segítségével tehát „kiragadhatjuk” az összes metaadatot és a szöveges tartalmat bármely népszerű dokumentumtípusból.

Tesseract OCR – A Tesseract egy optikai karakterfelismerő (OCR) motor, amely támogatja az unicode-ot, és több mint 100 nyelvet képes felismerni. Egy ingyenes, az Apache licenc alatt kiadott szoftver, melynek a fejlesztését 2006 óta a Google szponzorálja. Hatékonyan használhatjuk fel a szkennelt dokumentumok vagy bármely más forrásból származó képek szöveges tartalmának kinyerésére. A Tesseract napjaink egyik legjobb nyílt forráskódú OCR-motorjának tekinthető, a szöveg felismerés pontossága tekintetében.

Metaadatok elemzése

Az említett dokumentumok az értékes tartalom mellett sok metaadatot is tartalmaznak. A leggyakoribb metaadatok a következők:

  • szerző,
  • létrehozás dátuma,
  • utolsó módosítás dátuma,
  • utolsó módosító,
  • alkotó eszköz,
  • nyelv,
  • tartalomtípus, stb.

Képek esetén metaadataink is rendelkezésre állnak arról az alkalmazásról, ami legutóbb tetszőlegesen módosította az eredeti fotót és akár a készítés helyének pontos GPS koordinátái is rendelkezésre állhatnak. Ha ezeket az adatokat kinyerjük és letároljuk egy adatbázisban, képesek leszünk arra, hogy speciális keresési lekérdezéseket futtassunk rajta. Emellett analitika vagy vizualizáció készíthető a dokumentumainkról, mint például: a „Creator eszközök” elosztása, az adott időszakban létrehozott vagy módosított dokumentumok száma, stb.

Reach - Dokumentum feldolgozás Big Datával

Keresőmotor építése

Nyilvánvaló, hogy minél több üzleti tartalommal bíró dokumentumot tárolunk, annál nehezebb megtalálni a megfelelő információkat. Ebben a helyzetben egy egyéni, belső keresőmotor nagyon hasznos eszköz lehet a szervezet számára. A keresőmotor felépítéséhez először fel kell dolgoznunk az összes dokumentumunkat, vagyis fel kell térképezni a tartalmat, indexelni és tárolni egy speciális adatbázisban, amely a teljes szöveges keresési lekérdezésekhez optimalizált. Szkennelt dokumentumok esetén az optikai karakterfelismerés (OCR) alkalmazása a szkennelt kép értelmezhető szövegformátumra történő átalakításához is szükségessé válik. A kezdeti dokumentumfeldolgozás után automatizált adatcsatornát kell építeni, amely biztosítja az új vagy módosított dokumentumok folyamatos feldolgozását. Az adatfeldolgozás során kulcsszavakat is definiálhatunk, hiszen az adott dokumentumot „címkézéssel” találhatjuk meg a legegyszerűbben, a tartalomban található kulcsszavak segítségével.

Interaktív karbantartási útmutató

A számos gyártósorral rendelkező gyárakban a rendszeres karbantartás általános feladatnak tekinthető. A karbantartási kézikönyvek azonban sok esetben nem egységesek, így rendkívül nehéz megtalálni a megfelelő dokumentációt egy adott géphez vagy alkatrészhez. További nehézséget okoz, hogy a kézikönyvek rendszeresen frissítődnek, ezért fontos a megfelelő, éppen aktuális verzió használata.

Ennek a feladatnak megkönnyítésére és elősegítésére egy közös, interaktív karbantartási útmutatót készíthetünk a gyár valamennyi munkagépére. Ez az útmutató a lépésenkénti karbantartási utasításokat tartalmazza minden gép számára, valamint a dokumentumok korábbi verzióit is tárolja. Egy ilyen rendszer megvalósításához minden rendelkezésre álló karbantartási kézikönyvet fel kell dolgoznunk, megtalálva a dokumentum megfelelő részeit, majd mindezt egy egységes adatbázisba kell betöltenünk. Ezzel a folyamatosan frissített adatbázissal és egy jól megtervezett felhasználói felülettel a karbantartási feladatok végrehajtása még hatékonyabb lehet, kevesebb hibát elkövetve.