Vytěžování dat z dokumentů

Nabízíme vytěžování dat z veškerých typů strukturovaných dokumentů. Pro efektivní zpracování dat je potřeba převést psané či tištěné informace do elektronicky zpracovatelných dat, se kterými je poté možno podstatně efektivněji pracovat, vytvářet databáze, statistiky apod. Pro proces převodu se využívá OCR, ICR, BCR a OMR technologií.

Příklady vytěžovaných formulářů

  • Faktury, dodací listy, vratky, reklamační protokoly
  • Daňové formuláře, poštovní formuláře, osobní formuláře
  • Pracovně právní formuláře, stavební formuláře, statistické formuláře
  • Formuláře pro pojišťovny, zdravotní formuláře, statistické formuláře...

Skenováním dokumentů získáme obraz, ale nezískáme přímo přístupná data, která digitální obraz obsahuje. Dnešní softwarové technologie dovolují automaticky zpracovávat digitální obrazy tak, aby se z nich vytěžilo co nejvíce užitečných informací, které jsou pak vhodné na další systémové zpracování.

Následné začlenění takových dat do vhodné databáze znamená extrémní nárůst efektivity práce s formuláři. Typickým příkladem mohou být účetní dokumenty (faktury), jejichž data (IČO, DIČ, firma, částka...) je jinak nutné ručně opsat do informačního systému.

Druhy vytěžovacích technologií

  • OCR - Optical Character Recognition neboli optické rozpoznání znaků. Používá se pro zpracování tištěného textu. Chybovost závisí především na kvalitě vstupního originálu, u dobře čitelných dokumentů se přesnost pohybuje kolem 95%.
  • BCR - BarCode Recognition neboli rozpoznání čárového kódu (či také 2D kódu). Čárový kód většinou obsahuje klíčovou informaci jako např. unikátní číslo smlouvy, rodné číslo či jinou identifikační sekvenci. V současné době se používají i různé 2D kódy, které dokáží zaznamenat podstatně více informací.
  • OMR - Optical Mark Recognition neboli rozpoznání optické značky. Většinou se jedná o tzv. checkbox, tedy zaškrtávací políčko formuláře.
  • ICR - Intelligent Character Recognition neboli inteligentní rozpoznání znaku. Tato technologie se využívá především při zpracování ručně vyplňovaných formulářů hůlkovým písmem.


Proces vytěžování dat

Proces vytěžování formulářů se od klasické digitalizace liší v několika krocích. Pojďme si nastínit postup práce:

  • Příprava formulářů ke skenování, roztřídění typů, vyčištění, odsponkování apod.
  • Vlastní skenování formulářů na vysoce kvalitním skeneru (čím kvalitnější je vstupní obraz, tím vyšší pravděpodobnost úspěšného vytěžení bezchybných dat).
  • Nyní je nutné determinovat oblasti pro vytěžování dat (strukturované X nestrukturované formuláře).
  • Zapojení technologií OCR/ICR/BCR/OMR pro optické rozpoznání strojového či psaného textu, čtení čárových kódů a zaškrávacích značek.
  • Automatická validace rozpoznaných dat – probíhá díky zapojení obecných i uživatelských slovníků, se kterými jsou vytěžená data porovnávána.
  • Validace na úrovni SQL databáze – např. označuje případné duplicity.
  • V případě výskytu chyb následuje ruční validace, kdy se pomocí databáze, naskenovaných materiálů a originálů kontroluje správnost vytěžených dat.


V současné době vytěžujeme všechny běžné typy formulářů. Pro více informací nás neváhejte kontaktovat.