Vytěžování dat znamená získání strukturovaných dat z dokumentů, například z dodavatelských faktur, dotazníků, smluv apod.
Po převedení dokumentu z papírové do digitální podoby provede OCR software jednoduché rozpoznání textu. Výsledkem jsou data v prosté podobě. Na ukázku si prohlédněte výstup pro fiktivní fakturu:
“Novák Petr. IČ: 1234567 Faktura - daňový doklad č. 2018-06-11-7 Neznámá 11 Datum plnění 30. říjen 2018 77900 Olomouc Datum vystavení 10. říjen 2018 DIČ: CZ1234567 Datum splatnosti 30. říjen 2018 Banka: LuftBank, a.s. Účet: 11111111/2222 Forma úhrady převodním příkazem Konečný příjemce Příjemce IČ 654311 DIČ: CZ654311 Rajský Adam, V ráji 1 190 00 Praha 9-Vysočany”
Technologie OCR tedy dokáže perfektně rozpoznat text, ale bez vytěžení dat je výstup dále jeho využití jen velmi omezené. Stačí například pouze pro fulltextové vyhledávání v rámci DMS systému.