OCR

OCR (Optical Character Recognition) is een techniek die tekst uit afbeeldingen weer als 'actieve' tekst kan herkennen. Deze herkende tekst kan in daartoe geschikte bestandsformaten worden opgeslagen. Voor dit proces maken wij gebruik van een servergebaseerde, schaalbare OCR applicatie in combinatie met Enterprise-Level servers.
Bram Groenendijk Manager Operations b.groenendijk@gmsnl.com 078-6931300
Bram Groenendijk

Algemeen

Onze OCR applicatie ondersteunt de meest uiteenlopende tekensets en talen. Ook is het mogelijk om herkenningspatronen te definiëren om de herkenningsnauwkeurigheid voor specifieke archiefcollecties te optimaliseren.

Gangbare outputformaten voor OCR-resultaten zijn: PDF/a, TXT, PDF, DOC, Native XML, Word XML, ALTO XML.

OCR voor kranten, magazines en andere publicaties

Voor krantencollecties kan GMS een dataset leveren bestaande uit JPG, Multipage PDF/a per issue/verschijningsdatum, ALTO XML per pagina en een METS-Wrap.

De OCR-output is opgeslagen in XML volgens de ALTO standaard. Op basis van afbeeldings-coördinaten is het mogelijk om het zoekwoord of de alinea van het zoekwoord te 'highlighten' in daartoe bestemde kranten-viewers. De METS-file bevat separate metadata over de gegenereerde issues.

OCR voor documenten en reguliere boeken

Documenten en boeken worden meestentijds als multipage-file opgeslagen op 'Issue' niveau. De bestandsformaten PDF of PDF/a zijn hiervoor uitermate geschikt. Het grote voordeel van PDF of PDF/a is de geïntegreerde doorzoekbaarheid. Zowel de afbeelding als het OCR-resultaat zijn embedded in de PDF beschikbaar. Daarnaast is de PDF-standaard ook geschikt voor ECM en DMS-applicaties.

Gerelateerde projecten