OCR

Algemeen
OCR is een vertaalslag van pixels naar tekst. Dit maakt het mogelijk om miljoenen archiefstuk te ontsluiten en doorzoekbaar te maken.

Miljoenen pagina's worden na de digitalisering onderworpen aan een OCR-behandeling. Hiervoor beschikt GMS over een hoogvolume OCR-pakket welke op basis van geavanceerde detectie- en verificatiemethoden in staat is om een kwalitatief hoogwaardige output te realiseren.

Filtering
Het filteren van specifieke data uit archiefstukken biedt de mogelijkheid om geheel automatisch gegevens te 'ontleden'. De filtering van data is realiseerbaar middels maatwerk software of reeds bestaande software. De data kan vervolgens worden ontsloten in databases of gedefinieerd worden als metadata in een bestand.

Publicatie
Voor de publicatie van archiefcollecties en/of bijbehorende data spelen een aantal aspecten een rol. Twee aspecten zijn bepalend voor de technische realisatie:
 
- Functionaliteit
- Perceptie van de gebruiker

Functionaliteit
De functionaliteit zorgt voor optimaal gebruik van de gescande en geocrde materialen.

Het genereren van een searchable(doorzoekbare/geOCRde) Multipage PDF-file op is een voorbeeld waarmee bijvoorbeeld ordners of boeken eenvoudig in kunnen worden ontsloten in slechts één bestand.

Perceptie
de beleving die de gebruiker bij een archiefstuk heeft moet overeen komen met de beleving zoals de aanbieder die wil 'meegeven'. Een archiefstuk met een (cultureel) historisch karakter dient bijvoorbeeld de authenticiteit te behouden die het fysieke archiefstuk oorspronkelijk bezat.

Het genereren van een doorzoekbaar bestand met een authentieke karakter is mogelijk door de image en de OCR-data gescheiden op te slaan. XML is hiervoor een algemene standaard, omdat dit bestandsformaat ook coördinaatgegevens bevat. Op basis van de
coördinaatgegevens kan hit-highlighting worden gerealiseerd.

Klik hier voor de bestandsformaten welke kunnen worden gegenereerd middels OCR