Logo

OCR (Optical Character Recognition)


Optical Character Recognition (OCR), of in het Nederlands: optische tekenherkenning is een transformatie waarbij uit een afbeelding van een tekst door middel van patroonherkenning alle tekens uit de afbeelding als zodanig worden herkend en apart opgeslagen door een computer(programma).

Als de volledige tekst doorzocht moet kunnen worden, zoals bijvoorbeeld pagina's van kranten of tijdschriften, wordt OCR toegepast.

MicroFormat gebruikt de OCR-techniek onder meer voor het ontsluiten van gedrukte of bedrukte documenten.

De output van de OCR-software kan worden afgeleverd als XML of tekst:

  • ALTO XML-indeling
  • Word XML-indeling
  • XML Document-indeling
  • Omnipage XML indeling
  • Microsoft Word (.doc)
  • Microsoft Excel (.xls)
  • Rich Text Format (.rtf)
  • Text Document (.txt)
  • CSV-Document (.csv)
  • PDF Document (.pdf met text layer)