Was ist OCR?

Mal angenommen, Sie möchten einen Zeitungsartikel oder einen gedruckten Vertrag digitalisieren. Sie könnten Stunden mit Abtippen und Korrekturen der Tippfehler verbringen. Oder Sie könnten alle benötigten Unterlagen mittels Scanner (oder Digitalkamera) und OCR-Technologie (Texterkennung) innerhalb weniger Minuten in digitale Formate umwandeln.

Wofür steht eigentlich OCR?

OCR, Optical Character Recognition (Optische Zeichenerkennung), oder Texterkennung, ist eine Technologie, die die Umwandlung unterschiedlicher Dokumente, wie beispielsweise gescannter Papierdokumente, PDF-Dateien oder Digitalbilder in bearbeitbare und durchsuchbare Dateien ermöglicht.

Stellen Sie sich vor, Sie haben ein Dokument in Papierform – zum Beispiel einen Zeitungsartikel, eine Broschüre oder einen Vertrag, den Ihnen Ihr Partner als PDF-Anhang geschickt hat. Ein Scanner reicht nicht aus, um die relevanten Informationen aus diesen Dokumenten herauszuziehen und beispielsweise im bearbeitbaren Microsoft Word-Format wiederzugeben. Alles, was ein Scanner leisten kann, ist ein Bild des Dokuments zu erstellen. Und dieses ist lediglich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte, die tabellarisch angeordnet und in der Fachsprache unter dem Begriff Rastergrafik bekannt sind. Zum Auslesen und Weiterverwenden der Informationen aus gescannten Dokumenten, Digitalbildern oder Nur-Bild-PDFs benötigt man eine OCR-Software, die in den Bildern Buchstaben erkennt, diese zu Wörtern zusammensetzt und aus diesen wiederum ganze Sätze baut. Damit ermöglicht Ihnen die Software den Zugang zum eigentlichen Inhalt der Dokumente, den Sie anschließend weiter bearbeiten können.

Welche Technologie steckt hinter OCR?

Lassen Sie uns zunächst einen Blick darauf werfen, wie FineReader PDF OCR Text erkennt. Als Erstes analysiert das Programm die Struktur der Dokumentabbildung. Es unterteilt eine Seite in Elemente wie Textblöcke, Tabellen, Bilder usw. Anschließend werden Zeilen in Wörter und schließlich Wörter in Buchstaben aufgeteilt. Wurden erstmal die einzelnen Buchstaben ausgemacht, vergleicht das Programm diese mit einer Reihe von Musterbildern und stellt zahlreiche Hypothesen auf, um welchen Buchstaben es sich hierbei handelt. Basierend auf diesen Hypothesen untersucht das Programm die unterschiedlichen Arten, auf welche Linien in Wörter und Wörter in Buchstaben aufgeteilt werden können. Nach Verarbeitung einer sehr großen Anzahl solcher Wahrscheinlichkeitshypothesen trifft das Programm schließlich eine Entscheidung und präsentiert den erkannten Text.

Zusätzlich bietet ABBYY FineReader PDF Wörterbuchunterstützung für einige Sprachen. Dies erlaubt eine Sekundäranalyse der Textelemente auf Wortebene. Mit Wörterbuchunterstützung gewährleistet das Programm eine noch genauere Analyse und Dokumenterkennung und vereinfacht zudem die Verifizierung der Erkennungsergebnisse.

Auf welchem Prinzip basiert FineReader OCR?

Die am weitesten entwickelten und damit fortschrittlichsten Systeme zur Texterkennung, wie auch ABBYY FineReader OCR, zielen auf die Imitation der Erkennung von Objekten, wie sie in der Natur oder auch bei Tieren vorkommt. Im Kern basieren diese Systeme auf den drei Grundprinzipien Einheit, Zweckmäßigkeit und Anpassungsfähigkeit (Integrity, Purposefulness und Adaptability, kurz (IPA).

Auf Basis dieser Prinzipien wendet das Programm eine äußert flexible und intelligente Erkennungsmethode an, die der menschlichen Art, Objekte zu erkennen, sehr nahe kommt.

Nach jahrelanger Forschung ist es ABBYY gelungen, die oben beschriebenen IPA-Prinzipien in seine OCR-Technologie zu integrieren.

OCR für Digitalfotos

Durch den Einsatz ausgeklügelter Bildvorverarbeitungs- und Erkennungstechnologien ermöglicht Ihnen ABBYY FineReader PDF, dass Sie Digitalkamera, Smartphone und Tablet zu einem tragbaren Scanner-Ersatz umfunktionieren.

Mehr erfahren

Wie können Sie OCR-Software verwenden?

Die Verwendung von ABBYY FineReader OCR ist einfach – der Prozess durchläuft für Gewöhnlich drei Stufen: Öffnen (Scannen) des Dokuments, Erkennen sowie Speichern im gewünschten Format (DOC, RTF, XLS, PDF, HTML, TXT usw.) oder Export der Daten direkt in eine Office-Applikation, z.B. Microsoft Word, Excel oder Adobe Acrobat.

Die Corporate Version von ABBYY FineReader PDF unterstützt zudem automatisierte Dokumentenverarbeitung mit dem Hot Folder Tool, der vor allem bei der Verarbeitung regelmäßig wiederkehrender Aufgaben unverzichtbar ist. Mit diesem Feature kann Texterkennung automatisch ablaufen, ohne manuelle Aktivierung der einzelnen Schritte.

Welche Vorteile bietet Ihnen OCR?

Mit FineReader OCR sieht das erkannte Dokument genauso aus wie das Original. Fortschrittliche, leistungsstarke OCR-Software ermöglicht es Ihnen, viel Zeit und Aufwand beim Erstellen, Verarbeiten und Wiederverwenden verschiedener Dokumente zu sparen. Mit ABBYY FineReader OCR können Sie Papierdokumente scannen, um sie weiter zu bearbeiten und mit Ihren Kollegen und Partnern zu teilen. Sie können Zitate aus Büchern und Zeitschriften extrahieren und sie zum Erstellen Ihrer Kursstudien und Arbeiten verwenden, ohne sie neu abtippen zu müssen. Mit einer Digitalkamera und FineReader OCR können Sie Text im Freien von Bannern, Postern und Stundenplänen erfassen und die erfassten Informationen dann für Ihre Zwecke verwenden. Auf die gleiche Weise können Sie Informationen aus Papierdokumenten und Büchern erfassen. Zum Beispiel, wenn gerade kein Scanner zur Hand ist oder Sie diesen nicht nutzen können. Darüber hinaus können Sie mit OCR-Software durchsuchbare PDF-Archive erstellen.

Der gesamte Prozess der Datenumwandlung aus einem Papierdokument, einem Bild oder einer PDF-Datei dauert weniger als eine Minute, und das finale, erkannte Dokument sieht exakt so aus wie das Original!

Erfahren Sie, wie Ihnen OCR Software im Alltag helfen kann: OCR für Windows and OCR für Mac.

7 best features of FineReader PDF