Was ist OCR?
Mal angenommen, Sie möchten einen Zeitungsartikel oder einen gedruckten Vertrag digitalisieren. Sie könnten Stunden mit Abtippen und Korrekturen der Tippfehler verbringen. Oder Sie könnten alle benötigten Unterlagen mittels Scanner (oder Digitalkamera) und OCR-Technologie (Texterkennung) innerhalb weniger Minuten in digitale Formate umwandeln.
Wofür steht eigentlich OCR?
OCR, Optical Character Recognition (Optische Zeichenerkennung), oder Texterkennung, ist eine Technologie, die die Umwandlung unterschiedlicher Dokumente, wie beispielsweise gescannter Papierdokumente, PDF-Dateien oder Digitalbilder in bearbeitbare und durchsuchbare Dateien ermöglicht.
Stellen Sie sich vor, Sie haben ein Dokument in Papierform – zum Beispiel einen Zeitungsartikel, eine Broschüre oder einen Vertrag, den Ihnen Ihr Partner als PDF-Anhang geschickt hat. Ein Scanner reicht nicht aus, um die relevanten Informationen aus diesen Dokumenten herauszuziehen und beispielsweise im bearbeitbaren Microsoft Word-Format wiederzugeben. Alles, was ein Scanner leisten kann, ist ein Bild des Dokuments zu erstellen. Und dieses ist lediglich eine Ansammlung schwarzer, weißer oder farbiger Bildpunkte, die tabellarisch angeordnet und in der Fachsprache unter dem Begriff Rastergrafik bekannt sind. Zum Auslesen und Weiterverwenden der Informationen aus gescannten Dokumenten, Digitalbildern oder Nur-Bild-PDFs benötigt man eine OCR-Software, die in den Bildern Buchstaben erkennt, diese zu Wörtern zusammensetzt und aus diesen wiederum ganze Sätze baut. Damit ermöglicht Ihnen die Software den Zugang zum eigentlichen Inhalt der Dokumente, den Sie anschließend weiter bearbeiten können.
Welche Technologie steckt hinter OCR?
Lassen Sie uns zunächst einen Blick darauf werfen, wie FineReader PDF OCR Text erkennt. Als Erstes analysiert das Programm die Struktur der Dokumentabbildung. Es unterteilt eine Seite in Elemente wie Textblöcke, Tabellen, Bilder usw. Anschließend werden Zeilen in Wörter und schließlich Wörter in Buchstaben aufgeteilt. Wurden erstmal die einzelnen Buchstaben ausgemacht, vergleicht das Programm diese mit einer Reihe von Musterbildern und stellt zahlreiche Hypothesen auf, um welchen Buchstaben es sich hierbei handelt. Basierend auf diesen Hypothesen untersucht das Programm die unterschiedlichen Arten, auf welche Linien in Wörter und Wörter in Buchstaben aufgeteilt werden können. Nach Verarbeitung einer sehr großen Anzahl solcher Wahrscheinlichkeitshypothesen trifft das Programm schließlich eine Entscheidung und präsentiert den erkannten Text.
Zusätzlich bietet ABBYY FineReader PDF Wörterbuchunterstützung für einige Sprachen. Dies erlaubt eine Sekundäranalyse der Textelemente auf Wortebene. Mit Wörterbuchunterstützung gewährleistet das Programm eine noch genauere Analyse und Dokumenterkennung und vereinfacht zudem die Verifizierung der Erkennungsergebnisse.
Auf welchem Prinzip basiert FineReader OCR?
Die am weitesten entwickelten und damit fortschrittlichsten Systeme zur Texterkennung, wie auch ABBYY FineReader OCR, zielen auf die Imitation der Erkennung von Objekten, wie sie in der Natur oder auch bei Tieren vorkommt. Im Kern basieren diese Systeme auf den drei Grundprinzipien Einheit, Zweckmäßigkeit und Anpassungsfähigkeit (Integrity, Purposefulness und Adaptability, kurz (IPA).
Auf Basis dieser Prinzipien wendet das Programm eine äußert flexible und intelligente Erkennungsmethode an, die der menschlichen Art, Objekte zu erkennen, sehr nahe kommt.
Nach jahrelanger Forschung ist es ABBYY gelungen, die oben beschriebenen IPA-Prinzipien in seine OCR-Technologie zu integrieren.
OCR für Digitalfotos
Durch den Einsatz ausgeklügelter Bildvorverarbeitungs- und Erkennungstechnologien ermöglicht Ihnen ABBYY FineReader PDF, dass Sie Digitalkamera, Smartphone und Tablet zu einem tragbaren Scanner-Ersatz umfunktionieren.
Wie können Sie OCR-Software verwenden?
Die Verwendung von ABBYY FineReader OCR ist einfach – der Prozess durchläuft für Gewöhnlich drei Stufen: Öffnen (Scannen) des Dokuments, Erkennen sowie Speichern im gewünschten Format (DOC, RTF, XLS, PDF, HTML, TXT usw.) oder Export der Daten direkt in eine Office-Applikation, z.B. Microsoft Word, Excel oder Adobe Acrobat.
Die Corporate Version von ABBYY FineReader PDF unterstützt zudem automatisierte Dokumentenverarbeitung mit dem Hot Folder Tool, der vor allem bei der Verarbeitung regelmäßig wiederkehrender Aufgaben unverzichtbar ist. Mit diesem Feature kann Texterkennung automatisch ablaufen, ohne manuelle Aktivierung der einzelnen Schritte.
Welche Vorteile bietet Ihnen OCR?
With FineReader OCR, the recognized document looks just like the original. Advanced, powerful OCR software allows you to save a lot of time and effort when creating, processing and repurposing various documents. With ABBYY FineReader OCR, you can scan paper documents for further editing and sharing with your colleagues and partners. You can extract quotes from books and magazines and use them for creating your course studies and papers without the need of retyping. With a digital camera and FineReader OCR, you can capture text outdoors from banners, posters and timetables and then use the captured information for your purposes. In the same way, you can capture information from paper documents and books. For example, if there is not a scanner close at hand or you cannot use it. In addition, you can use OCR software for creating searchable PDF archives.
Der gesamte Prozess der Datenumwandlung aus einem Papierdokument, einem Bild oder einer PDF-Datei dauert weniger als eine Minute, und das finale, erkannte Dokument sieht exakt so aus wie das Original!
Erfahren Sie, wie Ihnen OCR Software im Alltag helfen kann: OCR für Windows and OCR für Mac.