Ursprüngliche Zielsetzung des PDF-Dateiformats war, den exakt gleichen Inhalt in exakt selben Layout darstellen zu können, egal welches Betriebssystem, welche Hardware oder Softwareanwendung zur Betrachtung eingesetzt wird. Heutzutage ist es jedoch unabdingbar, dass sich PDF-Dokumente durchsuchen lassen, Inhalte aus ihnen herauskopiert oder gesamte Dokumente in voll-editierbare Formate „konvertiert“, also umgewandelt, werden. Das ist nicht immer leicht, insbesondere bei PDF-Dokumenten, die durch Scannen erstellt wurden – sogenannte gescannte PDF "Nur-Bild-Dateien" PDFs. Technologie zur PDF-Konvertierung muss eine effektive OCR-Technologie beinhalten, um Suche, Extraktion und Weiterverwendung von Informationen zu ermöglichen.

Was ist OCR?

Optical Character Recognition (OCR) oder Texterkennung entschlüsselt die Informationen, die in gescannten oder fotografierten Dokumentenbildern “eingeschlossen” sind. OCR Software wie ABBYY FineReader PDF “liest” den Dokumenteninhalt (Text und Struktur) durch die Interpretation von Zeichen und der Zuweisung eines elektronischen Äquivalent bzw. einer digitalen Zeichenentsprechung. So können Inhalt und Layout von PDF-Dokumenten in durchsuchbare und editierbare Formate transformiert werden.

optical character recognition
optical character recognition

Klicken Sie hier für eine detailliertere Beschreibung dazu, was OCR ist und wie der Prozess abläuft ›

Einige Beispiele Gängiger Umwandlungsaufgaben?

PDF in durchsuchbares PDF, PDF/A und PDF/UA umwandeln

  • Durch die Umwandlung gescannter PDFs in PDF-Formate, die auswählbaren, kopierfähigen Text beinhalten werden ein einfaches Management, Bearbeiten, Indexieren sowie eine Volltext-Suche für diese Dokumente ermöglicht. Organisationen, vor allem im juristischen, Bildungs- oder öffentlichen Bereich profitieren somit von einem unmittelbaren Zugang zu Informationen in IT-Anwendungen wie eDiscovery oder Dokumentenmanagementsystemen (DMS).
  • Die Konvertierung von PDF-Dateien in das PDF/A Format unterstützt die Langzeitarchivierung unter Einhaltung der aktuellen Standards und Vorschriften für Archivierungsprozesse.

PDF in Word umwandeln

  • Die Umwandlung von PDF-Dokumenten in Microsoft® Word ermöglicht den Zugang zu Informationen, die in gescannten PDF-Dateien „eingeschlossen“ sind (z. B. in Verträgen, Reports, Zeitungsartikeln).
  • Durch die Konvertierung von PDF in ein Microsoft® Word Dokument, werden Inhalte ganz einfach editierbar, ohne dass Zeit und Aufwand für umständliches Abtippen und Umformatieren nötig ist.
  • Das Originallayout, inklusive seinen enthaltenen Bildern, Tabellen und Textspalten, wird exakt reproduziert.

PDF in Excel umwandeln

  • Durch die Umwandlung von PDF-Dokumenten in Microsoft® Excel® werden Tabellen für Änderungen und Neukalkulationen verfügbar.
  • Die ursprüngliche Tabellenstruktur von Spalten und Zeilen wird beibehalten, was ein einfaches Formatieren des umgewandelten Dokuments, das Ändern von Zellenwerten zum Beispiel in Preislisten oder Reports direkt in Excel ermöglicht.
  • Sollen in mehrseitigen PDF-Dokumenten nur die Tabellen umgewandelt und somit editierbar gemacht werden, kann beim Konvertierungsprozess der Textinhalt außerhalb der Tabellen vernachlässigt werden.

PDF in RTF umwandeln

  • Durch die Umwandlung von PDF- in RTF-Dateien wird Text für die Bearbeitung in anderen Betriebssystemen wie Mac®, Linux® oder Windows® verfügbar.
  • Einmal in RTF umgewandelt, kann der Text in jeder anderen Textverarbeitungssoftware wie Microsoft® Word, WordPerfect®, OpenOfficeTM Writer oder Apple® Pages geöffnet und weiterbearbeitet werden – inklusive älteren Versionen.

PDF in EPUB umwandeln

PDFs in EPUB Format umzuwandeln macht das Lesen elektronischer Bücher und Artikel auf Mobiltelefonen, Tablets oder eBook-Readern signifikant komfortabler, da Schriftgrößen und Textfluss an den Bildschirm angepasst werden können.

PDF in HTML umwandeln

Werden für die Veröffentlichung von PDF-Inhalten im Web diese direkt in HTML umgewandelt, kann man enorm viel Zeit und Aufwand sparen. Die Dokumentenstruktur des Originals kann dabei komplett beibehalten werden.