Qu’est-ce que l’OCR
Admettons que vous vouliez numériser un article de journal ou un contrat sur papier. Deux solutions se présentent à vous : soit vous passez un temps incalculable à le ressaisir et à corriger les erreurs de frappe, soit vous transformez ces mêmes documents en format numérique en quelques minutes en utilisant un scanner (ou un appareil photo numérique) et la technologie OCR (ROC) de reconnaissance optique de caractères (en anglais : optical character recognition).
Que signifie OCR exactement ?
Le mot OCR (en anglais : optical character recognition) signifie reconnaissance optique de caractères ou reconnaissance de texte, une technologie qui vous permet de convertir différents types de documents tels que les documents papiers scannés, les fichiers PDF ou les photos numériques en fichiers modifiables et interrogeables.
Supposez que vous ayez un document au format papier, par exemple un article de journal, une brochure ou un contrat, que votre partenaire vous a envoyé en pièce jointe au format PDF. Un scanner ne suffit pas pour extraire les informations pertinentes de ces documents pour les retranscrire par exemple dans le format éditable Microsoft Word. Tout ce qu’un scanner peut faire c’est de réaliser une image du document. Et celle-ci n’est autre qu’une collection de points noirs et blancs ou de couleur, ordonnés sous forme de grille, et connue en langage technique sous le terme de « trame ». Pour lire et exploiter les informations issues de documents scannés, d’images numériques ou de PDF d’images seulement, il faut un logiciel OCR qui reconnaît dans les images des lettres, reconstitue des mots, puis des phrases entières. Le logiciel vous permet ainsi d’avoir accès au contenu proprement dit des documents que vous pouvez ensuite retravailler.
Quele technologie se cache derrière l’OCR ?
Ce qui nous amène à nous intéresser de plus près à la façon dont l’OCR d’ABBYY FineReader PDF reconnaît les textes. Avant toute chose, le programme analyse la structure de l’image du document, dont il divise la page en éléments distincts tels que les textes, les tableaux, les images... Les lignes sont définies en mots, puis en caractères. Une fois que le caractère aura été isolé, le programme les compare avec un groupe de modèles d’images grâce auxquels des hypothèses sont avancées sur ce que représente le caractère. C’est sur cette base d’hypothèses que le programme analyse les différentes variantes des courbures des lignes en mots et de mots en caractères. Après avoir passé en revue toutes ces hypothèses, le programme prend la décision de vous livrer un texte qu’il pense être conforme à l’image reconnue.
En complément, ABBYY FineReader PDF dispose de dictionnaires pour différentes langues. Cette option permet d’affiner l’analyse d’un niveau texte à un niveau mot. Grâce à la prise en charge du dictionnaire, le programme améliore la précision de la reconnaissance des documents et facilite les vérifications ultérieures de résultats.
Sur quel principe repose l’OCR FineReader PDF ?
Les systèmes les plus perfectionnés de reconnaissance optique de caractères (OCR), comme la technologie OCR d’ABBYY fonctionnant grâce à l’IA, sont axés sur la reproduction de la reconnaissance naturelle ou « animale ». De manière générale, ces systèmes reposent sur les trois principes fondamentaux intégrité, définiton des objectifs et adaptabilité (Integrity, Purposefulness und Adaptability, soit IPA).
Sur la base de ces principes, le programme applique une méthode de reconnaissance flexible et intelligente qui est très proche de la capacité de l’homme de reconnaître des objets.
Après des années de recherche, ABBYY a réussi à intégrer les principes IPA susmentionnés dans sa technologie OCR.
OCR pour les photos numériques
Grâce aux technologies de prétraitement d'images et de reconnaissance sophistiquées, ABBYY FineReader PDF vous permet d'utiliser votre appareil photo numérique, votre smartphone et tablette en guise de scanner portable.
Comment utiliser le logiciel OCR ?
Utiliser ABBYY FineReader PDF est simple : le processus se décompose en 3 étapes : « ouvrir » (numériser) le document, le « reconnaître » puis le « sauvegarder » dans un format courant (DOC, RTF, XLS, PDF, HTML, TXT, etc.) ou exporter les données directement vers une application de Microsoft Office telle que Microsoft Word, Excel ou Adobe Acrobat.
La version Corporate d’ABBYY FineReader PDF soutient par ailleurs le traitement de données automatisé qui est notamment indispensable pour traiter les tâches régulières. Avec cette caractéristique, la reconnaissance optique de caractères se déroule automatiquement, sans avoir besoin d’activer manuellement les étapes individuelles.
Quels bénéfices pouvez-vous tirer de l’OCR ?
Avec l’OCR FineReader, les documents reconnus ont la même mise en page que les originaux. Le logiciel OCR performant et sophistiqué vous fait gagner beaucoup de temps et vous épargne beaucoup de travail lors de la création, du traitement et de la réutilisation de nombreux documents différents. Avec l’OCR d’ABBYY FineReader, vous pouvez numériser des documents papier pour les retravailler ultérieurement et les transférer aux collègues et partenaires. Vous pouvez extraire des citations de livres et de magazines et créer vos propres documents sans devoir les ressaisir manuellement. Avec un appareil photo numérique et FineReader OCR, vous pouvez capturer des textes sur les affiches, posters, panneaux de signalisation et tous types de documents rencontrés en chemin pour vos besoins particuliers. De la même manière, vous pouvez capturer des informations sur des documents papier et des livres si vous n’avez pas de scanner sous la main ou s’il ne peut pas être utilisé. Vous pouvez utiliser en outre un logiciel OCR pour créer des archives PDF consultables.
Le processus entier de conversion de données à partir d’un document papier, une image ou un fichier PDF prend moins d’une minute et le document final, reconnu est identique à l’original !
Découvrez en plus sur la manière dont FineReader PDF peut vous aider dans la vie quotidienne : Logiciel pour Windows and Logiciel pour Mac.