Cos'è l'OCR
Devi digitalizzare l'articolo di una rivista o un contratto stampato? Puoi scegliere di ricopiare il testo, passando ore ed ore a trascriverlo e poi a correggere gli eventuali errori di stampa, oppure puoi semplicemente convertire il testo in file digitali modificabili in pochi minuti. Ti bastano uno scanner (o una fotocamera digitale) e un software OCR, cioè un programma per il riconoscimento ottico dei caratteri (in inglese 'Optical Character Recognition').
Cosa significa esattamente OCR?
Il riconoscimento ottico dei caratteri (in inglese 'Optical Character Recognition' - OCR) è detto anche riconoscimento del testo ed è una tecnologia che permette di convertire tipi diversi di documenti, ad esempio documenti scannerizzati, file PDF o foto digitali, in dati modificabili e ricercabili.
Immagina di aver ricevuto un documento cartaceo, magari l'articolo di una rivista, un depliant o un contratto inviato per e-mail come allegato PDF. Uno scanner non è sufficiente ad estrarre le informazioni rilevanti e trasformarle ad esempio in formato Microsoft Word per editarlei. Tutto quello che uno scanner è in grado di fare, infatti, è creare un'immagine del documento, cioè niente di più di un insieme di punti bianchi e neri o colorati (immagine raster). Per poter estrarre e riutilizzare le informazioni contenute in un documento scannerizzato, in una fotografia digitale o in un PDF di sola immagine è necessario un software OCR. Tale programma è in grado di riconoscere i caratteri presenti nell'immagine, unirli per formare delle parole con cui creare quindi delle frasi. Avrai così accesso al contenuto dei documenti originali per poterli poi elaborare.
Quale tecnologia si cela dietro all'OCR?
Diamo un'occhiata a come l'OCR di FineReader PDF riconosce i testi. Per iniziare, il programma analizza la struttura dell'immagine del documento. Divide la pagina in elementi, come blocchi di testo, tabelle, immagini, ecc. Le linee sono suddivise in parole e le parole in caratteri. Una volta distinti tutti i caratteri, il programma li confronta con una serie di immagini campione e crea diverse ipotesi su di quale lettera si possa trattare. Sulla base di queste ipotesi, analizza quindi i modi diversi per suddividere le linee in parole e le parole in caratteri. Dopo aver elaborato un elevato numero di probabilità di questo tipo, il programma OCR è infine in grado di prendere una decisione e di mostrare il testo riconosciuto.
Inoltre, ABBYY FineReader PDF offre il supporto del dizionario per alcune lingue. Questo permette una seconda analisi degli elementi del testo a livello di parola. Grazie al supporto del dizionario, il programma assicura un'analisi e un riconoscimento dei documenti ancora più precisi e semplifica la successiva verifica dei risultati del riconoscimento.
Su quali principi si basa l'OCR di FineReader PDF?
I sistemi di riconoscimento del testo più avanzati, come l'OCR di ABBYY FineReader PDF, mirano all’imitazione del riconoscimento degli oggetti che avviene in natura o anche tra gli animali. Alla base di tali sistemi vi sono tre principi fondamentali: integrità, funzionalità e adattabilità (IPA, dall'inglese: Integrity, Purposefulness, Adaptability).
Sulla base di questi principi, il programma utilizza un metodo di riconoscimento estremamente flessibile ed intelligente, il più vicino possibile al riconoscimento umano.
Dopo anni di ricerca, ABBYY è stata in grado di implementare i principi IPA descritti sopra nelle sue tecnologie OCR.
Riconoscimento delle immagini delle fotocamere digitali
Le immagini acquisite da una fotocamera digitale differiscono dai documenti scansionati o dai PDF di sole immagini. Spesso presentano difetti come la distorsione ai bordi e la luce soffusa, che rendono difficile per la maggior parte delle applicazioni OCR riconoscere correttamente il testo. L'ultima versione di ABBYY FineReader PDF supporta la tecnologia di riconoscimento adattivo progettata specificamente per l'elaborazione delle immagini della fotocamera. Offre una gamma di funzioni per migliorare la qualità di tali immagini, offrendoti la possibilità di utilizzare appieno le capacità dei tuoi dispositivi digitali.
Ulteriori informazioni sul riconoscimento dell'OCR della fotocamera digitale sono disponibili qui.
Come utilizarre il software OCR?
Utilizzare la tecnologia OCR di ABBYY FineReader PDF è semplice. Il processo consiste generalmente in tre fasi: apertura (scansione) del documento, riconoscimento del documentio e salvataggio nel formato desiderato (DOC, RTF, XLS, PDF, HTML, TXT ecc.) o export dei dati direttamente un un’applicazione Office come Microsoft Word, Excel o Adobe Acrobat.
Quali sono i vantaggi dell'OCR?
Con l’OCR di FineReader PDF, i documenti riconosciuti presentano lo stesso layout dell’originale. L’avanzato software OCR permette di risparmiare tempo e fatica quando si ha a che fare con la creazione, l’elaborazione e il riutilizzo di diversi documenti. Grazie all’OCR è possibile scannerizzare i documenti cartacei per poi modificarli o condividerli con colleghi e soci. Si possono estrarre citazioni da libri o riviste per riutilizzarle nella creazione di documenti per il vostro lavoro o lo studio, senza il bisogno di trascrizione. Utilizzando una fotocamera digitale e l’OCR di FineReader PDF è possible "catturare" il testo da striscioni, poster e tabelloni degli orari e utilizzare le informazioni acquisite. Allo stesso modo, è possibile catturare le informazioni da documenti cartacei e libri, ad esempio quando non si ha a portata di mano o non si può utilizzare uno scanner. Inoltre, il software OCR può essere impiegato per creare archivi PDF ricercabili.
L’intero processo di conversione dei dati da un documento cartaceo, un’immagine o un PDF avviene in meno di un minuto. Il documento finale risultante dal riconoscimento appare esattamente come l’originale!
Scopri come il software OCR ti può aiutare nella vita quotidiana con le funzionalità per Windows e per Mac.