¿Qué es OCR?
Digamos que usted quiere digitalizar un artículo de una revista o un contrato imprimido. Usted puede pasar horas reescribiendo y después corrigiendo las erratas. O puede convertir todos los materiales requeridos en formato digital en pocos minutos usando un escáner (o cámara digital) y un software de Reconocimiento Óptico de Caracteres.
¿Qué exactamente significa OCR?
Reconocimiento Óptico de Caracteres, o OCR, es una tecnología que le permite convertir diferentes tipos de documentos, tales como documentos en papel escaneados, archivos de PDF o imágenes captadas por una cámara digital en los datos editables y con opción de búsqueda.
Imagine que usted tiene un documento en papel – por ejemplo, un artículo de revista, un folleto, o un contrato en PDF cual su socio le envió por email. Obviamente, un escáner no será suficiente para hacer esa información disponible para edición, digamos, en Microsoft Word. Todo lo que puede hacer un escáner es crear una imagen o una instantánea del documento que es nada más que una colección de puntos negros y blancos o color, conocida como imagen de trama. Con fines de extraer y reusar los datos de los documentos escaneados, imágenes de cámara o de PDFs, necesita un software de OCR que va a separar las letras de la imagen, ponerlas en palabras y después las palabras en frases, lo que le permite tener acceso y editar el contenido del documento original.
¿Qué hay detrás de la tecnología OCR?
Los mecanismos exactos que le permiten a la gente reconocer los objetos aun no pueden ser entendidos, pero hay 3 principios básicos que los científicos conocen muy bien – integridad, intencionalidad, adaptabilidad (IPA). Estos principios construyen la base de ABBYY FineReader OCR que le permiten reproducir el reconocimiento natural o como el ser humano.
Vamos a ver como FineReader OCR reconoce el texto. Primero, el programa de OCR analiza la estructura de la imagen del documento. Divide la página en elementos tales como bloques de texto, tablas, imágenes y etc. Las líneas están divididas en palabras y después en caracteres. Una vez que los caracteres han sido señalados, el programa los compara con un conjunto de imágenes del patrón. Esto avanza las numerosas hipótesis sobre que es este carácter. En base de estas hipótesis el programa analiza diferentes variantes de ruptura de líneas en palabras y palabras en caracteres. Después de procesar un enorme número de tales hipótesis probabilísticas, el programa finalmente toma la decisión, presentando a usted el texto reconocido.
Además ABBYY FineReader PDF provee soporte de diccionario para 48 idiomas. Esto permite realizar el análisis secundario de los elementos de texto en el nivel de palabra. Con soporte de diccionario el programa asegura análisis y reconocimiento de documentos aun más preciso y simplifica posterior verificación de los resultados de verificación.
¿En cuáles principios se basa FineReader OCR?
Los sistemas de reconocimiento óptico de caracteres más avanzados, como la tecnología OCR basada en la IA de ABBYY, se centran en replicar el reconocimiento natural o “animalesco”. En el corazón de tales sistemas hay tres principios fundamentales: Integridad, Intencionalidad, Adaptabilidad. El principio de integridad dice que el objeto observado siempre debe ser considerado como una “totalidad” que consiste de muchas partes interrelacionadas. El principio de intencionalidad supone que cualquier interpretación de los datos debe servir alguna finalidad. Finalmente el principio de adaptabilidad significa que el programa debe ser capaz de realizar autoaprendizaje.
Uno no debe ser un especialista en OCR para ver las ventajas de una aplicación de OCR basada en los principios IPA. Estos principios proveen el programa con máxima flexibilidad e inteligencia, acercándolo lo más posible a reconocimiento humano.
Después de años de investigación ABBYY pudo implementar los principios IPA descritos más arriba en sus tecnologías de OCR.
Reconocimiento de imágenes de cámara digital
Imágenes capturadas con una cámara digital difieren de los documentos escaneados o PDFs de imágenes. Frecuentemente tienen defectos cómo distorsión en los bordes y luz atenuada, que hace difícil a la mayoría de las aplicaciones de OCR reconocer el texto correctamente. La última versión de ABBYY FineReader PDF soporte una tecnología adaptativa de reconocimiento designada especialmente para procesar las imágenes de cámara. Ofrece una gama de características para mejorar la calidad de tales imágenes proporcionando una capacidad de usar plenamente el potencial de sus dispositivos digitales.
Para leer más información sobre reconocimiento de cámara digital usando OCR, haz clic aquí.
¿Cómo usar el software de OCR?
Usar ABBYY FineReader PDF es fácil: el proceso generalmente consiste de 3 etapas: Abrir (Escanear) el documento, Reconocerlo y después Guardar en un formato conveniente (DOC, RTF, XLS, PDF, HTML, TXT etc.) o exportar los datos directamente a una de las aplicaciones de Office tales como Microsoft Word, Excel o Adobe Acrobat.
Además, la última versión de ABBYY FineReader PDF soporta el modo de Tareas Automáticas que es esencial cuando usted hace tareas rutinarias regularmente. Con esta función, las tareas de reconocimiento lanzan automáticamente sin tener que ejecutar manualmente todos los pasos mencionados anteriormente.
¿Qué ventajas le brinda OCR a usted?
Con OCR de FineReader PDF el documento reconocido se ve exactamente como el original. Avanzado y poderoso software de OCR le permite guardar mucho tiempo y esfuerzos creando, procesando y readaptando varios documentos. Con ABBYY FineReader OCR usted puede escanear los documentos en papel para edición posterior e intercambio con sus colegas y socios. Puede extraer citas desde libros y revistas y usarlas para sus investigaciones y papeles de estudios sin necesidad de reescribir. Con una cámara digital y FineReader OCR usted puede capturar el texto desde banners, carteles y calendarios exterior y después usar la información capturada para sus propósitos. De la misma manera puede capturar información desde documentos en papel y libros – por ejemplo si no hay escáner a su lado y no puede usarlo. Además puede usar el software de OCR para crear archivos de PDF buscables.
¡Todo el proceso de conversión de los datos de documento en papel original, imagen o PDF le lleva menos de un minuto, y después el documento reconocido finalmente se ve igual que el original!
Más información sobre cómo el software de OCR puede ayudarle en su vida diaria está en descripciones de características y ventajas de FineReader PDF software para Windows y Mac.