Все PDF-документы можно разделить на три группы в зависимости от того, как был создан файл. Свойства файла и действия, которые можно с ним осуществлять, зависят от программы, в которой он был создан. Поэтому, например, из некоторых PDF-файлов легко скопировать текст, тогда как для других эта возможность недоступная.

PDF, СОЗДАННЫЕ ИЗ ДРУГИХ ПРИЛОЖЕНИЙ

PDF, созданные из других приложений, – PDF-документы, созданные в цифровом формате и полученные из приложений Microsoft® Office (Word®, Excel®, PowerPoint®, графические редакторы и др.) или с помощью виртуального принтера из любого приложения, имеющего в меню команду «Печать».

С помощью ABBYY FineReader вы можете легко осуществлять поиск по PDF-документу, выделять, редактировать или удалять текст так же, как делали бы это в любом другом редактируемом формате, например, Microsoft® Word®. В PDF документах, созданных из других приложений, доступна работа с изображениями – можно изменять их размер, перемещать или удалять.

Распознавание PDF

PDF-ДОКУМЕНТЫ, ПРЕДСТАВЛЯЮЩИЕ СОБОЙ ТОЛЬКО ИЗОБРАЖЕНИЕ ИЛИ СКАНИРОВАННЫЕ PDF

Данный тип PDF обычно получается, когда вы сканируете или фотографируете документ и сохраняете результат в PDF.

Такие PDF-документы содержат только изображение страницы и не содержат текстового слоя. С ними сложно работать, так как из-за отсутствия текстового слоя из них невозможно скопировать текст или выполнить поиск по их содержимому. Добавить возможность поиска по PDF, представляющим собой изображение, можно только применив технологию оптического распознавания символов (OCR), которая добавляет в структуру документа текстовый слой (обычно добавляется под слой изображения страницы).

PDF С ВОЗМОЖНОСТЬЮ ПОИСКА

Такие документы обычно содержат как видимое изображение страницы, так и невидимый текстовый слой под ним. PDF с возможностью поиска получаются, когда вы распознаете документы PDF (представляющие собой только изображение), то есть «пропускаете» их через программу с технологией оптического распознавания символов (OCR).

В процессе распознавания текста содержание и структура документа анализируется и «считывается». Текстовый слой обычно добавляется под слой изображения страницы. Такие файлы практически неотличимы от оригинала, но позволяют осуществлять поиск по документу. Текст такого документа можно выделять, копировать и редактировать.

Результаты копирования и поиска по тексту таких файлов напрямую зависят от качества текстового слоя, который может отличаться от видимого изображения страницы.

Поиск в PDF файле

В процессе работы над документом технологию распознавания символов можно применить различными способами, каждый из которых требует от пользователя разного уровня вовлеченности в процесс. Распознавание может быть реализовано следующими способами:

  • С помощью функций, интегрированных в сканер: преобразование документа происходит практически незаметно для пользователя;
  • С помощью специализированных программ для оптического распознавания символов, мобильных приложений или интернет-сервисов;
  • В рамках программы для работы с PDF-документами, сканирующей или открывающей файл: процесс оптического распознавания текста может происходить автоматически или запускаться пользователем;
  • С использованием серверного решения для обработки и распознавания документов, такого как ABBYY Recognition Server, предназначенного для автоматизированного преобразования больших объемов документов в крупных организациях и при наполнении электронных архивов;
  • С использованием облачного сервиса.