PDF (Portable Document Format) – формат для демонстрации документов, разработанный компанией Adobe. Он позволяет загружать, просматривать и распечатывать, но не редактировать его, что создает определенные сложности при парсинге нужной вам информации. Поэтому мы решили рассказать обо всех способах получения данных из ПДФ.

1. Копировать ➔ Вставить
Самый быстрый и простой способ копирования. Особенно – при наличии нескольких документов с парой страниц для изучения. Алгоритм действий минимален:
Открываем;
- Ищем нужную информацию;
- Выделяем, копируем (CTRL+C на Windows, CMD+C на MacOS);
- Вставляем в таблицу Excel (CTRL+V на Windows, CMD+V на MacOS).
Если скопировать нужные данные не получается, можно воспользоваться лайфхаком, «прогнав» нужную информацию через Word. При большом объеме файлов способ может занять некоторое время и «выбить» одного специалиста из привычного рабочего графика.
2. Конвертеры из PDF в Excel
На больших объемах данных, для быстрого копирования нужной информации лучше конвертировать все файлы ПДФ в формат таблиц эксель с помощью специальных программ и мобильных приложений. Преобразование занимает несколько секунд, при этом сохраняются не только тексты и изображения, а и форматирование, шрифты, цвета.
По завершению конвертирования вы получите файл, совместимый с редактором таблиц. При этом стоит отметить, что инструмент для преобразования PDF встроен в Adobe Acrobat Reader. Иными словами, вы сможете найти нужную вам информацию сразу после сканирования документа, а также конвертировать его в более удобный для дальнейшей работы формат.
Помимо «встроенного» модуля в Acrobat, вы можете воспользоваться:
- SmallPDF;
- PDFelement;
- Nitro Pro;
- Comedocs;
- iSkysoft PDF Converter.
3. Инструменты для извлечения таблиц PDF
Недостаток конвертеров – преобразование всего файла. После, вам придется искать нужные данные вручную. Но не обязательно, ведь вы можете воспользоваться сервисами для автоматического парсинга документов.
К примеру, сервис Tabula может достать любые данные (таблицы, изображения, текст) из документа, просто щелкнув по нему. При этом программа имеет функцию предварительного просмотра и позволяет убедиться в корректности извлекаемой информации перед сохранением или экспортом в Excel.
Причем Табула – один из множества инструментов, позволяющих извлекать фрагменты с преобразованием в нужный вам формат. Описывать каждый из них можно часами, хотя большинство основано на том же принципе. В любом случае, найти лучший парсер по документам PDF очень просто.