Утилиты для извлечения изображений и текста из PDF
В повседневной работе часто возникает задача быстро извлечь изображения или текст из PDF-документов — будь то подготовка презентаций, анализ документов, создание датасетов или автоматизация обработки большого количества файлов. Стандартные графические редакторы или онлайн-сервисы либо требуют ручной работы, либо работают медленно, либо не позволяют автоматизировать процесс.
Чтобы упростить и ускорить решение этих задач, я написал набор утилит на C++ — PDF2Images. Они позволяют:
- Мгновенно извлекать все изображения из PDF-файлов в нужном формате (png, jpg, tiff и др.)
- Получать текст с разбивкой по страницам или в один файл
- Гибко настраивать параметры извлечения: диапазон страниц, формат выходных файлов, разрешение и пр.
- Использовать утилиты в автоматических скриптах и пайплайнах
Я сам ежедневно использую эти инструменты для подготовки скриншотов и текстовых выборок из PDF, а также для построения RAG (Retrieval-Augmented Generation) — когда нужно быстро получить текстовую базу для дальнейшей работы с LLM.