Утилиты для извлечения изображений и текста из PDF

В повседневной работе часто возникает задача быстро извлечь изображения или текст из PDF-документов — будь то подготовка презентаций, анализ документов, создание датасетов или автоматизация обработки большого количества файлов. Стандартные графические редакторы или онлайн-сервисы либо требуют ручной работы, либо работают медленно, либо не позволяют автоматизировать процесс.

Чтобы упростить и ускорить решение этих задач, я написал набор утилит на C++ — PDF2Images. Они позволяют:

Мгновенно извлекать все изображения из PDF-файлов в нужном формате (png, jpg, tiff и др.)
Получать текст с разбивкой по страницам или в один файл
Гибко настраивать параметры извлечения: диапазон страниц, формат выходных файлов, разрешение и пр.
Использовать утилиты в автоматических скриптах и пайплайнах

Я сам ежедневно использую эти инструменты для подготовки скриншотов и текстовых выборок из PDF, а также для построения RAG (Retrieval-Augmented Generation) — когда нужно быстро получить текстовую базу для дальнейшей работы с LLM.

Read full post

Установка сертификатов LetsEncript

Можно установить несколько сертификатов для разных доменов. Если по каким то причинам конфиг Nginx не позволяет вычленить домены то в site-avaible нужно поместить временный конфиг, в котором перечислены домены. потом его убрать и всё будет работать

Описание установки тут:

Установка пакетов:

apt-get install software-properties-common
add-apt-repository ppa:certbot/certbot
apt-get update
apt-get install certbot python-certbot-nginx

Затем можно устанавливать сертификат Что бы получить список опций certbot набираем certbot –help

Read full post

Proxy для Telegram

В связи с попытками блокировок Telegram

Проверено на 5 баксовом тарифе DigitalOcean

Создаём proxy пользователя для аутентификации по паролю:

useradd -d /dev/null teleg
passwd teleg

Сразу же закрываем этому пользователю вход по SSH: (ещё лучше всегда менять ssh порт с дефолтного на кастомный)

nano /etc/ssh/sshd_config

#Port 22
Port 4251

Match User teleg
PasswordAuthentication no
Match all

Рестартим ssh:

Read full post