Textricator: описание, скриншоты, цены и ссылка на скачивание

Описание

Textricator — это инструмент для извлечения текста из документов и создания структурированных данных.

Если у вас есть несколько PDF-файлов с одинаковым форматом (или один большой, последовательно отформатированный PDF-файл) и вы хотите извлечь данные в CSV или JSON, Textricator может помочь! Он может работать даже с OCR-документами!

Textricator выпускается под Стандартной общественной лицензией GNU Affero версии 3.

Textricator развертывается в Maven Central с помощью GAV io.mfj:textricator.

Это приложение активно используется и разрабатывается компанией «Меры за справедливость». Мы приветствуем отзывы, сообщения об ошибках и дополнения. Создайте задачу, отправьте запрос на вытягивание или напишите нам по адресу textricator@mfj.io. Если вы используете Textricator, сообщите нам об этом. Отправьте нам свой почтовый адрес, и мы вышлем вам наклейку.

io.mfj.textricator.Textricator — основная точка входа для использования библиотеки.

io.mfj.textricator.cli.TextricatorCli — это интерфейс командной строки.

CLI имеет три подкоманды для использования трех основных функций Textricator:

text — извлечь текст из PDF и сгенерировать JSON. table — анализировать текст в столбцах и строках. См. раздел «Таблица». form - Разобрать текст с настроенным конечным автоматом. См. раздел «Форма».