Textricator — это инструмент для извлечения текста из документов и создания структурированных данных.
Если у вас есть несколько PDF-файлов с одинаковым форматом (или один большой, последовательно отформатированный PDF-файл) и вы хотите извлечь данные в CSV или JSON, Textricator может помочь! Он может работать даже с OCR-документами!
Textricator выпускается под Стандартной общественной лицензией GNU Affero версии 3.
Textricator развертывается в Maven Central с помощью GAV io.mfj:textricator.
Это приложение активно используется и разрабатывается компанией «Меры за справедливость». Мы приветствуем отзывы, сообщения об ошибках и дополнения. Создайте задачу, отправьте запрос на вытягивание или напишите нам по адресу textricator@mfj.io. Если вы используете Textricator, сообщите нам об этом. Отправьте нам свой почтовый адрес, и мы вышлем вам наклейку.
io.mfj.textricator.Textricator — основная точка входа для использования библиотеки.
io.mfj.textricator.cli.TextricatorCli — это интерфейс командной строки.
CLI имеет три подкоманды для использования трех основных функций Textricator:
text — извлечь текст из PDF и сгенерировать JSON. table — анализировать текст в столбцах и строках. См. раздел «Таблица». form - Разобрать текст с настроенным конечным автоматом. См. раздел «Форма».