Tesseract.js — это библиотека javascript, которая извлекает слова практически на любом языке из изображений.
Двигатель Tesseract OCR был одним из трех лучших двигателей в тесте на точность UNLV 1995 года. В период с 1995 по 2006 год над ним было мало работы, но, вероятно, это один из самых точных доступных механизмов OCR с открытым исходным кодом. Исходный код будет читать двоичное, серое или цветное изображение и выводить текст. Встроенная программа чтения TIFF читает несжатые изображения TIFF, или можно добавить libtiff для чтения сжатых изображений. Существуют языковые файлы для многих языков, даже для текста, набранного шрифтами Fraktur и blackletter.