Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Проект наиболее известен своей поисковой системой Indri, панелью инструментов Lemur и набором данных ClueWeb09. Наше программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.
Indri — это поисковая система, обеспечивающая современный текстовый поиск и язык запросов с богатой структурой для текстовых коллекций, содержащих до 50 миллионов документов (одна машина) или 500 миллионов документов (распределенный поиск). Доступно для Linux, Solaris, Windows и Mac OSX.
Функции
Мощный интерфейс запросов
Поддерживает популярные операторы структурированных запросов от INQUERY.
Сопоставление терминов с подстановочными знаками на основе суффиксов
Полевое извлечение
Поиск прохода
Гибкая индексация и поддержка документов
Поддерживает текст в кодировке UTF-8.
Независимая от языка токенизация документов в кодировке UTF-8.
Анализирует документы PDF, HTML, XML и TREC.
Синтаксический анализ Word и PowerPoint (только для Windows)
Текстовые аннотации
Метаданные документа
Универсальность пакета
Открытый исходный код с гибкой лицензией, вдохновленной BSD
Включает в себя как инструменты командной строки, так и пользовательский интерфейс Java.
API можно использовать из Java, PHP или C++.
Работает на Windows, Linux, Solaris и Mac OS X
Масштабируемость и эффективность
Лучшая в своем классе производительность поиска ad hoc
Может использоваться в кластере машин для более быстрого индексирования и поиска.
Масштабирование до терабайтных коллекций
Скачать
Индри можно получить на странице проекта SourceForge Lemur.
История выпусков
Первая версия (1.0) Indri была выпущена в январе 2002 года. С тех пор последующие выпуски выпускаются 2-3 раза в год. Примечания к текущему выпуску можно найти на SourceForge.