Lemur Project описание, скриншоты и видео

Иконка приложения Lemur Project

Lemur Project

  • (303)
Описание, скриншоты и видео

Описание

Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Проект наиболее известен своей поисковой системой Indri, панелью инструментов Lemur и набором данных ClueWeb09. Наше программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.

Indri — это поисковая система, обеспечивающая современный текстовый поиск и язык запросов с богатой структурой для текстовых коллекций, содержащих до 50 миллионов документов (одна машина) или 500 миллионов документов (распределенный поиск). Доступно для Linux, Solaris, Windows и Mac OSX.

Функции
Мощный интерфейс запросов

Поддерживает популярные операторы структурированных запросов от INQUERY.
Сопоставление терминов с подстановочными знаками на основе суффиксов
Полевое извлечение
Поиск прохода

Гибкая индексация и поддержка документов

Поддерживает текст в кодировке UTF-8.
Независимая от языка токенизация документов в кодировке UTF-8.
Анализирует документы PDF, HTML, XML и TREC.
Синтаксический анализ Word и PowerPoint (только для Windows)
Текстовые аннотации
Метаданные документа

Универсальность пакета

Открытый исходный код с гибкой лицензией, вдохновленной BSD
Включает в себя как инструменты командной строки, так и пользовательский интерфейс Java.
API можно использовать из Java, PHP или C++.
Работает на Windows, Linux, Solaris и Mac OS X

Масштабируемость и эффективность

Лучшая в своем классе производительность поиска ad hoc
Может использоваться в кластере машин для более быстрого индексирования и поиска.
Масштабирование до терабайтных коллекций

Скачать
Индри можно получить на странице проекта SourceForge Lemur.
История выпусков
Первая версия (1.0) Indri была выпущена в январе 2002 года. С тех пор последующие выпуски выпускаются 2-3 раза в год. Примечания к текущему выпуску можно найти на SourceForge.

Скриншоты