Apache Nutch — это расширяемый и масштабируемый проект программного обеспечения для поисковых роботов с открытым исходным кодом.
Nutch полностью написан на языке программирования Java, но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать подключаемые модули для синтаксического анализа типов мультимедиа, извлечения данных, запросов и кластеризации.
Сборщик ("робот" или "веб-сканер") был написан с нуля специально для этого проекта.