Spinn3r — веб-сервис для индексации блогосферы. Мы предоставляем необработанный доступ к каждому публикуемому сообщению в блоге - в режиме реального времени. Мы предоставляем данные, и вы можете сосредоточиться на создании своего приложения.
Вы можете приступить к работе со Spinn3r менее чем за час. Мы поставляем стандартный эталонный клиент, который напрямую интегрируется с вашим конвейером. Если вы используете Java, вы сможете начать сбор данных за считанные минуты. Если вы используете другой язык, вам нужно всего лишь анализировать несколько файлов JSON каждые несколько секунд.
Создан с нуля для индексации необработанного HTML5. Сюда входят метаданные HTML, в том числе микроформаты и микроданные — именно так Google и другие поисковые системы индексируют свой контент. Мы не останавливаемся на достигнутом. Мы также индексируем RSS и Atom (включая все 9 различных вариантов RSS). Обычные парсеры RSS хрупкие — не наши. Если в исходном файле есть небольшие ошибки, мы прозрачно исправим их, чтобы убедиться, что вы получаете именно тот контент, который вам нужен.