Почему Диффбот?
Мы сосредоточены исключительно на том, чтобы предоставить вам более качественные веб-данные.
Некоторые из причин, по которым сотни клиентов делают (сотни) миллионов звонков каждый месяц:
#Лучший экстрактор контента в Интернете:
Diffbot работает автоматически — без правил и обучения. Нет лучшего способа извлечь данные с веб-страниц. Посмотрите, как Diffbot сочетается с другими методами извлечения контента:
Сравнение функций Проверка качества извлечения текста
#Автоматическая идентификация страниц:
Используйте Analyze API для автоматического поиска и извлечения всех продуктов, статей, обсуждений или изображений при сканировании любого сайта.
Анализ API
# Подробные данные о продукте:
Product API автоматически возвращает полную информацию о продукте, включая все данные о ценах, идентификаторы продуктов, марки и полные таблицы спецификаций.
API продукта
#Чистый текст и html:
Статьи, ветки обсуждений, описания продуктов и подписи к изображениям возвращаются в чистом тексте и очищенном HTML.
Начните тестирование сегодня
#Структурированный поиск:
Осуществляйте поиск структурированного контента при любом сканировании на лету с помощью нашего API поиска, возвращая только совпадающие результаты.
Плюс...
¤ Все API-интерфейсы выполняют Javascript, поэтому контент анализируется как обычный браузер.
¤ Работает на большинстве страниц, отличных от английского, благодаря визуальной обработке.
¤ Нормализация даты: метки даты нормализованы и представлены в стандартном формате RFC 1123 (HTTP/1.1).
¤ Многостраничные статьи автоматически объединяются в один ответ API.
¤ Извлечение объекта: автоматическая пометка определяет основные темы и объекты в тексте статьи.
¤ Решайте любые проблемы в режиме реального времени с помощью API Toolkit.
¤ Bulk API позволяет извлекать от сотен до сотен тысяч страниц.
¤ Доступ к данным заданий Crawlbot и Bulk в полных форматах JSON или CSV.
¤ При необходимости сканируйте с использованием разнообразного массива IP-адресов.