Газета — это средство извлечения метаданных новостей, полнотекстовых текстов и статей, созданное с помощью Python 3.
ОСОБЕННОСТИ
- Работает на 10+ языках (английский, китайский, немецкий, арабский, ...)
- Многопоточная структура загрузки статей
- Идентификация URL-адреса новостей
- Извлечение текста из html
- Извлечение верхней картинки из html
- Извлечение всех изображений из html
- Извлечение ключевых слов из текста
- Извлечение резюме из текста
- Извлечение автора из текста
- Извлечение популярных терминов Google