собирайся, Фетч! основанный на плагине веб-скребок nodejs. Он очищает, хранит и экспортирует данные. По своей сути, упорядоченный список плагинов (по умолчанию или определяемый пользователем) выполняется для каждого веб-ресурса, подлежащего очистке.
Поддерживает несколько вариантов хранения: SQLite, MySQL, PostgreSQL. Поддерживает несколько браузерных или dom-клиентов: Puppeteer, Playwright, Cheerio, Jsdom.
Для быстрых небольших проектов с URL-адресами менее 10 000 хранения очереди и очищенного контента в SQLite вполне достаточно. Для чего-то большего используйте PostgreSQL. Вы сможете запускать/останавливать/возобновлять процесс очистки в нескольких экземплярах парсера, каждый со своим собственным IP-адресом и/или выделенными прокси-серверами. При использовании PostgreSQL требуется 90 минут для очистки 1 миллиона URL-адресов с одновременным выполнением 100 параллельных действий по очистке. Это 5,5 мс на очищенный URL.