Поскольку современные веб-сайты сложны и часто полагаются на динамический контент, ArchiveBox архивирует сайты в нескольких различных форматах, помимо того, что могут сохранять общедоступные службы архивирования, такие как Archive.org и Archive.is.
ArchiveBox импортирует список URL-адресов из стандартного ввода, удаленного URL-адреса или файла, а затем добавляет страницы в локальную папку архива, используя wget для создания клона HTML для просмотра, youtube-dl для извлечения мультимедиа и полный экземпляр Chrome без заголовка для PDF, Скриншот, дамп DOM и многое другое...
Использование нескольких методов и доминирующего на рынке браузера для выполнения JS гарантирует, что мы можем сохранять даже самые сложные и привередливые веб-сайты, по крайней мере, в нескольких высококачественных и долговременных форматах данных.
### Может импортировать ссылки из:
- Карман, Пинборд, Инстабумага
- RSS, XML, JSON или текстовые списки
- История браузера или закладки (Chrome, Firefox, Safari, IE, Opera и др.)
- Shaarli, Delicious, Reddit Saved Posts, Wallabag, Unmark.it и любой другой текст со ссылками!
### Можно сохранить эти вещи для каждого сайта:
- `favicon.ico` фавикон сайта
- `example.com/page-name.html` wget клон сайта с добавлением .html, если он отсутствует
- `output.pdf` Распечатанный PDF-файл сайта с использованием безголового хрома
- `screenshot.png` 1440x900 скриншот сайта с использованием безголового хрома
- `output.html` DOM DOM HTML после рендеринга с использованием безголового хрома
- `archive.org.txt` Ссылка на сохраненный сайт на archive.org
- `warc/` для html + gzip файла warc
- `media/` любые mp4, mp3, субтитры и метаданные, найденные с помощью youtube-dl
- `git/` клон любого репозитория для ссылок github, bitbucket или gitlab
- `index.html` и `index.json` индексные файлы HTML и JSON, содержащие метаданные и детали.
Архивирование является аддитивным, поэтому вы можете запланировать `./archive`, чтобы он запускался регулярно и добавлял новые ссылки в индекс.
Весь сохраненный контент является статическим и проиндексирован с помощью файлов JSON, поэтому он живет вечно и легко анализируется, он не требует постоянно работающего бэкэнда.