резервное копирование

Сохраняем веб-страницы для себя и для потомков

Страницы в Интернете часто пропадают, переезжают или меняют содержание. Как сохранить их в нужном виде или легко найти архивную копию?

Stan Kaminsky
12 ноября 2024

Вопреки распространенному мнению о том, что из Сети ничего невозможно удалить, Интернет помнит далеко не всё. В предыдущем посте из этой серии мы рассмотрели аж девять сценариев, в которых вы можете потерять доступ к данным, хранящимся онлайн, и привели подробные инструкции, какую информацию из онлайн-сервисов нужно обязательно (и желательно — быстро) бэкапить на свой компьютер и как это сделать. Сегодня расскажем о том, как удобнее всего сохранять веб-страницы на локальный компьютер, организовывать эти архивы и что делать, если ваш любимый сайт канул в Лету.

Предположим, вы хотите сохранить статью с рецептом, сформировать библиографический список статей для своей научной работы или даже зафиксировать ту или иную публикацию в Интернете для суда. Все перечисленное публикуется в виде веб-страниц, и страницы эти ненадежны. Захотелось вспомнить музыкальные новости из 2005 года? Будет нелегко — сайт MTV News закрылся вместе со всеми своими статьями. Проверяете ссылки на источники в статьях Википедии? 11% из них уже ведут в никуда, хотя и были рабочими в момент написания статьи в Википедии. В целом «гниение ссылок» — постепенное удаление или переезд онлайн-контента — идет с высокой скоростью. 38% страниц, которые существовали десять лет назад, сегодня уже недоступны. Поэтому, если какую-то веб-страницу и ее содержимое вы считаете важным, есть смысл создать ее резервную копию.

Как сохранить веб-страницу на компьютер

Поскольку веб-страница состоит из десятков и сотен файлов, то для ее сохранения придется немного потрудиться. Основные способы сделать это:

Сохранить только текст в файле HTML. Нажать в браузере «Сохранить веб-страницы» и выбрать вариант «Только HTML». Сохранится лишь текст веб-страницы, без какой-либо графики и красот.

Сохранить текст и изображения. Соседняя опция «Сохранить веб-страницу целиком» (Web Page, Complete) создаст кроме файла HTML еще и папку с таким же именем, а в ней сохранит все графические элементы, стили и сценарии со страницы. Этот вариант неудобен тем, что на диске образуется много мусора из вспомогательных файлов страницы. Более удобна опция «Сохранить одним файлом» (Webpage, Single File), которая соберет веб-страницу и все ее ресурсы в файл с расширением .mhtml. Он свободно открывается в Chrome и Edge, но в других браузерах с ним могут возникнуть сложности. Эта опция есть не во всех браузерах, но если установить расширение SingleFile (доступно для большинства браузеров), то можно сохранить всю веб-страницу и ее медиаконтент в единый файл HTML, который прекрасно открывается во всех современных браузерах.

Напечатать в PDF. Чтобы сохранить основное содержимое страницы, но избавиться от меню и баннеров, удобнее отправить ее на печать, использовав в качестве «принтера» опцию «Сохранить как PDF«. Получившийся файл можно открыть на любом компьютере.

Во всех этих вариантах нужно убедиться, что основной текст, ради которого страница сохраняется, остался читаем при открытии документа с диска.

Более простой способ сохранить веб-страницу

Все действия, описанные выше, немного трудоемки и порождают беспорядок на диске компьютера. Максимальное удобство сохранения дают специальные сервисы, например Pocket (бывший Read It Later), wallabag, Raindrop.io. Они похожи — вы отправляете в сервис ссылку, а сервис вытаскивает по этой ссылке документ со всеми иллюстрациями, очищает страницу от всего лишнего и сохраняет в вашем личном онлайн-хранилище. Даже если страница-первоисточник будет удалена или изменена, нужная версия сохранится у вас в личном архиве. Сервисы позволяют группировать и сортировать свои ссылки, искать текст внутри и, конечно, просматривать сохраненные страницы на любом вашем устройстве. На компьютере для этого устанавливается дополнение во все ведущие браузеры, а на телефоне — мобильное приложение.

Во всех перечисленных сервисах «вечный» архив доступен только в премиум-подписке, то есть за удобство придется платить. Правда, wallabag является разработкой с открытым исходным кодом — можно установить его на своем собственном сервере, не платить сторонним сервисам и не волноваться, что они когда-то закроются и отключатся.

Функция сохранения полных веб-страниц также встречается в приложениях для заметок, например Evernote: там она называется Web Clipper.

Как сохранить веб-страницу для других

Если нужно не просто создать копию страницы для себя, а поделиться ее зафиксированным состоянием с другими людьми, потребуются публичные сервисы архивации.

Наиболее известны интернет-архив archive.org и его сервис Wayback Machine. Однако есть и другие: archive.today (он же archive.is), perma.cc, megalodon.jp. Они работают по похожему принципу — по ручному запросу интернет-пользователя или автоматически посещают веб-страницы и сохраняют копию на своих серверах.

Чтобы запросить сохранение веб-страницы, откройте сайт web.archive.org и введите полный адрес страницы в строку Save Page Now. После нажатия кнопки Save на экране появится окно, описывающее все загруженные компоненты веб-страницы, а затем — постоянная ссылка на сохраненное состояние нужного сайта следующего вида: https://web.archive.org/web/20240924045754/https://www.kaspersky.com/blog. В ссылке видны и адрес сохраненной страницы, и точное время сохранения, поэтому она прекрасно подходит для архивных целей.

Если зарегистрироваться на archive.org, то через личный кабинет можно вести коллекцию подобных ссылок, делать скриншоты сохраняемых сайтов, а также скачивать их копии в специальном формате архивного хранения сайтов.

На archive.org можно как просматривать ранее сохраненные версии сайтов, так и самостоятельно сохранить текущее состояние любого сайта, например нашего блога

Открыв «архивную» ссылку, вы увидите сохраненную страницу с указанием точного времени, когда она имела такой вид. Эта функция полезна для того, чтобы следить самим и демонстрировать другим, как меняются данные на сайтах: динамика цен и описание товара, отредактированные версии новостей в СМИ, удаленная информация. Последнее особенно важно — благодаря этому можно вести исторические и культурологические исследования, основываясь на информации с уже не существующих сайтов. На нашей иллюстрации вы видите одну из первых версий сайта GeoCities, который позволял создавать «домашние странички», самовыражаться и находить друзей по интересам задолго до соцсетей. Без Wayback Machine посмотреть на него было бы сложно — он закрылся в 2016 году.

Ностальгия для олдов: одна из первых версий сайта Geocities.com

Как найти удаленный интернет-контент или старую версию сайта

Чтобы посмотреть старую версию любого сайта:

откройте web.archive.org;
введите полный адрес сайта или конкретной страницы в поле возле логотипа и нажмите Enter. Кроме точного URL можно вводить название сайта или слова, которые его хорошо описывают;
в списке выберите нужный сайт. Обратите внимание, что в выдаче сразу видно, сколько копий и за какой период хранится в архиве;
с помощью календаря выберите, какую из сохраненных копий сайта нужно просмотреть. Даты, за которые есть сохраненная копия, обведены кружком — и чем больше кружок, тем больше копий делалось в этот день;
нажмите на нужную дату и изучите сохраненный сайт. Учтите, что загрузка копии из архива может занять несколько минут;
график с календарем над копией сайта позволяет перемещаться к более старым и более новым копиям.

Как изучать старые версии сайтов на web.archive.org

Ссылку на найденную копию можно скопировать из адресной строки и использовать, чтобы попадать в архивную копию напрямую, минуя интерфейс поиска.

Если Archive.org не помог

Фонд, управляющий archive.org, порой следует требованиям правообладателей и других уполномоченных лиц и исключает определенные сайты из хранения в Wayback Machine. Также целью сервиса никогда не было сохранение вообще всего Интернета, поэтому бывает, что нужная страница никогда и не индексировалась. Тогда имеет смысл поискать ее в аналогичных сервисах.

Archive.today (он же archive.is) автоматически страницы не сохраняет — только по запросу пользователей. Это избавляет архив от необходимости следовать, например, инструкциям для поисковых роботов (robots.txt), и в нем бывают документы, недоступные в Wayback Machine.

Еще одним важным проектом по архивации Интернета является perma.cc, созданная сообществом крупных мировых библиотек. Правда, она бесплатна только для организаций — участников библиотечного обмена, а пользователи «с улицы» могут подключиться к платному тарифу, в котором стоимость зависит от числа архивируемых ссылок.

Мощной альтернативой специализированным архивам является кэш поисковых систем. Поисковики все равно выкачивают текст каждой веб-страницы, чтобы его проиндексировать, поэтому некрасивую, но читабельную версию почти каждой страницы можно разыскать там. Долгое время самым простым в доступе был кэш Google, но в начале 2024 года гигант поиска убрал прямую ссылку на кэш из поисковой выдачи. Несмотря на это, сервис продолжает работать, но напрямую воспользоваться им очень непросто.

Поэтому лучше использовать расширения для браузеров, упрощающие работу с интернет-архивами. Например, если вы перешли по ссылке и попали на удаленную страницу или целиком неработающий сайт, расширение Web Archives позволяет мгновенно перейти на архивированную копию этой страницы на web.archive.org, archive.today, perma.cc или посмотреть закэшированные версии страницы в Google, Bing и Yandex.

Как сохранить данные из других онлайн-сервисов

Помимо веб-страниц, существует множество других онлайн сервисов — от фотоальбомов и заметок до соцсетей — и важные для вас данные из них тоже нужно сохранять. Разумеется, для разных видов данных и конкретных сервисов рекомендации будут отличаться, но для вашего удобства мы объединяем все подобные инструкции тегом «резервное копирование». Вы можете почитать про создание бэкапов для:

И не забывайте надежно защищать ваши бэкапы от шифровальщиков и шпионского ПО!

Как сделать, чтобы компанию снова не взломали

Как извлечь уроки из инцидента ИБ

Анализ произошедшего инцидента и извлечение из него уроков должны быть частью процесса реагирования на инцидент. Это позволит повысить общий уровень безопасности компании.

Бесплатные сервисы

Защита отдельных узлов сети

Сохраняем веб-страницы для себя и для потомков

Как сохранить веб-страницу на компьютер

Более простой способ сохранить веб-страницу

Как сохранить веб-страницу для других

Как найти удаленный интернет-контент или старую версию сайта

Если Archive.org не помог

Как сохранить данные из других онлайн-сервисов

Интернет помнит не всё

Почему бизнесу обязательно нужны бэкапы

Как извлечь уроки из инцидента ИБ

Советы

Как безопасно покупать и продавать вещи на интернет-барахолках

Хакеры украли 68 миллионов паролей от Dropbox. И что теперь?

Как отключить слежку в iOS?

Почему «позаимствовать» Wi-Fi у соседа — плохая идея

Для дома

Для бизнеса

Securelist

Nota Bene: блог Евгения Касперского

Энциклопедия «Касперского»