Говорят, что если какая-то информация опубликована в интернете, то ее уже невозможно стереть из Всемирной сети. Мол, джинн выпущен из бутылки и это необратимый процесс. На практике все иначе. Веб — чрезвычайно динамическая среда. Сайты постоянно появляются и исчезают, старый контент удаляют, из-за изменения структуры сайта ссылки перестают работать. Мертвые ссылки — это действительно реальная проблема.
На эту тему в последние десять лет проведено несколько исследований, которые показали, что ежегодно умирает как минимум 3% ссылок, и это весьма консервативная оценка. По статистике Internet Archive, среднее время жизни веб-страницы — всего лишь 100 дней. Научный журнал Science проверял живучесть ссылок в научных статьях. Спустя два года после публикации 13% ссылок уже не работали. Подтверждений этому феномену — десятки. Даже в хорошо контролируемой среде ссылки пропадают. Например, 11% твитов об Арабской весне пропали через год после публикации, хотя сервис Twitter (пока) функционирует.
Американский разработчик Гверн Бранвен (Gwern Branwen) поддерживает свой сайт gwern.net, на котором много внешних ссылок. Программист молод и считает, что его сайт будет работать до 2070 года. Получается, что даже если брать консервативную оценку в 3% смертности ссылок ежегодно, то к 2070 году на его сайте останутся живыми только 16% ссылок. Это неприемлемо, если вы хотите гарантировать нормальную работу информационного ресурса.
На онлайновые архивы вроде Internet Archive нельзя положиться полностью, потому что больше половины мертвых ссылок там не найдешь. Кэш Google живет недолго. Поэтому наиболее оптимальным решением является локальное архивирование всех посещенных URL. Их список можно автоматически экспортировать из истории серфинга в браузере.
В своем блоге Гверн Бранвен публикует bash-скрипты, с помощью которых удобно экспортировать историю серфинга и автоматически скачивать все посещенные страницы в локальный архив. Для экономии места на диске он предлагает запускать программы-дедупликаторы и архиваторы вроде 7Zip с максимальной степень компрессии. Отдельная команда предварительно удаляет из локального архива веб-страницы с сайтов, которые не следует сохранять (например, Reddit).
Организовав такой личный архив, вы убережете себя от потери какой-либо важной информации. Чтобы помочь и остальным, можно запустить еще один скрипт, который будет заливать копии всех этих страниц в десяток имеющихся онлайновых архивов, в том числе Internet Archive, чтобы они сохранялись и там.
В конце концов, еще один скрипт предлагается для периодического поиска мертвых внешних ссылок своем на сайте и замены их на URL’ы с сохраненными копиями в онлайновых архивах.
Статья Гверна написана в 2011 году, но все его советы и скрипты не потеряли актуальности до сих пор. Надо спасать ссылки от умирания!