Содержание
Интернет уже давно стал невероятно крупным хранилищем всевозможной информации. Но он также оказался очень изменчивой средой, которой заметно не хватает постоянства. Именно поэтому был создан веб-архив.
Ресурс хорошо известен как полезный инструмент для просмотра того, как веб-сайты выглядели в прошлом. Ведь так интересно увидеть изменения ваших любимых сайтов. Но веб-архив также оказывается довольно полезным инструментом для SEO. И именно с него начинается изучение истории сайта.
История возникновения
Библиотеки и архивы мира приложили большие усилия для сбора и сохранения печатных материалов. Но появление Интернета было настолько внезапным и создало совершенно новый набор проблем для каталогизации, хранения и поиска, что несколько библиотек активно начали собирать копии веб-страниц.
Alexa Internet Брюстера Кале и ее дочерняя компания Internet Archive проделали огромную работу по сбору информации. Начиная с 1996 года в Интернет-архиве хранятся веб-страницы, включая графические файлы, с общедоступных веб-сайтов, просканированных Alexa. С запуском Wayback Machine в октябре 2001 года этот огромный архив теперь находится в свободном доступе для общественности.
Что такое архив веб-сайта?
Wayback Machine является наиболее популярным и самым масштабным сервисом для просмотра архива веб-сайта. Моментальные снимки можно использовать для сравнения версий домена в разных временных рамках.
Часто веб-мастера используют данный сервис в следующих случаях:
- перед покупкой домена, чтобы посмотреть тематику, наличие/отсутствие рекламы, исходящих ссылок;
- при анализе конкурентов, чтобы посмотреть историю изменений на их сайтах, ошибки или наоборот фишки, которые были использованы;
- чтобы посмотреть содержимое страницы, если она временно недоступна;
- для поиска уникального контента;
- для восстановления сайта, если забыли сделать резервную копию;
- при поиске истекших доменов, которые можно купить.
А также, с помощью Wayback Machine можно:
- Посмотреть историю изменений структуры сайта — веб-архив может показать, как выглядела предыдущая иерархия сайта. Если посмотреть на то, как сайт был организован в прошлом, можно будет сказать, какие страницы могли быть недавно объединены в категории или расширены на отдельные страницы.
- Изучить Robots.txt — веб-архив индексирует практически все, что находит на сайте, включая файлы robots.txt. Это замечательно, потому что, если у сайта есть технические проблемы или проблемы со сканированием, то можно найти дату или диапазон, когда в robots.txt были внесены изменения, вызвавшие эти проблемы. Все, что нужно сделать, это поискать в веб-архиве файл robots.txt сайта и сравнивать моментальные снимки в момент возникновения проблемы.
- Проверить наличие и изменения кода аналитики. Веб-архив также индексирует исходный код страниц, поэтому можно просматривать и извлекать старый код с предыдущих страниц. Это удобно для просмотра прошлого размещения кода аналитики и использования на сайте, если замечены необычные данные в учетной записи аналитики. Просто найдите URL-адрес рассматриваемой страницы в веб-архиве, выберите дату и снимок, который вы ищете, и щелкните правой кнопкой мыши, чтобы просмотреть источник страницы с этой даты. Затем можно проверить, где был размещен код аналитики, чтобы убедиться, что теги были реализованы правильно.
Лучшие сервисы для просмотра истории сайтов
Вот тщательно подобранный список лучших сервисов, способных предоставить вам архив веб-сайтов. С их помощью можно узнать содержимое страниц интересующих вас сайтов. В этой подборке мы указали общедоступные и бесплатные версии.
Wayback Machine
Wayback Machine — первый в своем роде инструмент, который стал эталоном для других сервисов архивирования.
Вероятно он будет первым, которым вы воспользуетесь для просмотра архива веб-сайта. У него также есть много способов создавать и загружать архивы, и даже есть специальный API для расширения его функциональности. Стоит отметить, что сервис позволяет архивировать на стороне сервера.
Wayback Machine сканирует только общедоступные веб-страницы и не может получить доступ к контенту, защищенному паролем или на защищенном частном сервере. Он также не сканирует сайты, которые запрещают поисковым системам сканировать их.
Поэтому этот сервис не сможет сохранить все функциональные возможности вашего сайта. Однако, он считается отраслевым стандартом для вебмастеров и абсолютно бесплатен.
По состоянию на апрель 2021 года в Интернет-архиве хранится более 30 миллионов книг и текстов, 8,9 миллиона фильмов, видео и телешоу, 649 000 программ, 13 225 000 аудиофайлов, 3,8 миллиона изображений и 580 миллиардов веб-страниц в Wayback Machine.
Для того, чтобы посмотреть историю сайта нужно зайти по адресу https://web.archive.org/ и ввести в форму поиска нужный URL. Это возможно как на мобильных, так и на версиях для ПК.
На странице будут отображаться график сохранений и календарь с отмеченными датами сканирования. По умолчанию год выбран актуальный на момент поиска.
Первым делом выбираем год на графике. Далее находим нужный месяц и дату в календаре.
Во всплывающем окне отображается количество снимков, сделанных в этот день, и доступные таймкоды-гиперссылки, нажав на которые можно перейти на заархивированные версии страницы.
На заархивированной странице можно также переключаться на другие даты, используя стрелки «вправо» или «влево», а также график, для быстрого переключения между годами.
Wayback Machine позволяет просмотреть сразу все заархивированные страницы проекта. Для этого нужно написать в адресной строке браузера: https://web.archive.org/web/*/[domain]/* добавив нужный домен. Например: https://web.archive.org/web/*/apollon.guru/*
Перейдя по этой ссылке вы увидите данные по всем страницам сайта или раздела, которые присутствуют в web.archive.org.
Как заархивировать страницы сайта в Wayback Machine
Сервис Wayback Machine автоматически сканирует страницы в Интернете и добавляет их в свой архив. Однако существует несколько способов, которые позволяют гарантировано сохранить отдельные страницы или целые веб-сайты.
1. Сохранить отдельную страницу
Помещаем URL в форму «Save Page Now» и сохраняем страницу. Сразу же будет доступен постоянный URL-адрес архива для страницы. Однако стоит обратить внимание, что этот метод сохраняет только одну страницу, а не весь сайт.
2. Сохранение с помощью расширения в браузере
Установить расширение Wayback Machine Chrome в свой браузер. Перейти на страницу, которую вы хотите заархивировать, щелкнуть значок на панели инструментов и выбрать «Save Page Now». Страница сохранится и сервис выдаст постоянный URL.
3. Букмарклет Wikipedia JavaScript
Букмарклет — это кнопка в один клик в браузере, который хранится как закладки, но использует Javascript для выполнения определенных действий. Сохраните следующий код в закладке на панели инструментов вашего браузера с таким именем, как например: Wayback Save. Он позволит заархивировать страницу вручную.
javascript : void ( window . open ( ‘https://web.archive.org/save/’ + location . href ));
4. Стать волонтером в команде Archive Team
Archive Team — это команда единомышленников, которые создали сайт для использования в качестве пункта разгрузки и хранилища информации для ряда архивных проектов, связанных с сохранением веб-сайтов или данных, которые могут быть потеряны.
5. Зарегистрировать учетную запись Archive-It
Этот сервис подписки предоставляется Internet Archive и позволяет архивировать свои собственные проекты без каких-либо технических знаний.
Как исключить свой сайт из Wayback Machine
Причин для этого может быть несколько:
- продажа или покупка домена;
- на веб-сайте есть приватная информация, которую вы хотите скрыть от остальных;
- просто не хотите, чтобы кто-то видел предыдущие версии вашего сайта.
В таком случае нужно выполнить одно основное действие:
Написать письмо с темой: «DMCA takedown notice», на почту info@archive.org. Оно должно быть написано в вежливой форме с просьбой удалить историю вашего домена. Также в нём нужно указать ссылки на временные рамки в веб-архиве, точный адрес домена, номер телефона и адрес электронной почты.
Для правильного заполнения формы вы можете воспользоваться специальным генератором: https://iphqs.com/dmca-takedown-notice-generator/.
Archive.ph
Archive.ph во многом похож на Wayback Machine — вплоть до очень схожего дизайна. Его серверы данных расположены в Европе.
Archive.ph подходит к архивированию иначе, чем Wayback Machine, так как не основан на работе поисковых роботов в Интернете. Вместо этого вебмастера отправляют URL-адреса и соглашается на включение их в архив. Кроме того, его список функций более прост, чем у других решений. Например, не существует надежной политики удаления, а процесс архивирования исключает определенные типы мультимедиа и файлов.
В отличие от Wayback Machine, Archive.ph поддерживает сайты с большим количеством Javascript, сайты с визуальным оформлением и даже веб-приложения. Это означает, что у вас будет вся информация практически о любом веб-сайте, для которого вы ее используете.
На сайте https://archive.ph находим поле «Искать сохранённые страницы» и вводим в нём адрес веб-сайта, историю которого нужно просмотреть. На экране выдачи будут размещены все версии страницы, которые были сохранены ранее.
Memento Time Travel
Инструмент архива Time Travel позволяет вам «путешествовать во времени», чтобы увидеть, как веб-сайт выглядел в определенное время. Это решение создано с использованием API Archive.ph, простое, функциональное и может использоваться как усовершенствованный продукт для архивирования в Интернете.
В отличие от Wayback Machine, Time Travel позволяет просматривать веб-страницы со сложной визуализацией. Таким образом, если вы ищете решение для получения доступа к заархивированным сайтам с компонентами таблиц стилей и изображений, то Time Travel будет хорошим выбором.
На главной странице сервиса http://timetravel.mementoweb.org нужно вставить адрес веб-сайта в соответствующее поле. Далее выбрать искомую дату и нажать кнопку «Find». Memento Time Travel просканирует и выдаст вам все возможные варианты веб-архивов, которые были сделаны как можно ближе к нужной дате.
Ссылочный анализ
Еще одним способом определения истории сайта является анализ обратных ссылок.
Анализ обратных ссылок — это тщательная оценка количества и качества веб-сайтов, которые ссылаются на ваш домен. При анализе учитывается не только количество обратных ссылок, ведущих на вашу страницу, но и анкорный текст и их релевантность.Благодаря анкорам можно предположить содержимое страниц анализируемого сайта.
Google использует анкорные тексты, чтобы определить, с какой темой связана веб-страница. Анализ анкоров может быть выполнен для веб-сайта перед его покупкой для того, чтобы определить какой тематике он соответствовал ранее.
К счастью, вам не нужно искать их вручную. Есть масса инструментов, ориентированных на выполнение этой задачи.
Представляем вам некоторые из наиболее популярных на рынке:
Ahrefs
На главной странице сервиса выбираем пункт меню — Site Explorer (Сайт Эксплорер), вводим адрес сайта в соответствующее поле и нажимаем кнопку поиска.
После того, как Ahrefs просканировал URL, на боковой панели слева нужно выбрать пункт «Анкоры». Вы можете воспользоваться различными вариантами сортировки.
SEMrush
На главной странице сервиса вводим адрес домена и нажимаем «Начать». Попадаем на страницу Domain Overview Tool.
Здесь выбираем пункт меню Backlinks, на котором представлены различные показатели сайта, в том числе и список Top Anchors. Далее нужно перейти по кнопке View Details.
Под ней находится расширенное окно Backlink Analytics с полным списком анкорных текстов и сортировкой по различным фильтрам.
Serpstat
Для того, чтобы посмотреть список анкоров в этом сервисе нужно перейти на страницу: https://serpstat.com/ и ввести адрес домена или URL конкретной страницы в соответствующем поле.
Далее переходим в окно Backlink Dashboard и выбираем пункт Anchors в левом сайдбаре, где будут представлены 20 анкорных текстов в сортировке: от самых до менее популярных.
Проанализировав анкорные тексты, вы сможете принять окончательное решение о целесообразности покупки сайта и ценности этих ссылок для вашего проекта.
Анализ изменений DNS
C помощью сервиса CompleteDNS можно отследить детальную историю домена. Перейдя в соответствующий раздел и следуя подсказкам на сайте можно проследить выпадение доменов и смену dns. Сервис сохраняет подробную информацию о каждом изменении в течении более 14 лет, что позволяет понимать когда анализировать те или иные изменения.
FAQ
Как посмотреть архив сайта Google?
Перед тем как показывать веб-страницу в результатах поиска, поисковым системам нужно ее проиндексировать. В Google Cache содержится снимок HTML-кода, который был получен от вашего сервера с помощью Googlebot. Затем этот код обрабатывается вашим браузером. Так как же посмотреть старую версию сайта в Google?
Всё очень просто. Берём адрес сайта, который вас интересует и вставляем в поле поиска Google. Пролистываем до нужного результата поиска и нажимаем на стрелку «вниз» рядом с URL страницы. Далее нажимаем «Сохраненная копия» в контекстном меню.
После того, как страница загрузится, вы увидите на экране дату и время кэширования, а также напоминание о том, что текущая страница могла быть изменена за это время. Вы можете воспользоваться копией из кеша Google, если нужная страница загружается слишком долго или не загружается вообще.
Существует еще один удобный способ просмотра кэшированной копии веб-страницы.
Откройте браузер. Напишите «cache:» в адресной строке, а затем введите нужный адрес веб-сайта. Результат поиска будет похож на кэшированную версию, которую вы могли увидеть в методе описанном чуть выше.
Как проверить историю домена Whois?
Веб-сайт Whois поможет вам получить ценную информацию о владельце веб-сайта. Там вы сможете узнать дату регистрации домена, сведения о хостинге и историю IP-адресов.
Преимущества сервиса Whois проявляются в других случаях, под которые не подходит Wayback Machine. Например, он делает точный снимок того, как именно выглядит главная страница сайта, непосредственно перед выполнением обновлений. Wayback Machine вряд ли может показать это посетителям, вместо этого он представляет фактическое содержание веб-страницы.
Как заархивировать свой сайт?
Как восстановить сайт из веб-архива?
Archivarix — онлайн-загрузчик веб-сайтов, который позволяет легко оживить веб-сайт. Также этот сервис позволяет полностью восстановить доменные имена с истекшим сроком действия. Восстанавливая удаленный домен, вы получаете все, что было заархивировано его бывшими владельцами.
В заключение
Чтобы определить все изменения, которые происходили с сайтом в прошлом необходимо проработать следующие направления:
- просмотр содержимого страниц сайта сервисами Wayback Machine или подобными системами;
- анализ анкоров внешних ссылок;
- аудит изменений DNS.
Используя эти направления можно узнать всю историю сайта с момента его создания до текущего дня. А учитывая эти данные можно выстраивать дальнейшую стратегию работы с сайтом.