web-scale-crawling

Достаточно ли вы знаете о web-scale crawling

1 июня 2018 года прошла одна из самых масштабных конференций о продвижении на западных рынках Nazapad 9. Tim Soulo (Head of Marketing & Product Strategy at Ahrefs) затронул тему краулинга, рассказал что такое crawl budget, а также как индексируются ссылки. Эта тема достаточно сложная и объемная, так что заваривайте чай, садитесь поудобнее и будем разбираться вместе.

Как работает web-scale crawling

Все веб-краулеры собирают информацию примерно одинаково, но речь будет идти о краулере Ahrefs. Вот как это выглядит в геометрической прогрессии:

Как работает веб-краулер

Как работает веб-краулер

Предположим, что Краулер зашел на страницу, на которой находится 3 ссылки. Далее ему необходимо перейти на каждую из этих трёх ссылок, где в свою очередь находится еще 3 ссылки. То есть далее ему необходимо перейти на 9 страниц и тд. Но в реальной жизни на страницах практически никогда не бывает 3 ссылок, обычно это 50-60-100 и за пару шагов кол-во страниц, которые нужно прокраулить вырастает в сотни раз. Поэтому невозможно краулить новые страницы мгновенно. В связи с этим существует система “Краулер-Планировщик”.

Краулер и Планировщик

Краулер и Планировщик

Задача Краулера ходить по страницам, просматривать их контент и находить новые страницы. После чего отдавать эти страницы Планировщику, а он уже в свою очередь приоритезирует эту информацию и говорит Краулеру, что необходимо краулить в первую очередь. По этой причине существует некая задержка между тем, когда краулер найдет какой-то URL и тем когда он его прокраулит. Есть важные пункты, которые необходимо отменить:

  1. Планировщик ранжирует URL-ы и передает их Краулеру на основе их рейтинга.
  2. Рейтинг зависит от многих факторов, но в основном он зависит от количества ссылок на данный URL.
  3. Есть минимальный рейтинг, для попадания страниц в индекс Ahrefs. Если страница не имеет этого рейтинга, то страница может бесконечно висеть в Планировщике.
  4. Рейтинг может меняться в разных направлениях, как в положительную сторону, так и в отрицательную.

На странице https://ahrefs.com/big-data мы можем увидеть сколько страниц прокраулил Ahrefsbot, не считая тех, что все еще висят в Планировщике.

Количество страниц в индексе

Количество страниц в индексе

Те ссылки, которые висели в планировщике более 90 дней Ahrefs отмечает как delayed.

Ссылки delayed

Ссылки delayed

Что такое crawl budget (краулинговый бюджет)

При краулинге нового домена, Ahrefsbot смотрит на следующие параметры:

  • сколько всего ссылок на этот домен;
  • сколько URL-ов у домена;
  • DR (Domain Rating) домена (сколько страниц готов прокраулить бот);
  • UR (URL Rating) домена (в каком порядке краулить страницы).

Если рейтинг домена слишком маленький и он имеет слишком большое количество страниц, то качественные страницы этого домена могут вытеснить из индекса менее качественны. Такие страницы помечены как dropped.

Ссылки dropped

Ссылки dropped

Что представляет собой индекс ссылок

Чтобы в индексе оставались актуальные страницы необходимо придерживаться некоторых правил:

  1. Необходимо краулить веб как можно “глубже”.
  2. Ре-краулить весь индекс как можно чаще.
  3. Находить новые страницы как можно быстрее.

Ahrefs краулит 5000000 страниц в минуту, 80% из которых это ре-краул. Если страница очень крутая, на нее постоянно появляется куча ссылок, у нее хороший рейтинг или на ней что-то меняется, то её ре-краулят часто. Минимальный интервал ре-краула таких страниц – 1 час. Если у страницы плохой рейтинг и на неё нет новых ссылок, то такая страница будет ре-краулиться реже. Максимальный интервал – 6 месяцев.

Сколько страниц краулит Ahrefs

Сколько страниц краулит Ahrefs

Иногда при сравнении индекса Ahrefs и других сервисов, первый показывает меньше ссылок, хотя принято считать, что у Ahrefs индекс самый обширный. Дело в том, что ре-краулинг происходит слишком часто и Ahrefs быстрее видит, что ссылки пропали. Ввиду этого в Ahrefs создано 3 индекса:

  1. Live – самый обновляемый индекс, 99,9% эти ссылки живые и в индексе.
  2. Recent – Live + все удаленные ссылки за последние 90 дней.
  3. Historical – содержит все ссылки, которые когда-либо индексировал Ahrefs.

Индекс в Ahrefs

Индекс в Ahrefs

Зачастую стоит обращать внимание на индекс Recent, так как большинство причин удаления ссылки из индекса обратимы:

Причины удаления ссылок из индекса

Причины удаления ссылок из индекса

Рассмотрим подробнее эти причины. Они разделены на 2 группы. Первая относится к странице, на которой вас линкуют. Вторая категория относится к самой ссылке. Страница:

  • может пропасть и отдавать 404 not found;
  • может стать редиректом;
  • может стать noindex;
  • может стать не канонической;
  • Ahrefs убрал её из своего индекса из-за низкого рейтинга.

Ссылка:

  • на странице нет ссылки на вашу страницу;
  • ссылка была настроена с помощью редиректа, но он сломался и ссылка пропала.

Чем отличаются индексы разных провайдеров

То, как считаются ссылки, очень важно, потому что разные провайдеры считают ссылки по разному. Для примера, в посте “Why Counting Links Is Not So Easy” директор по маркетингу Majestic по состоянию на 2011 год в задаче по определению количества ссылок на страницу B из картинки ниже указал, что они определяют 4 ссылки на эту страницу. В Ahrefs будет учитываться 7-8 ссылок. Другие провайдеры могут считать совсем по другому.

Определить количество ссылок на страницу

Определить количество ссылок на страницу

Еще пример, в Majestic статья “Beginner’s Guide to SEO” имеет 126,201 ссылок с сайта coschedule.com:

Обратные ссылки с Majestic

Обратные ссылки с Majestic

На Ahrefs всего 17 ссылок на данную статью из этого сайта:

Обратные ссылки с Ahrefs

Обратные ссылки с Ahrefs

Оказалось, что Majestic учитывает страницы с UTM-метками несмотря на том, что на странице указан rel= «canonical»:

Страницы с UTM-метками

Страницы с UTM-метками

Ссылки в JavaScript – это еще один важный момент, который нужно учитывать. На скриншоте ниже указано какие поисковики кроулят js frameworks. Из линк-индексов только Ahrefs недавно начал это делать и включать такие ссылки в свой индекс. Поэтому в Ahrefs есть определенные ссылки, которых нет у других.

Ссылки в JavaScript

Ссылки в JavaScript

Что такое AR/DR/UR

AR = Ahrefs Rank. Рейтинг сайтов строится на основе их Backlinks.

Ahrefs Rank

Ahrefs Rank

DR = Domain Rating. По сути это все сайты из AR загнанные в шкалу от 1 до 100. DR это быстрый способ определить где определенный сайт находится по соотношению ко всем остальным сайтам.

Domain Rating

Domain Rating

UR = URL Rating. Не стоит путать в метрикой DR, она относится ко всему домену. UR относится к каждой странице сайта отдельно.

Вот и всё. Надеемся каждый, кто уделил свое время прочтению статьи, почерпнул из нее что-то новое для себя.


Будем признательны за каждый лайк:


Оставьте комментарий, Ваше мнение очень важно для нас!

Введенный e-mail не будет виден другим пользователям :

Просим ознакомиться с политикой конфиденциальности и соглашением об использовании файлов cookie перед началом использования сайта.

Back to Top

Telegram

Подписывайтесь на наш канал в Telegram, будьте лучше ваших конкурентов

Подпишитесь на наш канал

You have Successfully Subscribed!