• 🔧 Алгоритмы поисковых систем
  • 👩‍🏫 Обучение
  • 👽 SEO-оптимизация

Что такое индексация сайта

  • 15 апреля 2023
  • 10 мин.
Термин

Индексация сайта – это процесс, во время которого робот поисковой системы проводит сбор сведений о страницах ресурса. Вся собранная информация сохраняется в базе, поисковом индексе. Все это дает возможность системе понять, что ресурс не просто присутствует в Интернете, но на нем размещены тематические статьи и прочее, представляющее интерес для пользователя, а потому, он заслуживает верхних позиций в списке выдачи.

Отличия индексации сайта от сканирования

Различие существует только в терминологии двух основных поисковых систем: Яндекса и Google. 

  • У Яндекса — это весь процесс целиком (сканирование + попадание страницы в индекс ПС). 
  • У Google – это вторая стадия процесса, благодаря которому они оказываются в списках поисковой выдачи. Сканирование сайтов, в свою очередь, является начальным этапом, “проверкой”, во время которой роботы посещают ресурс, пользуясь сторонними ссылками, либо информацией, указанной непосредственно пользователем, изучают его и размещенный контент, от текстов до видеороликов и фотографий.

Что такое индексирование

Если не разделять индексацию на сканирование и индексирование, то процесс проходит по следующему алгоритму:

  1. По той причине, что возможности ПС имеют определенные границы, робот-планировщик составляет очередность обхода, отталкиваясь от критерия их полезности, популярности и т.д. Для каждого ресурса рассчитывается свой краулинговый бюджет. Расчёт ведется исходя из скоростных характеристик, а так же из уровня заспамленности, соотношения полезны/мусорных страниц, наличия малополезных автоматически нагенерированных документов и циклических ссылок и других немаловажных факторов.
  2. Обнаружение, загрузка и разбор роботом новой или старой страницы.
  3. Анализ по списку параметров: доступность к индексации, код ответа сервера, является ли дублем и т.д.
  4. Если проверка пройдена — страница добавляется в индекс.

Подобный алгоритм характерен для всех систем. Да, между Яндекс и его близкими аналогами, будь то Google или Рамблер, есть некоторые различия, но они незначительны, касаются больше технических тонкостей и нюансов, нежели базового принципа.

Почему сайт не индексируется

Трудности, как правило, возникают по следующим причинам:

  1. Неоптимизированный краулинговый бюджет. Большое количество автоматически генерируемых URL-адресов, циклические ссылки, низкое качество страниц, для индексации которых требуется слишком много времени.
  2. Блокировки robots.txt. Следует открыть /robots.txt, при наличии такового, и проверить, что необходимые разделы не заблокированы. Часто бывает, что некоторые разделы оказываются закрытыми, например, папки с графикой или видео. Распространена ситуация и с директивой «Disallow:», из-за которой поисковые роботы обделяют вниманием весь ресурс.
  3. Блокировка в админке. Характерный пример – панель администратора WordPress, где по умолчанию при запуске предусмотрена специальная функция, при активации которой роботы посещают сайт. Для исправления ситуации достаточно просто отключить ее.
  4. Блокировка через meta-robots. Данный тег находится внутри <head>, часто используется разработчиками и администраторами для того, чтобы запретить индексирование — «noindex, nofollow». Главное в таком случае – не забыть удалить тег после окончательного запуска проекта, публикации на нем интересного содержимого.
  5. Блокировка X-Robots-Tag в заголовке HTTP. Те же директивы «noindex, nofollow», только на уровне ответа сервера.
  6. Санкции, наложенные поисковой системой. Пример ситуации – взлом и публикация на нем вредоносного кода. При обнаружении этого система блокирует индексирование до тех пор, пока не будет восстановлен рейтинг доверия. Также проблемы возникают с ресурсами, не представляющими ценности для посетителей, созданными исключительно для систем поиска, сайтами с негативной доменной историей, либо копиями уже работающих, принадлежащих тому же собственнику, но размещенных на другом домене.
  7. Страницы со «специальными» статусами от ПС. «Просканирована, но не проиндексирована», «неканоническая», «дубль», «малоценный и малополезный контент». Поисковая система исключила данные документы из индекса и присвоила им тот или иной статус, указывающий на наличие проблемы.
  8. Код ответа сервера не 200. И такое бывает — страница доступна для пользователей, а для поисковых роботов нет.

Индексация и CMS

  1. Тильда. Индексация проходит автоматически, для ее ускорения следует прописать теги, от H1 до более низких, обозначить понятные адреса всех страничек, убедиться в корректности переадресации, добавить ресурс в поисковую консоль Google и сервис Вебмастер от Яндекс.
  2. Bitrix. В целом, для ускорения можно использовать стандартные инструменты, но платформа предлагает и дополнительные уникальные решения, упрощающие работу. Например, модуль Сотбит позволяет администратору быстрее и точнее проставить внутренние ссылки, сформировать карту, добавить уникальные мета-теги.
  3. WordPress. Опять же, основные методы в такой системе вполне стандартны. Дополнительно через панель администратора стоит прописать в пункте «Сервисы обновления» пинг-адреса, благодаря которым машины Яндекс и Google будут получать уведомления о новых публикациях. Это действие приведет к тому, что странички окажутся в индексе в максимально короткие сроки, за 7-10 дней.

Разные виды сайтов

  1. Новостные ресурсы. Яндекс использует быстробота. Для исключения проблем нужно регулярно публиковать свежие новости, уникальные, проверенные, соответствующие российскому законодательству, следить, чтобы все странички открывались быстро и не были слишком удалены от главной.
  2. Интернет-магазины. Нужно следить, чтобы не было пустых страничек, ведущих на несуществующие, распроданные товары, к числу важных факторов относится и скорость открытия страничек.
  3. Блоги. Поисковая система при индексации отдает предпочтение сайтам с хорошей скоростью загрузки, регулярно наполняемых интересными уникальными материалами.

Особенности индексации сайтов на JavaScript

Поисковые системы не индексируют контент в JavaScript. Если зайти в сохраненную копию страницы сделанной на JavaScript, то она будет пустая.

Один из эффективных инструментов для решения подобной проблемы– это технология Prerender.

Если коротко, то:

  • пользователь видит динамическую версию на скриптах, роботу она недоступна;
  • поисковой робот получает копию в формате html.

Основные проблемы с которыми вы можете столкнуться:

  • проблема со скоростью загрузки,
  • необходимость еженедельной модерации html версии,
  • скорость внедрения тех или иных задач из-за сложности технологии растягивается.

Подробнее про Google и Яндекс

Алгоритмы индексации – коммерческая тайна, простому пользователю доступ к ней строго закрыт. Впрочем, практика позволила обнаружить некоторые отличия между основными системами, Яндекс и Google, которые вполне можно применять в работе.

Google

Главная особенность – Mobile-first index. Данный алгоритм предполагает, что сначала роботы оценят мобильный вариант ресурса, так что его разработке нужно уделить максимум внимания, экономия скажется и на статусе основной версии. Второй момент – “краулинговый бюджет”, частота и длительность посещения сайта роботами. Чем он выше, тем меньше времени требуется для попадания новых страниц в списке выдачи, однако, конкретные сведения об алгоритмах расчета “краулингового бюджета” отсутствуют, также относятся к разряду коммерческой тайны.

Инструкция по отправке на переобход выглядит следующим образом:

  1. Открытие Google Search Console сайта.
  2. В поисковую строку необходимо ввести URL, который вы хотите отправить на переобход, нажать enter. Далее нажать кнопку — «запросить индексирование».

Яндекс

Как индексировать сайт в Яндексе? Первым делом, индексируется версия для ПК. Практика показывает, что преимущество имеют популярные ресурсы с высоким уровнем посещаемости, чем интереснее страница реальным пользователям, тем скорее она появится в списках выдачи (привет ПФ). Также следует учесть, что Яндекс обделяет вниманием документы, вес которых превышает 10 мегабайт.

Инструкция для повторной отправки такова:

  1. Открываем Я Вебмастер.
  2. Добавляем домен.
  3. Подтверждаем права собственника на обозначенный ресурс, для чего требуется представление мета-тега, указание записи DNS или файла HTML.
  4. Оправляем на переобход.

Сколько времени занимает переиндексация страницы

Процесс может занимать от 1 часа до нескольких недель. Время зависит от объема ресурса и его качества.

Как проверить индексацию

Для проверки доступны различные инструменты:

  • как встроенные в панели вебмастеров поисковых систем,
  • так и сторонние сервисы.

Ими обязательно стоит воспользоваться, чтобы определить текущий статус URL, обратить внимание на появившиеся ошибки и, естественно, принять меры по их устранению.

Проверка индексации сайта в поисковых системах

  1. Google Search Console. Для проверки необходимо лишь указать адрес в строке, если ранее она уже была проиндексирована, появится соответствующее уведомление.
  2. Вебмастер от Яндекс. Принцип тот же, что и в предыдущем случае, в поисковой строке соответствующего раздела нужно указать адрес странички и провести проверку.

Специальные операторы

В Google можно воспользоваться еще одним простым методом – указанием в поисковой строке запроса вида «site:[интересующее доменное имя]». Ответом станет формирование полного списка поисковых результатов, удастся понять, не проигнорировали ли роботы значимые страницы.

Сервисы для вебмастеров

Лучше всего зарекомендовали себя специальные плагины, максимально удобные, понятные, но эффективные. К примеру, в браузер Chrome можно поставить дополнение RDS Bar, оно совершенно бесплатно, но позволяет в одно нажатие получить все сведения об интересующем сайте, в том числе и о его индексировании.

Rush Analytics

Проверить есть ли та или иная страница в индексе можно в нашем сервисе за несколько кликов.

Как ускорить индексацию

Любой владелец ресурса заинтересован в том, чтобы индексирование заняло минимум времени, это позволит быстрее начать извлекать прибыль, получать заказы, размещать рекламную информацию, объявления. Для решения такой задачи доступно несколько способов.

1. Переобход через Яндекс Вебмастер

Этот инструмент от Яндекс, как уже было отмечено, максимально полезен и эффективен, позволяет с минимальными тратами времени решать различные задачи, связанные с индексацией. Возможно проведение как первичных проверок, так и повторных, что актуально при изменении страниц, добавлении новой информации. Алгоритм действий таков:

  1. Добавление сайта с подтверждением права собственника.
  2. Открытие личного кабинета и вкладки «Индексирование».
  3. Указание адресов страничек для проверки.

2. Использование Google Search Console

Данный инструмент, по сути, аналогичен Яндекс. Он не просто помогает эффективно справиться с индексацией сайта, но используется для подготовки отчета, получение рекомендаций по разработке мобильной версии ресурса, достижения верхних позиций в списке выдачи. Алгоритм действий таков:

  1. Регистрация ресурса, подтверждение права владения.
  2. Указание URL для проведения проверки.
  3. Запрос индексации.

3. Оптимизация файла robots.txt

Адрес его размещения — site.ru/robots.txt. Помимо создания, требуется соответствующая настройка, отсутствие запрета на индексацию, а также блокировка доступа к файлам системы, авторским страничкам и прочему, что бесполезно в поиске, затягивает процесс, не позволяет роботам сосредоточиться на наиболее важном содержимом.

4. Создание файла sitemap.xml

Данный файл, по сути, необходим для уверенной навигации поисковых роботов. В нем обозначаются ссылки на все странички, которые должны индексироваться, причем расположены эти ссылки в приоритетном порядке, наверху расположены основные страницы, ниже – вторичные. Если речь идет о небольшом проекте, то создать файл можно вручную, это не займет слишком много времени, для крупных ресурсов лучше использовать плагины CMS и особые сервисы.

5. Создание карты HTML

Предыдущий файл упрощает навигацию по сайту роботам, а карта – реальным пользователям. По сути, она является отдельной страничкой, получение доступа к которой возможно из любого раздела, содержащей гиперссылки на важнейшие рубрики. Да, она не оказывает прямого влияния на индексацию, однако, улучшает внутреннюю перелинковку, что уже действительно помогает в ускорении работы роботов.

6. Создание Silo-структуры

На сложном с точки зрения структуры сайте сложно и роботам, и пользователям. Общее для всех ресурсов, независимо от объема, правило – возможность добраться до любой странички не больше, чем за три нажатия клавиши мыши. Чем больше “щелчков” требуется для попадания на определенную вкладку, тем меньше вероятность того, что робот быстро проиндексирует ее.

7. Оптимизация скорости загрузки

Бывает так, что страницы не индексируются из-за того, что грузятся слишком медленно. Наиболее распространенная причина – некорректное, нестабильное функционирование сервера. Вполне возможно, стоит задуматься о переходе на альтернативный, более надежный.

8. Создание внутренней перелинковки

Ссылки в пределах сайта крайне важны для корректной работы роботов независимо от системы, будь то Google или Яндекс. Нужно оптимизировать навигацию, исключить появление страниц-сирот, которые не связаны с базовой иерархической структурой. Для оптимизации используется следующее:

  • Сайдбары как в основном меню, так и в хедере.
  • Рекомендационные блоки.
  • Размещение ссылок на новые странички внутри тех, что уже были успешно проиндексированы.

9. API

Google Indexing API и поддержка Яндексом протокола IndexNow позволяет отправлять поисковым системам списки страниц сайтов на индексирование.

10. Использование Ловца ботов

Его задача – демонстрация ссылок на страницы, которые еще не индексировались, при каждом новом заходе робота системы, в том или ином блоке перелинковки. Скорее всего, он обратит на них внимание и проведет индексирование. Технология сложная, но рабочая. Читать подробнее про Ловец ботов.

Как запретить индексацию

Ограничение доступа к служебным адресам, страничкам, разработка которых пока не завершена – в таких случаях рекомендуется запретить индексацию. Способов несколько:

  1. Добавление директивы Disallow: / в файл robots.txt.
  2. Прописка noindex в robots teg в HTML-коде странички, которая не должна посещаться роботами.
  3. Применение авторизации. Блокировка доступа авторизацией – оптимальное решение для того, чтобы ограничить доступ в персональный кабинет и на черновые странички, разработка которых находится в процессе. Такой метод отличается максимальной надежностью.

Что значит индексировать сайт? Самый простой ответ – помочь ему как можно быстрее оказаться в списке поисковой выдачи. В конечном итоге, это положительно скажется на его популярности, посещаемости и, как следствие, коммерческом успехе!


Руководитель Rush Analytics Дмитрий Цытрош
Просмотров
3238
Рейтинг
5,0/5
Оценить
Комментариев
0
Комментировать
Оцените статью Оценка анонимная
Добавить комментарий

Ваш адрес email не будет опубликован

Rush Analytics

Другие наши статьи

На страницу статей

Получите 7 дней бесплатного доступа

Здесь вы можете собрать поисковые подсказки из Яндекс, Google или YouTube

Зарегистрироваться