Сканирование сайтов с помощью Screaming Frog SEO Spider — это один из ключевых этапов проведения комплексного технического аудита. Этот инструмент позволяет быстро собрать данные о структуре сайта, выявить технические ошибки и получить информацию для оптимизации. В отличие от других инструментов, Screaming Frog предлагает глубокий анализ и гибкую настройку параметров сканирования, что делает его незаменимым для SEO-специалистов и веб-мастеров.
Подготовка к сканированию
Прежде чем запустить процесс сканирования, необходимо правильно настроить параметры Screaming Frog. От качества этой настройки зависит полнота и точность получаемых данных. В первую очередь необходимо выбрать режим работы: Spider (сканирование всего сайта от указанного URL) или List (сканирование по заранее подготовленному списку страниц).
Важным аспектом подготовки является решение об учете файла robots.txt. По умолчанию Screaming Frog следует директивам этого файла, что может ограничить доступ к некоторым разделам сайта. Однако для полного технического аудита иногда необходимо игнорировать эти ограничения, что можно настроить в разделе Configuration > Robots.txt > Settings.
Также на этапе подготовки полезно настроить User-Agent. Можно заменить стандартный на Googlebot или YandexBot, чтобы увидеть сайт глазами поисковых систем. Это особенно важно, если на сайте применяются различные правила отображения контента для разных агентов. Настройка выполняется в Configuration > User-Agent.




Настройка параметров сканирования
Для более детальной настройки процесса сканирования необходимо перейти в Configuration > Spider. Здесь доступно множество параметров, которые позволяют тонко настроить процесс под конкретные задачи.
Одним из важнейших параметров является скорость запросов. Для сайтов с невысокой производительностью сервера рекомендуется установить небольшое количество потоков (2-5) и ограничить количество URL в секунду (до 5-10). Это позволит избежать чрезмерной нагрузки на сервер и блокировки IP-адреса. Для мощных серверов можно увеличить эти значения до 7-10 потоков и 20-30 URL в секунду.
Также важно настроить таймауты для обработки страниц. Для сайтов с медленной загрузкой страниц стоит увеличить значение таймаута, чтобы Screaming Frog не пропускал страницы из-за превышения времени ожидания ответа.
Для сканирования современных веб-сайтов, использующих JavaScript для рендеринга контента, крайне важно включить режим JavaScript-рендеринга. Это делается во вкладке Configuration > Spider > Rendering. Включение этой опции позволит анализировать динамический контент, который генерируется после загрузки страницы.
Если требуется доступ к закрытым разделам сайта, например, к административной панели или защищенным паролем страницам, можно настроить авторизацию в Configuration > Authentication. Здесь доступны стандартная HTTP-аутентификация и авторизация через формы.

Запуск сканирования
После завершения настройки всех параметров можно приступать к запуску процесса сканирования. Это простая операция: достаточно ввести начальный URL в адресную строку программы и нажать кнопку “Start”. Screaming Frog автоматически начнет анализ, переходя по ссылкам с указанной страницы на другие страницы сайта.
Для крупных сайтов процесс сканирования может занять значительное время — от нескольких часов до нескольких дней, в зависимости от объема и сложности сайта. Поэтому рекомендуется планировать такую работу заранее и, возможно, проводить ее в ночное время или в выходные дни.
Следует помнить, что бесплатная версия Screaming Frog имеет ограничение в 500 страниц. Для сканирования более крупных сайтов потребуется приобрести лицензию. Это особенно актуально при работе с коммерческими проектами, где количество страниц может достигать нескольких миллионов.
Spider:

Режимы работы Screaming Frog
Как уже упоминалось, Screaming Frog имеет два основных режима работы: Spider и List. Каждый из них имеет свои преимущества и применяется в различных ситуациях.
List:

Режим Spider является стандартным и наиболее часто используемым. В этом режиме программа начинает с указанного URL и автоматически переходит по всем найденным на странице ссылкам, постепенно исследуя всю структуру сайта. Этот режим идеален для комплексного технического аудита сайта, когда необходимо проанализировать все страницы и их взаимосвязи.
Режим List позволяет сканировать только конкретные страницы, указанные в предварительно подготовленном списке URL. Это очень удобно, когда необходимо проанализировать только определенные разделы сайта или проверить конкретные страницы после внесения изменений. Список URL можно загрузить из файла (CSV, TXT) или напрямую из карты сайта (Sitemap XML).
Анализ результатов сканирования
После завершения процесса сканирования Screaming Frog предоставляет обширную информацию о состоянии сайта. Результаты доступны через различные вкладки интерфейса программы, каждая из которых фокусируется на определенном аспекте анализа.
Вкладка Internal содержит информацию о внутренних страницах сайта. Здесь можно увидеть URL всех найденных страниц, их HTTP-статусы, заголовки, метаописания и другие важные элементы. Это основной раздел для анализа структуры сайта и выявления технических проблем, таких как ошибки 404, дубликаты заголовков или отсутствие метаописаний.
Вкладка External Links отображает информацию о внешних ссылках с сайта. Это полезно для аудита исходящих ссылок и проверки их работоспособности.
В разделе Images можно найти информацию о всех изображениях на сайте, включая их URL, размеры и атрибуты alt. Это помогает выявить проблемы с оптимизацией изображений.
Вкладка Response Codes группирует страницы по HTTP-статусам, что позволяет быстро идентифицировать все страницы с ошибками 4xx и 5xx, а также страницы с редиректами 3xx.
Screaming Frog отлично подходит для глубокого технического аудита, но если вы хотите быстро проверить свой сайт и сравнить его с конкурентами в пару кликов, то можно использовать онлайн-инструмент «Аудит сайта» от Rush Analytics.
Он выявит все технические ошибки, которые мешают вашему сайту выходить в ТОП: от битых ссылок до неправильной индексации и дублирующихся мета-тегов.




конверсии вашего сайта


в Яндекс-Директ

Уже скачали 1348 раз
Как сканировать динамические сайты (на JavaScript)
Современные веб-сайты часто используют JavaScript для динамической загрузки контента, что создает определенные сложности при сканировании. Такие технологии, как SPA (Single Page Application), React, Vue.js и другие фреймворки, генерируют значительную часть контента на стороне клиента, после загрузки базового HTML.
По умолчанию Screaming Frog анализирует только исходный HTML-код страницы, без выполнения JavaScript. Это означает, что динамически загружаемый контент не будет виден для анализатора, что может привести к неполным или некорректным результатам аудита.
Для корректного анализа динамических сайтов необходимо включить режим JavaScript-рендеринга. Это делается в меню Configuration > Spider, во вкладке Rendering. После включения этой опции Screaming Frog будет рендерить страницы с выполнением JavaScript, что позволит увидеть сайт так же, как его видит пользователь в браузере.
Важно отметить, что при включении JavaScript-рендеринга скорость сканирования значительно снижается, так как для каждой страницы требуется дополнительное время на выполнение скриптов и рендеринг контента. Поэтому при сканировании больших сайтов с включенным рендерингом необходимо планировать больше времени на проведение аудита.
Особое внимание следует уделить анализу структурированных данных и разметки, которые могут быть добавлены через Google Tag Manager или другие системы управления тегами. Такая разметка часто видна только после выполнения JavaScript, поэтому без включения режима рендеринга она не будет обнаружена при сканировании.
Настройка JavaScript-рендеринга
Для эффективного сканирования динамических сайтов необходимо правильно настроить параметры JavaScript-рендеринга в Screaming Frog. Это выполняется в несколько шагов.
Во-первых, необходимо перейти в Configuration > Spider > Rendering и выбрать опцию JavaScript. После этого откроется диалоговое окно с дополнительными настройками.
Во-вторых, важно установить достаточное время ожидания (Wait Time) для полной загрузки страницы. Для большинства сайтов достаточно 5 секунд, но для сложных приложений с большим количеством асинхронных запросов может потребоваться больше времени — 10 или даже 15 секунд.
В-третьих, рекомендуется выбрать эмуляцию Googlebot Smartphone, особенно с учетом того, что Google использует Mobile First Indexing. Это позволит увидеть сайт так, как его видит Google при индексации, и обнаружить потенциальные проблемы с мобильной версией сайта.
Как сканировать сайты частями (Exclude и Include)
При работе с крупными сайтами часто нет необходимости сканировать весь сайт целиком. Возможно, требуется проанализировать только определенные разделы или, наоборот, исключить некоторые части из анализа. Для этого в Screaming Frog предусмотрены фильтры Include и Exclude, которые позволяют точно указать, какие URL должны быть включены или исключены из сканирования.
Настройка фильтров выполняется в меню Configuration > Include и Configuration > Exclude. Фильтры используют регулярные выражения для сопоставления URL, что дает большую гибкость при определении правил.

Как использовать Include для выборочного сканирования
Фильтр Include позволяет указать, какие URL должны быть включены в сканирование. Все URL, не соответствующие правилам Include, будут проигнорированы. Это особенно полезно, когда необходимо проанализировать только определенные разделы сайта.
Например, если нужно сканировать только страницы блога на сайте, можно использовать следующее правило:
.*/blog/.*
Это правило включит в сканирование все URL, содержащие “/blog/” в пути.
Если требуется проанализировать только категории товаров в интернет-магазине, можно использовать правило:
.*/category/.*
Можно комбинировать несколько правил Include, добавляя их по одному. В этом случае URL будет включен в сканирование, если он соответствует хотя бы одному из правил.

Как использовать Exclude для исключения страниц
Фильтр Exclude работает противоположным образом: он указывает, какие URL должны быть исключены из сканирования. Это полезно, когда большая часть сайта должна быть проанализирована, но некоторые разделы нужно пропустить.
Например, для исключения страниц тегов можно использовать правило:
.*/tag/.*
Чтобы исключить административную панель и избежать случайного сканирования закрытых разделов, можно добавить правило:
.*/admin/.*
Помимо исключения разделов по пути URL, можно также исключать различные типы файлов, которые не представляют интереса для SEO-аудита. Например, следующие правила позволяют исключить изображения и документы:
http.*\.jpg
http.*\.JPG
http.*\.jpeg
http.*\.JPEG
http.*\.png
http.*\.PNG
http.*\.gif
http.*\.pdf
http.*\.PDF

Заключение
Screaming Frog SEO Spider является мощным инструментом для проведения технического аудита сайтов любой сложности и размера. Правильное использование его функций позволяет получить детальную информацию о структуре сайта, выявить технические проблемы и оптимизировать ресурс для лучшей индексации поисковыми системами.
Для эффективной работы с этим инструментом важно правильно настроить параметры сканирования, использовать фильтры Include и Exclude, настраивать JavaScript-рендеринг и выбирать подходящий User-Agent. Регулярное использование Screaming Frog позволяет своевременно выявлять и устранять проблемы на сайте, что положительно влияет на позиции в поисковой выдаче. Не забывайте также следить за обновлениями инструмента для использования новых функций.
Освоение всех возможностей Screaming Frog требует времени и практики, но результаты стоят затраченных усилий. Этот инструмент не только упрощает работу SEO-специалистов, но и помогает им принимать обоснованные решения по оптимизации сайтов на основе конкретных данных.