Как составить список стоп-слов для сбора семантики?

Редакция от 22 февраля 2023 года


    Готовые базы стоп-слов уже внедрены в наш функционал. Посмотреть описание функционала можно здесь

    Каждого, кто собирает семантическое ядро, посещает мысль «так, сейчас я спаршу 10000 ключевых слов, удалю 7000 мусора и посмотрю с чем там можно работать?» — Да, такова реальность работы с ключевыми словами 🙂

    Команда Rush Agency ежедневно подбирает десятки тысяч ключевых слов для наших клиентов и у нас накопился обширный опыт по работе со стоп-словами («мусорными» ключевыми словами), которым хотим с вами поделиться в этом руководстве.

    В самом начале разработки Rush Analytics, после сбора поисковых подсказок, мы вручную вычищали весь «мусор» используя хитрые фильтры в Excel или регулярные выражения в Notepad++. Это отнимало кучу времени и мы добавили в Rush Analytics функционал, который вырезает все ненужные ключевые слова «на лету».

    Давайте разберемся как «мусор» попадает в нашу семантику

    Есть много различных типов нежелательных стоп-слов, которые можно собрать при парсинге ключевых слов и они отличаются от тематики к тематике.
    Для интернет-магазинов это вся «не коммерция» вида «бесплатно», «даром», «вконтакте», «майнкрафт», а также ключевые слова, которые содержат гео-указатели не целевых регионов и городов.
    Для информационных тематик стоп-слова могут быть совсем иными — например — наоборот все коммерческие интенты.

    Ниже приведены основные группы стоп-слов, которые встречаются при работе с семантикой:

    • Для коммерческих сайтов — все некоммерческие интенты: «бесплатно», «даром», «инструкция», «скачать» и прочие
    • Для любой тематики: бренды конкурентов, как в русскоязычном написании, так и в англоязычном
    • Ключевые слова, связанные с онлайн-играми и соц.сетями: «vk», «вконтакте», «одноклассники», «майнкрафт», «WOW», «Linage». Мы встречали слова вида «Купить лук жестокого орка WOW» с сумасшедшей частотностью. Но запрос для интернет-магазина луков и арбалетов совсем не целевой
    • Для любой коммерции — всё не целевое ГЕО. Пример: «профнастил в СПБ» для московского сайта
    • Различные запросы, связанные с программным обеспечением «торрент», «torrent» + уйма по названиям ПО
    • Пошлости, порно — каждый из нас встречал много смешных порно-запросов 🙂

    Rush Analytics решает проблему мусорных ключевых слов следующим образом:

    1. У нас есть форма для ввода стоп-слов.

    Мы установили этот функционал в поисковых подсказках и сборе ключевых слов из Wordstat, Кластеризации и проверке запросов .

    Работает это так: как только наш парсер встречает подсказку со стоп-словом — он вырезает эту подсказку и прекращает любой перебор этой «ветки подсказок». Иными словами — если вы ввели стоп-слово «вконтакте» — ни один запрос с этим словом не попадет в итоговый список подсказок, а так же не будет собираться частотность ключевых слов по Wordstat, что сэкономит время сбора задачи и ваши рессурсы.

    2. Форма ввода стоп-слов есть и в кластеризации. Мы предусмотрели ситуацию, при которой вы можете загрузить «грязный» список ключевых слов в систему (например, из Яндекс Wordstat). Стоп-слова можно указать прямо при создании задачи. В кластеризации алгоритм работает следующим образом: еще до начала кластеризации все стоп-слова удаляются и кластеризуется только «чистый» список запросов. Это помогло нам существенно сэкономить время, нервы и деньги — поможет и вам! — вам не придется тратить баланс на кластеризацию «мусора».

    3. Очень важно!

    Мы добавили в веб интерфейс списки стоп слов и гео запросов, а так же сделали возможность загружать свои собственные списки стоп слов.

    Выглядит это так:

    Просто выберите свой целевой город.

    Важный нюанс: мы заранее добавили в базу все устоявшиеся сокращения городов вида «екб», «спб», «Питер» и т.д. Все словоформы (склонения) городов так же учитываются автоматически.

    Все самые популярные стоп-слова всегда под рукой — в 1 клик

    Мы так же составили обширные списки популярных мусорных слов по различным тематикам – практически на все случаи жизни – теперь можно в один клик отсеять, например, все ключевые слова с интентом «бесплатно» или «отзывы» или «фотографии и изображения».

    Выглядит это так:

    4. Символьное совпадение
    В данном случае если вы введете стоп-слово «бу»
    Будут удалены ключевые слова:

    • «бу холодильник»
    • «холодильник бу»
    • «купить бу холодильник»
    • «бублик»
    • «бумеранг»
    • «бумага»

    Внимательно проверяйте каждое ваше стоп слово, если вы используете эту опцию чтобы не было совпадений с запросами так как они могут быть удалены.
    Обратите внимание на «Эксперт опции» стоп-слов — по умолчанию применяется символьное соответствие. Пример частой ошибки в стоп словах: стоп слово “тв”удалит все запросы в которых встречается сочетание букв “тв” (тверь, твердый, твитер, растворитель,…). Соответственно стоп слово “с” удалит все запросы в которых есть буква “с”.

    Фразовое соответствие
    В данном случае если вы введете стоп-слово «бу»
    Буду удалены ключевые слова:

    • «бу холодильник»
    • «холодильник бу»
    • «купить бу холодильник»

    но не:

    • «бублик»
    • «бумеранг»
    • «бумага»
    1. Что бы не потерять нужные подсказки выбирайте «Фразовое соответствие в эксперте опции стоп-слов.

    Конечно же, мы предусмотрели, чтобы вы могли добавить свои списки стоп-слов в сервис, чтобы они всегда были под рукой и не нужно было 1000 раз повторять операцию CTRL+C, CTRL+V.

    Просто нажмите «Добавить свой список стоп-слов», введите запросы и пользуйтесь своим списком стоп-слов при сборе подсказок Яндекса, в парсере Wordstat и в Кластеризации.

    Список категорий стоп слов которые доступны в нашем сервисе:

    • Универсальный (Общий список стоп слов подходящий для всех тематик)
    • Халява (все что связано со словом «бесплатно»)
    • Визуализация
    • Соц. сети
    • Ремонт
    • Софт
    • БУ
    • Самодеятельность
    • Юмор
    • Лечение
    • Транзакции
    • Адалт стоп слова
    • Отзывы и смежное
    • Оптовые
    • Вопросы и инфо запросы
    • Аренда
    • Крупные интернет магазины
    • Авто
    • Животные
    • Женские имена
    • Районы Москвы
    • Рецепты еды
    • Цвета
    • Материалы (ткань)
    • Характеристики

    Как правильно парсить подсказки?

    Руководство по рейтингу

    Была ли статья полезной?

    Да, спасибо! 14
    Не совсем 2