Как составить список стоп-слов для сбора семантики?

Редакция от 22 February 2023 года


    Готовые базы стоп-слов уже внедрены в наш функционал. Посмотреть описание функционала можно здесь

    Каждого, кто собирает семантическое ядро, посещает мысль “так, сейчас я спаршу 10000 ключевых слов, удалю 7000 мусора и посмотрю с чем там можно работать?” – Да, такова реальность работы с ключевыми словами 🙂

    Команда Rush Agency ежедневно подбирает десятки тысяч ключевых слов для наших клиентов и у нас накопился обширный опыт по работе со стоп-словами (“мусорными” ключевыми словами), которым хотим с вами поделиться в этом руководстве.

    В самом начале разработки Rush Analytics, после сбора поисковых подсказок, мы вручную вычищали весь “мусор” используя хитрые фильтры в Excel или регулярные выражения в Notepad++. Это отнимало кучу времени и мы добавили в Rush Analytics функционал, который вырезает все ненужные ключевые слова “на лету”.

    Давайте разберемся как “мусор” попадает в нашу семантику

    Есть много различных типов нежелательных стоп-слов, которые можно собрать при парсинге ключевых слов и они отличаются от тематики к тематике.
    Для интернет-магазинов это вся “не коммерция” вида “бесплатно”, “даром”, “вконтакте”, “майнкрафт”, а также ключевые слова, которые содержат гео-указатели не целевых регионов и городов.
    Для информационных тематик стоп-слова могут быть совсем иными – например – наоборот все коммерческие интенты.

    Ниже приведены основные группы стоп-слов, которые встречаются при работе с семантикой:

    • Для коммерческих сайтов – все некоммерческие интенты: “бесплатно”, “даром”, “инструкция”, “скачать” и прочие
    • Для любой тематики: бренды конкурентов, как в русскоязычном написании, так и в англоязычном
    • Ключевые слова, связанные с онлайн-играми и соц.сетями: “vk”, “вконтакте”, “одноклассники”, “майнкрафт”, “WOW”, “Linage”. Мы встречали слова вида “Купить лук жестокого орка WOW” с сумасшедшей частотностью. Но запрос для интернет-магазина луков и арбалетов совсем не целевой
    • Для любой коммерции – всё не целевое ГЕО. Пример: “профнастил в СПБ” для московского сайта
    • Различные запросы, связанные с программным обеспечением “торрент”, “torrent” + уйма по названиям ПО
    • Пошлости, порно – каждый из нас встречал много смешных порно-запросов 🙂

    Rush Analytics решает проблему мусорных ключевых слов следующим образом:

    1. У нас есть форма для ввода стоп-слов.

    Мы установили этот функционал в поисковых подсказках и сборе ключевых слов из Wordstat, Кластеризации и проверке запросов .

    Работает это так: как только наш парсер встречает подсказку со стоп-словом – он вырезает эту подсказку и прекращает любой перебор этой “ветки подсказок”. Иными словами – если вы ввели стоп-слово “вконтакте” – ни один запрос с этим словом не попадет в итоговый список подсказок, а так же не будет собираться частотность ключевых слов по Wordstat, что сэкономит время сбора задачи и ваши рессурсы.

    2. Форма ввода стоп-слов есть и в кластеризации. Мы предусмотрели ситуацию, при которой вы можете загрузить “грязный” список ключевых слов в систему (например, из Яндекс Wordstat). Стоп-слова можно указать прямо при создании задачи. В кластеризации алгоритм работает следующим образом: еще до начала кластеризации все стоп-слова удаляются и кластеризуется только “чистый” список запросов. Это помогло нам существенно сэкономить время, нервы и деньги – поможет и вам! – вам не придется тратить баланс на кластеризацию “мусора”.

    3. Очень важно!

    Мы добавили в веб интерфейс списки стоп слов и гео запросов, а так же сделали возможность загружать свои собственные списки стоп слов.

    Выглядит это так:

    Просто выберите свой целевой город.

    Важный нюанс: мы заранее добавили в базу все устоявшиеся сокращения городов вида «екб», «спб», «Питер» и т.д. Все словоформы (склонения) городов так же учитываются автоматически.

    Все самые популярные стоп-слова всегда под рукой – в 1 клик

    Мы так же составили обширные списки популярных мусорных слов по различным тематикам – практически на все случаи жизни – теперь можно в один клик отсеять, например, все ключевые слова с интентом «бесплатно» или «отзывы» или «фотографии и изображения».

    Выглядит это так:

    4. Символьное совпадение
    В данном случае если вы введете стоп-слово “бу”
    Будут удалены ключевые слова:

    • “бу холодильник”
    • “холодильник бу”
    • “купить бу холодильник”
    • “бублик”
    • “бумеранг”
    • “бумага”

    Внимательно проверяйте каждое ваше стоп слово, если вы используете эту опцию чтобы не было совпадений с запросами так как они могут быть удалены.
    Обратите внимание на “Эксперт опции” стоп-слов – по умолчанию применяется символьное соответствие. Пример частой ошибки в стоп словах: стоп слово “тв”удалит все запросы в которых встречается сочетание букв “тв” (тверь, твердый, твитер, растворитель,…). Соответственно стоп слово “с” удалит все запросы в которых есть буква “с”.

    Фразовое соответствие
    В данном случае если вы введете стоп-слово “бу”
    Буду удалены ключевые слова:

    • “бу холодильник”
    • “холодильник бу”
    • “купить бу холодильник”

    но не:

    • “бублик”
    • “бумеранг”
    • “бумага”
    1. Что бы не потерять нужные подсказки выбирайте “Фразовое соответствие в эксперте опции стоп-слов.

    Конечно же, мы предусмотрели, чтобы вы могли добавить свои списки стоп-слов в сервис, чтобы они всегда были под рукой и не нужно было 1000 раз повторять операцию CTRL+C, CTRL+V.

    Просто нажмите «Добавить свой список стоп-слов», введите запросы и пользуйтесь своим списком стоп-слов при сборе подсказок Яндекса, в парсере Wordstat и в Кластеризации.

    Список категорий стоп слов которые доступны в нашем сервисе:

    • Универсальный (Общий список стоп слов подходящий для всех тематик)
    • Халява (все что связано со словом “бесплатно”)
    • Визуализация
    • Соц. сети
    • Ремонт
    • Софт
    • БУ
    • Самодеятельность
    • Юмор
    • Лечение
    • Транзакции
    • Адалт стоп слова
    • Отзывы и смежное
    • Оптовые
    • Вопросы и инфо запросы
    • Аренда
    • Крупные интернет магазины
    • Авто
    • Животные
    • Женские имена
    • Районы Москвы
    • Рецепты еды
    • Цвета
    • Материалы (ткань)
    • Характеристики

    Как правильно парсить подсказки?

    Руководство по рейтингу

    Была ли статья полезной?

    Да, спасибо! 16
    Не совсем 3