Как составить список стоп-слов для сбора семантики?

Готовые базы стоп-слов уже внедрены в наш функционал. Посмотреть описание функционала можно здесь

Каждого, кто собирает семантическое ядро, посещает мысль "так, сейчас я спаршу 10000 ключевых слов, удалю 7000 мусора и посмотрю с чем там можно работать?" - Да, такова реальность работы с ключевыми словами :)

Команда Rush Agency ежедневно подбирает десятки тысяч ключевых слов для наших клиентов и у нас накопился обширный опыт по работе со стоп-словами ("мусорными" ключевыми словами), которым хотим с вами поделиться в этом руководстве.

В самом начале разработки Rush Analytics, после сбора поисковых подсказок, мы вручную вычищали весь "мусор" используя хитрые фильтры в Excel или регулярные выражения в Notepad++. Это отнимало кучу времени и мы добавили в Rush Analytics функционал, который вырезает все ненужные ключевые слова "на лету".

Давайте разберемся как "мусор" попадает в нашу семантику



Есть много различных типов нежелательных стоп-слов, которые можно собрать при парсинге ключевых слов и они отличаются от тематики к тематике.
Для интернет-магазинов это вся "не коммерция" вида "бесплатно", "даром", "вконтакте", "майнкрафт", а также ключевые слова, которые содержат гео-указатели не целевых регионов и городов.
Для информационных тематик стоп-слова могут быть совсем иными - например - наоборот все коммерческие интенты.

Ниже приведены основные группы стоп-слов, которые встречаются при работе с семантикой:
  • Для коммерческих сайтов - все некоммерческие интенты: "бесплатно", "даром", "инструкция", "скачать" и прочие
  • Для любой тематики: бренды конкурентов, как в русскоязычном написании, так и в англоязычном
  • Ключевые слова, связанные с онлайн-играми и соц.сетями: "vk", "вконтакте", "одноклассники", "майнкрафт", "WOW", "Linage". Мы встречали слова вида "Купить лук жестокого орка WOW" с сумасшедшей частотностью. Но запрос для интернет-магазина луков и арбалетов совсем не целевой
  • Для любой коммерции - всё не целевое ГЕО. Пример: "профнастил в СПБ" для московского сайта
  • Различные запросы, связанные с программным обеспечением "торрент", "torrent" + уйма по названиям ПО
  • Пошлости, порно - каждый из нас встречал много смешных порно-запросов :)

Rush Analytics решает проблему мусорных ключевых слов следующим образом:


  1. У нас есть форма для ввода стоп-слов.

    Мы установили этот функционал в поисковых подсказках и сборе данных с Yandex.Wordstat, Кластеризации и проверке запросов .

    Работает это так: как только наш парсер встречает подсказку со стоп-словом - он вырезает эту подсказку и прекращает любой перебор этой "ветки подсказок". Иными словами - если вы ввели стоп-слово "вконтакте" - ни один запрос с этим словом не попадет в итоговый список подсказок, а так же не будет собираться частотность по Wordstat, что сэкономит время сбора проекта и ваши рессурсы.


  2. Форма ввода стоп-слов есть и в кластеризации. Мы предусмотрели ситуацию, при которой вы можете загрузить "грязный" список ключевых слов в систему (например, из Яндекс Wordstat). Стоп-слова можно указать прямо при создании проекта. В кластеризации алгоритм работает следующим образом: еще до начала кластеризации все стоп-слова удаляются и кластеризуется только "чистый" список запросов. Это помогло нам существенно сэкономить время, нервы и деньги - поможет и вам! - вам не придется тратить баланс на кластеризацию "мусора".

  3. Очень важно!

    Мы добавили в веб интерфейс списки стоп слов и гео запросов, а так же сделали возможность загружать свои собственные списки стоп слов.

    Выглядит это так:

    фильтрация гео стоп-слов
    Просто выберите свой целевой город.
    Важный нюанс: мы заранее добавили в базу все устоявшиеся сокращения городов вида «екб», «спб», «Питер» и т.д. Все словоформы (склонения) городов так же учитываются автоматически.

    Все самые популярные стоп-слова всегда под рукой - в 1 клик

    Мы так же составили обширные списки популярных мусорных слов по различным тематикам – практически на все случаи жизни – теперь можно в один клик отсеять, например, все ключевые слова с интентом «бесплатно» или «отзывы» или «фотографии и изображения».

    Выглядит это так:

    готовые списки стоп-слов Rush Analytics




  4. Работаете с редкими тематиками? Не проблема – заточите все под себя

    Конечно же, мы предусмотрели, чтобы вы могли добавить свои списки стоп-слов в сервис, чтобы они всегда были под рукой и не нужно было 1000 раз повторять операцию CTRL+C, CTRL+V.

    Просто нажмите «Добавить свой список стоп-слов», введите запросы и пользуйтесь своим списком стоп-слов при сборе подсказок, Wordstat и в кластеризации.


    собственные списки стоп-слов Rush Analytics

    Профессиональные опции для опытных специалистов

    Теперь в функционале стоп-слов доступны эксперт-опции:

    Символьное совпадение
    В данном случае если вы введете стоп-слово "бу"
    Будут удалены ключевые слова:
    • "бу холодильник"
    • "холодильник бу"
    • "купить бу холодильник"
    • "бублик"
    • "бумеранг"
    • "бумага"

    Внимательно проверяйте каждое ваше стоп слово, если вы используете эту опцию чтобы не было совпадений с запросами так как они могут быть удалены.
    Обратите внимание на "Эксперт опции" стоп-слов - по умолчанию применяется символьное соответствие. Пример частой ошибки в стоп словах: стоп слово “тв” удалит все запросы в которых встречается сочетание букв “тв” (тверь, твердый, твитер, растворитель,…). Соответственно стоп слово “с” удалит все запросы в которых есть буква “с”.

    Фразовое соответствие
    В данном случае если вы введете стоп-слово "бу"
    Буду удалены ключевые слова:
    • "бу холодильник"
    • "холодильник бу"
    • "купить бу холодильник"
    но не:
    • "бублик"
    • "бумеранг"
    • "бумага"
    Что бы не потерять нужные подсказки выбирайте "Фразовое соответствие в эксперте опции стоп-слов.

Но я не знаю, какие стоп-слова нужны мне?! Не проблема - готовые списки стоп-слов!

По ссылке можно скачать и обработать "под себя" отличный набор стоп-слов для различных тематик: ссылка