Главная / FAQ / Алгоритмы и методы кластеризации в Rush Analytics

Алгоритмы и методы кластеризации в Rush Analytics

Поделиться
27 Апр. 2018 · 7 мин

Soft-кластеризация

В этом методе кластеризации алгоритм определяет центральные (маркерные) запросы и сравнивает с ними все остальные запросы.Алгоритм отлично подходит для кластеризации ключевых слов для трафиковых проектов: интернет-магазины, информационные сайты, сайты услуг с несильной конкуренцией.

Hard-кластеризация

Запросы объединяются в группу, только если есть общий для всех запросов набор URL. При этом типе кластеризации группируется меньше ключевых слов, но с очень большой точностью. Идеально подходит для конкурентных высокочастотных запросов.

Выбор алгоритма кластеризации

У нас есть 3 алгоритма кластеризации:

1. Кластеризация с ручными маркерами
2. Кластеризация по Wordstat
3. Комбинированный алгоритм кластеризации (ручные маркеры + Wordstat)

Работают они по одному и тому же базовому принципу - сравнению подобия ТОПов поисковых систем, но предназначены для решения несколько различных задач.

Алгоритм с использованием ручных маркеров

Данный алгоритм эффективнее всего использовать, когда у вас есть готовая и довольно разветвленная структура сайта (каталога), и вы наперед знаете все маркеры и вам нужно просто понять по каким запросам вы собираетесь продвигать существующие страницы, а задачи расширения структуры сайта не стоит. В таком случае вы берете свои маркеры (названия категорий/страниц), собираете по ним подсказки, размечаете маркеры как 1, собранное облако как 0 и отправляете на кластеризацию. На выходе вы получите готовую семантику для своих категорий, а слова, которые не привязались к вашей структуре останутся некластеризованными.

Формат загрузки данных: ключевое слово | маркер(1/0) - скачать пример входного файла

Алгоритм кластеризации по Wordstat

Этот алгоритм скорее решает обратную алгоритму ручных маркеров задачу: вы еще не знаете структуры своего сайта и не можете выделить маркеры - вы просто собрали Wordstat, подсказки и частотность по подсказкам. Теперь вам нужно структурировать эту семантику, чтобы получить группы запросов под страницы будущего сайта или будущих категорий существующего сайта. В таком случае алгоритм кластеризации по Wordstat подойдет как нельзя лучше, работает он следующим образом. Весь список ключевых слов сортируется по убыванию частотности, алгоритм пытается привязать все возможные слова из списка к самому частотному слову и формирует кластер, далее все повторяется итерационно для следующих по частотности ключевых слов. Не волнуйтесь за то, что ключевые слова могут при первом проходе алгоритма привязаться к неверному кластеру - мы используем алгоритмы машинного обучения, построенные на бинарных деревьях, чтобы предотвратить это :)

Формат загрузки данных: ключевое слово | частотность (любая) - скачать пример входного файла

Комбинированный алгоритм (ручные маркеры + Wordstat) - сочетает подходы двух предыдущих методов

Этот алгоритм подходит для задачи одновременного подбора ключевых слов для существующей структуры сайта и ее расширения. Работает он следующим образом: сначала мы пытаемся привязать все возможные запросы к вашим маркерным запросам и формируем готовую структуру, привязанную к вашим маркерам. Далее, все запросы, что не были привязаны к маркерам - сортируются по убыванию частотности и группируются между собой. В результате вы получаете:

а) Готовую семантику для существующих категорий сайта
б) Расширение семантики для вашего сайта.

Мы настоятельно рекомендуем использовать комбинированный алгоритм- он дает наилучший результат.

Формат загрузки данных: ключевое слово | | маркер(1/0) | частотность - скачать пример входного файла
Поделиться
27 Апр. 2018 · 7 мин