Главная / FAQ / Руководство по функционалу "Поиск спама в Webarchive"

Руководство по функционалу "Поиск спама в Webarchive"

Поделиться
15 Май. 2019 · 5 мин

Поиск спама в Webarchive - инструмент проверки сайтов из Вебархива (web.archive.org) на спам. Система ищет копии указанных доменов в Вебархиве и проверяет их тексты на наличие спама по заданным фильтрам. Инструмент помогает определить сайты со спамным контентом.

Создание проекта

1.Cоздание нового проекта. Чтобы начать, выберите в левом меню инструмент Webarchive spam и нажмите по нему. Нажмите кнопку "Создать новый проект":


В новом окне введите название проекта и нажмите на кнопку “Следующий шаг”.

2.Настройки сбора. Выбор глубины просмотра и спам-фильтры.

Вы перешли к настройкам сбора проекта. Для начала нужно выбрать глубину просмотра – диапазон от 3 мес до 5 лет. Лучше всего оставлять 3 месяца по умолчанию. Это означает, что инструмент найдет 3 копии сайта (snapshot) за последние 3 месяца и проверит каждую из них на спам.

Ниже будет список спам-фильтров - выберите галочкой какие символы будет искать система на страницах сайта. Вы можете также добавить собственный список спам-слов:


Переходим на следующий шаг.

3.Добавление доменов. Здесь добавьте домены, которые нужно проверить.

Рекомендуется добавить только те домены, которые были найдены в Вебархиве. Можно ввести вручную в текстовое поле, каждый с новой строки или массово загрузить с помощью Excel-файла. Для того, чтобы система их приняла - обязательно нажмите кнопку “Добавить домены”. Затем система автоматически подсчитает количество добавленных доменов и покажет стоимость проекта.


Теперь можете запустить его, нажав кнопку “Создать новый проект” - проект будет создан и появится в разделе на странице проектов, где вы сможете отследить статус его выполнения.

Результаты

Как работает система? По заданной глубине просмотра находит сохраненную копию домена на web.archive.org, скачивает ее и проверяет на спам контент, согласно выбранным фильтрам.


В отчете проекта отобразится 3 колонки: “Домен”, “Язык анкоров входящих ссылок”, “Фильтры”.


В колонке “Язык анкоров входящих ссылок” - показаны языки в % соотношении, которые были найдены в текстах домена.

В колонке “Фильтры” показывается наличие спама. Если колонка пустая, значит спама, согласно заданным нами фильтров, не найдено.

Полученные результаты можно выгрузить в формате Excel.

Поделиться
15 Май. 2019 · 5 мин