Главная / FAQ / Руководство по функционалу "Поиск спама в Webarchive"

Руководство по функционалу "Поиск спама в Webarchive"

Поделиться
15 Май. 2019 · 5 мин

Поиск спама в Webarchive - инструмент проверки сайтов из Вебархива (web.archive.org) на спам. Система ищет копии указанных доменов в Вебархиве и проверяет их тексты на наличие спама по заданным фильтрам. Инструмент помогает определить сайты со спамным контентом.

Создание проекта

1.Cоздание нового проекта. Чтобы начать, выберите в левом меню инструмент Webarchive spam и нажмите по нему. Нажмите кнопку "Создать новый проект":


В новом окне введите название проекта и нажмите на кнопку “Следующий шаг”.

2.Настройки сбора. Выбор глубины просмотра и спам-фильтры.

Вы перешли к настройкам сбора проекта. Для начала нужно выбрать глубину просмотра – диапазон от 3 мес до 5 лет. Лучше всего выбирать 5 лет, хотя сбор данных за такой период может идти дольше, чем при выборе от 3х месяцев. Инструмент соберет по одной копии сайта за месяц (snapshot), в диапазоне выбранного вами периода, и проверит каждую из них на спам.

Ниже будет список спам-фильтров - выберите галочкой какие символы будет искать система на страницах сайта. Вы можете также добавить собственный список спам-слов:


Переходим на следующий шаг.

3.Добавление доменов. Здесь добавьте домены, которые нужно проверить.

Рекомендуется добавить только те домены, которые были найдены в Вебархиве. Можно ввести вручную в текстовое поле, каждый с новой строки, или массово загрузить с помощью Excel-файла. Для того, чтобы система их приняла - обязательно нажмите кнопку “Добавить домены”. Затем система автоматически подсчитает количество добавленных доменов и покажет стоимость проекта.


Теперь можете запустить его, нажав кнопку “Создать новый проект”, - проект будет создан и появится в разделе на странице проектов, где вы сможете отследить статус его выполнения.

Результаты

Как работает система? По заданной глубине просмотра находит сохраненную копию домена на web.archive.org, скачивает ее и проверяет на спам контент, согласно выбранным фильтрам.


В отчете проекта отобразится 3 колонки: “Домен”, “Язык в текстах сайта”, “Фильтры”.

В колонке “Язык в текстах сайта” - показаны коды языков, которые были найдены в текстах анкоров домена. Рядом указана статистика количества текста в % соотношении.

В колонке “Фильтры” показывается найденный в анкорах спам. Если колонка пустая - значит спама в обратных ссылках, согласно заданным фильтрам, нет.

Все данные можно выгрузить в формате Excel.

Поделиться
15 Май. 2019 · 5 мин