Поиск спама в Webarchive – инструмент проверки сайтов из Вебархива (web.archive.org) на спам. Система ищет копии указанных доменов в Вебархиве и проверяет их тексты на наличие спама по заданным фильтрам. Инструмент помогает определить сайты со спамным контентом.
Создание задачи
1. Cоздание новой задачи. Чтобы начать, выберите в левом меню инструмент Поиска спама в Webarchive и нажмите по нему. Нажмите кнопку “Создать новую задачу”:
В новом окне введите название задачи и нажмите на кнопку “Вперед”.
2. Настройки сбора. Выбор глубины просмотра и спам-фильтры.
Вы перешли к настройкам сбора задачи. Для начала нужно выбрать глубину просмотра – диапазон от 3 месяцев до 5 лет. Лучше всего выбирать 5 лет, хотя сбор данных за такой период может идти дольше, чем при выборе от 3-х месяцев. Инструмент соберет по одной копии сайта за месяц (snapshot) в диапазоне выбранного вами периода и проверит каждую из них на спам.
Ниже будет список спам-фильтров – выберите галочкой, какие символы будет искать система на страницах сайта. Вы можете также добавить собственный список спам-слов:
Переходим на следующий шаг.
3. Добавление доменов. Здесь добавьте домены, которые нужно проверить.
Рекомендуется добавить только те домены, которые были найдены в Вебархиве. Можно ввести вручную в текстовое поле, каждый с новой строки, или массово загрузить с помощью Excel-файла. Для того, чтобы система их приняла, обязательно нажмите кнопку “Добавить домен”. Затем система автоматически подсчитает количество добавленных доменов и покажет стоимость задачи.
Теперь можете запустить ее, нажав кнопку “Запустить задачу”. Она будет создана и появится в разделе на странице задач, где вы сможете отследить статус ее выполнения.
Результаты
Как работает система? По заданной глубине просмотра находит сохраненную копию домена на web.archive.org, скачивает ее и проверяет на спам контент, согласно выбранным фильтрам.
В отчете задачи отобразится 3 колонки: “Домен”, “Язык в текстах сайта”, “Фильтры”.
В колонке “Язык в текстах сайта” показаны коды языков, которые были найдены в текстах страниц домена. Рядом указана статистика количества текста в %-ном соотношении.
В колонке “Фильтры” показывается найденный в текстах спам. Если колонка пустая, значит, спама в текстах, согласно заданным фильтрам, нет.
Все данные можно выгрузить в формате Excel.