Руководство по функционалу «Поиск спама в Webarchive»

Редакция от 14 марта 2022 года

    Поиск спама в Webarchive — инструмент проверки сайтов из Вебархива (web.archive.org) на спам. Система ищет копии указанных доменов в Вебархиве и проверяет их тексты на наличие спама по заданным фильтрам. Инструмент помогает определить сайты со спамным контентом.

    Создание задачи

    1. Cоздание новой задачи. Чтобы начать, выберите в левом меню инструмент Webarchive spam и нажмите по нему. Нажмите кнопку «Создать новую задачу»:

    В новом окне введите название задачи и нажмите на кнопку “Следующий шаг”.

    2. Настройки сбора. Выбор глубины просмотра и спам-фильтры.

    Вы перешли к настройкам сбора задачи. Для начала нужно выбрать глубину просмотра – диапазон от 3 мес до 5 лет. Лучше всего выбирать 5 лет, хотя сбор данных за такой период может идти дольше, чем при выборе от 3х месяцев. Инструмент соберет по одной копии сайта за месяц (snapshot), в диапазоне выбранного вами периода, и проверит каждую из них на спам.

    Ниже будет список спам-фильтров — выберите галочкой какие символы будет искать система на страницах сайта. Вы можете также добавить собственный список спам-слов:

    Переходим на следующий шаг.

    3. Добавление доменов. Здесь добавьте домены, которые нужно проверить.

    Рекомендуется добавить только те домены, которые были найдены в Вебархиве. Можно ввести вручную в текстовое поле, каждый с новой строки, или массово загрузить с помощью Excel-файла. Для того, чтобы система их приняла — обязательно нажмите кнопку “Добавить домены”. Затем система автоматически подсчитает количество добавленных доменов и покажет стоимость задачи.

    Теперь можете запустить его, нажав кнопку “Создать новую задачу”, — задача будет создан и появится в разделе на странице задач, где вы сможете отследить статус его выполнения. 

    Результаты

    Как работает система? По заданной глубине просмотра находит сохраненную копию домена на web.archive.org, скачивает ее и проверяет на спам контент, согласно выбранным фильтрам.

    В отчете задачи отобразится 3 колонки: “Домен”“Язык в текстах сайта”“Фильтры”.

    В колонке “Язык в текстах сайта” — показаны коды языков, которые были найдены в текстах анкоров домена. Рядом указана статистика количества текста в % соотношении.

    В колонке “Фильтры” показывается найденный в анкорах спам. Если колонка пустая — значит спама в обратных ссылках, согласно заданным фильтрам, нет.

    Все данные можно выгрузить в формате Excel.

    Была ли статья полезной?

    Да, спасибо! 1
    Не совсем 0