Как правильно блокировать ботов / сканеров, попадающих на ссылку / страницу?

Я работаю над аналитикой и получаю много точных результатов, в основном из-за ботов в социальных сетях или других случайных ботов, таких как BufferBot, DataMinr и т. Д. Из Twitter.

Существует ли какой-либо веб-API / база данных всех известных ботов, которые я могу использовать, чтобы проверить, бот это или человек?

Или есть какой-нибудь хороший способ заблокировать таких ботов, чтобы они не влияли на статистику с точки зрения аналитики?

0

Решение

Вы можете сделать ссылку на скрытую страницу, которая заблокирована robots.txt. При посещении захватывает пользовательский агент и IP-адрес бота, а затем добавляет один или оба из них в файл .htaccess, который навсегда блокирует их. Он только ловит плохих ботов и автоматизирован, поэтому вам не нужно ничего делать для его обслуживания.

Просто убедитесь, что вы сначала настроили файл robots.txt, а затем дайте хорошим ботам реальную возможность прочесть его и соответствующим образом обновить их сканирование.

1

Другие решения

Создать файл с названием robots.txt в вашем маршруте и добавьте следующие строки:

User-agent: *
Disallow: /
0

Невозможно напрямую заблокировать ВСЕХ ботов, это будет безумное количество времени, вы можете использовать файл .htaccess или robots.txt, остановить индексацию сайта Google легко, но блокировка трафика ботов может усложниться и действовать как карточный домик
Я предлагаю использовать этот список сканеров / веб-ботов http://www.robotstxt.org/db.html

0