Пара вопросов о роботах и ​​блокировке контента

Я настраиваю файл robots.txt для роботов и не могу понять, какие каталоги я должен от них заблокировать.
Конечно, я прочитал некоторую информацию в Интернете, но все же есть некоторый разрыв между тем, что я хочу знать, и тем, что я нашел до сих пор. Итак, было бы неплохо, если бы вы могли мне помочь и ответить на несколько вопросов:

  • Что я должен заблокировать от роботов в robots.txt? Это не так просто. Например, у меня есть PHP-файл INDEX в корне (почти со всем содержимым), dir с движком в нем, называемый ADMIN. В этом каталоге много папок и файлов, некоторые из которых на самом деле являются данными, которые INDEX использует в корневой папке. Весь смысл в том, что если я заблокирую каталог ADMIN от роботов, будет ли он по-прежнему нормально получать все данные в INDEX, полученные из каталога ADMIN?

  • Как и прежде, есть PHP-файл INDEX с PHP-скриптом, который генерирует автоматические ссылки для следующих страниц (конечно, ограниченный; зависит от количества данных в директории ADMIN). Обычно это индексируется роботами как обычные ссылки и все данные, которые идут по этим ссылкам?

  • Если я хочу заблокировать ADMIN dir и все файлы в нем от роботов, достаточно ли этого написать?

    User-agent: *
    Disallow: /ADMIN/
    

-1

Решение

Боты не заботятся о вашей внутренней серверной системе (ну, они не могут видеть это с самого начала).

Они посещают ваш сайт точно так же, как посетитель-человек: переходя по ссылкам (с вашего собственного сайта, с внешних сайтов, с вашей карты сайта и т. Д.), А некоторые могут также «угадать» URL-адреса.

Так что важны ваши URL.

Если у вас есть URL, который вы не хотите, чтобы боты посещали («сканировать»), запретите его в своем файле robots.txt.

Это robots.txt

# hosted at http://example.com/

User-agent: *
Disallow: /ADMIN/

запретил бы сканирование URL-адресов, как показано ниже:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

Но следующие URL-адреса все равно будут разрешены для сканирования:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/
1

Другие решения

Других решений пока нет …