Как запретить индексирование страницы (без robots.txt)

Нужно запретить поисковым агентам индексирование определенной страницы. Причем страница динамическая и отказ в индексировании должен тоже работать динамически — в зависимости от параметров и данных в базе страница либо допускается либо не допускается к индексированию.

Ответить Комментировать

Спросил Fish

971 дн., 18 час., 36 мин. назад

Лучший ответ:

Можно встроить тег <meta name="robots" content="..."> внутрь раздера head страницы. Такой способ удобно применять, когда механизм отказа в индексации должен работать динамично. Возможные значения атрибута content:

NOINDEX - запрещает индексирование документа;

NOFOLLOW - запрещает проход по ссылкам, имеющимся в документе;

INDEX - разрешает индексирование документа;

FOLLOW - разрешает проход по ссылкам, имеющимся в документе.

ALL – разрешает как индексирование документа, так и проход по ссылкам (равносильно INDEX, FOLLOW)

NONE – запрещает индексирование и проход по ссылкам (равносильно NOINDEX, NOFOLLOW)

Если META name="ROBOTS" в документе не указан и в файле robots.txt не запрещена его индексация, файл индексируется, и проход по ссылкам происходит, что равносильно

<META name="ROBOTS" content="index, follow">

или

<META name="ROBOTS" content="all">

Если нужно другое поведение, следует включить META name="ROBOTS" между тегами <head> и </head> страницы, указав, какая обработка ему нужна. Например:

<META name="ROBOTS" content="index, nofollow">

Индексировать все, по ссылкам не переходить.

Строка

<META name="ROBOTS" content="none">

очень близка по смыслу запрету индексации в файле robots.txt.

Недостаток такого подхода по сравнению с robots.txt состоит в следующем. Если поисковая система видит, что адрес запрещен файлом robots.txt, то она не станет скачивать и включать в индекс соответствующую страницу. А чтобы увидеть тег meta, поисковику приходится предварительно скачать код страницы. Эта лишняя нагрузка на поисковик неизбежна если решение о запрете индексации производится динамически; в остальных случаях предпочтительнее использовать robots.txt а не meta robots.

При обнаружении в теге противоречивых инструкций (включенных по ошибке, принимаются разрешающие). Например:

<META name="ROBOTS" content="index, nofollow, follow">

Равносильно

<META name="ROBOTS" content="index, follow">

Источник

Комментировать ссылка

Ответил Sergey

971 дн., 18 час., 4 мин. назад

Запрет индексации фрагмента файла

Теги «noindex» и «/noindex», вставляемые вовнутрь документа дают более гибкий механизм управления роботами, запрещая индексацию части документа заключенной между ними. Однако не стоит им доверять полностью. Это нестандартный способ управления роботами, поддерживаемый не всем поисковыми системами. Доподлинно известно что, их учитывают Рамблер и Яндекс.

Но заморские поисковики noindex игнорируют. Кроме того этот тег нарушает валидность страницы, так как он является нестандартным.

Новые ответы

Новые Лучшие

Классический вариант решения — это конечно тег meta. Но есть еще один экзотический способ. Файл robots.txt принято считать статическим и не гибким ресурсом. В то же время никто не запрещает генерировать его динамически. В ASP.NET, например, можно использовать обобщенный обработчик, на который будет перенаправляться запрос к robots.txt. Внутри обработчика легко реализовать соответствующую логику, при необходимости обращаясь к слою доступа к данным. В некоторых источниках упоминается техника комбинирования — часть содержания robots.txt генерируется, а другая часть импортируется из статичного файла.

В большинстве случаев в контексте определенного запроса легче определить нуждается ли страница в индексировании. Поэтому применение тегов meta robots более оправдано. Но, если есть возможность перечислить запрещенные ресурсы имея только доступ к базе и сервисам приложения, то лучше воспользоваться именно методом генерации robots.txt, потому что он позволяет поисковикам без загрузки контента определить, что страница исключена.

Комментировать ссылка

Ответил Чак Норрис