Блиц-опрос

Ваше мнение очень важно для автора сайта! Оцените дизайн и контент сайта:

Круто - 50%
Нормалёк - 18.8%
И так сойдет - 18.8%
Полный отстой - 12.5%

Проголосовали: 16
Голосование для этого опроса закончилось on: 31 Дек 2017 - 00:00

Запрещаем индексацию!

1

значок noindex

Казалось бы, зачем запрещать индексацию страниц сайта, если обычно проблемой считается быстрейшая индексация сайта? Предмет статьи достоин обсуждения. Не так давно автор данного сайта наткнулся на информацию о том, что в интернете полно веб-ресурсов, закрытых для индексации. Этакий «теневой» интернет. И якобы объем его больше чем объем проиндексированного контента. С чего это? Навскидку – это сайты «сырые», сайты «для друзей», сайты каких-то закрытых сообществ (необязательно террористические организации или общества педофилов). Владельцы таких сайтов не нуждаются в трафике и рекламе. Часто веб-мастера закрывают от индексации каталоги с картинками для сайта, статьи что-то вроде «Об авторе сайта» и т. д. Конечно, можно сделать вход на сайт через авторизацию (или закрыть определенный раздел сайта паролем). Но можно просто запретить индексацию сайта с помощью файла robots.txt.

Вообще запрет на индексацию для поисковых сервисов – 3-х уровневый.

Итак, уровень первый

Файл robots.txt – это инструкция для поисковых сервисов. От того, какие директивы там будут прописаны, зависит, можно индексировать сайт или нет, или какие именно страницы можно индексировать а какие – нет. Этот файл должен находиться в корневой папке вашего сайта на сервере хостера. Это просто текстовой файл в формате.txt, его можно сделать в любом текстовом редакторе (чисто текстовом) – в Блокнот или Notepad++, например. Робот поискового сервиса прежде чем запрашивать документы (файлы) сайта, ищет и просматривает файл robots.txt. Именно в этом файле можно запретить индексацию чего-бы то ни было на вашем сайте, или разрешить индексировать все. Можно запретить индексацию файлов в определенных папках или отдельную страницу.

Как выглядит файл robots.txt, разрешающий индексацию всего и вся, можете посмотреть в статье Способы индексации сайта. А так выглядит файл robots.txt, запрещающий индексацию чего бы то ни было вашем сайте:

User-agent: *
Disallow: /

Или так, если нужно разрешить всем поисковикам индексировать все, кроме картинок в папке images и файлов в папке files:

User-agent: *
Disallow: /images/
Disallow: /files/

Но так выглядят файлы robots.txt для сайта, созданного вручную на HTML. Для сайтов на основе движка файл robots.txt будет выглядеть иначе. Но как правило в составе дистрибутивов движков есть оптимально составленные файлы robots.txt.

Прошу не считать все вышеизложенное инструкцией по созданию и редактированию файла robots.txt. С информацией о том, как правильно прописывать директивы в файле robots.txt, можно и нужно ознакомиться на сайтах поисковых сервисов (ссылки даны в статье Способы индексации сайта). Не вижу смысла пересказывать рекомендации поисковых сервисов по прописыванию директив в файле robots.txt. Я лишь даю вам подсказку. При составлении файла robots.txt под нужды вашего сайта просто следуйте рекомендациям поисковых сервисов.

Уровень второй

Здесь речь пойдет об использовании мета тега robots в голове страницы сайта, чтобы запретить индексацию целой страницы (статьи) и переход по исходящим ссылкам с нее на сторонние ресурсы. Этот мета тег нужно поместить в HTML-документе между тегами <head> и </head> (то есть в голове страницы) в любом порядке по отношению к другим мета тегам.

<meta name="robots" content="noindex, nofollow">

Опять же – это общая информация. Можно запретить индексацию, но разрешить переход по ссылкам, а можно – наоборот, а так же прописать отдельно инструкции для разных поисковиков. И еще, следует учитывать, что самые популярные поисковые сервисы Google и Yandex не одинаково воспринимают эти мета теги.

Уровень третий

Часто возникает необходимость закрыть от индексации  какую-то часть текста конкретной страницы сайта (в том числе ссылки). В этом случае используют такую конструкцию:

<noindex>Не хочу, чтобы этот абзац был проиндексирован</noindex>

Если вам захочется не только запретить индексацию части текста, но и запретить переходить по ссылке в этом абзаце, то можно использовать такую конструкцию:

<noindex>Не хочу, чтобы этот абзац был проиндексирован
<a href="/http://www.popbusiness.ru" rel="nofollow">Популяризация интернет-бизнеса</a></noindex>

Следует понимать, что закрытие от индексации страниц сайта или части контента на страницах сайта не означает, что пользователь не сможет увидеть скрытый от индексации контент. Для посетителя сайта эти запреты не означают ничего. Посетитель сайта даже не поймет, что страница, на которую он попал, используя навигацию на сайте, закрыта для индексации.

Я настоятельно рекомендую пользоваться рекомендациями Google и Yandex по созданию сайта robots.txt.

Комментарии   

 
Администратор
0 #2 Администратор 09.03.2015 21:44
Wlad, Ваш вопрос меня смутил. Домен третьего уровня - это пододмен. Не важно, домен ли у Вас или поддомен, в любом случае это веб-ресурс, веб-узел, где находятся файлы и/или папки ресурса. И чтобы запретить вообще индексацию содержимого домена или поддомена, нужно просто разместить в корневой папке ресурса у хостера файл robots.txt с прописанными директивами с запретом к индексации всех поисковиков. Информация есть и на моем сайте и на сайтах поисковиков.
Цитировать
 
 
wlad
0 #1 wlad 09.03.2015 14:37
КАк запретить индексацию в роботсе домена третьего уровня ?
Цитировать
 

Добавить комментарий

Защитный код
Обновить

Поделитесь с друзьями!

Поиск по сайту