Как закрыть ссылки и страницы сайта от индексации поисковых систем?

Закрытие контента от индексации

С какой целью порой может использоваться закрытие веб-сайта или каких-то его разделов, страниц от индексации поисковыми системами? Вариантов с ответами имеются несколько:

  • Следует убрать от всеобщего обзора ту или иную информацию, в которой могут находиться секретные данные.
  • Если нужно сформировать подходящий релевантный контент: случаются варианты, если очень сильно возникает желание сообщить пользователям Интернете больший поток информации, однако которая делает туманной релевантность по тексту.
  • Закрыть от роботов дублирующий контекст.
  • Спрятать информацию, которая не представляет интереса для пользователей, и которую так не любят поисковые роботы, считая ее спамом в медиа-контенте.

Например, это могут быть портфолио, материалы сайта с устаревшим смыслом, какие-то расписания в справочниках.

Запрет на индексацию сайта или каких-то частей с помощью файла robots.txt

Для начала нужно создать текстовый файл с названием robots.txt.

Затем прописываем там следующий код:

1       User-agent: *

2       Disallow: /

После этого полученный файл robots.txt уже с помощью FTP заливаем в корень сайта.

Если необходимо запретить индексацию сайта только от роботов Яндекса нужно прописать:

1       User-agent: Yandex

2       Disallow: /

Если же нужно закрыть сайт только от роботов Google, то код примет следующий вид:

1       User-agent: Googlebot

2       Disallow: /

Закрытие сайта от индексации через файл .htaccess

Способ первый – прописать отдельную строку для каждой поисковой системы

Для этого в файле .htaccess делаем следующие записи в коде:

1       SetEnvIfNoCase User-Agent “^Yandex” search_bot

2       SetEnvIfNoCase User-Agent “^Googlebot” search_bot

3       SetEnvIfNoCase User-Agent “^Mail” search_bot

4       SetEnvIfNoCase User-Agent “^Aport” search_bot

5       SetEnvIfNoCase User-Agent “^Yahoo” search_bot

6       SetEnvIfNoCase User-Agent “^msnbot” search_bot

7       SetEnvIfNoCase User-Agent “^Robot” search_bot

8       SetEnvIfNoCase User-Agent “^Snapbot” search_bot

9       SetEnvIfNoCase User-Agent “^WordPress” search_bot

10     SetEnvIfNoCase User-Agent “^Parser” search_bot

11     SetEnvIfNoCase User-Agent “^BlogPulseLive” search_bot

12     SetEnvIfNoCase User-Agent “^spider” search_bot

13     SetEnvIfNoCase User-Agent “^bot” search_bot

14     SetEnvIfNoCase User-Agent “^igdeSpyder” search_bot

15     SetEnvIfNoCase User-Agent “^php” search_bot

Способ второй

Для страницы, которую необходимо закрыть, можно в файле .htaccess прописать любой из следующих ответов сервера:

1       403 «Доступ к ресурсу запрещен», т.е. код 403 Forbidden

2       410 «Ресурс недоступен», т.е. окончательно удален

Способ третий

Можно закрыть индексацию к сайту с помощью доступа только по паролю:

В этом случае, в файле .htaccess, вставляем следующий код:

1       AuthType Basic

2       AuthName “Password Protected Area”

3       AuthUserFile /home/user/www-pass/.htpasswd

4       Require valid-user

Значит в корне сайта создаем – home/user/www-pass/.htpasswd

где .htpasswd – файл с паролем, который создаем сами в файле.

Но затем следует добавить пользователя в файл паролей htpasswd –  /home/user/www-pass/.htpasswd USERNAME

где USERNAME – это имя пользователя для авторизации.

Здесь можно прописать свой вариант.

Как закрыть отдельный блог от индексации?

Зачастую бывает, что необходимо закрыть от поисковой индексации не весь сайт целиком, а только конкретный источник: список, счетчик, запись, страницу либо какой-нибудь код.

В одно время, достаточно было использовать тег “noindex”, но это больше подходило для роботов Яндекса, а для Google были достаточны обычные действия. 

<noindex>Здесь может быть любой текст, ссылки или код</noindex>

Но затем роботы Яндекс стали меньше обращать внимания на такую техническую «уловку», а роботы Google вообще перестали понимать данную комбинацию. В результате, технические специалисты сайтов, стали применять иной вариант с целью закрытия индексации части текста на какой-либо странице, используя скрипты javascript, либо соответствующие плагины или модули.

Часть текста шифруется с помощью javascript. Но следует помнить, что затем непосредственно сам скрипт нужно будет закрыть от индексации в robots.txt.

Универсальный способ закрытия изображений (медиафайлов) от индексации

Многие сайты используют картинки, которые в основном берутся из Интернета, я значит никак не могу считаться уникальными. В результате таких действий, появляется боязнь, то, что роботы поисковиков отнесутся к таким сайтам негативно, а именно будут блокировать продвижение и повышение в рейтингах.

В этом случае следует на странице сделать следующую запись в коде:

<span class=”hidden-link” data-link=”http://goo.gl”><img src=”…”></span>

Скрипт, который будет обрабатывать элемент:

<script>$(‘.hidden-link’).replaceWith(function(){return'<a href=”‘+$(this).data(‘link’)+'”>’+$(this).html()+'</a>’;})</script>

Как закрыть от индексации внешние либо внутренние ссылки?

Такие действия нужно только в том случае, если нужно закрыть от индексации входящие ссылки от сайтов находящиеся под санкциями поисковых систем, а так же скрыть исходящие ссылки на сторонние ресурсы, чтобы предотвратить уменьшение веса сайта, а именно ТИЦ сайта донора.

Для этого нужно создать файл transfers.js

После этого нижеуказанную часть кода вставляем в файл transfers.js:

function goPage(sPage) {

window.location.href = sPage;

}

После этого данный файл уже размещаем в соответствующей папке сайта и на странице в head добавляем код:

<script type=”text/javascript” src=”/js/transfers.js”></script>

И теперь прописываем необходимую ссылку, которую нужно скрыть от индексации поисковых систем:

<a href=”javascript:goPage(‘http://указываем URL/’)”></a>

Как закрыть от индексации роботов отдельную страницу на сайте?

Первый метод – через файл robots.txt

</pre>

Disallow: /URL-страницы сайта

<pre>

Второй метод – закрытие с помощью метатегов

<meta name=”robots” content=”noindex, nofollow” />

Третий метод – в Вебмастере Яндекса, в разделе “Инструменты” с помощью “Удалить URL” можно отдельно по каждой ссылке сделать запрет на индексацию от роботов Яндекса.

Четвертый метод – сделать запрет на индексацию через ответ сервера:

404 – ошибка страницы

410 – страница удалена

И сделать добавление в файле .htaccess:

ErrorDocument 404 http://URL-сайта/404

Однако, данным метод используется весьма редко.

Как закрыть от индексации сразу весь раздел или категорию на сайте?

Лучший способ – реализовать это с помощью файла robots.txt, где внутри прописать:

User-agent: *

Disallow: /название раздела или категории

Дополнительные варианты:

Кроме указанных выше способов, также могут подойти способы, которые применяются для сокрытия страницы сайта целиком, либо какого-то раздела, – правда, если подобные действия могут быть сделаны автоматически:

  • соответствующий ответ сервера для определенных страниц раздела сайта
  • применение мета-тегов к определенным страницам

Все эти без исключения методы, возможно, осуществить программно, а никак не в «ручном» режиме назначать к любой страничке или части текста запрет на индексацию – весьма дороги трудовые затраты.

Конечно, ведь легче в целом сделать соответствующее запрещение в файле robots.txt, однако практика показывает, то что это не может гарантировать на 100% запрет на индексацию.

Как закрыть от индексации целиком папку?

В этом случае на закрытие пойдет непосредственно папка, а не раздел. Ведь нам нужно закрыть папку с файлами, которые не должны видеть поисковые роботы, а это могут быть какие-то разработки, документы, картинки и многое другое.

User-agent: *

Disallow: /folder/

Пять способов закрытия на сайте дублей от поисковой индексации

Первый способ – и наиболее верный, для того, чтобы их действительно не существовало – необходимо на физическом уровне освободиться от них, т.е. в любом варианте при открытии страницы, кроме оригинальной, должна демонстрироваться страница 404 – ответ сервера.

Второй способ – применять атрибут rel=”canonical”, который как раз и является наиболее правильным решением. Таким образом, равно как атрибут не позволяет роботам индексировать дублирующиеся страницы, так перенаправляет вес с дублей на оригиналы.

Только на странице дубля в коде следует прописать:

<link rel=”canonical” href=”http://URL оригинальной страницы сайта”/>

Posted in ПОЛЕЗНОЕ, SEO оптимизация and tagged , , , , , .

Добавить комментарий

Войти с помощью: 

Этот сайт использует Akismet для борьбы со спамом. Узнайте как обрабатываются ваши данные комментариев.