Программирование на Python и Objective-C в Mac OS

Программирование на Python и Objective-C под Mac OS и для iPhone / iPod Touch

Robots запретить индексацию: Запрет индексации в robots.txt – Помощь

Содержание

Запрет индексации в robots.txt – Помощь

Чтобы убрать весь сайт или отдельные его разделы и страницы из поисковой выдачи Google, Яндекс и других поисковых систем, их нужно закрыть от индексации. Тогда контент не будет отображаться в результатах поиска. Рассмотрим, с помощью каких команд можно выполнить в файле robots.txt запрет индексации.

Зачем нужен запрет индексации сайта через robots.txt

Первое время после публикации сайта о нем знает только ограниченное число пользователей. Например, разработчики или клиенты, которым компания прислала ссылку на свой веб-ресурс. Чтобы сайт посещало больше людей, он должен попасть в базы поисковых систем.

Чтобы добавить новые сайты в базы, поисковые системы сканируют интернет с помощью специальных программ (поисковых роботов), которые анализируют содержимое веб-страниц. Этот процесс называется индексацией.

После того как впервые пройдет индексация, страницы сайта начнут отображаться в поисковой выдаче. Пользователи увидят их в процессе поиска информации в Яндекс и Google — самых популярных поисковых системах в рунете. Например, по запросу «заказать хостинг» в Google пользователи увидят ресурсы, которые содержат соответствующую информацию:

Однако не все страницы сайта должны попадать в поисковую выдачу. Есть контент, который интересен пользователям: статьи, страницы услуг, товары. А есть служебная информация: временные файлы, документация к ПО и т. п. Если полезная информация в выдаче соседствует с технической информацией или неактуальным контентом — это затрудняет поиск нужных страниц и негативно сказывается на позиции сайта. Чтобы «лишние» страницы не отображались в поисковых системах, их нужно закрывать от индексации.

Кроме отдельных страниц и разделов, веб-разработчикам иногда требуется убрать весь ресурс из поисковой выдачи. Например, если на нем идут технические работы или вносятся глобальные правки по дизайну и структуре. Если не скрыть на время все страницы из поисковых систем, они могут проиндексироваться с ошибками, что отрицательно повлияет на позиции сайта в выдаче.

Для того чтобы частично или полностью убрать контент из поиска, достаточно сообщить поисковым роботам, что страницы не нужно индексировать. Для этого необходимо отключить индексацию в служебном файле robots.txt. Файл robots.txt — это текстовый документ, который создан для «общения» с поисковыми роботами. В нем прописываются инструкции о том, какие страницы сайта нельзя посещать и анализировать, а какие — можно.

Прежде чем начать индексацию, роботы обращаются к robots.txt на сайте. Если он есть — следуют указаниям из него, а если файл отсутствует — индексируют все страницы без исключений. Рассмотрим, каким образом можно сообщить поисковым роботам о запрете посещения и индексации страниц сайта. За это отвечает директива (команда) Disallow.

Как запретить индексацию сайта

О том, где найти файл robots.txt, как его создать и редактировать, мы подробно рассказали в статье. Если кратко — файл можно найти в корневой папке. А если он отсутствует, сохранить на компьютере пустой текстовый файл под названием robots.txt и загрузить его на хостинг. Или воспользоваться плагином Yoast SEO, если сайт создан на движке WordPress.

Чтобы запретить индексацию всего сайта:

  1. 1.

    Откройте файл robots.txt.

  2. 2.

    Добавьте в начало нужные строки.

    • Чтобы закрыть сайт во всех поисковых системах (действует для всех поисковых роботов):
    User-agent: *
    Disallow: /
    • Чтобы запретить индексацию в конкретной поисковой системе (например, в Яндекс):
    User-agent: Yandex
    Disallow: /
    • Чтобы закрыть от индексации для всех поисковиков, кроме одного (например, Google)
    User-agent: *
    Disallow: /
    User agent: Googlebot
    Allow: /
  3. 3.

    Сохраните изменения в robots.txt.

Готово. Ресурс пропадет из поисковой выдачи выбранных ПС.

Запрет индексации папки

Гораздо чаще, чем закрывать от индексации весь веб-ресурс, веб-разработчикам требуется скрывать отдельные папки и разделы.

Чтобы запретить поисковым роботам просматривать конкретный раздел:

  1. 1.

    Откройте robots.txt.

  2. 2.

    Укажите поисковых роботов, на которых будет распространяться правило. Например:

    • Все поисковые системы:

    — Запрет только для Яндекса:

  3. 3.

    Задайте правило Disallow с названием папки/раздела, который хотите запретить:

    Где вместо catalog — укажите нужную папку.

  4. 4.

    Сохраните изменения.

Готово. Вы закрыли от индексации нужный каталог. Если требуется запретить несколько папок, последовательно пропишите для каждой директиву Disallow.

Как закрыть служебную папку wp-admin в плагине Yoast SEO

Как закрыть страницу от индексации в robots.txt

Если нужно закрыть от индексации конкретную страницу (например, с устаревшими акциями или неактуальными контактами компании):

  1. 1.

    Откройте файл robots.txt на хостинге или используйте плагин Yoast SEO, если сайт на WordPress.

  2. 2.

    Укажите, для каких поисковых роботов действует правило.

  3. 3.

    Задайте директиву Disallow и относительную ссылку (то есть адрес страницы без домена и префиксов) той страницы, которую нужно скрыть. Например:

    User-agent: * 
    
    Disallow: /catalog/page.html

    Где вместо catalog — введите название папки, в которой содержится файл, а вместо page.html — относительный адрес страницы.

  4. 4.

    Сохраните изменения.

Готово. Теперь указанный файл не будет индексироваться и отображаться в результатах поиска.

Была ли эта статья полезной?

Да
Нет

Пользователи, считающие этот материал полезным: 2 из 2

Запрет индексации страниц/директорий через robots.txt

Все поисковые роботы при заходе на сайт в первую очередь ищут файл robots.txt. Это текстовый файл, находящийся в корневой директории сайта (там же где и главный файл index., для основного домена/сайта, это папка public_html), в нем записываются специальные инструкции для поисковых роботов.

Эти инструкции могут запрещать к индексации папки или страницы сайта, указать роботу на главное зеркало сайта, рекомендовать поисковому роботу соблюдать определенный временной интервал индексации сайта и многое другое

Если файла robotx.txt нет в каталоге вашего сайта, тогда вы можете его создать.
Чтобы запретить индексирование сайта через файл robots.txt, используются 2 директивы: User-agent и Disallow.

  • User-agent: УКАЗАТЬ_ПОИСКОВОГО_БОТА
  • Disallow: / # будет запрещено индексирование всего сайта
  • Disallow: /page/ # будет запрещено индексирование директории /page/

Примеры:

Запретить индексацию вашего сайта ботом MSNbot

User-agent: MSNBot  
Disallow: /  

Запретить индексацию вашего сайта ботом Yahoo

User-agent: Slurp  
Disallow: /  

Запретить индексацию вашего сайта ботом Yandex

User-agent: Yandex  
Disallow: /  

Запретить индексацию вашего сайта ботом Google

User-agent: Googlebot  
Disallow: /  

Запретить индексацию вашего сайта для всех поисковиков

User-agent: *  
Disallow: /  

Запрет индексации папок cgi-bin и images для всех поисковиков

User-agent: *  
Disallow: /cgi-bin/  
Disallow: /images/  

Теперь как разрешить индексировать все страницы сайта всем поисковикам (примечание: эквивалентом данной инструкции будет пустой файл robots.txt):

User-agent: *  
Disallow:  

Пример:

Разрешить индексировать сайт только ботам Yandex, Google, Rambler с задержкой 4сек между опросами страниц.

User-agent: *  
Disallow: /  

User-agent: Yandex  
Crawl-delay: 4  
Disallow:  

User-agent: Googlebot  
Crawl-delay: 4  
Disallow:  

User-agent: StackRambler  
Crawl-delay: 4  
Disallow:  

Зачем нужен файл robots.txt? — Вопросы и ответы — Джино

robots.txt — специальный файл, который содержит инструкции для поисковых роботов. Он должен размещаться в корневой папке сайта и быть доступен по адресу ваш_домен.ru/robots.txt.
С помощью robots.txt возможно запретить или разрешить индексацию всего сайта или отдельных его страниц и даже снизить нагрузку на сайт, создаваемую поисковыми системами при индексации.
Содержимое файла robots.txt представляет из себя набор различных директив:

  • Директива User-agent задает название робота, для которого прописываются директивы ниже. Например: User-agent: Yandex. Директива User-agent: * определяет параметры для всех роботов. В одном файле robots.txt может быть несколько блоков, начинающихся с директивы User-agent.

  • Директивы Disallow и Allow запрещают или разрешают индексацию определенных страниц или групп страниц вашего сайта. Например: Disallow: / — запрещает индексацию всего сайта, Allow: /cgi-bin/ — разрешает индексацию файлов в этой папке. Указание в файле директивы без указания параметров для нее поменяет значение. Например: Disallow: — запрета на индексацию сайта нет.
    Типичный robots.txt, разрешающий индексацию всего сайта, выглядит так:

User-agent:

Disallow:

По факту Disallow: — самая распространенная директива, равнозначная Allow: /. Однако директиву Allow могут не поддерживать некоторые старые роботы, поэтому предпочтительнее использовать первый вариант.

  • Директива Sitemap определяет путь до карты вашего сайта (в специальном XML-формате) с целью упростить индексацию. Пример: Sitemap: /sitemap.xml.

  • Директива Host определяет адрес «главного зеркала» сайта. Именно этот адрес будет использован поисковой системой, если ваш сайт доступен по нескольким адресам. Пример: Host: www.jino.ru.

  • Директива Crawl-delay задает интервал между запросами к вашему сайту со стороны поисковых систем во время индексации, в секундах. Это очень полезно, если поисковые роботы создают серьезную нагрузку. Например: Crawl-delay: 5. Однако интервал индексации для поисковой системы Google настраивается через Google Search Console.

  • Директива Clean-param задает параметры, на которые роботу не нужно обращать внимания при индексации сайта. Например, если задать Clean-param: foo, то поисковые роботы будут считать адреса ваш_домен.ru, ваш_домен.ru/?foo=1 и ваш_домен.ru/?foo=2 равнозначными.

Более подробно об использовании robots.txt можно почитать, например, в инструкции на сайте Яндекса.

ROBOTS.TXT. Правильный роботс | Блог Хостинг Украина


Основной синтаксис


User-Agent: робот для которого будут применяться следующие правила (например, «Googlebot»)


Disallow: страницы, к которым вы хотите закрыть доступ (можно указать большой список таких директив с каждой новой строки)


Каждая группа User-Agent / Disallow должны быть разделены пустой строкой. Но, не пустые строки не должны существовать в рамках группы (между User-Agent и последней директивой Disallow).


Символ хэш (#) может быть использован для комментариев в файле robots.txt: для текущей строки всё что после # будет игнорироваться. Данные комментарий может быть использован как для всей строки, так в конце строки после директив.


Каталоги и имена файлов чувствительны к регистру: «catalog», «Catalog» и «CATALOG» – это всё разные директории для поисковых систем.


Host: применяется для указание Яндексу основного зеркала сайта. Поэтому, если вы хотите склеить 2 сайта и делаете постраничный 301 редирект, то для файла robots.txt (на дублирующем сайте) НЕ надо делать редирект, чтобы Яндекс мог видеть данную директиву именно на сайте, который необходимо склеить.


Crawl-delay: можно ограничить скорость обхода вашего сайта, так как если у вашего сайта очень большая посещаемость, то, нагрузка на сервер от различных поисковых роботов может приводить к дополнительным проблемам.


Регулярные выражения: для более гибкой настройки своих директив вы можете использовать 2 символа


* (звездочка) – означает любую последовательность символов


$ (знак доллара) – означает конец строки


Основные примеры использования robots.txt


Запрет на индексацию всего сайта


User-agent: *


Disallow: /


Эту инструкцию важно использовать, когда вы разрабатываете новый сайт и выкладываете доступ к нему, например, через поддомен.


Очень часто разработчики забывают таким образом закрыть от индексации сайт и получаем сразу полную копию сайта в индексе поисковых систем. Если это всё-таки произошло, то надо сделать постраничный 301 редирект на ваш основной домен.


А такая конструкция ПОЗВОЛЯЕТ индексировать весь сайт:


User-agent: *


Disallow:


Запрет на индексацию определенной папки


User-agent: Googlebot


Disallow: /no-index/


Запрет на посещение страницы для определенного робота


User-agent: Googlebot


Disallow: /no-index/this-page.html


Запрет на индексацию файлов определенного типа


User-agent: *


Disallow: /*.pdf$


Разрешить определенному поисковому роботу посещать определенную страницу


User-agent: *


Disallow: /no-bots/block-all-bots-except-rogerbot-page.html


User-agent: Yandex


Allow: /no-bots/block-all-bots-except-Yandex-page.html


Ссылка на Sitemap


User-agent: *


Disallow:


Sitemap: http://www.example.com/none-standard-location/sitemap.xml


Нюансы с использованием данной директивы: если у вас на сайте постоянно добавляется уникальный контент, то


  • лучше НЕ добавлять в robots.txt ссылку на вашу карту сайта,


  • саму карту сайта сделать с НЕСТАНДАРТНЫМ названием sitemap.xml (например, my-new-sitemap.xml и после этого добавить эту ссылку через «вебмастерсы» поисковых систем),


так как, очень много недобросовестных вебмастеров парсят с чужих сайтов контент и используют для своих проектов.


Шаблон для WordPress 


Allow: /wp-content/themes/*.js 


Allow: /wp-content/themes/*.css 


Allow: /wp-includes/js/*.css Allow: /wp-includes/js/*.js 


Allow: /wp-content/plugins/*.js 


Allow: /wp-content/plugins/*.css 


Шаблон для Joomla 


Allow: /templates/*.css 


Allow: /templates/*.js 


Allow: /templates/*.png 


Allow: /templates/*.gif 


Allow: /templates/*.ttf 


Allow: /templates/*.svg 


Allow: /templates/*.woff 


Allow: /components/*.css 


Allow: /components/*.js 


Allow: /media/*.js Allow: /media/*.css 


Allow: /plugins/*.css Allow: /plugins/*.js 


Шаблон для Bitrix 


Allow: /bitrix/templates/*.js 


Allow: /bitrix/templates/*.png 


Allow: /bitrix/templates/*.jpg 


Allow: /bitrix/templates/*.gif 


Allow: /bitrix/cache/css/*.css 


Allow: /bitrix/cache/js/s1/*.js 


Allow: /upload/iblock/*.jpg 


Allow: /upload/iblock/*.png 


Allow: /upload/iblock/*.gif 


Шаблон для DLE 


Allow: /engine/classes/*.css 


Allow: /engine/classes/*.js 


Allow: /templates/ 


Разобравшись с простым синтаксисом команд для робота, также важно учесть и такие значения мета-тега robots 


Данному мета-тегу можно присвоить четыре варианта значений. 


Атрибут content может содержать следующие значения:


index, noindex, follow, nofollow


Если значений несколько, они разделяются запятыми.


В настоящее время лишь следующие значения важны:


Директива INDEX говорит роботу, что данную страницу можно индексировать.


Директива FOLLOW сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. 


Итак, глобальные директивы выглядят так:


Индексировать всё = INDEX, FOLLOW


Не индексировать ничего = NOINDEX,NOFLLOW


Примеры мета-тега robots:



Заказывайте хостинг и выбирайте домен в компании «Хостинг Украина». 


У нас качественный и надежный сервис, удобное система управления через админ-панель, интеллектуальные системы защиты и техническая поддержка, которая поможет решить все возникающие вопросы в любое время суток.


Наши цены: SSD хостинг от 1$, VPS на SSD от 12$, Cloud (облачный) хостинг от 3$, облачный VPS от 6$.


Присоединяйтесь к «Хостинг Украина» и мы позаботимся о технической стороне вашего бизнеса.

Запрет индексации через robots.txt — Seonity


Запрет индексации через robots.txt – это один из важных инструментов SEO-продвижения. Он нужен для запрета индексирования роботами поисковых систем технических страниц, конфиденциальных данных и любых страниц и файлов которым не место в индексе. Поисковые системы судят о сайте на основе тех данных, которые попали в базу. Если туда попали «рыбные» тексты, страницы с недоделанным функционалом или ошибками, то весь сайт может получить понижение позиций как плохой, ненадежный. Переиндексация может занять длительное время, так что лучше не допускать попадания в базу ненужных страниц вообще.

Общая информация о файле robots.txt


Файл robots.txt – это документ, который содержит подробные указания для поисковых роботов об индексации сайта. К нему предъявляются следующие требования:


  1. robots.txt должен находиться в корне сайта. Отсутствие файла и контроля за индексацией приводят к индексированию закрытых данных и дублей страниц.


  2. В нем должны быть указаны запреты на индексацию служебных страниц и страниц, содержащих личные и коммерческие данные, ссылка на файл sitemap.xml, основное зеркало сайта.


  3. Кириллица не используется. Все кириллические записи должны быть преобразованы в Punycode.


  4. Параметр User-Agent используется в тех случаях, когда нужно запретить или разрешить индексацию только для определенного робота или поисковой системы (например, закрыть все, кроме картинок).


  5. Закрывает от индексации в robots.txt команда Disallow, открывает команда Allow. Команда Allow имеет более высокий приоритет, чем Disallow.

Как через robots.txt закрыть весь сайт от индексации


Запрет индексации всего сайта через robots.txt обычно применяется во время разработки или редизайна сайта.


Чтобы закрыть сайт от индексации всеми поисковыми системами, необходимо сделать запись:


User-agent: *

Disallow: /


Чтобы в robots.txt закрыть сайт от индексации поисковой системой, к примеру, Яндекс, то запись будет иметь следующий вид:


User-agent: Yandex

Disallow: /

Как закрыть отдельные страницы, директории и файлы


В robots.txt можно закрыть от индексации или открыть для поисковой системы отдельные файлы и директории (к примеру, если вы добавляете товары в определенный раздел каталога и не хотите пока, чтобы туда заходили люди). Также эта команда нужна для того чтобы убрать из индекса разнообразные служебные страницы, страницы с конфиденциальной информацией, дубликаты страниц, логи, статистику и др.


В этом случае команда будет выглядеть следующим образом:


User-agent: *


Disallow: /folder/ #закрываем папку


Аllow: /folder/file.php #открываем отдельный файл в закрытой папке


Disallow: *.jpg #закрываем картинки с расширением .jpg

Как закрыть страницу от индексации через мета-тег?


Файл robots.txt содержит в себе рекомендации для поисковых систем, поэтому поисковик может их не выполнять. Наибольшим приоритетом считается использование мета-тега robots. Запись выглядит следующим образом:


<head>


<meta name=»robots» content=»noindex»/>


# Или:


<meta name=»robots» content=»none»/>


</head>


Вместо «robots» можно использовать имя конкретного поискового робота (альтернатива User-Agent):


<meta name=»googlebot» content=»noindex»/>


<meta name=»yandex» content=»none»/>

Поддержание гигиены сайта и своевременное закрытие
ненужных страниц – это очень важно, поэтому не стоит полностью игнорировать ни
мета-теги, ни robots.txt!

Ошибки в robots и robots allow – Блог ITC MEDIA


Неправильное заполнение файла robots.txt приведёт к тому, что поисковая машина просто проигнорирует часть его содержимого или содержимое полностью. Чтобы не допустить ошибки в robots, изучите эту статью.

Порядок инструкций


Если команды написаны в неправильном порядке, робот поисковой системы проигнорирует их или выполнит неправильно. Также часто путают значения команд:


User-agent: /


Disallow: Google


Верным вариантом станет:


User-agent: Google


Disallow: /

Несколько папок в robots.txt


В заполнении robots.txt действует золотое правило: одна папка — одна инструкция. Следующая строка кода будет ошибочной:


Disallow: /folder1/ /folder2/ /folder2/


Робот может полностью проигнорировать такую строку или выполнить её частично, в некоторых случаях даже воспринять написанное правильно. В любом случае, предсказать действия каждого робота не представляется возможным, поэтому следует писать правильно:


Disallow: /folder1/


Disallow: /folder2/


Disallow: /folder3/

Название файла


Файл robots имеет в своём названии только строчные буквы, при использовании хотя бы одной заглавной он будет проигнорирован роботам. Неправильно — roboTs.txt, ROBots.txt. Правильно — robots.txt. Наименование robot.txt также будет неверным, так как пропущена согласная s.

Указание User-agent


Такие строки будут неверными:


User-agent:


Disallow:


Если вы желаете разрешить индексацию всем роботам, надо поставить звёздочку:


User-agent: *


Disallow:

Написание адресов в коде


Не применяйте лишних слешей и опускайте написание http://, код написан неверно:


User-agent: Yandex


Disallow: /cgi-bin


Host: http://www.site.ru/


Верно будет:


User-agent: Yandex


Disallow: /cgi-bin


Host: www.site.ru


Следует отметить, что инструкцию Host умеет понимать Яндекс.

Запрет на символы подстановки


Когда требуется запретить индексацию нескольких однотипных файлов (primer1, primer2, primer3 и т. д.) возникает желание написать такой код:


User-agent: *


Disallow: file*.html


К несчастью, роботы не поймут, что им хотели сказать таким образом. Придётся писать инструкцию для каждого файла или поместить все файлы в одну папку, чтобы запретить её индексацию.

Плохой код


Некоторые варианты кода вполне допустимы, но являются признаком плохого стиля. Например, к таковым относится комментарий строки:


Disallow: /folder/ #запрет директории folder


По стандартам написание возможно, но иногда такие инструкции не воспринимаются роботами. В последнее время проблема решается, но лучше отказаться от подобных комментариев.


Иногда файл отсутствует, и когда робот обращается к индексации robots.txt, он может перенестись на страницу 404 ошибки. По стандартам отсутствие файла возможно, но для уверенности в правильной работе роботов, рекомендуется перестраховаться и оставить в корневом каталоге ресурса пустой файл.

Использование заглавных букв


Это не запрещается, но иногда к регистру чувствительны сами папки. Робот может запретить не ту папку или полностью проигнорировать инструкцию. Пример не совсем правильного кода:


User-agent: Yandex


Disallow: /PRImer1/

Запрет индексации папок


Иногда вместо запрета индексации всей директории, пишут запрет на индексацию каждого файла:


User-agent: *


Disallow: /fold/primer1.html


Disallow: /fold/primer2.html


Disallow: /fold/primer3.html


Это нельзя назвать ошибкой, но гораздо проще запретить сразу директорию:


User-agent: *


Disallow: /fold/

Инструкция Allow


Настройка robots.txt предполагает запрет индексации, действует исключительно инструкция Disallow. В последнее время поисковики начинают внедрять инструкцию Allow, но всё же пока лучше отказаться от её применения или уточнить возможность использования в справочниках поисковых систем.

Использование дополнительных инструкций


У некоторых поисковых систем есть особые инструкции, для Яндекса такой инструкцией является Host. Лучше отказаться от её применения в общем блоке и написать для неё отдельным. Неверным будет:


User-agent: *


Disallow: /folder/


Host: www.example.com


Более рационально:


User-agent: *


Disallow: /folder/


User-agent: Yandex


Disallow: /folder/


Host: www.example.com

Отсутствие Disallow


Следующий код будет неверным:


User-agent: Yandex


Host: www.example.com


Если мы не желаем делать запрет индексации, то инструкцию всё же лучше использовать, просто не заполнять её:


User-agent: Yandex


Disallow:


Host: www.example.com

Использование слэшей в robots


Чтобы запретить индексацию папки, она обязательно выделяется слешами. Данная настройка robots.txt ошибочна:


User-agent: Google


Disallow: folder


Робот запретит файл с наименованием folder, для папки верно такое:


User-agent: Google


Disallow: /folder/

Работа с файлом robots.txt

Когда происходит создание сайта, то оптимизация его содержания происходит в двух направлениях :

  • Оптимизируют дизайн и тексты для посетителей веб-ресурса
  • Оптимизации подвергается программная часть сайта, которая важна для поисковых систем

Файл robots.txt имеет неоднозначную оценку в среде веб-программистов и специалистов по продвижению веб-сайтов. Этот файл существует во всех сайтах, его готовят специалисты для поисковых систем в ходе оптимизации веб-ресурса для раскрутки. Но все же не до конца понятно то, важен ли в наше время этот файл. Нужно заметить, что файл robots.txt представляет собой неисполняемый файл, который имеет содержание сугубо для поисковых систем. Причем те инструкции, которые указываются в файле robots.txt могут быть применены и без него, если установить в CMS сайта нужные функциональные плагины.

Например, через файл robots.txt имеется возможность запретить индексирование сайта, однако та же функция имеется и в специальных плагинов для seo, которые можно установить бесплатно через магазин плагинов для любой CMS, а также запретить индексировать сайт или отдельные страницы сайта можно и через панель управления служб Яндекс Вебмастер и Google Вебмастер. Также через эти службы, как и через файл robots.txt, можно запретить индексирование, например, версий страниц сайта для печати.

Когда начинается процесс индексирования контента сайта поисковыми системами, те в первую очередь ищут в корневом каталоге файл robots.txt, который должен с самого начала указать поисковым ботом то, какие страницы разрешено индексировать, а какие все же нет. Но, как указывают специалисты, поисковые боты индексируют все страницы сайтов, даже если их запрещает владелец сайта через файл robots.txt, только запрещенные к индексации страницы не попадут в поисковую выдачу. И вот опять можно задать вопрос- зачем тогда нужен файл robots.txt? Его функции заменяют панель управления сайтами через службы вебмастера от крупнейших поисковиков, и даже при запрещении индексирования некоторого контента через этот файл, все равно поисковики индексируют весь контент сайта.

Не стоит забывать, что файл robots.txt не исполняемый, то есть его можно только читать. Править этот файл можно разными способами. И через обычный бесплатный редактор Notepad, установленный на компьютер, либо через панель управления контентом CMS, где также есть возможность управлять записями этого файла. Конечно, не стоит забывать, что хоть файл robots.txt это всего лишь читаемый файл, содержание его обращено к поисковым ботам, а значит информация в этом файле должна быть написана на понятном языке для всех поисковых ботов в мире, и иметь ясную и четкую структуру.

Структура файла robots.txt

Начинается записать в файле robots.txt всегда с упоминания того поискового бота, к которому будет обращены команды. Обращаться к поисковому боту можно с помощью директивы User-agent. Стоит отметить и то, что если после директивы User-agent стоит звездочка *, то значит команда директивы обращена ко всем поисковым ботам. Также не стоит забывать и о том, что текст в файле robots.txt не чувствителен к регистру, то есть можно писать как с большой буквы. Так и большими буквами. Но лучше всего, раз уж этот традиционный файл используется на сайте, лучше соблюдать все традиции. После директивы user-agent используется название поискового бота, к которому и обращено послание. Если к поисковому боту от Google, то после директивы первой стоит добавить googlebot, если к поисковой системе Яндекс, то Yandex. Таким образом, первая запись всегда в файле robots.txt имеет первую строку :

User-agent: googlebot

После обращению к поисковому боту стоит указать те папки или файлы, которые запрещено индексировать. Используется для этого простая директива Disallow. После ее объявления, нужно указать запрещенные к индексированию папки или файлы, как указано в примере ниже:

Disallow: /feedback.php
Disallow: /cgi-bin/ 

В данном примере показано, что в файле robots.txt были запрещены к индексированию файл feedback.php и папка cgi-bin/ , которые находятся в корневом каталоге сайта. Для особо ленивых предусмотрена возможность блокировки по начальным символам, поэтому стоит всегда быть аккуратней с директивой Disallow, а также с упоминанием в ней различных файлов и папок. Если указать в файле robots.txt :

Disallow : prices

То поисковой бот не будет индексировать и имеющиеся файлы http://site.ru/prices.php и даже папку http://site.ru/prices/

Также не стоит забывать, что после директивы Disallow ничего не находится, то полностью все содержание сайта будет проиндексировано. Если же после директивы Disallow стоит символ /, то абсолютно полностью все содержимое сайта запрещено индексировать.

Если вдруг возникла свободная минутка и есть желание пообщаться с поисковыми ботами, но нет желание ничего запрещать для индексирования, то можно создать файл robots.txt с командой :

User-agent: *
Disallow:

Поисковой бот любой поймет, что владелец сайта имеет много свободного времени, раз тратить свое время на создание файла robots.txt, в котором разрешает всем ботам индексировать все содержание сайта. Если не будет такой записи или даже вообще будет отсутствовать файл robots.txt, то любой поисковик так и сделает.

Директива Allow и ее магические свойства

Не все волшебство файла robots.txt заключено в запрете индексирования файлов сайта, также можно разрешать индексировать. Все точно также, как и с директивой Disallow, только используется директива Allow, которая разрешает индексацию всего, что указано. Вот пример :

User-agent: Yandex
Allow: /prices
Disallow: /

Все ясно и понятно – Поисковому боту от Яндекса запрещается индексировать на сайте все, кроме папки prices. Стоит отметить, что директиву Allow используют всегда перед директивой Disallow. Если после Allow в файле robots.txt будет пусто , то это означает, что поисковому боту Яндекса запрещена индексация всех файлов :

User-agent: Yandex
Allow:

Иными словами, в файле robots.txt директивы Disallow / и Allow равнозначны, запрещающие индексацию.

Все поисковые системы, по крайней мере речь если идет о крупнейших, понимают содержание записей файла robots.txt одинаково. Если есть опасения запутаться в директивах данного файла, то лучше всего использовать службы Яндекс Вебмастер и Google Вебмастер, через которые можно начать индексацию страниц сайта, а также без труда управлять индексацией страниц, разрешая или запрещая те или иные страницы для поисковых ботов. Эти службы помогают также загрузить карту сайта.

Специальные регулярные выражения для robots.txt

С помощью всемогущего файла robots.txt можно запретить индексировать не только отдельные страницы сайта или какие-то папки с файлами, но и отдельно файлы. Это очень удобно бывает в том случае, если сайт достаточно крупный, и в нем находится большое количество файлов различного содержания. Тут нужно отдельно указать, что регулярные выражение $ означает окончание ссылки, указанной в файле, а звездочка * на любой адрес ссылки или название файла в указанном формате. Вот пример :

User-agent: Yandex
Allow: /prices/*.html$
Disallow: /

Ценителям магии файла robots.txt все понятно с этой записью, точно также, как и поисковому боту от Яндекса. Поисковик должен индексировать все файлы в папке prices в html формате, но запрещена индексация любых других файлов на сайте. Или еще один пример с регулярными выражениями для robots.txt :

User-agent: Yandex
Disallow: *.pdf$

Запись говорит, что Яндекс-боту запрещена индексация всех файлов в формате pdf.

Путь к карте сайта

Файл robots.txt многофункциональный читаемый файл, которые также указывает и направление поисков поисковыми ботами карты сайта. Стоит отметить, что карта сайта, если веб-ресурс действительно обширен, очень важна для того, чтобы поисковые системы могли проиндексировать все нужные страницы и файлы сайта. Послать поисковой бот можно с помощью директивы Sitemap :

User-agent: googlebot
Disallow:
Sitemap: http://site.ru/sitemap.xml

Загрузить карту сайта можно и с помощью служб Яндекс Вебмастер и Google Вебмастер, не работая с директивами robots.txt.

Работа с зеркалами сайта в файле robots.txt

Не так давно поисковой гигант Google решил начать борьбу за повышенную защищенность посетителей сайтов в интернете, и решил оценивать сайты с шифрованном трафиком с https протоколом выше сайтов, которые были всегда с стандартным http протоколом. И многие владельцы сайтов, даже если они не работали с платежными системами, должны были перейти на https протокол для того, чтобы поднять свой рейтинг в поисковой выдачи. Но как это сделать?

Начать нужно с того, что для поисковых систем сайты http://site.ru/ и https://site.ru/ являются различными, хотя имеют одинаковое название, и являются по сути зеркалами друг друга, но поисковые системы будут их по-разному индексировать и оценивать. Чтобы указать поисковым ботам, что нужно индексировать только одно главное зеркало сайта, требуется использовать директиву Hosts в файле robots.txt. Выглядеть это будет так :

User-agent: googlebot
Disallow: /prices.php
Host: https://site.ru/

Склейка зеркалов сайта произведена с помощью файла robots.txt, и поисковик будет индексировать и продвигать только веб-ресурс https://site.ru/ , не видя зеркала сайта http://site.ru/ без шифрованного протокола.

Также можно совершить редирект с http на https через файл .htaccess, который находится в корневом каталоге сайта.(.*)$ http://www.site.ru/$1 [R=301,L]

Использование комментариев в robots.txt

Зачем комментировать что-то для поисковых ботов в файле robots.txt? Сложно сказать, но если кому-то захочется это делать, стоит использовать символ #. Вот пример :

User-agent: googlebot
Disallow: /prices/ # тут нет ничего интересного

Краткое описание работы с файлом robots.txt

1.Как разрешить всем поисковым ботам индексацию всех файлов на сайте?

User-agent: *
Disallow:

2.Как запретить всем поисковым ботам индексацию всех файлов на сайте?

User-agent: *
Disallow: /

3.Как запретить поисковому боту от Google индексировать файл prices.html?

User-agent: googlebot
Disallow: prices.html

4.Как разрешить всем поисковым ботам индексировать весь сайта, а боту от Google запрещаем индексацию папки prices?

User-agent: googlebot
Disallow: /prices/
User-agent: *
Disallow:

Какие ошибки могут возникнуть при работе с файлом robots.txt?

Нужно сказать, что поисковые боты не чувствительны к регистру букв при написании директив, но с названием файлов и папок нужно быть осторожнее. Также проблем между директивами не стоит делать просто так для красоты, ведь для файла robots.txt проблем означает разделение команд для разных поисковых ботов.

Для каждого поискового бота нужно создавать свою директиву user-agent, а не пытаться в одну вписать несколько ботов. Очень часто забывают использовать символ / перед названием папок, что приведет к недопониманию поисковым ботом директивы. Также админка сайта исключается всегда поисковыми ботами из индексации и ее не следует указывать в файле. Есть мнение специалистов, что большой размер файла robots.txt с огромным списком страниц сайта и файлов, исключаемых из индексации, просто игнорируются поисковыми системами.

Поэтому надежней всего удалять ненужные файлы, а не указывать запрет на их индексацию.

Как проверить файл robots.txt на фатальные ошибки?

Если файл robots.txt отличается многословием, то есть в нем указаны команды для поисковых ботов для множества файлов и страниц сайта, то лучше провести проверку качества файла robots.txt с помощью ресурсов Яндекс Вебмастер и Google Вебмастер.

Индексирование поиска блоков

с помощью noindex

Вы можете запретить отображение страницы или другого ресурса в поиске Google, указав noindex
метатег или заголовок в HTTP
отклик. Когда робот Googlebot в следующий раз просканирует эту страницу и увидит тег или заголовок, он сбросит
эта страница полностью из результатов поиска Google, независимо от того, ссылаются ли на нее другие сайты.

Важно : Чтобы директива noindex вступила в силу, страница
или ресурс не должен блокироваться роботом .txt, иначе должно быть
доступный для краулера. Если страница заблокирована
robots.txt или сканер не может получить доступ к странице, он никогда не увидит
noindex , и страница по-прежнему может отображаться в результатах поиска, например
если на него ссылаются другие страницы.

Использование noindex полезно, если у вас нет root-доступа к вашему серверу, так как он
позволяет вам контролировать доступ к вашему сайту на постраничной основе.

Реализация

noindex

Есть два способа реализовать noindex : как метатег и как HTTP-ответ.
заголовок. У них такой же эффект; выберите способ, который удобнее для вашего сайта и
подходит для типа контента.

тег

Чтобы запретить большинству поисковых роботов индексировать страницу вашего сайта, поместите
следующий метатег в раздел вашей страницы:

 

Чтобы запретить только веб-сканерам Google индексировать страницу:

 

Имейте в виду, что некоторые веб-сканеры поисковых систем могут интерпретировать
noindex иначе.В результате возможно, что ваша страница
по-прежнему появляются в результатах других поисковых систем.

Узнайте больше о метатеге noindex .

Вместо метатега вы также можете вернуть заголовок X-Robots-Tag со значением
либо noindex , либо none в вашем ответе. Заголовок ответа может
использоваться для ресурсов, отличных от HTML, таких как файлы PDF, видеофайлы и файлы изображений. Вот пример
HTTP-ответ с X-Robots-Tag , инструктирующий сканеры не индексировать страницу:

HTTP / 1.1 200 ОК
(…)
  X-Robots-Тег: noindex 
(…) 

Узнайте больше о заголовке ответа noindex .

Помогите нам определить ваши метатеги

Нам необходимо просканировать вашу страницу, чтобы увидеть метатеги и заголовки HTTP. Если страница все еще
появляется в результатах, вероятно, потому, что мы не сканировали страницу с тех пор, как вы добавили
ярлык. Вы можете запросить у Google повторное сканирование страницы с помощью
Инструмент проверки URL.
Другая причина также может заключаться в том, что файл robots.txt блокирует URL-адрес из Интернета
сканеры, поэтому они не могут видеть тег. Чтобы разблокировать свою страницу от Google, вы должны отредактировать свой
файл robots.txt. Вы можете редактировать и тестировать свой robots.txt, используя
Тестер robots.txt
орудие труда.

Блокировать страницы или сообщения блога от индексации поисковыми системами

Есть несколько способов запретить поисковым системам индексировать определенные страницы вашего сайта. Рекомендуется тщательно изучить каждый из этих методов, прежде чем вносить какие-либо изменения, чтобы гарантировать, что только нужные страницы заблокированы для поисковых систем.

Обратите внимание: : эти инструкции блокируют индексирование URL страницы для поиска. Узнайте, как настроить URL-адрес файла в инструменте файлов, чтобы заблокировать его от поисковых систем.

Файл Robots.txt

Ваш файл robots.txt — это файл на вашем веб-сайте, который сканеры поисковых систем читают, чтобы узнать, какие страницы они должны и не должны индексировать. Узнайте, как настроить файл robots.txt в HubSpot.

Google и другие поисковые системы не могут задним числом удалять страницы из результатов после того, как вы внедрили robots.txt метод файла. Хотя это говорит ботам не сканировать страницу, поисковые системы все равно могут индексировать ваш контент (например, если на вашу страницу есть входящие ссылки с других веб-сайтов). Если ваша страница уже проиндексирована и вы хотите удалить ее из поисковых систем задним числом, рекомендуется вместо этого использовать метод метатега «Без индекса».

Мета-тег «Без индекса»

Обратите внимание: : , если вы решите использовать метод метатега «Без индекса», имейте в виду, что его не следует комбинировать с роботами.txt метод файла. Поисковым системам необходимо начать сканирование страницы, чтобы увидеть метатег «Без индекса», а файл robots.txt полностью предотвращает сканирование.

Мета-тег «без индекса» — это строка кода, введенная в раздел заголовка HTML-кода страницы, которая сообщает поисковым системам не индексировать страницу.

  • Щелкните имя определенной страницы или сообщения в блоге.
  • В редакторе содержимого щелкните вкладку Настройки .
  • Щелкните Дополнительные параметры .
  • В разделе Head HTML скопируйте и вставьте следующий код:
  

Консоль поиска Google

Если у вас есть учетная запись Google Search Console , вы можете отправить URL-адрес для удаления из результатов поиска Google. Обратите внимание, что это будет применяться только к результатам поиска Google.

Если вы хотите заблокировать файлы в файловом менеджере HubSpot (например, документ PDF) от индексации поисковыми системами, вы должны выбрать подключенный субдомен для файла (ов) и использовать URL-адрес файла для блокировки веб-сканеров.

Как HubSpot обрабатывает запросы от пользовательского агента

Если вы устанавливаете строку пользовательского агента для проверки сканирования вашего веб-сайта и видите сообщение об отказе в доступе, это ожидаемое поведение. Google все еще сканирует и индексирует ваш сайт.

Причина, по которой вы видите это сообщение, заключается в том, что HubSpot разрешает запросы от пользовательского агента googlebot только с IP-адресов, принадлежащих Google. Чтобы защитить сайты, размещенные на HubSpot, от злоумышленников или спуферов, запросы с других IP-адресов будут отклонены.HubSpot делает это и для других сканеров поисковых систем, таких как BingBot, MSNBot и Baiduspider.

SEO

Целевые страницы

Блог

Настройки аккаунта

Страницы веб-сайта

Как запретить Google индексировать определенные веб-страницы

25 апреля 2019 г. |
Автор: Tinny

При поисковой оптимизации типичная цель состоит в том, чтобы как можно больше страниц вашего веб-сайта проиндексировали и просканировали поисковыми системами, такими как Google.

Распространенное заблуждение состоит в том, что это может улучшить рейтинг SEO. Однако так бывает не всегда. Часто необходимо сознательно запретить поисковым системам индексировать определенные страницы вашего сайта для повышения SEO. Одно исследование показало, что органический поисковый трафик увеличился на 22% после удаления повторяющихся веб-страниц, в то время как Moz сообщил об увеличении органического поискового трафика на 13,7% после удаления малоценных страниц.

веб-страницы, которые не нужно индексировать

Как уже упоминалось, не все страницы вашего веб-сайта должны индексироваться поисковыми системами.Как правило, они включают, но не ограничиваются, следующее:

  • Целевые страницы для рекламы
  • Страницы благодарности
  • Конфиденциальность и страницы политики
  • Страницы администратора
  • Дубликаты страниц (например, похожий контент, размещенный на нескольких веб-сайтах, принадлежащих одной компании)
  • Малоценные страницы (например, устаревший контент много лет назад, но что-то достаточно ценное, чтобы его нельзя было удалить с вашего сайта)

Перед деиндексированием важно провести тщательный аудит содержания вашего веб-сайта, чтобы у вас был систематический подход к определению, какие страницы включить, а какие исключить.

Как запретить Google индексировать определенные веб-страницы

Есть четыре способа деиндексировать веб-страницы из поисковых систем: метатег «noindex», X-Robots-Tag, файл robots.txt и с помощью инструментов Google для веб-мастеров.

1. Использование метатега «noindex»

Самый эффективный и простой инструмент для предотвращения индексации Google определенных веб-страниц — это метатег «noindex». По сути, это директива, которая сообщает сканерам поисковой системы, что не индексирует веб-страницу, и, следовательно, впоследствии не будет отображаться в результатах поиска.

Как добавить метатег «noindex»:

Все, что вам нужно сделать, это вставить следующий тег в раздел HTML-разметки страницы:

В зависимости от вашей системы управления контентом (CMS) вставка этого метатега должна быть довольно простой. Для таких CMS, как WordPress, которые не позволяют пользователям получать доступ к исходному коду, используйте плагин, например Yoast SEO. Здесь следует отметить, что вам нужно сделать это для каждой страницы, которую вы хотите деиндексировать.

Кроме того, если вы хотите, чтобы поисковые системы одновременно деиндексировали вашу веб-страницу, а , а не , следуйте ссылкам на этой странице (например, в случае страниц с благодарностью, где вы не хотите, чтобы поисковые системы индексировали ссылку на ваше предложение ) используйте «noindex» с метатегом «nofollow»:

2. Использование HTTP-заголовка X-Robots-Tag

В качестве альтернативы вы можете использовать X-Robots-Tag, который вы добавляете в заголовок HTTP-ответа заданного URL-адреса.По сути, он имеет тот же эффект, что и тег «noindex», но с дополнительными опциями для определения условий для различных поисковых систем. Для получения дополнительной информации см. Руководство Google здесь.

Как добавить X-Robots-Tag:

В зависимости от используемого веб-браузера может быть довольно сложно найти и отредактировать заголовок ответа HTTP. Для Google Chrome вы можете использовать инструменты разработчика, такие как ModHeader или Modify Header Value. Вот примеры X-Robots-Tag для определенных функций:

X-Robots-Tag: noindex

  • Чтобы установить разные правила деиндексации для разных поисковых систем:

X-Robots-Tag: googlebot: nofollow

X-Robots-Tag: otherbot: noindex, nofollow

3.Использование файла robots.txt

Файл robots.txt в основном используется для управления трафиком сканеров поисковых систем от перегрузки вашего веб-сайта запросами. Однако следует отметить, что этот тип файлов не предназначен для сокрытия веб-страниц от Google; скорее, он используется для предотвращения появления изображений, видео и других мультимедийных файлов в результатах поиска.

Как использовать файл robots.txt, чтобы скрыть медиафайлы от Google:

Использование robots.txt довольно технически. По сути, вам нужно использовать текстовый редактор для создания стандартного текстового файла ASCII или UTF-8, а затем добавить этот файл в корневую папку вашего веб-сайта.Чтобы узнать больше о том, как создать файл robots.txt, ознакомьтесь с руководством Google здесь. Google также создал отдельные руководства для скрытия определенных медиафайлов от появления в результатах поиска:

4. Использование Инструментов Google для веб-мастеров

Вы также можете временно заблокировать страницы из результатов поиска Google с помощью инструмента удаления URL-адресов Google для веб-мастеров. Обратите внимание, что это применимо только к Google; у других поисковых систем есть свои собственные инструменты. Также важно учитывать, что это удаление носит временный характер.Чтобы безвозвратно удалить веб-страницы из результатов поиска, ознакомьтесь с инструкциями Google здесь.

Как использовать инструменты Google Remove URL для временного исключения страниц:

Процедура довольно проста. Откройте инструмент удаления URL-адресов и выберите принадлежащий вам ресурс в Search Console. Выберите Временно скрыть и введите URL-адрес страницы. После этого выберите Очистить URL-адрес из кеша и временно удалите из поиска . Это скрывает страницу из результатов поиска Google на 90 дней, а также очищает кешированную копию страницы и фрагменты из индекса Google.Для получения дополнительной информации ознакомьтесь с руководством Google здесь.

Завершение

Для получения вашего запроса на деиндексирование в Google может потребоваться время. Часто требуется несколько недель, чтобы изменения вступили в силу. Если вы заметили, что ваша страница все еще отображается в результатах поиска Google, скорее всего, это связано с тем, что Google не сканировал ваш сайт с момента вашего запроса. Вы можете запросить у Google повторное сканирование вашей страницы с помощью инструмента «Просмотреть как Google».

Если вы хотите узнать больше или вам нужна помощь с какими-либо потребностями в области SEO, Ilfusion имеет необходимые знания и опыт, чтобы помочь вам.Позвоните нам по телефону 888-420-5115 или отправьте нам электронное письмо по адресу [адрес электронной почты защищен].

Теги: сканирование, поиск google, google +, индекс, метатеги, поисковые системы, SEO

Категория: SEO

Как запретить поисковым системам индексировать страницу

Недавно я помог клиенту удалить старое видео YouTube со своего канала. Они не собирались делать его общедоступным и не осознавали этого, пока сами не искали в Google.

Хотя это не сразу деиндексирует страницу от Google, это заставило меня задуматься о причинах, по которым кто-то может захотеть запретить поисковым системам индексировать страницу до того, как будет нанесен какой-либо ущерб.

3 причины заблокировать Google от индексации страницы

Хотя есть очень мало неотложных причин, по которым вы можете захотеть узнать, как запретить Google индексировать страницу, вот некоторые из маркетинговых причин для этого.

1. Улучшение отслеживания и атрибуции целей

Для многих веб-мастеров и маркетологов цели заполнения форм отслеживаются посещениями страницы с благодарностью.Чтобы предотвратить случайное получение органического трафика на вашу страницу с благодарностью, вы захотите узнать, как запретить Google полностью проиндексировать эту страницу.

Если у вас есть целевой целевой трафик на вашей странице в дополнение к пользователям, заполнившим ваши формы, ваши цели и коэффициент конверсии не будут точными.

2. Сократите количество страниц, не имеющих ценности для пользователя

Хотя это слишком упрощенная модель, вы можете почти представить, что ваш сайт имеет определенную ценность для SEO.

Для сайта с 10 страницами каждая страница получает примерно 1/10 стоимости SEO.Если владелец сайта научился проводить исследование ключевых слов и оптимизировал все свои страницы, все эти страницы будут эффективны и эффективны для генерирования органического трафика.

И наоборот, изобразите сайт со 100 страницами. Есть четыре страницы, которые на самом деле рассказывают об услугах компании, а остальные 96 страниц представляют собой «сообщения в блогах», которые на самом деле являются просто тем, что владелец сбрасывает информацию на свой сайт. Эти страницы не удовлетворяют известные потребности аудитории и не оптимизированы для каких-либо релевантных групп ключевых слов.

В нашей упрощенной модели ценность SEO невелика. Каждая из четырех страниц служб получает 1/100 совокупной SEO-ценности сайта, что делает их очень слабыми, даже несмотря на то, что они относительно оптимизированы. Остальные 96 страниц получают 96/100 стоимости, но это тупиковые пути, которые несут в себе ловушку и растрачивают рейтинговый потенциал вашего сайта.

Изучение того, как запретить поисковым системам индексировать страницу (или 96), — отличный способ предотвратить слишком низкое распределение SEO-ценности вашего сайта.Вы можете скрыть большую часть своего веб-сайта от поисковых систем, чтобы Google знал только о полезных и релевантных страницах, которые заслуживают того, чтобы их нашли.

3. Избегайте проблем с дублированием контента

Публикация страницы, идентичной или почти идентичной другой странице в Интернете, может привести к принятию некоторых ненужных решений для Google.

Какая страница является оригинальной? Даже если одна из страниц была опубликована первой, является ли дублирующая страница, которая следовала за более авторитетным источником? Если на вашем веб-сайте есть обе страницы, какую из них вы хотели бы включить в результаты поиска Google? Результат может не всегда нравиться.

Чтобы избежать проблем с дублированием контента, вы можете попытаться запретить ботам сканировать определенные страницы вашего сайта.

Как запретить Google индексировать страницу

Самый простой и наиболее распространенный метод предотвращения индексации страницы поисковыми системами — это включить метатег noindex.

Включить тег Noindex

Метатег noindex используется между тегами HTML на веб-странице, чтобы предотвратить включение этой страницы роботами поисковых систем в свой индекс.Это по-прежнему позволяет сканерам читать ваши страницы, но предполагает, что они не включают его копию для показа в результатах поиска.

Тег noindex для предотвращения индексации страницы поисковыми системами выглядит следующим образом:

  

Если вас беспокоит только то, что Google не может проиндексировать страницу, вы можете используйте следующий код:

  

Если вы используете WordPress в качестве своей CMS (что я настоятельно рекомендую), вы можете использовать плагин Yoast SEO (который Тоже очень рекомендую).С помощью пары щелчков мыши вы можете добавить тег noindex на любую страницу, которую захотите.

В бэкэнде любой страницы прокрутите вниз до поля Yoast SEO. Затем щелкните значок шестеренки и измените раскрывающееся поле с надписью «Разрешить поисковым системам показывать это сообщение в результатах поиска?» сказать «Нет»

Это не директива, поэтому поисковая система может игнорировать ваш метатег noindex. Для более надежной техники вы можете использовать файл robots.txt.

Запретить использование ботов в ваших роботах.txt

Если вы хотите быть уверены, что такие роботы, как Googlebot и Bingbot, вообще не могут сканировать ваши страницы, вы можете добавить директивы в свой файл robots.txt.

Robots.txt — это файл, находящийся в корне сервера Apache, который может вообще запретить некоторым ботам попадать на ваши страницы. Важно отметить, что некоторые боты могут быть проинструктированы игнорировать ваш файл robots.txt, поэтому вы действительно можете заблокировать только этих «хороших» ботов с помощью этой техники.

Давайте использовать страницу на вашем сайте https: // www.mysite.com/example-page/, например. Чтобы запретить всем ботам доступ к этой странице, вы должны использовать следующий код в своем robots.txt:

 User-agent: *
Disallow: / example-page / 

Обратите внимание, что вам не нужно использовать полный URL, только URI, который идет после вашего доменного имени. Если вы хотите только заблокировать сканирование страницы роботом Googlebot, вы можете использовать следующий код:

 User-agent: Googlebot
Disallow: / example-page / 

Не позволяйте ботам сканировать ваш сайт с помощью.htaccess

Я лично не знаю ни одного клиента, которому когда-либо понадобилось бы это использовать, но вы можете использовать свой файл .htaccess, чтобы заблокировать сканирование вашего сайта любым пользовательским агентом.

Это способ полностью остановить сканирование вашего сайта Google, который не может быть проигнорирован даже «плохими» ботами. Предостережение заключается в том, что это более широкое решение, менее ориентированное на конкретную страницу. Управление целевым отказом в доступе к нескольким страницам внутри вашего файла .htaccess было бы кошмаром.

Код для блокировки только робота Google будет выглядеть так:

 RewriteEngine On
RewriteCond% {HTTP_USER_AGENT} Googlebot [NC]
RewriteRule.. * (Googlebot | Bingbot | Baiduspider). * $ [NC]
RewriteRule. * - [F, L] 

Иногда необходимо научиться предотвращать индексирование одной из ваших страниц поисковой системой, и это не очень сложно, в зависимости от того, как вы это решите.

Если вам нужна дополнительная помощь с поисковой оптимизацией вашего бизнес-сайта, ознакомьтесь с контрольным списком запуска веб-сайта моей компании, MARION.


Как заблокировать поисковые системы с помощью правила запрещения файла robots.txt

Вы ищете способ контролировать, как роботы поисковых систем сканируют ваш сайт? Или вы хотите сделать некоторые части вашего сайта приватными? Вы можете сделать это, изменив файл robots.txt с помощью команды disallow .

Из этой статьи вы узнаете, что robots.txt может сделать для вашего сайта. Мы также покажем вам, как использовать его, чтобы блокировать роботов поисковых систем.

Что такое Robots.txt?

Robots.txt — это простой текстовый файл, используемый для взаимодействия с поисковыми роботами. Файл находится в корневом каталоге сайта.

Он работает, сообщая ботам, какие части сайта следует и не следует сканировать.Это до robots.txt и независимо от того, разрешено или запрещено ботам сканировать веб-сайт.

Другими словами, вы можете настроить файл так, чтобы поисковые системы не сканировали и индексировали страницы или файлы на вашем сайте.

Почему я должен блокировать поисковую систему?

Если у вас есть страницы, содержащие конфиденциальную информацию, вы можете сделать их закрытыми. К сожалению, роботы поисковых систем не могут автоматически различать общедоступный и частный контент. В этом случае необходимо ограничение доступа.

Вы также можете запретить ботам сканировать весь ваш сайт. Особенно, если ваш сайт находится в режиме обслуживания или на стадии подготовки.

Еще одно применение robots.txt — предотвращение проблем с дублированием контента, которые возникают, когда одни и те же сообщения или страницы появляются на разных URL-адресах. Дубликаты могут негативно повлиять на SEO.

Решение простое — идентифицируйте повторяющийся контент и запретите ботам сканировать его.

Как использовать Robots.txt для запрета работы поисковых систем?

Если вы хотите проверить robots.txt , вы можете просмотреть его, добавив robots.txt после URL-адреса вашего сайта, например www.myname.com/robots.txt . Вы можете редактировать его через файловый менеджер панели управления хостингом или FTP-клиент.

Давайте настроим файл robots.txt с помощью файлового менеджера hPanel от Hostinger. Во-первых, вы должны войти в File Manager в разделе панели Files . Затем откройте файл из каталога public_html .

Если файла нет, вы можете создать его вручную. Просто нажмите кнопку New File в правом верхнем углу файлового менеджера, назовите его robots.txt и поместите в public_html .

Теперь можно начинать добавлять команды в файл. Вы должны знать два основных из них:

.

  1. User-agent — относится к типу бота, который будет ограничен, например Googlebot или Bingbot.
  2. Disallow — здесь вы хотите ограничить работу ботов.

Рассмотрим пример. Если вы хотите, чтобы бот Google не сканировал определенную папку вашего сайта, вы можете поместить эту команду в файл:

 Пользовательский агент: Googlebot
Запретить: / example-subfolder / 

Вы также можете заблокировать сканирование роботами определенной веб-страницы. Если вы хотите заблокировать Bingbot со страницы, вы можете установить команду следующим образом:

 Пользовательский агент: Bingbot

Запрещено: /example-subfolder/blocked-page.html 

А что, если вам нужны роботы ?txt , чтобы запретить использование всех роботов поисковых систем? Вы можете сделать это, поместив звездочку (*) рядом с User-agent . А если вы хотите запретить им доступ ко всему сайту, просто поставьте косую черту (/) рядом с Disallow . Вот как это выглядит:

 Агент пользователя: *

Disallow: / 

Вы можете настроить разные конфигурации для разных поисковых систем, добавив в файл несколько команд. Также имейте в виду, что изменения вступят в силу после сохранения файла robots.txt файл.

Заключительные слова

Теперь вы узнали, как изменить файл robots.txt . Это позволяет вам управлять доступом роботов поисковых систем к вашему сайту. Теперь вы можете расслабиться, зная, что там будет отображаться только то, что вы хотите найти на страницах результатов поиска.

Меркис — администратор серверов и эксперт по Linux в Hostinger. Он поддерживает все в рабочем состоянии, решая сложные проблемы управления сервером. Кроме того, он большой поклонник технологии блокчейн, веб-разработки и бодибилдинга.

Руководство для новичков по блокировке URL-адресов в файле Robots.txt | Ignite Visibility

Robots.txt, также известный как исключение роботов, является ключом к предотвращению сканирования роботами поисковых систем ограниченных областей вашего сайта.

В этой статье я рассмотрю основы того, как блокировать URL-адреса в robots.txt.

Что мы рассмотрим:

Что такое файл Robots.txt?

Robots.txt — это текстовый файл, который веб-мастера создают, чтобы научить роботов сканировать страницы веб-сайтов и позволяет сканерам узнать, обращаться к файлу или нет.

Вы можете заблокировать URL-адреса в robots txt, чтобы Google не индексировал личные фотографии, просроченные специальные предложения или другие страницы, к которым вы не готовы для пользователей. Использование его для блокировки URL-адреса может помочь в SEO.

Он может решить проблемы с дублированным контентом (однако могут быть более эффективные способы сделать это, о чем мы поговорим позже). Когда робот начинает сканирование, он сначала проверяет наличие файла robots.txt, который не позволяет им просматривать определенные страницы.

Когда мне следует использовать файл Robots.txt?

Вам нужно будет использовать его, если вы не хотите, чтобы поисковые системы индексировали определенные страницы или контент. Если вы хотите, чтобы поисковые системы (например, Google, Bing и Yahoo) получали доступ и индексировали весь ваш сайт, вам не нужен файл robots.txt. Хотя стоит упомянуть, что в некоторых случаях люди все же используют его, чтобы направлять пользователей на карту сайта.

Однако, если другие сайты ссылаются на страницы вашего сайта, заблокированные, поисковые системы могут по-прежнему индексировать URL-адреса, и в результате они по-прежнему могут отображаться в результатах поиска.Чтобы этого не произошло, используйте x-robots-tag , метатег noindex или относительный канонический к соответствующей странице.

Эти типы файлов помогают веб-сайтам в следующих случаях:

  • Сохраняйте конфиденциальность частей сайта — например, страницы администратора или изолированную программную среду вашей команды разработчиков.
  • Предотвратить появление дублирующегося контента в результатах поиска.
  • Избегайте проблем с индексацией
  • блокировка URL-адреса
  • Запретить поисковым системам индексировать определенные файлы, например изображения или PDF-файлы
  • Управляйте трафиком сканирования и предотвращайте появление файлов мультимедиа в результатах поиска.
  • Используйте его, если вы размещаете платные объявления или ссылки, требующие специальных инструкций для роботов.

Тем не менее, если на вашем сайте нет каких-либо областей, которые вам не нужно контролировать, то она вам и не нужна. В рекомендациях Google также упоминается, что вам не следует использовать robots.txt для блокировки веб-страниц из результатов поиска.

Причина в том, что если другие страницы ссылаются на ваш сайт с описательным текстом, ваша страница все равно может быть проиндексирована благодаря отображению на этом стороннем канале.Здесь лучше использовать директивы Noindex или защищенные паролем страницы.

Начало работы с Robots.txt

Прежде чем вы начнете собирать файл, убедитесь, что у вас его еще нет. Чтобы найти его, просто добавьте «/robots.txt» в конец любого доменного имени — www.examplesite.com/robots.txt. Если он у вас есть, вы увидите файл со списком инструкций. В противном случае вы увидите пустую страницу.

Затем проверьте, не блокируются ли какие-либо важные файлы

Зайдите в консоль поиска Google, чтобы узнать, не блокирует ли ваш файл какие-либо важные файлы.Тестер robots.txt покажет, препятствует ли ваш файл поисковым роботам Google доступ к определенным частям вашего веб-сайта.

Также стоит отметить, что вам может вообще не понадобиться файл robots.txt. Если у вас относительно простой веб-сайт, и вам не нужно блокировать определенные страницы для тестирования или для защиты конфиденциальной информации, вам ничего не нужно. И на этом учебник заканчивается.

Настройка файла Robots.Txt

Эти файлы можно использовать по-разному.Однако их главное преимущество заключается в том, что маркетологи могут разрешать или запрещать использование нескольких страниц одновременно, не обращаясь к коду каждой страницы вручную.

Все файлы robots.txt приведут к одному из следующих результатов:

  • Полное разрешение — можно сканировать весь контент
  • Полное запрещение — сканирование контента невозможно. Это означает, что вы полностью блокируете доступ сканеров Google к любой части вашего веб-сайта.
  • Условное разрешение — правила, указанные в файле, определяют, какой контент открыт для сканирования, а какой заблокирован.Если вам интересно, как запретить использование URL-адреса, не заблокировав для поисковых роботов доступ ко всему сайту, то вот оно.

Если вы хотите создать файл, процесс на самом деле довольно прост и включает два элемента: «пользовательский агент», который является роботом, к которому применяется следующий блок URL, и «запретить», который является URL-адресом. вы хотите заблокировать. Эти две строки рассматриваются как одна запись в файле, что означает, что вы можете иметь несколько записей в одном файле.

Как заблокировать URL-адреса в роботах txt:

Для строки пользовательского агента вы можете указать конкретного бота (например, Googlebot) или применить блок URL txt ко всем ботам, используя звездочку.Ниже приведен пример того, как пользовательский агент блокирует всех ботов.

Агент пользователя: *

Во второй строке записи, disallow, перечислены конкретные страницы, которые вы хотите заблокировать. Чтобы заблокировать весь сайт, используйте косую черту. Для всех остальных записей сначала используйте косую черту, а затем укажите страницу, каталог, изображение или тип файла

Disallow: / блокирует весь сайт.

Disallow: / bad-directory / блокирует как каталог, так и все его содержимое.

Disallow: /secret.html блокирует страницу.

После создания пользовательского агента и запрета выбора одна из ваших записей может выглядеть так:

User-agent: *
Disallow: / bad-directory /

Посмотреть другие примеры записей из Google Search Console .

Как сохранить файл

  1. Сохраните файл, скопировав его в текстовый файл или блокнот и сохранив как «robots.текст».
  2. Обязательно сохраните файл в каталог верхнего уровня вашего сайта и убедитесь, что он находится в корневом домене с именем, точно соответствующим «robots.txt».
  3. Добавьте файл в каталог верхнего уровня кода вашего веб-сайта для упрощения сканирования и индексации.
  4. Убедитесь, что ваш код имеет правильную структуру: User-agent → Disallow → Allow → Host → Sitemap. Это позволяет поисковым системам получать доступ к страницам в правильном порядке.
  5. Поместите все URL-адреса, для которых требуется «Разрешить:» или «Запретить:», в отдельной строке.Если несколько URL-адресов отображаются в одной строке, сканерам будет сложно разделить их, и у вас могут возникнуть проблемы.
  6. Всегда используйте строчные буквы для сохранения файла, так как имена файлов чувствительны к регистру и не содержат специальных символов.
  7. Создайте отдельные файлы для разных поддоменов. Например, «example.com» и «blog.example.com» имеют отдельные файлы со своим собственным набором директив.
  8. Если вы должны оставлять комментарии, начните с новой строки и поставьте перед комментарием символ #.Знак # позволяет сканерам знать, что эту информацию нельзя включать в свою директиву.

Как проверить свои результаты

Проверьте свои результаты в своей учетной записи Google Search Console, чтобы убедиться, что боты сканируют те части сайта, которые вам нужны, и блокируют URL-адреса, которые вы не хотите видеть поисковиками.

  1. Сначала откройте средство тестирования и просмотрите свой файл на предмет предупреждений или ошибок.
  2. Затем введите URL-адрес страницы своего веб-сайта в поле внизу страницы.
  3. Затем выберите user-agent , который вы хотите смоделировать, из раскрывающегося меню.
  4. Щелкните ТЕСТ.
  5. Кнопка ТЕСТ должна читать либо ПРИНЯТО или ЗАБЛОКИРОВАНО, , что укажет, заблокирован файл поисковыми роботами или нет.
  6. При необходимости отредактируйте файл и повторите попытку.
  7. Помните, любые изменения, которые вы вносите в тестере GSC, не будут сохранены на вашем веб-сайте (это симуляция).
  8. Если вы хотите сохранить изменения, скопируйте новый код на свой веб-сайт.

Имейте в виду, что это будет тестировать только Googlebot и другие пользовательские агенты, связанные с Google. Тем не менее, использование тестера имеет огромное значение, когда дело доходит до SEO. Видите ли, если вы все же решите использовать файл, вам обязательно нужно правильно его настроить. Если в вашем коде есть ошибки, робот Googlebot может не проиндексировать вашу страницу или вы можете случайно заблокировать важные страницы из результатов поиска.

Наконец, убедитесь, что вы не используете его вместо реальных мер безопасности. Когда дело доходит до защиты вашего сайта от хакеров, мошенников и посторонних глаз, лучше использовать пароли, брандмауэры и зашифрованные данные.

Завершение

Готовы начать работу с robots.txt? Большой!

Если у вас есть вопросы или вам нужна помощь в начале работы, дайте нам знать!

Страницы веб-роботов

О /robots.txt

В двух словах

Владельцы веб-сайтов используют файл /robots.txt для получения инструкций по
их сайт для веб-роботов; это называется Исключение роботов
Протокол
.

Это работает так: робот хочет перейти по URL-адресу веб-сайта, скажем,
http: // www.example.com/welcome.html. Прежде чем он это сделает, он первым
проверяет http://www.example.com/robots.txt и находит:

 Агент пользователя: *
Запретить: /
 

«User-agent: *» означает, что этот раздел применим ко всем роботам.

«Disallow: /» сообщает роботу, что он не должен посещать никакие
страницы на сайте.

При использовании /robots.txt следует учитывать два важных момента:

  • роботы могут игнорировать ваш /robots.txt. Особенно вредоносные роботы, которые сканируют
    Интернет на наличие уязвимостей в системе безопасности и сборщики адресов электронной почты, используемые спамерами
    не обращаю внимания.
  • файл /robots.txt является общедоступным. Все могут видеть, какие разделы
    вашего сервера вы не хотите, чтобы роботы использовали.

Так что не пытайтесь использовать /robots.txt для сокрытия информации.

Смотрите также:

Детали

/Robots.txt является стандартом де-факто и не принадлежит никому
орган по стандартизации.

Есть два исторических описания:

Вдобавок есть внешние ресурсы:

Файл / robots.txt активно не развивается.
См. Как насчет дальнейшего развития /robots.txt?
для более подробного обсуждения.

Остальная часть этой страницы дает обзор того, как использовать /robots.txt в
ваш сервер, с несколькими простыми рецептами.

Чтобы узнать больше, см. Также FAQ.

Как создать файл /robots.txt

Куда девать

Краткий ответ: в каталоге верхнего уровня вашего веб-сервера.

Более длинный ответ:

Когда робот ищет «/ robots.txt «для URL, он удаляет
компонент пути из URL-адреса (все, начиная с первой косой черты),
и помещает на его место «/robots.txt».

Например, для «http://www.example.com/shop/index.html» будет
удалите «/shop/index.html» и замените его на
«/robots.txt», и в итоге будет
«http://www.example.com/robots.txt».

Итак, как владельцу веб-сайта вам необходимо разместить его в нужном месте на своем
веб-сервер для работы полученного URL. Обычно это то же самое
место, куда вы помещаете основной «index» вашего веб-сайта.html «добро пожаловать
страница. Где именно он находится и как туда поместить файл, зависит от
программное обеспечение вашего веб-сервера.

Не забудьте использовать строчные буквы для имени файла:
robots.txt, а не Robots.TXT.

Смотрите также:

Что туда класть

Файл «/robots.txt» — это текстовый файл с одной или несколькими записями.
Обычно содержит одну запись следующего вида:

Пользовательский агент: *
Disallow: / cgi-bin /
Запретить: / tmp /
Запретить: / ~ joe /
 

В этом примере исключены три каталога.

Обратите внимание, что для каждого префикса URL-адреса вам нужна отдельная строка «Disallow».
хотите исключить — нельзя сказать «Disallow: / cgi-bin / / tmp /» на
одна линия. Кроме того, в записи может не быть пустых строк, так как они
используются для разграничения нескольких записей.

Также обратите внимание, что подстановка и регулярное выражение
не поддерживается ни в User-agent, ни в Disallow
линий. ‘*’ В поле User-agent — это специальное значение, означающее «любой
робот «. В частности, у вас не может быть таких строк, как» User-agent: * bot * «,
«Запрещать: / tmp / *» или «Запрещать: *.gif «.

Что вы хотите исключить, зависит от вашего сервера.
Все, что явно не запрещено, считается справедливым
игра для извлечения. Вот несколько примеров:

Чтобы исключить всех роботов со всего сервера
Пользовательский агент: *
Запретить: /

 
Разрешить всем роботам полный доступ
Пользовательский агент: *
Запретить:
 

(или просто создайте пустой файл «/robots.txt», или не используйте его вообще)

Чтобы исключить всех роботов из части сервера
Пользовательский агент: *
Disallow: / cgi-bin /
Запретить: / tmp /
Disallow: / junk /
 
Для исключения одного робота
Пользовательский агент: BadBot
Запретить: /
 
Чтобы позволить одному роботу
Пользовательский агент: Google
Запретить:

Пользовательский агент: *
Запретить: /
 
Чтобы исключить все файлы, кроме одного

В настоящее время это немного неудобно, поскольку нет поля «Разрешить».

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *