Программирование на Python и Objective-C в Mac OS

Программирование на Python и Objective-C под Mac OS и для iPhone / iPod Touch

Роботс тхт проверить: Sorry, this page can’t be found.

Содержание

Проверка файла robots.txt | REG.RU

Файл robots.txt — это инструкция для поисковых роботов. В ней указывается, какие разделы и страницы сайта могут посещать роботы, а какие должны пропускать. В фокусе этой статьи — проверка robots.txt. Мы рассмотрим советы по созданию файла для начинающих веб-разработчиков, а также разберем, как делать анализ robots.txt с помощью стандартных инструментов Яндекс и Google.

Зачем нужен robots.txt

Поисковые роботы — это программы, которые сканируют содержимое сайтов и заносят их в базы поисковиков Яндекс, Google и других систем. Этот процесс называется индексацией.

robots.txt содержит информацию о том, какие разделы нельзя посещать поисковым роботам. Это нужно для того, чтобы в выдачу не попадало лишнее: служебные и временные файлы, формы авторизации и т. п. В поисковой выдаче должен быть только уникальный контент и элементы, необходимые для корректного отображения страниц (изображения, CSS- и JS-код).

Если на сайте нет robots.txt, роботы заходят на каждую страницу. Это занимает много времени и уменьшает шанс того, что все нужные страницы будут проиндексированы корректно.

Если же файл есть в корневой папке сайта на хостинге, роботы сначала обращаются к прописанным в нём правилам. Они узнают, куда нельзя заходить, а какие страницы/разделы обязательно нужно посетить. И только после этого начинают обход сайта по инструкции.

Веб-разработчикам следует создать файл, если его нет, и наполнить его правильными директивами (командами) для поисковых роботов. Ниже кратко рассмотрим основные директивы для robots.txt.

Основные директивы robots.txt

Структура файла robots.txt выглядит так:

  1. Директива User-agent. Обозначает, для каких поисковых роботов предназначены правила в документе. Здесь можно указать все поисковые системы (для этого используется символ «*») или конкретных роботов (Yandex, Googlebot и другие).
  2. Директива Disallow (запрет индексации). Указывает, какие разделы не должны сканировать роботы. Даже если на сайте нет служебного контента, который необходимо закрыть от индексации, директиву нужно прописывать (не указывая значение). Если не сделать этого, robots.txt может некорректно читаться поисковыми роботами.
  3. Директива Allow (разрешение). Указывает, какие разделы или файлы должны просканировать поисковые роботы. Здесь не нужно указывать все разделы сайта: все, что не запрещено к обходу, индексируется автоматически. Поэтому следует задавать только исключения из правила Disallow.
  4. Sitemap (карта сайта). Полная ссылка на файл в формате .xml. Sitemap содержит список всех страниц, доступных для индексации, а также время и частоту их обновления.

Пример простого файла robots.txt (после # указаны пояснительные комментарии к директивам):

User-agent: * # правила ниже предназначены для всех поисковых роботов
Disallow: /wp-admin # запрет индексации служебной папки со всеми вложениями
Disallow: /*? # запрет индексации результатов поиска на сайте
Allow: /wp-admin/admin-ajax.php # разрешение индексации JS-скрипты темы WordPress
Allow: /*.jpg # разрешение индексации всех файлов формата .jpg
Sitemap: http://site.ru/sitemap.xml # адрес карты сайта, где вместо site.ru — домен сайта

Советы по созданию robots.txt

Для того чтобы файл читался поисковыми программами корректно, он должен быть составлен по определенным правилам. Даже детали (регистр, абзацы, написание) играют важную роль. Рассмотрим несколько основных советов по оформлению текстового документа.

Группируйте директивы

Если требуется задать различные правила для отдельных поисковых роботов, в файле нужно сделать несколько блоков (групп) с правилами и разделить их пустой строкой. Это необходимо, чтобы не возникало путаницы и каждому роботу не нужно было сканировать весь документ в поисках подходящих инструкций. Если правила сгруппированы и разделены пустой строкой, робот находит нужную строку User-agent и следует директивам. Пример:

User-agent: Yandex # правила только для ПС Яндекс 
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
# пустая строка
User-agent: Googlebot # правила только для ПС Google
Disallow: # раздел, файл или формат файлов
Allow: # раздел, файл или формат файлов
Sitemap: # адрес файла

Учитывайте регистр в названии файла

Для некоторых поисковых систем не имеет значение, какими буквами (прописными или строчными) будет обозначено название файла robots.txt. Но для Google, например, это важно. Поэтому желательно писать название файла маленькими буквами, а не Robots.txt или ROBOTS.TXT.

Не указывайте несколько каталогов в одной директиве

Для каждого раздела/файла нужно указывать отдельную директиву Disallow. Это значит, что нельзя писать Disallow: /cgi-bin/ /authors/ /css/ (указаны три папки в одной строке). Для каждой нужно прописывать свою директиву Disallow:

Disallow: /cgi-bin/
Disallow: /authors/
Disallow: /css/

Убирайте лишние директивы

Часть директив robots.txt считается устаревшими и необязательными: Host (зеркало сайта), Crawl-Delay (пауза между обращением поисковых роботов), Clean-param (ограничение дублирующегося контента). Вы можете удалить эти директивы, чтобы не «засорять» файл.

Как проверить robots.txt онлайн

Чтобы убедиться в том, что файл составлен грамотно, можно использовать веб-инструменты Яндекс, Google или онлайн-сервисы (PR-CY, Website Planet и т. п.). В Яндекс и Google есть собственные правила для проверки robots.txt. Поэтому файл необходимо проверять дважды: и в Яндекс, и в Google.

Яндекс.Вебмастер

Если вы впервые пользуетесь сервисом Яндекс.Вебмастер, сначала добавьте свой сайт и подтвердите права на него. После этого вы получите доступ к инструментам для анализа SEO-показателей сайта и продвижения в ПС Яндекс.

Чтобы проверить robots.txt с помощью валидатора Яндекс:

  1. 1.
    Зайдите в личный кабинет Яндекс.Вебмастер.
  2. 2.

    Выберите в левом меню раздел ИнструментыАнализ robots.txt.

  3. 3.

    Содержимое нужного файла подставиться автоматически. Если по какой-то причине этого не произошло, скопируйте код, вставьте его в поле и нажмите Проверить:

  4. 4.

    Ниже будут указаны результаты проверки. Если в директивах есть ошибки, сервис покажет, какую строку нужно поправить, и опишет проблему:

Google Search Console

Чтобы сделать проверку с помощью Google:

  1. 1.
    Перейдите на страницу инструмента проверки.
  2. 2.

    Если на открывшейся странице отображается неактуальная версия robots.txt, нажмите кнопку Отправить и следуйте инструкциям Google:

  3. 3.

    Через несколько минут вы можете обновить страницу. В поле будут отображаться актуальные директивы. Предупреждения/ошибки (если система найдет их) будут перечислены под кодом.

    Проверка robots.txt Google не выявила ошибок

Обратите внимание: правки, которые вы вносите в сервисе проверки, не будут автоматически применяться в robots.txt. Вам нужно внести исправленный код вручную на хостинге или в административной панели CMS и сохранить изменения.

Помогла ли вам статья?

1
раз уже помогла

Бесплатный сервис проверки файла Robots.txt [2021]

Что такое валидатор файла robots.txt?
Инструмент проверки Robots.txt создан для того, чтобы показать, правильно ли составлен ваш файл robots.txt, нет ли в нем ошибок. Robots.txt — этот файл, который является частью вашего веб-сайта и описывает правила индексации для роботов поисковых машин, чтобы веб-сайт индексировался правильно, и первыми на сайте индексировались самые важные данные.
Это очень простой инструмент, который создает отчет уже через несколько секунд сканирования: вам просто ввести в поле URL своего веб-сайта, через слэш /robots.txt (например, yourwebsite.com/robots.txt), а затем нажать на кнопку “проверить”. Наш инструмент для тестирования файлов robots.txt находит все ошибки (опечатки, синтаксические и “логические”) и выдает советы по оптимизации файла robots.txt.

Зачем нужно проверять файл robots.txt?
Проблемы с файлом robots.txt или его отсутствие могут негативно отразиться на SEO-оптимизации сайта: ваш сайт может не выдаваться на странице результатов выдачи поисковых машин (SERP). Это происходит из-за того, что нерелевантный контент может обходиться до или вместо важного контента.
Проверить свой файл перед тем, как обходить контент важно, чтобы вы смогли избежать проблем, когда весь контент на сайте индексируется, а не только самый релевантный. Например, вы хотите, чтобы доступ к основному контенту вашего веб-сайта пользователи получали только после того, как заполнят форму подписки или войдут в свою учетную запись, но вы не исключаете ее в правилах файла robot.txt, и поэтому она может проиндексироваться.

Что означают ошибки и предупреждения?
Есть определенный список ошибок, которые могут повлиять на эффективность файла robots.txt, а также вы можете увидеть при проверке файла список определенных рекомендаций. Это вещи, которые могут повлиять на SEO-оптимизацию сайта, и которые нужно исправить. Предупреждения менее критичны, и это просто советы о том, как улучшить ваш сайт robots.txt.
Ошибки, которые вы можете увидеть:
Invalid URL: эта ошибка сообщает о том, что файл robots.txt на сайте отсутствует.
Potential wildcard error: технически это больше предупреждение, чем сообщение об ошибке. Это сообщение обычно означает, что в вашем файле robots.txt содержится символ (*) в поле Disallow (например, Disallow: /*.rss). Это проблема приемлемого использования синтаксиса: Google не запрещает использование символов в поле Disallow, но это не рекомендуется.
Generic and specific user-agents in the same block of code: это синтаксическая ошибка в файле robots.txt, которую нужно исправить, чтобы избежать проблем с индексацией контента на вашем веб-сайте.
Предупреждения, которые вы можете увидеть:
Allow: / : порядок разрешения не повредит и не повлияет на ваш веб-сайт, но это не стандартная практика. Самые крупные поисковые машины, включая Google и Bing, примут эту директиву, но не все программы-кроулеры будут такими же неразборчивыми. Если говорить начистоту, то всегда лучше сделать файл robots.txt совместимым со всеми программами-индексаторами, а не только с самыми популярными.
Field name capitalization: несмотря на то, что имена полей не чувствительны к регистру, некоторые индексаторы могут требовать писать их заглавными буквами, так что хорошей идеей будет делать это по умолчанию — специально для самых привередливых программ.
Sitemap support: во многих файлах robots.txt содержатся данные о карте сайта, но это не считается хорошим решением. Однако, Google и Bing поддерживают эту возможность.

Как исправить ошибки в файле Robots.txt?
Насколько просто будет исправить ошибки в файле robots.txt? Зависит от платформы, которую вы используете. Если это WordPress, то лучше воспользоваться плагином типа WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключили свой веб-сайт к веб-службе Google Search Console, вы сможете редактировать свой файл robots.txt прямо в ней.
Некоторые конструкторы веб-сайтов типа Wix не дают возможности редактировать файл robots.txt напрямую, но позволяют добавлять неиндексируемые теги для определенных страниц.

Файл robots.txt — способы анализа и проверки robots.txt


Поисковые роботы — краулеры начинают знакомство с сайтом с чтения файла robots.txt. В нем содержится вся важная для них информация. Владельцам сайтов следует создать и периодически проводить анализ robots.txt. От корректности его работы зависит скорость индексации страниц и место в поисковой выдачи.

Создание файла 


Описание. Файл robots.txt — это документ со служебной информацией. Он предназначен для поисковых роботов. В нем записывают, какие страницы можно индексировать, какие — нет и каким именно краулерам. Например, англоязычный Facebook разрешает доступ только боту Google. Файл robots.txt любого сайта можно посмотреть в браузере по ссылке
www.site.ru/robots.txt. 


Он не является обязательным элементом сайта, но его наличие желательно, потому что с его помощью владельцы сайта управляют поисковыми роботами. Задавайте разные уровни доступа к сайту, запрет на индексацию всего сайта, отдельных страниц, разделов или файлов. Для ресурсов с высокой посещаемостью ограничивайте время индексации и запрещайте доступ роботам, которые не относятся к основным поисковым системам. Это уменьшит нагрузку на сервер. 


Создание. Создают файл в текстовом редакторе Notepad или подобных. Следите за тем, чтобы размер файла не превышал 32 КБ. Выбирайте для файла кодировку ASCII или UTF-8. Учтите, что файл должен быть единственным. Если сайт создан на CMS, то он будет генерироваться автоматически. 


Разместите созданный файл в корневой директории сайта рядом с основным файлом index.html. Для этого используют FTP доступ. Если сайт сделан на CMS, то с файлом работают через административную панель. Когда файл создан и работает корректно, он доступен в браузере. 


При отсутствии robots.txt поисковые роботы собирают всю информацию, относящуюся к сайту. Не удивляйтесь, когда увидите в выдаче незаполненные страницы или служебную информацию. Определите, какие разделы сайта будут доступны пользователям, остальные — закройте от индексации. 


Проверка. Периодически проверяйте, все ли работает корректно. Если краулер не получает ответ 200 ОК, то он автоматически считает, что файла нет, и сайт открыт для индексации полностью. Коды ошибок бывают такими: 


  • 3хх — ответы переадресации. Робота направляют на другую страницу или на главную. Создавайте до пяти переадресаций на одной странице. Если их будет больше, робот пометит такую страницу как ошибку 404. То же самое относится и к переадресации по принципу бесконечного цикла; 


  • 4хх — ответы ошибок сайта. Если краулер получает от файла robots.txt 400-ую ошибку, то делается вывод, что файла нет и весь контент доступен. Это также относится к ошибкам 401 и 403; 


  • 5хх — ответы ошибок сервера. Краулер будет «стучаться», пока не получит ответ, отличный от 500-го.

Правила создания 


Начинаем с приветствия. Каждый файл должен начинаться с приветствия User-agent. С его помощью поисковики определят уровень открытости. 







Код 

Значение 

User-agent: * 

Доступно всем

User-agent: Yandex 

Доступно роботу Яндекс 

User-agent: Googlebot 

Доступно роботу Google 

User-agent: Mail.ru 

Доступно роботу Mail.ru 


Добавляем отдельные директивы под роботов. При необходимости добавляйте директивы для специализированных поисковых ботов Яндекса. 


Однако в этом случае директивы * и Yandex не будут учитываться. 














YandexBot   

Основной робот   

YandexImages     

Яндекс.Картинки   

YandexNews     

Яндекс.Новости   

YandexMedia     

Индексация мультимедиа   

YandexBlogs     

Индексация постов и комментариев   

YandexMarket    

Яндекс.Маркет

YandexMetrika   

Яндекс.Метрика   

YandexDirect    

Рекламная сеть Яндекса   

YandexDirectDyn    

Индексация динамических баннеров   

YaDirectFetcher  

Яндекс.Директ   

YandexPagechecker   

Валидатор микроразметки   

YandexCalendar   

Яндекс.Календарь   

   
У Google собственные боты: 








Googlebot   

Основной краулер   

Google-Images   

Google.Картинки

Mediapartners-Google  

AdSense

AdsBot-Google   

Проверка качества рекламы

AdsBot-Google-Mobile  

Проверка качества рекламы  на мобильных устройствах  

Googlebot-News   

Новости Google   


Сначала запрещаем, потом разрешаем. Оперируйте двумя директивами: Allow — разрешаю, Disallow — запрещаю. Обязательно укажите директиву disallow, даже если доступ разрешен ко всему сайту. Такая директива является обязательной. В случае ее отсутствия краулер может не верно прочитать остальную информацию. Если на сайте нет закрытого контента, оставьте директиву пустой. 


Работайте с разными уровнями. В файле можно задать настройки на четырех уровнях: сайта, страницы, папки и типа контента. Допустим, вы хотите закрыть изображения от индексации. Это можно сделать на уровне: 

  • папки — disallow: /images/ 
  • типа контента — disallow: /*.jpg 

Директивы группируйте блоками и отделяйте пустой строкой. Не пишите все правила в одну строку. Для каждой страницы, краулера, папки и пр. используйте отдельное правило. Также не путайте инструкции: бота пишите в user-agent, а не в директиве allow/disallow. 





Нет 

Да 

Disallow: Yandex 

User-agent: Yandex 

Disallow: /   

Disallow: /css/ /images/ 

Disallow: /css/

Disallow: /images/                      




Пишите с учетом регистра.
Имя файла укажите строчными буквами. Яндекс в пояснительной документации указывает, что для его ботов регистр не важен, но Google просит соблюдать регистр. Также вероятна ошибка в названиях файлов и папок, в которых учитывается регистр. 


Укажите 301 редирект на главное зеркало сайта. Раньше для этого использовалась директива Host, но с марта 2018 г. она больше не нужна. Если она уже прописана в файле robots.txt, удалите или оставьте ее на свое усмотрение; роботы игнорируют эту директиву. 


Для указания главного зеркала проставьте 301 редирект на каждую страницу сайта. Если редиректа стоят не будет, поисковик самостоятельно определит, какое зеркало считать главным. Чтобы исправить зеркало сайта, просто укажите постраничный 301 редирект и подождите несколько дней. 


Пропишите директиву Sitemap (карту сайта). Файлы sitemap.xml и robots.txt дополняют друг друга. Проверьте, чтобы: 

  • файлы не противоречили друг другу; 
  • страницы были исключены из обоих файлов; 
  • страницы были разрешены в обоих файлах. 

Проводя анализ содержимого robots.txt, обратите внимание, включен ли sitemap в одноименную директиву. Записывается так: Sitemap: www.yoursite.ru/sitemap.xml 


Указывайте комментарии через символ #. Все, что написано после него, краулер игнорирует.

Проверка файла 


Проводите анализ robots.txt с помощью инструментов для разработчиков: через Яндекс.Вебмастер и Google Robots Testing Tool. Обратите внимание, что Яндекс и Google проверяют только соответствие файла собственным требованиям. Если для Яндекса файл корректный, это не значит, что он будет корректным для роботов Google, поэтому проверяйте в обеих системах. 


Если вы найдете ошибки и исправите robots.txt, краулеры не считают изменения мгновенно. Обычно переобход страниц осуществляется один раз в день, но часто занимает гораздо большее время. Проверьте через неделю файл, чтобы убедиться, что поисковики используют новую версию. 

Проверка в Яндекс.Вебмастере


Сначала подтвердите права на сайт. После этого он появится в панели Вебмастера. Введите название сайта в поле и нажмите проверить. Внизу станет доступен результат проверки. 


Дополнительно проверяйте отдельные страницы. Для этого введите адреса страниц и нажмите «проверить». 

Проверка в Google Robots Testing Tool 


Позволяет проверять и редактировать файл в административной панели. Выдает сообщение о логических и синтаксических ошибках. Исправляйте текст файла прямо в редакторе Google. Но обратите внимание, что изменения не сохраняются автоматически. После исправления robots.txt скопируйте код из веб-редактора и создайте новый файл через блокнот или другой текстовый редактор. Затем загрузите его на сервер в корневой каталог.

Запомните 


  1. Файл robots.txt помогает поисковым роботам индексировать сайт. Закрывайте сайт во время разработки, в остальное время — весь сайт или его часть должны быть открыты. Корректно работающий файл должен отдавать ответ 200. 


  2. Файл создается в обычном текстовом редакторе. Во многих CMS в административной панели предусмотрено создание файла. Следите, чтобы размер не превышал 32 КБ. Размещайте его в корневой директории сайта. 


  3. Заполняйте файл по правилам. Начинайте с кода “User-agent:”. Правила прописывайте блоками, отделяйте их пустой строкой. Соблюдайте принятый синтаксис. 


  4. Разрешайте или запрещайте индексацию всем краулерам или избранным. Для этого укажите название поискового робота или поставьте значок *, который означает «для всех». 


  5. Работайте с разными уровнями доступа: сайтом, страницей, папкой или типом файлов. 


  6. Включите в файл указание на главное зеркало с помощью постраничного 301 редиректа и на карту сайта с помощью директивы sitemap. 


  7. Для анализа robots.txt используйте инструменты для разработчиков. Это Яндекс.Вебмастер и Google Robots Testing Tools. Сначала подтвердите права на сайт, затем сделайте проверку. В Google сразу отредактируйте файл в веб-редакторе и уберите ошибки. Отредактированные файлы не сохраняются автоматически. Загружайте их на сервер вместо первоначального robots.txt. Через неделю проверьте, используют ли поисковики новую версию.

Материал подготовила Светлана Сирвида-Льорентэ.

Как проверить файл robots.txt в Яндекс и Google: пошаговая инструкция

Первым делом необходимо проверить доступность файла robots.txt. Переходим и смотрим его визуально https://robotstxt.ru/robots.txt, открывается ли он.

Дальше нам необходимо проверить его техническую доступность, заходим в сервис проверки ответа сервера Яндекса.

Вводим путь к вашему файлу robots.txt и нажимаем проверить.

Должен отображаться ответ сервера 200. Если вы видите другие цифры, то значит robots.txt не доступен и поисковая система не сможет его прочитать.

Как проверить в Яндекс?

В разработке…

Как проверить в Google?

Благодаря данному инструменту любой вебмастер и оптимизатор может посмотреть, открыты ли в robots.txt конкретные URL и файлы для индексирования роботами поисковой системы Google?

Допустим, на вашем сайте есть картинка, которую вы не желаете видеть в результатах выдачи Гугла по картинкам. В инструменте Robots Testing Tool вы узнаете, закрыт ли доступ к изображению боту Googlebot-Image.

Здесь нужно прописать URL-адрес, по которому располагается изображение. Далее
инструмент обработает robots.txt таким же способом, что и
робот Гугла по картинкам, чтобы выяснить, запрещен ли указанный УРЛ для
индексирования.

Инструкция по проверке

  1. Зайдите в Google Search Console и укажите свой сайт.
  2. Выберите инструмент проверки и проверьте инструкции, прописанные в файле Robots. Любые логические и синтаксические ошибки будут подчеркнуты, а их общее количество можно узнать внизу окна редактирования.
  3. В самом низу страницы найдите поле, предназначенное для указания необходимого URL-адреса.
  4. В меню, которое откроется справа, выберите бота.
  5. Кликните “Проверить”.
  6. После проверки инструмент покажет статус адреса: “Доступен” либо “Недоступен”. Если статус “Доступен”, значит роботам Гугла не запрещено включать в поиск изображение, а если “Недоступен”, то картинка не будет участвовать в поиске.
  7. Если нужно, сделайте необходимые исправления в меню и проверьте роботс снова. Имейте ввиду, что все изменения не вносятся в файл robots.txt вашего веб-ресурса автоматически.
  8. Сделайте копию измененного содержания и вставьте ее в robots на вашем сервере.

Что нужно знать

  1. Никакие изменения в редакторе не сохраняются на
    сервере в автоматическом режиме. Нужно скопировать измененный код и внести его
    в файл роботс.
  2. Инструмент для проверки Robots показывает
    результаты только для юзер-агентов Google и роботов данной поисковой системы.
    При этом сотрудники компании не могут давать никаких гарантий, что роботы
    других поисковиков будут учитывать содержание файла так же, как и Гугл.

Как отправить измененный robots.txt в
Google?

В инструменте проверки роботса есть кнопка “Проверить”,
благодаря которой ускоряется обход и включение в индекс нового robots.txt. Для передачи его в поисковую
систему Google необходимо:

1. В правом нижнем углу редактора файла Robots кликнуть на
кнопку “Проверить”. Так вы откроете диалоговое окно передачи.

2. Для выгрузки из инструмента кода файла, который был
изменен, нажмите кнопку “Загрузить”.

3. Загрузите новый Robots в корневую папку сайта. Необходимо, чтобы URL файла
выглядел следующим образом: /robots.txt.

На заметку. Если у вас нет доступа к админке, из-за чего нет возможности загружать файлы в корневой каталог домена, свяжитесь с его администратором.

Допустим, главная страница вашего веб-ресурса находится по
адресу subdomain.site.ru/site/example.
Тогда есть вероятность, что вы не сможете обновить файл robots, расположенный по адресу subdomain.site.ru/robots.txt.
Тогда напишите владельцу домена с просьбой изменить файл.

4. Нажмите “Проверить”. Так вы узнаете, применяется ли новая
версия Robots, которую
вы хотите, чтобы роботы просканировали.

5. Кликните “Отправить в Google” для отправки поисковой машине сигнала, что файл был изменен
и его необходимо проверить.

6. Удостоверьтесь в том, что измененный файл был успешно
проверен роботами. Для этого необходимо обновить страницу “Инструмент проверки
файла robots.txt”. После этого обновится
окно редактирование, где отобразится новый код файла. В меню, открывающемся над
текстовым редактором, вы узнаете, когда Googlebot первый раз увидел актуальную
версию роботса.

Заключение

Следуя инструкциям выше, вы будете уверены в том, что настроили
Robots.txt правильно
и поисковые системы сканируют файл так, как вам нужно.

Я всегда стараюсь следить за актуальностью информации на сайте, но могу пропустить ошибки, поэтому буду благодарен, если вы на них укажете. Если вы нашли ошибку или опечатку в тексте, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.

Что такое robots.txt и зачем вообще нужен индексный файл

Файл robots.txt вместе с xml-картой несёт, пожалуй, самую важную информацию о ресурсе: он показывает роботам поисковых систем, как именно «читать» сайт, какие страницы важны, а какие следует пропустить. Еще robots.txt — первая страница, на которую стоит смотреть, если на сайт внезапно упал трафик.

Что за роботс ти экс ти?

Файл robots.txt или индексный файл — обычный текстовый документ в кодировке UTF-8, действует для протоколов http, https, а также FTP. Файл дает поисковым роботам рекомендации: какие страницы/файлы стоит сканировать. Если файл будет содержать символы не в UTF-8, а в другой кодировке, поисковые роботы могут неправильно их обработать. Правила, перечисленные в файле robots.txt, действительны только в отношении того хоста, протокола и номера порта, где размещен файл.

Файл должен располагаться в корневом каталоге в виде обычного текстового документа и быть доступен по адресу: https://site.com.ua/robots.txt.

В других файлах принято ставить отметку ВОМ (Byte Order Mark). Это Юникод-символ, который используется для определения последовательности в байтах при считывании информации. Его кодовый символ — U+FEFF. В начале файла robots.txt отметка последовательности байтов игнорируется.

Google установил ограничение по размеру файла robots.txt — он не должен весить больше 500 Кб.

Ладно, если вам интересны сугубо технические подробности, файл robots.txt представляет собой описание в форме Бэкуса-Наура (BNF). При этом используются правила RFC 822.

При обработке правил в файле robots.txt поисковые роботы получают одну из трех инструкций:

  • частичный доступ: доступно сканирование отдельных элементов сайта;
  • полный доступ: сканировать можно все;
  • полный запрет: робот ничего не может сканировать.

При сканировании файла robots.txt роботы получают такие ответы:

  • 2xx — сканирование прошло удачно;
  • 3xx — поисковый робот следует по переадресации до тех пор, пока не получит другой ответ. Чаще всего есть пять попыток, чтобы робот получил ответ, отличный от ответа 3xx, затем регистрируется ошибка 404;
  • 4xx — поисковый робот считает, что можно сканировать все содержимое сайта;
  • 5xx — оцениваются как временные ошибки сервера, сканирование полностью запрещается. Робот будет обращаться к файлу до тех пор, пока не получит другой ответ.Поисковый робот Google может определить, корректно или некорректно настроена отдача ответов отсутствующих страниц сайта, то есть, если вместо 404 ошибки страница отдает ответ 5xx, в этом случае страница будет обрабатываться с кодом ответа 404.

Пока что неизвестно, как обрабатывается файл robots.txt, который недоступен из-за проблем сервера с выходом в интернет.

Зачем нужен файл robots.txt

Например, иногда роботам не стоит посещать:

  • страницы с личной информацией пользователей на сайте;
  • страницы с разнообразными формами отправки информации;
  • сайты-зеркала;
  • страницы с результатами поиска.

Важно: даже если страница находится в файле robots.txt, существует вероятность, что она появится в выдаче, если на неё была найдена ссылка внутри сайта или где-то на внешнем ресурсе.

Так роботы поисковых систем видят сайт с файлом robots.txt и без него:

Без robots.txt та информация, которая должна быть скрыта от посторонних глаз, может попасть в выдачу, а из-за этого пострадаете и вы, и сайт.

Так робот поисковых систем видит файл robots.txt:

Google обнаружил файл robots.txt на сайте и нашел правила, по которым следует сканировать страницы сайта

Как создать файл robots.txt

С помощью блокнота, Notepad, Sublime, либо любого другого текстового редактора.

В содержании файла должны быть прописаны инструкция User-agent и правило Disallow, к тому же есть еще несколько второстепенных правил.

User-agent — визитка для роботов

User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в файле robots.txt. На данный момент известно 302 поисковых робота. Чтобы не прописывать всех по отдельности, стоит использовать запись:

Она говорит о том, что мы указываем правила в robots.txt для всех поисковых роботов.

Для Google главным роботом является Googlebot. Если мы хотим учесть только его, запись в файле будет такой:

В этом случае все остальные роботы будут сканировать контент на основании своих директив по обработке пустого файла robots.txt.

Для Yandex главным роботом является… Yandex:

Другие специальные роботы:

  • Mediapartners-Google — для сервиса AdSense;
  • AdsBot-Google — для проверки качества целевой страницы;
  • YandexImages — индексатор Яндекс.Картинок;
  • Googlebot-Image — для картинок;
  • YandexMetrika — робот Яндекс.Метрики;
  • YandexMedia — робот, индексирующий мультимедийные данные;
  • YaDirectFetcher — робот Яндекс.Директа;
  • Googlebot-Video — для видео;
  • Googlebot-Mobile — для мобильной версии;
  • YandexDirectDyn — робот генерации динамических баннеров;
  • YandexBlogs — робот поиск по блогам, индексирующий посты и комментарии;
  • YandexMarket— робот Яндекс.Маркета;
  • YandexNews — робот Яндекс.Новостей;
  • YandexDirect — скачивает информацию о контенте сайтов-партнеров Рекламной сети, чтобы уточнить их тематику для подбора релевантной рекламы;
  • YandexPagechecker — валидатор микроразметки;
  • YandexCalendar — робот Яндекс.Календаря.

Disallow — расставляем «кирпичи»

Disallow дает рекомендацию, какую именно информацию не стоит сканировать.

Такая запись открывает для сканирования весь сайт:

А эта запись говорит о том, что абсолютно весь контент на сайте запрещен для сканирования:

Ее стоит использовать, если сайт находится в процессе доработок, и вы не хотите, чтобы он в нынешнем состоянии засветился в выдаче.

Важно снять это правило, как только сайт будет готов к тому, чтобы его увидели пользователи. К сожалению, об этом забывают многие вебмастера.

Пример. Как прописать правило Disallow, чтобы дать рекомендации роботам не просматривать содержимое папки /papka/:

Чтобы роботы не сканировали конкретный URL:

Чтобы роботы не сканировали конкретный файл:

Чтобы роботы не сканировали все файлы определенного разрешения на сайте:

Данная строка запрещает индексировать все файлы с расширением .gif

Allow — направляем роботов

Allow разрешает сканировать какой-либо файл/директиву/страницу. Допустим, необходимо, чтобы роботы могли посмотреть только страницы, которые начинались бы с /catalog, а весь остальной контент закрыть. В этом случае прописывается следующая комбинация:

Правила Allow и Disallow сортируются по длине префикса URL (от меньшего к большему) и применяются последовательно. Если для страницы подходит несколько правил, робот выбирает последнее правило в отсортированном списке.

Host — выбираем зеркало сайта

Host — одно из обязательных для robots.txt правил, оно сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.

Зеркало сайта — точная или почти точная копия сайта, доступная по разным адресам.

Робот не будет путаться при нахождении зеркал сайта и поймет, что главное зеркало указано в файле robots.txt. Адрес сайта указывается без приставки «http://», но если сайт работает на HTTPS, приставку «https://» указать нужно.

Как необходимо прописать это правило:

Пример файла robots.txt, если сайт работает на протоколе HTTPS:

Sitemap — медицинская карта сайта

Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу http://site.ua/sitemap.xml. При каждом обходе робот будет смотреть, какие изменения вносились в этот файл, и быстро освежать информацию о сайте в базах данных поисковой системы.

Инструкция должна быть грамотно вписана в файл:

Crawl-delay — секундомер для слабых серверов

Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта. Данное правило актуально, если у вас слабый сервер. В таком случае возможны большие задержки при обращении поисковых роботов к страницам сайта. Этот параметр измеряется в секундах.

Clean-param — охотник за дублирующимся контентом

Clean-param помогает бороться с get-параметрами для избежания дублирования контента, который может быть доступен по разным динамическим адресам (со знаками вопроса). Такие адреса появляются, если на сайте есть различные сортировки, id сессии и так далее.

Допустим, страница доступна по адресам:

www.site.com/catalog/get_phone.ua?ref=page_1&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_2&phone_id=1

www.site.com/catalog/get_phone.ua?ref=page_3&phone_id=1

В таком случае файл robots.txt будет выглядеть так:

Здесь ref указывает, откуда идет ссылка, поэтому она записывается в самом начале, а уже потом указывается остальная часть адреса.

Но прежде чем перейти к эталонному файлу, необходимо еще узнать о некоторых знаках, которые применяются при написании файла robots.txt.

Символы в robots.txt

Основные символы файла —  «/, *, $, #».

С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами. Например, если стоит один слеш в правиле Disallow, мы запрещаем сканировать весь сайт. С помощью двух знаков слэш можно запретить сканирование какой-либо отдельной директории, например: /catalog/.

Такая запись говорит, что мы запрещаем сканировать все содержимое папки catalog, но если мы напишем /catalog, запретим все ссылки на сайте, которые будут начинаться на /catalog.

Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.

Эта запись говорит, что все роботы не должны индексировать любые файлы с расширением .gif в папке /catalog/

Знак доллара «$» ограничивает действия знака звездочки. Если необходимо запретить все содержимое папки catalog, но при этом нельзя запретить урлы, которые содержат /catalog, запись в индексном файле будет такой:

Решетка «#» используется для комментариев, которые вебмастер оставляет для себя или других вебмастеров. Робот не будет их учитывать при сканировании сайта.

Например:

Как выглядит идеальный robots.txt

Такой файл robots.txt можно разместить почти на любом сайте:

Файл открывает содержимое сайта для индексирования, прописан хост и указана карта сайта, которая позволит поисковым системам всегда видеть адреса, которые должны быть проиндексированы. Отдельно прописаны правила для Яндекса, так как не все роботы понимают инструкцию Host.

Но не спешите копировать содержимое файл к себе — для каждого сайта должны быть прописаны уникальные правила, которые зависит от типа сайта и CMS. поэтому тут стоит вспомнить все правила при заполнении файла robots.txt.

Как проверить файл robots.txt

Если хотите узнать, правильно ли заполнили файл robots.txt, проверьте его в инструментах вебмастеров Google и Яндекс. Просто введите исходный код файла robots.txt в форму по ссылке и укажите проверяемый сайт.

Как не нужно заполнять файл robots.txt

Часто при заполнении индексного файла допускаются досадные ошибки, причем они связаны с обычной невнимательностью или спешкой. Чуть ниже — чарт ошибок, которые я встречала на практике.

1. Перепутанные инструкции:

Правильный вариант:

2. Запись нескольких папок/директорий в одной инструкции Disallow:

Такая запись может запутать поисковых роботов, они могут не понять, что именно им не следует индексировать: то ли первую папку, то ли последнюю, — поэтому нужно писать каждое правило отдельно.

3. Сам файл должен называться только robots.txt, а не Robots.txt, ROBOTS.TXT или как-то иначе.

4. Нельзя оставлять пустым правило User-agent — нужно сказать, какой робот должен учитывать прописанные в файле правила.

5. Лишние знаки в файле (слэши, звездочки).

6. Добавление в файл страниц, которых не должно быть в индексе.

Нестандартное применение robots.txt

Кроме прямых функций индексный файл может стать площадкой для творчества и способом найти новых сотрудников.

Вот сайт, в котором robots.txt сам является маленьким сайтом с рабочими элементами и даже рекламным блоком.

Хотите что-то поинтереснее? Ловите ссылку на robots.txt со встроенной игрой и музыкальным сопровождением.

Многие бренды используют robots.txt, чтобы еще раз заявить о себе:

В качестве площадки для поиска специалистов файл используют в основном SEO-агентства. А кто же еще может узнать о его существовании? 🙂

А у Google есть специальный файл humans.txt, чтобы вы не допускали мысли о дискриминации специалистов из кожи и мяса.

Когда у вебмастера появляется достаточно свободного времени, он часто тратит его на модернизацию robots.txt:

Хотите, чтобы все страницы вашего сайта заходили в индекс быстро? Мы выберем для вас оптимальную стратегию SEO-продвижения:

{«0»:{«lid»:»1531306243545″,»ls»:»10″,»loff»:»»,»li_type»:»nm»,»li_name»:»name»,»li_ph»:»Имя»,»li_req»:»y»,»li_nm»:»name»},»1″:{«lid»:»1573230091466″,»ls»:»20″,»loff»:»»,»li_type»:»ph»,»li_name»:»phone»,»li_req»:»y»,»li_masktype»:»a»,»li_nm»:»phone»},»2″:{«lid»:»1573567927671″,»ls»:»30″,»loff»:»y»,»li_type»:»in»,»li_name»:»surname»,»li_ph»:»Фамилия»,»li_req»:»y»,»li_nm»:»surname»},»3″:{«lid»:»1531306540094″,»ls»:»40″,»loff»:»»,»li_type»:»in»,»li_name»:»domains»,»li_ph»:»Адрес сайта»,»li_rule»:»url»,»li_req»:»y»,»li_nm»:»domains»},»4″:{«lid»:»1573230077755″,»ls»:»50″,»loff»:»»,»li_type»:»em»,»li_name»:»email»,»li_ph»:»Email»,»li_req»:»y»,»li_nm»:»email»},»5″:{«lid»:»1575903646714″,»ls»:»60″,»loff»:»»,»li_type»:»hd»,»li_name»:»comment»,»li_value»:»Автоматический коммент: заявка из блога, без пользовательского комментария»,»li_nm»:»comment»},»6″:{«lid»:»1575903664523″,»ls»:»70″,»loff»:»»,»li_type»:»hd»,»li_name»:»lead_channel_id»,»li_value»:»24″,»li_nm»:»lead_channel_id»},»7″:{«lid»:»1584374224865″,»ls»:»80″,»loff»:»»,»li_type»:»hd»,»li_name»:»ip»,»li_nm»:»ip»},»8″:{«lid»:»1609939359940″,»ls»:»90″,»loff»:»»,»li_type»:»hd»,»li_name»:»post_id»,»li_nm»:»post_id»}}

Хочу PR-статью в Netpeak Journal

Выводы

С помощью Robots.txt вы сможете задавать инструкции поисковым роботам, рекламировать себя, свой бренд, искать специалистов. Это большое поле для экспериментов. Главное, помните о грамотном заполнении файла и типичных ошибках.

Правила, они же директивы, они же инструкции файла robots.txt:

  1. User-agent — правило о том, каким роботам необходимо просмотреть инструкции, описанные в robots.txt.
  2. Disallow дает рекомендацию, какую именно информацию не стоит сканировать.
  3. Sitemap сообщает роботам, что все URL сайта, обязательные для индексации, находятся по адресу http://site.ua/sitemap.xml.
  4. Crawl-delay — параметр, с помощью которого можно задать период, через который будут загружаться страницы сайта.
  5. Host сообщает роботу Яндекса, какое из зеркал сайта стоит учитывать для индексации.
  6. Allow разрешает сканировать какой-либо файл/директиву/страницу.
  7. Clean-param помогает бороться с get-параметрами для избежания дублирования контента.

Знаки при составлении robots.txt:

  1. Знак доллара «$» ограничивает действия знака звездочки.
  2. С помощью слэша «/» мы показываем, что хотим закрыть от обнаружения роботами.
  3. Звездочка «*» означает любую последовательность символов в файле. Она ставится после каждого правила.
  4. Решетка «#» используется, чтобы обозначить комментарии, которые пишет вебмастер для себя или других вебмастеров.

Используйте индексный файл с умом — и сайт всегда будет в выдаче.

Инструменты проверки файла robots.txt | www.wordpress-abc.ru

Вступление

Если у вас есть желание закрыть некоторые материалы своего сайта от поисковых и других ботов, используется три метода:

Во-первых, создаётся файл robots.txt в котором специальными записями закрываются/открываются части контента. Важно, что файл robots.txt запрещает роботам сканировать URL сайта;

Во-вторых, на HTML(XHTML) страницах или в HTTP заголовке прописывается мета–тег robots с атрибутами noindex (не показывает страницу в поиске) и/или nofollow (не разрешает боту обходить ссылки страницы). Синтаксис мета тега robots:

<meta name="robots" content="noindex, nofollow" />

Важно, что мета–тег robots работает, если есть доступ ботов к сканированию страниц, где мета тег прописан. То есть они не закрыты файлом robots.txt.

В-третьих, можно создавать закрытые разделы сайта.

При составлении файла robots.txt полезно проверять правильность его составления. Для этого предлагаю посмотреть следующие инструменты проверки файла robots.txt.

Инструменты проверки файла robots.txt

Напомню, что в классическом варианте в файле robots.txt создаются отдельные директивы для агента пользователя Yandex (user-agent: yandex) и других поисковых ботов сети, включая Googleboot (user-agent: *).

Инструмент проверки №1

Google в возможностях Searh Console оставил инструмент проверки файла robots.txt. Вот ссылка на него: https://www.google.com/webmasters/tools/robots-testing-tool

Вот скрин:

Для использования инструмента вам нужно зарегистрироваться инструментах веб–мастеров Google и добавить в них свой ресурс (сайт). Если вы всё это сделали, просто выберете сайт для проверки.

После выбора сайту откроется инструмент проверки файла robots.txt. Внизу читаем ошибки и предупреждения. Если их нет, то смотрим ещё ниже и видим сам инструмент проверки.

В форме проверки указываете проверяемый URL, выбираете бота Google (по умолчанию Googleboot) и жмёте кнопку «Проверить».

Результат проверки будет показан на этой же станице в виде зелёной надписи «Доступен» или красной надписи «Не доступен». Всё просто и понятно.

Инструмент проверки №2

По логике составления файла robots.txt о которой я напомнил выше, такой же инструмент проверки должен быть в веб–инструментах Яндекс для ботов Yandex. Смотрим. Действительно, в вашем аккаунте Яндекс Веб–мастер выбираете заранее добавленный ресурс (свой сайт).

В меню «Инструменты» есть вкладка «Анализ robots.txt», где проверяется весь файл robots на ошибки и проверяются отдельные URL сайта на закрытие в файле robots.

Независимые инструменты проверки файла robots.txt

Встаёт логичный вопрос, можно ли проверить файл robots.txt и его работу независимо от инструментов веб мастеров? Наверняка можно.

Во-первых, чтобы просмотреть доступность своего файла robots впишите в браузер его адрес. Он должен открыться и нормально читаться. Проверку можно сделать в нескольких браузерах.

Адрес файла должен быть:

http(s)://ваш_домен/robots.txt

Во-вторых, используйте для проверки файла следующие инструменты:

Websiteplanet.com

https://www.websiteplanet.com/ru/webtools/robots-txt/

Дотошный инструмент, выявляет ошибки и предупреждения, которые не показывают сами боты.

Seositecheckup.com

https://seositecheckup.com/tools/robotstxt-test

Англоязычный инструмент проверки файла robots.txt на ошибки. Регистрация не требуется. Хотя навязывается сервисом. Результаты в виде диаграммы.

Стоит отметить, что с июня сего года (2019) правила для составления файла robots.txt стали стандартом и распространяются на всех ботов. Так что выявленные ошибки для бота Google, будут ошибками и для бота Yandex.

Technicalseo.com

https://technicalseo.com/tools/robots-txt/

Протестируйте и подтвердите ваш robots.txt с помощью этого инструмента тестирования. Проверьте, заблокирован ли URL-адрес, какой оператор его блокирует и для какого агента пользователя. Вы также можете проверить, запрещены ли ресурсы для страницы (CSS, JavaScript, IMG).

en.ryte.com

https://en.ryte.com/free-tools/robots-txt/

Просто вписывает адрес своего файла и делаете проверку. Показывает предупреждения по синтаксису файла.

Вывод про инструменты проверки файла robots.txt

По-моему, лучшие инструменты проверки файла robots.txt находятся в инструментах веб–мастеров. Они ближе к источнику и более чувствительны к изменениям правил.

Кстати, есть проверка файла robots.txt в инструментах веб–мастеров Mail поисковика (https://webmaster.mail.ru/) и была у поисковика Bing.

Еще статьи

Похожие посты:

Похожее

Файл Robots txt — настройка, как создать и проверить: пример robots txt на сайте, директивы

Текстовый файл, записывающий специальные инструкции для поискового робота, ограничивающие доступ к содержимому на http сервере, находящийся в корневой директории веб-сайта и имеющий путь относительно имени самого сайта (/robots.txt ).

Robots.txt — как создать правильный файл robots.txt

Файл robots.txt позволяет управлять индексацией вашего сайта. Закрыть какой-либо раздел можно директивой disallow, открыть — allow. Проверка и анализ robots.txt.

Выгрузить в xls, файл, индексация, сайт, директива, яндекс, настройка, запрет, проверка, пример, генератор, анализ, страница, правильный, закрыть, создать, добавить, проверить, задать, запретить, сделать, robots, txt, host, закрытый, где, disallow

Robots.txt — текстовый файл, содержащий инструкции для поисковых роботов, как нужно индексировать сайт.

Почему важно создавать файл robots.txt для сайта

В 2011 году случилось сразу несколько громких скандалов, связанных с нахождением в поиске Яндекса нежелательной информации.

Сначала в выдаче Яндекса оказалось более 8 тысяч SMS-сообщений, отправленных пользователями через сайт компании «МегаФон». В результатах поиска отображались тексты сообщений и телефонные номера, на которые они были отправлены.

Заместитель генерального директора «МегаФона» Валерий Ермаков заявил, что причиной публичного доступа к данным могло стать наличие у клиентов «Яндекс.Бара», который считывал информацию и отправлял поисковому роботу Яндекса.

У Яндекса было другое объяснение:

«Еще раз можем подтвердить, что страницы с SMS с сайта МегаФона были публично доступны всем поисковым системам… Ответственность за размещение информации в открытом доступе лежит на том, кто её разместил или не защитил должным образом…


Особо хотим отметить, что никакие сервисы Яндекса не виноваты в утечке данных с сайта МегаФона. Ни Яндекс.Бар, ни Яндекс.Метрика не скачивают содержимое веб-страниц. Если страница закрыта для индексации в файле robots.txt или защищена логином и паролем, то она недоступна и поисковым роботам, то есть информация, размещенная на ней, никогда не окажется в какой-либо поисковой системе».

Вскоре после этого пользователи нашли в Яндексе несколько тысяч страниц со статусами заказов в онлайн-магазинах книг, игр, секс-товаров и т.д. По ссылкам с результатов поиска можно было увидеть ФИО, адрес и контактные данные клиента магазина, IP-адрес, наименование его покупки, дату и время заказа. И снова причиной утечки стал некорректно составленный (или вообще отсутствующий) файл robots.txt.

Чтобы не оказаться в подобных ситуациях, лучше заранее составить правильный robots.txt файл для сайта. Как сделать robots.txt в соответствии с рекомендациями поисковых систем, расскажем ниже.

Как создать robots.txt для сайта

Настройка robots.txt начинается с создания текстового файла с именем «robots.txt». После заполнения этот файл нужно будет сохранить в корневом каталоге сайта, поэтому лучше заранее проверить, есть ли к нему доступ.

Основные директивы robots.txt

В простейшем файле robots.txt используются следующие директивы:

  • User-agent

  • Disallow

  • Allow

Директива User-agent

Здесь указываются роботы, которые должны следовать указанным инструкциям. Например, User-agent: Yandex означает, что команды будут распространяться на всех роботов Яндекса. User-agent: YandexBot – только на основного индексирующего робота. Если в данном пункте мы поставим *, правило будет распространяться на всех роботов.

Директива Disallow

Эта команда сообщает роботу user-agent, какие URL не нужно сканировать. При составлении файла robots.txt важно помнить, что эта директива будет относиться только к тем роботам, которые были перед этим указаны в директиве user-agent. Если подразумеваются разные запреты для разных роботов, то в файле нужно указать отдельно каждого робота и директиву disallow для него.

Как закрыть части сайта с помощью директивы Disallow:

  • Если нужно закрыть от сканирования весь сайт, необходимо использовать косую черту (/): Disallow: /

  • Если нужно закрыть от сканирования каталог со всем его содержимым, необходимо ввести его название и косую черту в конце: Disallow: /events/

  • Если нужно закрыть страницу, необходимо указать название страницы после косой черты: Disallow: /file.html

Директива Allow

Разрешает роботу сканировать сайт или отдельные URL.

В примере ниже robots.txt запрещает роботам Яндекса сканировать весь сайт за исключением страниц, начинающихся с «events»:

User-agent: Yandex

Allow: /events

Disallow: /

Спецсимволы в директивах

Для директив Allow и Disallow используются спецсимволы «*» и «$».

  • Звездочка (*) подразумевает собой любую последовательность символов. Например, если нужно закрыть подкаталоги, начинающиеся с определенных символов: Disallow: /example*/

  • По умолчанию символ * ставится в конце каждой строки. Если нужно закончить строку определенным символом, используется спецсимвол $. Например, если нужно закрыть URL, заканчивающиеся на doc: Disallow: /*.doc$

  • Спецсимвол # используется для написания комментариев и не учитывается роботами.

Дополнительные директивы robots.txt

Директива Host

Директива Host в robots.txt используется, чтобы указать роботу на главное зеркало сайта.

Пример:

https://www.glavnoye-zerkalo.ru является главным зеркалом сайта, и для всех сайтов из группы зеркал необходимо прописать в robots.txt:

User-Agent: *

Disallow: /forum

Disallow: /cgi-bin

Host: https://www.glavnoye-zerkalo.ru

Правила использования директивы Host:

  • В файле robots.txt может быть только одна директива Host. Робот всегда ориентируется на первую директиву, даже если их указано несколько.

  • Если зеркало доступно по защищенному каналу, нужно добавить протокол HTTPS,

  • Должно быть указано одно доменное имя и номер порта в случае необходимости.

Если директива Host прописана неправильно, роботы ее проигнорируют.

Директива Crawl-delay

Директива Crawl-delay задает для робота промежуток времени, с которым он должен загружать страницы. Пригодится в случае сильной нагрузки на сервер.

Например, если нужно задать промежуток в 3 секунды между загрузкой страниц:

User-agent: *

Disallow: /search

Crawl-delay: 3

Директива Clean-param

Пригодится для сайтов, страницы которых содержат динамические параметры, которые не влияют на их содержимое (например, идентификаторы сессий). Директива позволяет роботам не перезагружать дублирующуюся информацию, что положительно сказывается на нагрузке на сервер.

Использование кириллицы

При составлении файла robots.txt нельзя использовать кириллические символы. Допускается использование Punycode для доменов.

Как проверить robots.txt

Для проверки файла robots.txt можно использовать Яндекс.Вебмастер (Анализ robots.txt) или Google Search Console (Инструмент проверки файла Robots.txt).

Как добавить файл robots.txt на сайт

Как только файл robots.txt написан и проверен, его нужно сохранить в виде текстового файла с названием robots.txt и загрузить в каталог верхнего уровня сайта или в корневой каталог.

Средство проверки и тестирования Robots.txt

Файл robots.txt

Файл robots.txt — это простой текстовый файл, используемый для информирования робота Googlebot о том, какие области домена могут сканироваться сканером поисковой системы, а какие нет. Кроме того, ссылку на карту сайта XML также можно включить в файл robots.txt. Прежде чем бот поисковой системы начнет индексировать , он сначала ищет в корневом каталоге файл robots.txt и считывает указанные там спецификации.Для этого текстовый файл необходимо сохранить в корневом каталоге домена и присвоить ему имя: robots.txt .

Файл robots.txt можно просто создать с помощью текстового редактора. Каждый файл состоит из двух блоков. Сначала указывается пользовательский агент, к которому должна применяться инструкция, затем следует команда «Disallow», после которой перечисляются URL-адреса, которые должны быть исключены из сканирования. Пользователь должен всегда проверять правильность файла robots.txt перед его загрузкой в ​​корневой каталог веб-сайта.Даже малейшая ошибка может привести к тому, что бот проигнорирует спецификации и, возможно, включит страницы, которые не должны отображаться в индексе поисковой системы.

Этот бесплатный инструмент от Ryte позволяет протестировать файл robots.txt. Вам нужно только ввести соответствующий URL-адрес и выбрать соответствующий пользовательский агент. При нажатии на «Начать тест» инструмент проверяет, разрешено ли сканирование по указанному вами URL. Вы также можете использовать Ryte FREE для тестирования многих других факторов на своем веб-сайте! Вы можете анализировать и оптимизировать до 100 URL-адресов с помощью Ryte FREE.Просто нажмите здесь, чтобы получить БЕСПЛАТНУЮ учетную запись »

Самая простая структура файла robots.txt выглядит следующим образом:

Пользовательский агент: * Disallow:

Этот код разрешает роботу Googlebot сканировать все страницы. Чтобы бот не сканировал весь веб-сайт, вы должны добавить в файл robots.txt следующее:

Пользовательский агент: * Disallow: /

Пример: Если вы хотите запретить сканирование каталога / info / роботом Googlebot, вы должны ввести следующую команду в файле robots.txt файл:

Пользовательский агент: Googlebot Disallow: / info /

Более подробную информацию о файле robots.txt можно найти здесь:

БЕСПЛАТНЫЙ онлайн-инструмент, 100% точность [2021]

Что такое инструмент проверки и проверки Robots.txt?
Инструмент проверки Robots.txt предназначен для проверки того, что ваш файл robots.txt является точным и не содержит ошибок. Robots.txt — это файл, который является частью вашего веб-сайта и который предоставляет правила индексации для роботов поисковых систем, чтобы обеспечить правильное сканирование (и индексирование) вашего веб-сайта, а также то, что наиболее важные данные на вашем веб-сайте индексируются в первую очередь.
Этот инструмент прост в использовании и предоставляет отчет за секунды — просто введите полный URL-адрес веб-сайта, за которым следует /robots.txt (например, yourwebsite.com/robots.txt) и нажмите кнопку «Проверить». Наша программа проверки robots.txt обнаружит любые ошибки (например, опечатки, синтаксические и «логические» ошибки) и даст вам советы по оптимизации файла robots.txt.

Почему мне нужно проверять мой файл Robots.txt?
Проблемы с файлом robots.txt — или отсутствие файла robots.txt — могут негативно повлиять на ваши показатели SEO, ваш веб-сайт может не так хорошо ранжироваться на страницах результатов поисковых систем (SERP).Это связано с риском того, что нерелевантный контент будет сканироваться до или вместо важного контента.
Проверка файла перед сканированием вашего веб-сайта означает, что вы можете избежать таких проблем, как сканирование и индексирование всего содержимого вашего веб-сайта, а не только страниц, которые вы хотите проиндексировать. Например, если у вас есть страница, к которой вы хотите, чтобы посетители открывали доступ только после заполнения формы подписки, или страницу входа участника, но не исключите ее из файла robot.txt, она может быть проиндексирована.

Что означают ошибки и предупреждения?
Существует ряд ошибок, которые могут повлиять на ваш файл robots.txt, а также некоторые «рекомендуемые» предупреждения, которые вы можете увидеть при проверке файла. Это вещи, которые могут повлиять на ваше SEO и должны быть исправлены. Предупреждения менее важны и служат советом по улучшению файла robots.txt.
Ошибки, которые вы можете увидеть, включают:
Недействительный URL-адрес — Вы увидите эту ошибку, если ваш файл robots.txt полностью отсутствует
Возможная ошибка с подстановочными знаками — Хотя технически это предупреждение, а не ошибка, если вы видите это сообщение, это обычно потому, что ваш файл robots.txt файл содержит подстановочный знак (*) в поле Disallow (например, Disallow: /*.rss). Это рекомендуемая практика — Google разрешает использование подстановочных знаков в поле Disallow, но это не рекомендуется.
Общие и определенные пользовательские агенты в одном блоке кода — это синтаксическая ошибка в вашем файле robots.txt, и ее следует исправить, чтобы избежать проблем со сканированием вашего веб-сайта.
Вы можете увидеть следующие предупреждения:
Allow: / — Использование разрешающего порядка не нанесет ущерба вашему рейтингу или не повлияет на ваш сайт, но это не стандартная практика.Основные роботы, включая Google и Bing, будут принимать эту директиву, но не все сканеры — и, вообще говоря, лучше всего сделать ваш файл robots.txt совместимым со всеми поисковыми роботами, а не только с большими.
Использование заглавных букв в имени поля — Хотя имена полей не обязательно чувствительны к регистру, некоторые поисковые роботы могут требовать использования заглавных букв, поэтому рекомендуется использовать заглавные буквы в именах полей для определенных пользовательских агентов.
Поддержка карты сайта — Многие файлы robots.txt содержат подробную информацию карты сайта для веб-сайта, но это не считается оптимальной практикой.Однако Google и Bing поддерживают эту функцию.

Как исправить ошибки в файле Robots.txt?
Исправление ошибок в файле robots.txt зависит от используемой вами платформы. Если вы используете WordPress, рекомендуется использовать такой плагин, как WordPress Robots.txt Optimization или Robots.txt Editor. Если вы подключите свой веб-сайт к консоли поиска Google, вы также сможете редактировать там файл robots.txt.
Некоторые конструкторы веб-сайтов, такие как Wix, не позволяют напрямую редактировать файл robots.txt, но позволяют добавлять теги без индексации для определенных страниц.

Инструмент для тестирования

Robots.txt — Screaming Frog

Как протестировать Robots.txt с помощью SEO Spider

Файл robots.txt используется для передачи роботам инструкций о том, какие URL-адреса можно сканировать на веб-сайте. Все основные боты поисковых систем соответствуют стандарту исключения роботов и будут читать и подчиняться инструкциям файла robots.txt, прежде чем получать любые другие URL-адреса с веб-сайта.

Команды можно настроить для применения к конкретным роботам в соответствии с их пользовательским агентом (например, «Googlebot») и наиболее распространенной директивой, используемой в файле robots.txt — это «запрет», который запрещает роботу обращаться к URL-пути.

Вы можете просмотреть robots.txt сайтов в браузере, просто добавив /robots.txt в конец субдомена (например, www.screamingfrog.co.uk/robots.txt).

Хотя файлы robots.txt обычно довольно просто интерпретировать, при большом количестве строк, пользовательских агентов, директив и тысяч страниц бывает сложно определить, какие URL-адреса заблокированы, а какие разрешено сканировать. Очевидно, что последствия ошибочной блокировки URL-адресов могут иметь огромное влияние на видимость в результатах поиска.

Здесь тестер robots.txt, такой как Screaming Frog SEO Spider, и его настраиваемая функция robots.txt могут помочь проверить и проверить сайт robots.txt тщательно и в нужном масштабе.

Прежде всего, вам необходимо загрузить SEO Spider, который в облегченной форме предоставляется бесплатно для сканирования до 500 URL-адресов. Для более продвинутых пользовательских функций robots.txt требуется лицензия.

Вы можете выполнить следующие действия, чтобы протестировать файл robots.txt на сайте, который уже работает.Если вы хотите протестировать директивы robots.txt, которые еще не созданы, или синтаксис отдельных команд для роботов, прочитайте больше о настраиваемых функциях robots.txt в разделе 3 нашего руководства.

1) Сканировать URL или веб-сайт

Откройте SEO Spider, введите или скопируйте сайт, который вы хотите сканировать, в поле «введите URL-адрес для паука» и нажмите «Начать».

Если вы предпочитаете протестировать несколько URL-адресов или карту сайта в формате XML, вы можете просто загрузить их в режиме списка (в разделе «режим> список» на верхнем уровне навигации).

2) Просмотрите вкладку «Коды ответов» и фильтр «Заблокировано Robots.txt»

Запрещенные URL-адреса будут отображаться со статусом «Заблокировано Robots.txt» под фильтром «Заблокировано Robots.txt».

Фильтр «Заблокировано Robots.txt» также отображает столбец «Соответствующая строка Robots.txt», в котором указывается номер строки и запрещающий путь записи robots.txt, исключающей каждый URL из сканирования.

Исходные страницы, ссылающиеся на URL-адреса, запрещенные в robots.txt можно просмотреть, щелкнув вкладку «inlinks», которая заполняет нижнюю панель окна.

Вот более подробный вид нижней панели окна, в которой подробно описаны данные «inlinks» —

Их также можно экспортировать массово с помощью отчета «Массовый экспорт> Коды ответов> Заблокировано встроенными ссылками Robots.txt».

3) Тест с использованием настраиваемого файла Robots.txt

Имея лицензию, вы также можете загружать, редактировать и тестировать robots.txt сайта с помощью настраиваемой функции robots.txt в разделе «Конфигурация> robots.txt> Пользовательский ».

Эта функция позволяет добавлять несколько robots.txt на уровне поддоменов, тестировать директивы в SEO Spider и просматривать URL-адреса, которые заблокированы или разрешены немедленно.

Вы также можете выполнить сканирование и отфильтровать заблокированные URL-адреса на основе обновленного пользовательского файла robots.txt («Коды ответа> Заблокировано файлом robots.txt») и просмотреть соответствующую строку директивы robots.txt.

Пользовательский файл robots.txt использует выбранный пользовательский агент в конфигурации, который можно настроить для тестирования и проверки любых поисковых роботов.

Обратите внимание: изменения, которые вы вносите в robots.txt в SEO Spider, не влияют на ваш действующий robots.txt, загруженный на ваш сервер. Однако, когда вы довольны тестированием, вы можете скопировать содержимое в живую среду.

Как паук SEO подчиняется robots.txt

The Screaming Frog SEO Spider подчиняется robots.txt так же, как и Google. Он проверит robots.txt субдомена (ов) и будет следовать (разрешить / запретить) директивам специально для пользовательского агента Screaming Frog SEO Spider, если не Googlebot, а затем ВСЕХ роботов.

URL-адресов, запрещенных в robots.txt, по-прежнему будут отображаться и «проиндексироваться» в пользовательском интерфейсе со статусом «Заблокировано Robots.txt», они просто не будут сканироваться, поэтому контент и исходящие ссылки страница не будет видна. Отображение внутренних или внешних ссылок, заблокированных robots.txt в пользовательском интерфейсе, можно отключить в настройках robots.txt.

Важно помнить, что URL-адреса, заблокированные в robots.txt, все равно могут индексироваться в поисковых системах, если на них есть внутренние или внешние ссылки.Файл robots.txt просто мешает поисковым системам видеть содержание страницы. Метатег «noindex» (или X-Robots-Tag) — лучший вариант для удаления контента из индекса.

Инструмент поддерживает сопоставление URL значений файлов (подстановочные знаки * / $), как и Googlebot.

Общие примеры Robots.txt

Звездочка рядом с командой «User-agent» (User-agent: *) указывает, что директивы применяются ко ВСЕМ роботам, в то время как определенные боты User-agent также могут использоваться для определенных команд (например, User-agent: Googlebot).

Если команды используются как для всех, так и для определенных пользовательских агентов, то «все» команды будут игнорироваться конкретным ботом пользовательского агента и будут выполняться только его собственные директивы. Если вы хотите, чтобы выполнялись глобальные директивы, вам также необходимо включить эти строки в конкретный раздел User-agent.

Ниже приведены некоторые распространенные примеры директив, используемых в файле robots.txt.

Блокировать всех роботов со всех URL-адресов

Агент пользователя: *
Disallow: /

Заблокировать всех роботов из папки

Пользовательский агент: *
Disallow: / folder /

Блокировать всех роботов по URL-адресу

User-agent: *
Disallow: / a-specific-url.html

Запретить роботу Googlebot со всех URL-адресов

User-agent: Googlebot
Disallow: /

Блокировать и разрешать команды вместе

User-agent: Googlebot
Disallow: /
Allow: / crawl-this /

Если у вас есть конфликтующие директивы (например, разрешить и запретить один и тот же путь к файлу), тогда соответствующая разрешающая директива превосходит совпадающую запрещающую, если она содержит равное или большее количество символов в команде.

Robots.txt Соответствие подстановочных знаков URL

Google и Bing разрешают использование подстановочных знаков в robots.текст. Например, чтобы заблокировать доступ всех поисковых роботов ко всем URL-адресам, содержащим вопросительный знак (?).

Агент пользователя: *
Disallow: / *?

Для соответствия концу URL-адреса можно использовать символ доллара ($). Например, чтобы заблокировать доступ всех сканеров к файлу с расширением .html.

User-agent: *
Disallow: /*.html$

Дополнительную информацию о значениях путей на основе сопоставления URL можно найти в руководстве по спецификациям файла robots.txt Google.

Если у вас есть вопросы по использованию robots.txt в Screaming Frog SEO Spider, тогда, пожалуйста, просто свяжитесь с нашей службой поддержки.

Как проверить и протестировать файл Robots.txt с помощью Python

Файл robots.txt — это текстовый файл с расширением «txt» в корневом каталоге веб-сайта, который сообщает сканеру, какие части веб-объекта могут или не могут быть доступ. Благодаря файлам «robots.txt» владельцы веб-сайтов могут управлять сканерами поисковых систем, чтобы они могли индексировать только необходимую информацию на своем веб-сайте.Кроме того, они могут управлять эффективностью сканирования и бюджетом сканирования. Любая ошибка в файле Robots.txt может смертельно повлиять на SEO-проект. Таким образом, проверка файла Robots.txt на предмет различных типов путей и URL-адресов очень важна. В этой статье мы увидим, как проверить файл robots.txt для различных типов пользовательских агентов и URL-адресов с помощью Python и Advertools.

Если у вас недостаточно информации, прежде чем продолжить, вы можете прочитать наши соответствующие правила.

В нашем руководстве мы будем использовать Advertools, еще одну библиотеку Python, специально ориентированную на SEO, SEM и анализ текста для цифрового маркетинга.Прежде чем продолжить, я рекомендую вам подписаться на Элиаса Даббаса, создателя Advertools в твиттере.

Как выполнить тест файла Robots.txt через Python?

В нашей последней статье о Python и SEO, связанной с анализом Robots.txt, мы использовали для сравнения файлы robots.txt «Вашингтон Пост» и «Нью-Йорк Таймс». В этой статье мы продолжим использовать их файлы robots.txt для тестирования. Связанная и обязательная функция от Advertools — «robotstxt_test». Благодаря функции «robotstxt_test» мы можем мгновенно протестировать более одного URL для более чем одного User-agent.

  из advertools import robotstxt_test
robotstxt_test ('https://www.nytimes.com/robots.txt', user_agents = ['*'], urls = ['/ ads /'])  
  • Мы импортировали необходимую функцию из Advertools.
  • Мы выполнили тест с помощью функции «robotstxt_test».
  • Первый параметр — это URL-адрес проверенного файла robots.txt.
  • Второй параметр предназначен для определения пользовательских агентов, которые будут тестироваться.
  • Третий параметр предназначен для определения пути URL, который будет проверяться в соответствии с пользовательскими агентами на основе определенных роботов.txt файл.

Результат проверки файла Robots.txt можно увидеть ниже.

Мы выполнили тест Robots.txt и User-agent через Python.

  • Первый столбец «robotstxt_url» показывает URL robots.txt, в соответствии с которым мы проводим тестирование.
  • В столбце «user-agent» показаны пользовательские агенты, которые мы тестируем.
  • «url_path» показывает фрагмент URL, который мы тестируем.
  • «can_fetch» ​​принимает только значения «истина» или «ложь». В этом примере это «False», что означает, что это запрещено.

Давайте рассмотрим более сложный пример.

  robotstxt_test ('https://www.nytimes.com/robots.txt', user_agents = ['Googlebot', 'Twitterbot', 'AhrefsBot', 'Googlebot-News', 'SemrushBot-BA'], URL = ['/', 'amp', 'search'])  

Если мы выполним «Тестирование Robots.txt» с более чем одним URL-адресом и пользовательскими агентами, функция выполнит варианты для каждой комбинации и создаст фрейм данных для нас.

Robots.txt Тестирование нескольких пользовательских агентов.

Вы можете просто мельком увидеть, какой пользовательский агент может получить доступ к какому URL-адресу. В нашем примере файлы PDF из New York Times запрещены для всех пользовательских агентов, которые мы тестируем, за исключением Googlebot и Googlebot-News. Twitterbot, Ahrefsbot и SemrushBot-BA (Semrush Backlink Bot) не могут его получить.

Мы также можем провести тест для Washington Post, чтобы увидеть похожий пейзаж.

  wprobots = 'https://www.washingtonpost.com/robots.txt'
robotstxt_test (wprobots, user_agents = ['Googlebot', 'Googlebot-News', 'Twitterbot', 'AhrefsBot', 'SemrushBot-BA'], urls = ['/', '/ amphtml /', 'ads'])  

Мы назначили роботов Washington Post.txt в виде строки в переменную wprobots, а затем мы выполнили наш тест. Вы можете увидеть результат, как показано ниже:

Тест Robots.txt для Washington Post через Python

Мы видим, что только Twitterbot не может получить URL-путь «/ amphtml /», а остальные URL-адреса разрешены для разных URL-путей. Если вы хотите протестировать больше URL-адресов, вы можете использовать функцию «robotstxt_to_df ()», чтобы вы могли видеть URL-пути, чтобы протестировать их как массовые. Вы можете увидеть пример ниже:

  robotstxt_to_df ('https: // www.google.com/robots.txt ')
ВЫХОД >>>
ИНФОРМАЦИЯ: root: Получение: https://www.google.com/robots.txt  

Robots.txt можно превратить в Dataframe с помощью Advertools.

Здесь мы видим файл robots.txt веб-объекта Google. Вы можете легко изучить разделы веб-объектов Google благодаря их файлу Robots.txt. Кроме того, вы можете видеть, что они скрывают от поисковых роботов или сколько различных разделов веб-сайта у них есть, о которых вы не знаете. Давайте проведем еще один тест только для роботов Google.txt файл. Сначала мы извлечем User-agent в их файл Robots.txt.

  googlerbts [googlerbts ['директива']. Str.contains ('.gent', regex = True)] ['content']. Drop_duplicates (). Tolist ()  

Мы извлекли только уникальный «user -agent »значения через значения регулярного выражения из столбца« директива ». Если вам интересно больше об этом разделе, вы должны прочитать нашу статью об анализе файла Robots.txt через Python. Вы можете увидеть результат, как показано ниже.

Мы отфильтровали все пользовательские агенты из файла robots.txt файл.

У них есть только четыре различных объявления агента пользователя. Это означает, что они запрещают или разрешают некоторые специальные области содержимого только для этих пользовательских агентов.

  googlerbts [googlerbts ['content'] == 'Twitterbot']  

Мы проверяем порядковый номер строки «Twitterbot» в столбце «контент».

Мы отфильтровали определенный пользовательский агент из нашего файла Robots.txt.

Теперь мы должны проверить требуемое пространство индекса, чтобы увидеть, какие изменения внесены для Twitterbot с точки зрения запрета или разрешения.

  googlerbts.iloc [278: 296]  

Результат можно увидеть ниже:

Мы использовали метод iloc для фильтрации определенных строк.

Google позволяет ботам Twitter и Facebookexternalhit сканировать их папку «imgres». Я предполагаю, что они блокируют некоторые подпапки этого URL-адреса.

  googlerbts [googlerbts ['content']. Str.contains ('. Mgres', regex = True)]  

Вы можете увидеть результат ниже:

Мы отфильтровали специальный URL-путь с помощью Regex.

Мы обнаружили заметку, в которой говорится: «Мы разрешили некоторым сайтам социальных сетей сканировать папки imgres». Теперь мы можем провести наш тест.

  robotstxt_test ('https://www.google.com/robots.txt', user_agents = ['Googlebot', 'Twitterbot', 'Facebookexternalhit', 'Ahrefsbot', 'SemrushBot-BA'], urls = [ '/', '/ imgres', '/ search', '/ search / about'])  

Мы выполняем тест Robots.txt для «Googlebot», «Twitterbot», «Facebookexternalhit», «Ahrefsbot» и «SemrushBot-BA» для путей URL «/», «/ imgres», «/ search» и «/ search / about».Вы можете увидеть результат ниже.

Robots.txt Тестирование нескольких пользовательских агентов и URL-адресов.

Здесь мы видим, что Ahrefsbot не может обращаться к папкам «/ imgres» и «/ search», в то время как он может обращаться к путям «/» и «/ search / about». Мы также видим, что боты Twitterbot и Facebookexternalhit могут добраться до папки «/ imgres», как сказано в комментарии Google. Вы можете сканировать веб-сайт или вы можете извлечь все данные из отчета о покрытии консоли поиска Google, чтобы вы могли выполнить тест для различных моделей и шаблонов URL-адресов, чтобы узнать, разрешены ли они или разрешены для определенных типов пользовательских агентов.

Чтобы узнать больше о Python SEO, вы можете прочитать соответствующие рекомендации:

  1. Как массово изменять размер изображений с помощью Python
  2. Как выполнять обратный поиск DNS с помощью Python
  3. Как выполнять анализ TF-IDF с Python
  4. Как сканировать и анализировать веб-сайт с помощью Python
  5. Как выполнять анализ текста с помощью Python
  6. Как сравнивать и анализировать файл Robots.txt с помощью Python
  7. Как анализировать структуру содержимого веб-сайта с помощью карт сайта и Python

Как выполнить роботов.txt Тестирование через модуль urllib в Python

Перед тем, как продолжить, мы должны сказать, что есть еще два других варианта для тестирования файлов Robots.txt через Python. Это «urllib». Вы можете найти блок кода, который выполняет проверку того же файла robots.txt, что и в примере, через urllib.

  импорт urllib.robotparser
robots_url = urllib.robotparser.RobotFileParser (url = 'https: //www.nytimes.com/robots.txt')
robots_url.read ()
rrate = robots_url.request_rate ("*")
robots_url.crawl_delay ("*")
robots_url.can_fetch ("*", "https://www.nytimes.com/wirecutter/*?s=")  
  • Первая строка импортирует необходимый нам класс модуля.
  • Вторая строка анализирует определенный URL-адрес файла Robots.txt.
  • Третья строка читает проанализированный файл Robots.txt.
  • Мы пытаемся поймать параметр «скорость запроса» из файла Robots.txt.
  • Мы пытаемся проверить, есть ли параметр «crawl-delay» в файле Robots.txt или нет.
  • Мы пытаемся получить запрещенный шаблон URL.

Вы можете увидеть результаты ниже:

Анализ образца через urllib.robotparser.

По сути, это говорит о том, что отсутствуют параметры «скорость сканирования» или «задержка сканирования», и запрошенный URL не может быть получен для определенной группы пользовательских агентов. Файлы Robots.txt могут иметь параметры «скорость сканирования» и «задержка сканирования» для управления пропускной способностью сервера, даже если алгоритмам Google эти параметры не нужны, они могут потребоваться для проверки. Кроме того, вы можете встретить более конкретные и уникальные параметры, такие как «Индексная страница».

Как тестировать файлы Robots.txt с помощью библиотеки Reppy

Reppy — это библиотека Python, созданная Moz, одним из крупнейших программ SEO в мире, созданным «Dr. Пит Мейер ». Реппи построен на базе Google Robots.txt Repisotory, изначально созданной на C ++. Мы также можем выполнить некоторые тесты с помощью простой в использовании библиотеки Reppy. Вы можете увидеть пример использования ниже.

  от reppy.robots import Robots
robots = Robots.fetch ('https://www.nytimes.com/robots.текст')
robots.allowed ('https://www.nytimes.com/wirecutter/*?s=', "*")
агент = robots.agent ('googlebot')
agent.allowed ('https://www.nytimes.com/news')
robots.agent ('Googlebot'). delay
robots.sitemaps  
  • Первая строка предназначена для импорта необходимой функции класса.
  • Вторая строка предназначена для получения целевого файла robots.txt.
  • Третья строка предназначена для проверки определенных пользовательскими агентами ситуаций «разрешать и запрещать» для данного URL.
  • Четвертая строка предназначена для определения специального пользовательского агента.
  • Пятая строка предназначена для проверки различных сценариев только для этого пользовательского агента.
  • Шестая строка предназначена для проверки того, что параметр задержки сканирования пользовательских агентов.
  • Седьмая строка предназначена для перечисления всех карт сайта.

Вы можете увидеть результаты ниже:

Пример тестирования Robots.txt с помощью пакета reppy.robbots.

Существуют и другие типы возможностей проверки файла Robots.txt через Python, но пока этих трех основных вариантов будет достаточно для этого руководства.Я считаю, что из всех этих вариантов лучшим является Advertools. Он проще в использовании и имеет больше ярлыков, а также позволяет использовать методы фильтрации и обновления «панд» вместо результатов.

Последние мысли о Robots.txt Тестирование и проверка с помощью Python

Мы провели три коротких и кратких теста для файлов Robots.txt с помощью Python. Он включает в себя немного аналитического мышления и навыков интерпретации, но все же, благодаря улучшенным функциям Advertools, мы можем протестировать более одного пути URL для более чем одного User-agent в одной строке кода.Это невозможно для инструмента проверки файлов robots.txt от Google или других инструментов проверки robots.txt. Из-за этой ситуации знание Python может спасти целостное SEO для множества задач. Вы можете создать для себя простой шаблон тестирования файла robots.txt, чтобы реализовать аналогичные коды для различных проектов SEO с точки зрения проверки Robots.txt даже за более короткое время.

Наша статья «Тестирование файла Robots.txt с помощью Python» со временем будет улучшена. Если у вас есть какие-либо идеи или предложения, сообщите нам об этом.

Как создать идеальный файл Robots.txt для SEO

Все любят «хаки».

Я не исключение — мне нравится находить способы сделать свою жизнь лучше и проще.

Вот почему техника, о которой я расскажу вам сегодня, — одна из моих самых любимых. Это законный SEO-прием, которым вы можете сразу же начать пользоваться.

Это способ улучшить ваше SEO за счет использования естественной части каждого веб-сайта, о которой редко говорят.Реализовать тоже несложно.

Это файл robots.txt (также называемый протоколом исключения роботов или стандартом).

Этот крошечный текстовый файл есть на каждом веб-сайте в Интернете, но большинство людей даже не знают о нем.

Он разработан для работы с поисковыми системами, но, что удивительно, это источник SEO-сока, который только и ждет, чтобы его разблокировали.

Я видел, как клиент за клиентом отклонялись назад, пытаясь улучшить свое SEO. Когда я говорю им, что они могут редактировать небольшой текстовый файл, они мне почти не верят.

Однако существует множество несложных или трудоемких методов улучшения SEO, и это один из них.

Для использования всех возможностей robots.txt не требуется никакого технического опыта. Если вы можете найти исходный код для своего веб-сайта, вы можете использовать его.

Итак, когда вы будете готовы, следуйте за мной, и я покажу вам, как именно изменить файл robots.txt, чтобы он понравился поисковым системам.

Почему важен файл robots.txt

Во-первых, давайте посмотрим, почему robots.txt имеет значение в первую очередь.

Файл robots.txt, также известный как протокол или стандарт исключения роботов, представляет собой текстовый файл, который сообщает веб-роботам (чаще всего поисковым системам), какие страницы вашего сайта сканировать.

Он также сообщает веб-роботам, какие страницы , а не сканировать.

Допустим, поисковая система собирается посетить сайт. Перед посещением целевой страницы он проверяет robots.txt на наличие инструкций.

Есть разные типы роботов.txt, поэтому давайте рассмотрим несколько различных примеров того, как они выглядят.

Допустим, поисковая система находит этот пример файла robots.txt:

Это базовый скелет файла robots.txt.

Звездочка после «user-agent» означает, что файл robots.txt применяется ко всем веб-роботам, посещающим сайт.

Косая черта после «Запретить» указывает роботу не посещать никакие страницы сайта.

Вы можете спросить, зачем кому-то мешать веб-роботам посещать свой сайт.

В конце концов, одна из основных целей SEO — заставить поисковые системы легко сканировать ваш сайт, чтобы повысить ваш рейтинг.

Вот где заключается секрет этого SEO-взлома.

У вас наверняка много страниц на сайте? Даже если вы так не думаете, пойдите и проверьте. Вы можете быть удивлены.

Если поисковая система просканирует ваш сайт, она просканирует каждую из ваших страниц.

И если у вас много страниц, боту поисковой системы потребуется время, чтобы их просканировать, что может отрицательно повлиять на ваш рейтинг.

Это потому, что у Googlebot (робота поисковой системы Google) есть «краулинговый бюджет».

Это делится на две части. Первый — это ограничение скорости сканирования. Вот как Google объясняет это:

Вторая часть — требование сканирования:

По сути, краулинговый бюджет — это «количество URL-адресов, которые робот Googlebot может и хочет просканировать».

Вы хотите помочь роботу Googlebot оптимально расходовать бюджет сканирования для вашего сайта. Другими словами, он должен сканировать ваши самые ценные страницы.

Есть определенные факторы, которые, по мнению Google, «негативно повлияют на сканирование и индексирование сайта».

Вот эти факторы:

Итак, вернемся к robots.txt.

Если вы создадите правильную страницу robots.txt, вы можете указать роботам поисковых систем (и особенно роботу Googlebot) избегать определенных страниц.

Подумайте о последствиях. Если вы укажете роботам поисковых систем сканировать только ваш самый полезный контент, они будут сканировать и индексировать ваш сайт только на основе этого контента.

По словам Google:

«Вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил краулинговый бюджет на сканирование неважных или похожих страниц вашего сайта».

Правильно используя robots.txt, вы можете указать роботам поисковых систем разумно расходовать свой краулинговый бюджет. Именно это делает файл robots.txt таким полезным в контексте SEO.

Заинтригованы силой robots.txt?

Так и должно быть! Поговорим о том, как его найти и использовать.

Поиск файла robots.txt

Если вы просто хотите быстро просмотреть свой файл robots.txt, есть очень простой способ просмотреть его.

На самом деле этот метод будет работать для любого сайта . Так что вы можете заглянуть в файлы других сайтов и увидеть, что они делают.

Все, что вам нужно сделать, это ввести основной URL-адрес сайта в строку поиска вашего браузера (например, neilpatel.com, quicksprout.com и т. Д.). Затем добавьте в конец /robots.txt.

Произойдет одна из трех ситуаций:

1) Вы найдете файл robots.txt файл.

2) Вы найдете пустой файл.

Например, у Disney не хватает файла robots.txt:

3) Вы получите 404.

Метод возвращает 404 для robots.txt:

Найдите секунду и просмотрите файл robots.txt своего сайта.

Если вы обнаружите пустой файл или ошибку 404, вы захотите это исправить.

Если вы найдете действительный файл, вероятно, для него установлены настройки по умолчанию, которые были созданы при создании вашего сайта.

Мне особенно нравится этот метод просмотра файлов robots.txt других сайтов. После того, как вы изучите все тонкости robots.txt, это может стать полезным упражнением.

Теперь давайте посмотрим, как на самом деле изменить файл robots.txt.

Поиск файла robots.txt

Ваши следующие шаги будут зависеть от того, есть ли у вас файл robots.txt. (Проверьте, делаете ли вы это, используя метод, описанный выше.)

Если у вас нет файла robots.txt, вам придется создать его с нуля.Откройте текстовый редактор, например Блокнот (Windows) или TextEdit (Mac).

Используйте для этого только текстовый редактор . Если вы используете такие программы, как Microsoft Word, программа может вставлять дополнительный код в текст.

Editpad.org — отличный бесплатный вариант, и вы увидите, что я использую в этой статье.

Вернуться в robots.txt. Если у вас есть файл robots.txt, вам нужно найти его в корневом каталоге вашего сайта.

Если вы не привыкли копаться в исходном коде, то найти редактируемую версию вашего файла robots.txt файл.

Обычно вы можете найти свой корневой каталог, перейдя на веб-сайт своей учетной записи хостинга, войдя в систему и перейдя в раздел управления файлами или FTP вашего сайта.

Вы должны увидеть что-то вроде этого:

Найдите файл robots.txt и откройте его для редактирования. Удалите весь текст, но сохраните файл.

Примечание. Если вы используете WordPress, вы можете увидеть файл robots.txt при переходе на yoursite.com/robots.txt, но вы не сможете найти его в своих файлах.

Это связано с тем, что WordPress создает виртуальный файл robots.txt, если в корневом каталоге нет файла robots.txt.

Если это произойдет с вами, вам потребуется создать новый файл robots.txt.

Создание файла robots.txt

Вы можете создать новый файл robots.txt, используя любой текстовый редактор по вашему выбору. (Помните, используйте только текстовый редактор.)

Если у вас уже есть файл robots.txt, убедитесь, что вы удалили текст (но не файл).

Во-первых, вам нужно познакомиться с некоторым синтаксисом, используемым в файле robots.txt.

У Google есть хорошее объяснение некоторых основных терминов robots.txt:

Я покажу вам, как создать простой файл robot.txt, а затем мы рассмотрим, как настроить его для SEO.

Начните с установки термина пользовательского агента. Мы собираемся настроить его так, чтобы он применялся ко всем веб-роботам.

Сделайте это, поставив звездочку после термина пользовательского агента, например:

Затем введите «Disallow:», но после этого ничего не вводите.

Поскольку после запрета ничего нет, веб-роботы будут направлены на сканирование всего вашего сайта. Прямо сейчас все на вашем сайте — это честная игра.

На данный момент ваш файл robots.txt должен выглядеть так:

Я знаю, что это выглядит очень просто, но эти две строчки уже многое делают.

Вы также можете создать ссылку на свою карту сайта XML, но это не обязательно. Если хотите, вот что нужно набрать:

Хотите верьте, хотите нет, но это то, что простейшие роботы.txt выглядит как.

А теперь давайте перейдем на новый уровень и превратим этот маленький файл в средство повышения SEO.

Оптимизация robots.txt для SEO

Как вы оптимизируете robots.txt, все зависит от содержания вашего сайта. Есть много способов использовать robots.txt в ваших интересах.

Я рассмотрю некоторые из наиболее распространенных способов его использования.

(Имейте в виду, что вам следует , а не , использовать robots.txt для блокировки страниц от поисковых систем .Это большой запрет.)

Одно из лучших применений файла robots.txt — увеличить бюджеты сканирования поисковых систем, запретив им сканировать те части вашего сайта, которые не отображаются для публики.

Например, если вы посетите файл robots.txt для этого сайта (neilpatel.com), вы увидите, что он запрещает страницу входа (wp-admin).

Поскольку эта страница используется только для входа в серверную часть сайта, роботам поисковых систем не имеет смысла тратить время на ее сканирование.

(Если у вас WordPress, вы можете использовать ту же самую запрещающую строку.)

Вы можете использовать аналогичную директиву (или команду), чтобы запретить ботам сканировать определенные страницы. После запрета введите часть URL-адреса после .com. Поместите это между двумя косыми чертами.

Итак, если вы хотите запретить боту сканировать вашу страницу http://yoursite.com/page/, введите следующее:

Вам может быть интересно, какие типы страниц исключить из индексации.Вот несколько распространенных сценариев, в которых это может произойти:

Умышленное дублирование контента. Хотя дублированный контент — это в большинстве случаев плохо, в некоторых случаях это необходимо и приемлемо.

Например, если у вас есть версия страницы для печати, технически у вас дублированное содержимое. В этом случае вы можете сказать ботам, чтобы они не сканировали одну из этих версий (обычно это версия для печати).

Это также удобно, если вы тестируете страницы с одинаковым содержанием, но с разным дизайном.

Страницы с благодарностью. Страница благодарности — одна из любимых страниц маркетологов, потому что она означает нового лида.

… Верно?

Как оказалось, некоторые страницы благодарности доступны через Google . Это означает, что люди могут получить доступ к этим страницам без прохождения процесса захвата лидов, и это плохие новости.

Блокируя страницы с благодарностью, вы можете быть уверены, что их видят только квалифицированные лиды.

Допустим, ваша страница с благодарностью находится по адресу https: // yoursite.com / спасибо /. В вашем файле robots.txt блокировка этой страницы будет выглядеть так:

Поскольку не существует универсальных правил для запрещенных страниц, ваш файл robots.txt будет уникальным для вашего сайта. Используйте здесь свое суждение.

Вам следует знать еще две директивы: noindex и nofollow .

Вы знаете эту директиву запрета, которую мы использовали? Фактически это не препятствует индексации страницы.

Итак, теоретически вы можете запретить страницу, но она все равно может оказаться в индексе.

Как правило, вы этого не хотите.

Вот почему вам нужна директива noindex. Он работает с директивой disallow, чтобы роботы не посещали или , индексируя определенные страницы.

Если у вас есть страницы, которые вы не хотите индексировать (например, эти драгоценные страницы с благодарностью), вы можете использовать директиву disallow и noindex:

Теперь эта страница не будет отображаться в поисковой выдаче.

Наконец, есть директива nofollow. Фактически это то же самое, что и ссылка nofollow.Короче говоря, он сообщает веб-роботам, чтобы они не сканировали ссылки на странице.

Но директива nofollow будет реализована немного иначе, потому что на самом деле она не является частью файла robots.txt.

Однако директива nofollow все еще инструктирует веб-роботов, так что это та же концепция. Единственная разница в том, где это происходит.

Найдите исходный код страницы, которую хотите изменить, и убедитесь, что вы находитесь между тегами .

Затем вставьте эту строку:

Так должно получиться так:

Убедитесь, что вы не помещаете эту строку между другими тегами — только тегами.

Это еще один хороший вариант для страниц с благодарностью, поскольку веб-роботы не будут сканировать ссылки на какие-либо лид-магниты или другой эксклюзивный контент.

Если вы хотите добавить директивы noindex и nofollow, используйте эту строку кода:

Это даст веб-роботам сразу обе директивы.

Проверяем все

Наконец, проверьте файл robots.txt, чтобы убедиться, что все в порядке и работает правильно.

Google предоставляет бесплатный тестер robots.txt как часть инструментов для веб-мастеров.

Сначала войдите в свою учетную запись для веб-мастеров, нажав «Войти» в правом верхнем углу.

Выберите свой ресурс (например, веб-сайт) и нажмите «Сканировать» на левой боковой панели.

Вы увидите «robots.txt Tester». Щелкните по нему.

Если в поле уже есть какой-либо код, удалите его и замените новым файлом robots.txt.

Щелкните «Тест» в правой нижней части экрана.

Если текст «Тест» изменится на «Разрешено», это означает, что ваш robots.txt действителен.

Вот еще немного информации об инструменте, чтобы вы могли подробно узнать, что все означает.

Наконец, загрузите файл robots.txt в корневой каталог (или сохраните его там, если он у вас уже есть). Теперь у вас есть мощный файл, и ваша видимость в результатах поиска должна повыситься.

Заключение

Мне всегда нравится делиться малоизвестными «хитростями» SEO, которые могут дать вам реальное преимущество во многих отношениях.

Правильно настроив файл robots.txt, вы не просто улучшите свой собственный SEO. Вы также помогаете своим посетителям.

Если роботы поисковых систем могут разумно расходовать свои бюджеты сканирования, они будут организовывать и отображать ваш контент в поисковой выдаче наилучшим образом, а это означает, что вы будете более заметны.

Также не требуется много усилий для настройки файла robots.txt. В основном это однократная настройка, и при необходимости вы можете вносить небольшие изменения.

Независимо от того, запускаете ли вы свой первый или пятый сайт, с помощью robots.txt может иметь большое значение. Я рекомендую попробовать, если вы не делали этого раньше.

Каков ваш опыт создания файлов robots.txt?

Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

  • SEO — разблокируйте огромное количество SEO-трафика. Смотрите реальные результаты.
  • Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
  • Paid Media — эффективные платные стратегии с четкой окупаемостью инвестиций.

Заказать звонок

Robots txt File Checker | PageDart

Воспользуйтесь нашим средством проверки файла robots.txt ниже, чтобы проверить, работает ли ваш файл robots.txt.

Скопируйте и вставьте файл robots.txt в текстовое поле ниже. Вы можете найти свой файл robots, добавив на свой сайт /robots.txt . Например, https://example.com/robots.txt .

Строка: $ {error.index}

`;
resultsList.innerHTML + = li;
}
если (ошибки.length> 0) {
resultsTitle.innerHTML = errors.length + «Ошибка (и)»
results.hidden = false;
} еще {
resultsTitle.innerHTML = «Ошибок нет»
results.hidden = false;
}
вернуть ложь;
}
window.onload = function () {
document.getElementById («отправить»). onclick = validate;
}

Для создания этого инструмента мы проанализировали более 5000 файлов роботов. В ходе исследования мы обнаружили 7 распространенных ошибок.

Как только мы обнаружили эти ошибки, мы узнали, как их исправить. Ниже вы найдете подробные инструкции, как исправить все ошибки.

Продолжайте читать, чтобы узнать, почему мы создали этот инструмент и как мы завершили исследование.

Когда сканер посещает ваш сайт, например робот Googlebot, он прочитает файл robots.txt перед просмотром любой другой страницы.

Он будет использовать файл robots.txt, чтобы проверить, куда он может перейти, а где нет.

Он также будет искать вашу карту сайта, в которой будут перечислены все страницы вашего сайта.

Каждая строка в файле robots.txt — это правило, которому должен следовать поисковый робот.

Если в правиле есть ошибка, то искатель игнорирует правило.

Этот инструмент предоставляет простой способ быстро проверить, есть ли в файле robots.txt какие-либо ошибки.

Мы также даем вам список того, как это исправить.

Для более подробного ознакомления с тем, насколько важен файл robots.txt, просмотрите сообщение Robots txt для SEO.

Как мы проанализировали 5000+ Robots.txt

Мы составили список из 1 миллиона лучших веб-сайтов по версии Alexa.

У них есть CSV, который вы можете скачать со списком всех URL.

Мы обнаружили, что не каждый сайт имеет или нуждается в файле robots.txt.

Чтобы получить более 5000+ файлов robots.txt, нам пришлось просмотреть более 7500 веб-сайтов.

Это означает, что из 7541 лучших веб-сайтов в Интернете 24% сайтов не имеют файла robots.txt.

Из 5000+ файлов robots.txt, которые мы проанализировали, мы обнаружили 7 распространенных ошибок:

  • Шаблон должен быть пустым, начинаться с «/» или «*» ’
  • «$» следует использовать только в конце шаблона
  • Пользовательский агент не указан
  • Неверный протокол URL карты сайта
  • Недействительный URL карты сайта
  • Неизвестная директива
  • Синтаксис не понят

Мы рассмотрим каждую из этих ошибок и способы их исправления ниже.

Но вот что мы обнаружили в результате нашего анализа.

Из 5732 проанализированных нами файлов robots.txt только 188 содержали ошибки.

Мы также обнаружили, что у 51% было более одной ошибки. Часто повторяется одна и та же ошибка.

Давайте посмотрим, сколько раз возникала каждая ошибка:

Ошибка Счет
Шаблон должен быть пустым, начинаться с «/» или «*» ‘ 11660
«$» следует использовать только в конце шаблона 15
Не указан агент пользователя 461
Неверный протокол URL карты сайта 0
Недействительный URL карты сайта 29
Неизвестная директива 144
Синтаксис не понят 146

Как видите, шаблон должен быть пустым, начинаться с "/" или "*". — наиболее распространенная ошибка.

Получив данные, мы смогли понять и исправить ошибки.

Шаблон должен быть пустым, начинаться с «/» или «*»

Это самая частая ошибка, которую мы обнаружили в ходе анализа, и это не удивительно.

Эта ошибка относится к правилам Allow и Disallow . Эти правила чаще всего встречаются в файле robots.txt.

Если вы получаете эту ошибку, это означает, что первый символ после двоеточия не является «/» или «*».

Например, Allow: admin вызовет эту ошибку.

Правильный способ форматирования — Разрешить: / admin .

Подстановочный знак (*) используется для разрешения или запрета всех. Например, это часто встречается, когда вы хотите остановить сканирование сайта:

Запрещено: *

Чтобы исправить эту ошибку, убедитесь, что после двоеточия стоит символ «/» или «*».

«$» следует использовать только в конце шаблона

У вас может быть знак доллара в вашем файле robots.txt файл.

Вы можете использовать это, чтобы заблокировать определенный тип файла.

Например, если мы хотим заблокировать сканирование всех файлов .xls , вы можете использовать:

  Агент пользователя: *
Disallow: /*.xls$  

Знак $ сообщает сканеру, что это конец URL-адреса. Таким образом, это правило запрещает:

https://example.com/pink.xls

Но разрешить:

https://example.com/pink.xlsocks

Если у вас нет знака доллара в конце строки, например:

  Агент пользователя: *
Disallow: / * $.XLS  

Это вызовет это сообщение об ошибке. Для исправления перейти в конец:

  Агент пользователя: *
Disallow: /*.xls$  

Поэтому используйте только знак $ в конце URL-адреса для соответствия типам файлов.

Не указан агент пользователя

В файле robots.txt необходимо указать хотя бы один пользовательский агент . Вы используете User-agent для идентификации и нацеливания на определенных искателей.

Если бы мы хотели настроить таргетинг только на робота Googlebot, вы бы использовали:

  Пользовательский агент: Googlebot
Disallow: /  

Используется довольно много поисковых роботов:

  • Googlebot
  • Бингбот
  • Хлеб
  • DuckDuckBot
  • Байдуспайдер
  • ЯндексБот
  • facebot
  • ia_archiver

Если вы хотите иметь разные правила для каждого, вы можете перечислить их следующим образом:

  Пользовательский агент: Googlebot
Запретить: /

Пользовательский агент: Bingbot
Разрешить: /  

Вы также можете использовать «*», это подстановочный знак, означающий, что он будет соответствовать всем поисковым роботам.

Убедитесь, что у вас установлен хотя бы один пользовательский агент .

Неверный протокол URL карты сайта

При создании ссылки на карту сайта из файла robot.txt необходимо указать полный URL.

Этот URL-адрес должен быть абсолютным, например https://www.example.com/sitemap.xml .

Протокол — это часть URL-адреса https . Для URL-адреса карты сайта вы можете использовать HTTPS , HTTP или FTP . Если у вас есть что-то еще, вы увидите эту ошибку.

Неверный URL карты сайта

Вы можете создать ссылку на карту сайта из файла robots.txt. Это должен быть полный (абсолютный) URL. Например, https://www.example.com/sitemap.xml будет абсолютным URL.

Если у вас нет абсолютного URL-адреса, например этого:

  Агент пользователя: *
Разрешать: /
Карта сайта: /sitemap.xml  

Это вызовет эту ошибку. Чтобы исправить это, измените абсолютный URL:

  Агент пользователя: *
Разрешать: /
Карта сайта: https: // www.example.com/sitemap.xml  

Неизвестная директива

При написании правила вы можете использовать только фиксированное количество «директив». Это команды, которые вы вводите перед двоеточием «:». Allow и Disallow являются директивами.

Вот список всех действующих директив:

  • Карта сайта
  • Агент пользователя
  • Разрешить
  • Запретить
  • Задержка сканирования
  • Чистые параметры
  • Хост
  • Скорость запроса
  • Время посещения
  • Noindex

Если у вас есть что-то еще вне списка выше, вы увидите эту ошибку.

Согласно нашим исследованиям, наиболее частая причина этой проблемы связана с опечаткой в ​​написании директивы.

Исправьте опечатку и повторите попытку.

Синтаксис не понят

Вы увидите эту ошибку, если в строке нет двоеточия.

В каждой строке должно быть двоеточие, чтобы отделить директиву от значения.

Это вызовет ошибку:

Чтобы исправить, добавьте двоеточие (найдите разницу):

Для устранения проблемы поставьте двоеточие после директивы.

Подведение итогов, программа проверки txt файлов для роботов

Этот инструмент может помочь вам найти наиболее распространенные ошибки в файлах robots.txt.

Скопировав и вставив файл robots.txt в инструмент выше, вы можете проверить, не содержит ли он ошибок.

Мы проверяем 7 ошибок, в том числе:

  • Шаблон должен быть пустым, начинаться с «/» или «*» ’
  • «$» следует использовать только в конце шаблона
  • Пользовательский агент не указан
  • Неверный протокол URL карты сайта
  • Недействительный URL карты сайта
  • Неизвестная директива
  • Синтаксис не понят

Как только вы узнаете, в какой строке находится ошибка, вы можете исправить ее, используя предоставленные советы.

Недавние сообщения

В этом руководстве мы добавим поиск Google на веб-сайт с помощью настраиваемого инструмента поиска по сайту.

В этом уроке мы рассмотрим, как создать плагин WordPress.

Мы рассмотрим, как добавить панель поиска в HTML на ваш сайт и подключить ее к поиску Google.

роботов.txt и SEO: Полное руководство

Что такое Robots.txt?

Robots.txt — это файл, который сообщает паукам поисковых систем не сканировать определенные страницы или разделы веб-сайта. Большинство основных поисковых систем (включая Google, Bing и Yahoo) распознают и обрабатывают запросы Robots.txt.

Почему важен файл robots.txt?

Большинству веб-сайтов не нужен файл robots.txt.

Это потому, что Google обычно может найти и проиндексировать все важные страницы вашего сайта.

И они автоматически НЕ будут индексировать несущественные страницы или дублировать версии других страниц.

Тем не менее, есть 3 основные причины, по которым вы хотите использовать файл robots.txt.

Блокировать закрытые страницы. Иногда на вашем сайте есть страницы, которые вы не хотите индексировать. Например, у вас может быть промежуточная версия страницы. Или страницу входа в систему. Эти страницы должны существовать. Но вы же не хотите, чтобы на них садились случайные люди. Это тот случай, когда вы использовали robots.txt, чтобы заблокировать эти страницы от поисковых роботов и роботов.

Максимальное увеличение бюджета сканирования. Если вам сложно проиндексировать все страницы, возможно, у вас проблемы с бюджетом сканирования.Блокируя неважные страницы с помощью robots.txt, робот Googlebot может тратить большую часть вашего бюджета сканирования на действительно важные страницы.

Предотвращение индексации ресурсов: использование метадиректив может работать так же хорошо, как Robots.txt для предотвращения индексации страниц. Однако метадирективы плохо работают с мультимедийными ресурсами, такими как файлы PDF и изображения. Вот где в игру вступает robots.txt.

В нижней строке? Robots.txt сообщает паукам поисковых систем, чтобы они не сканировали определенные страницы вашего сайта.

Вы можете проверить, сколько страниц вы проиндексировали, в Google Search Console.

Если число совпадает с количеством страниц, которые вы хотите проиндексировать, вам не нужно возиться с файлом Robots.txt.

Но если это число выше, чем вы ожидали (и вы заметили проиндексированные URL-адреса, которые не следует индексировать), то пора создать файл robots.txt для вашего веб-сайта.

Лучшие Лрактики

Создание файла Robots.txt

Ваш первый шаг — создать роботов.txt файл.

Являясь текстовым файлом, вы можете создать его с помощью блокнота Windows.

И независимо от того, как вы в конечном итоге создаете свой файл robots.txt, формат точно такой же:

Агент пользователя: X
Запрещение: Y

User-agent — это конкретный бот, с которым вы разговариваете.

И все, что идет после «запретить», — это страницы или разделы, которые вы хотите заблокировать.

Вот пример:

User-agent: googlebot
Disallow: / images

Это правило указывает роботу Googlebot не индексировать папку изображений на вашем веб-сайте.

Вы также можете использовать звездочку (*), чтобы общаться со всеми ботами, которые останавливаются на вашем сайте.

Вот пример:

Пользовательский агент: *
Disallow: / images

Знак «*» сообщает всем паукам НЕ сканировать папку с изображениями.

Это лишь один из многих способов использования файла robots.txt. В этом полезном руководстве от Google есть дополнительная информация о различных правилах, которые вы можете использовать для блокировки или разрешения ботам сканировать разные страницы вашего сайта.

Сделайте своих роботов.txt Легко найти

Когда у вас есть файл robots.txt, самое время запустить его.

Технически вы можете разместить файл robots.txt в любом основном каталоге вашего сайта.

Но чтобы увеличить вероятность того, что ваш файл robots.txt будет найден, я рекомендую разместить его по адресу:

https://example.com/robots.txt

(обратите внимание, что ваш файл robots.txt чувствителен к регистру. Поэтому убедитесь, что используете строчную букву «r» в имени файла)

Проверка ошибок и ошибок

ДЕЙСТВИТЕЛЬНО важно, чтобы ваш файл robots.txt настроен правильно. Одна ошибка — и весь ваш сайт может быть деиндексирован.

К счастью, вам не нужно надеяться, что ваш код настроен правильно. У Google есть отличный инструмент для тестирования роботов, который вы можете использовать:

Он показывает ваш файл robots.txt… и все обнаруженные ошибки и предупреждения:

Как видите, мы не позволяем паукам сканировать нашу страницу администратора WP.

Мы также используем robots.txt, чтобы блокировать сканирование страниц с автоматически созданными тегами WordPress (для ограничения дублирования контента).

Robots.txt и мета-директивы

Зачем вам использовать robots.txt, если вы можете блокировать страницы на уровне страницы с помощью метатега «noindex»?

Как я упоминал ранее, тег noindex сложно реализовать в мультимедийных ресурсах, таких как видео и PDF-файлы.

Кроме того, если у вас есть тысячи страниц, которые вы хотите заблокировать, иногда проще заблокировать весь раздел этого сайта с помощью robots.txt вместо того, чтобы вручную добавлять тег noindex на каждую страницу.

Есть также крайние случаи, когда вы не хотите тратить бюджет сканирования на целевые страницы Google с тегом noindex.

Тем не менее:

Помимо этих трех крайних случаев, я рекомендую использовать метадирективы вместо robots.txt. Их проще реализовать. И меньше шансов на катастрофу (например, блокировку всего вашего сайта).

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *