Содержание
что это такое, зачем нужен индексный файл и как его настроить – примеры роботс тхт
Если вы хоть немного интересовались вопросом внутренней оптимизации сайтов, то наверняка встречали термин robots txt. Как раз ему и посвящена наша сегодняшняя тема.
Сейчас вы узнаете, что такое robots txt, как он создается, каким образом веб-мастер задает в нем нужные правила, как обрабатывается файл robots.txt поисковыми роботами и почему отсутствие этого файла в корне веб-ресурса — одна из самых серьезных ошибок внутренней оптимизации сайта. Будет интересно!
Что такое robots.txt
Технически robots txt — это обыкновенный текстовый документ, который лежит в корне веб-сайта и информирует поисковых роботов о том, какие страницы и файлы они должны сканировать и индексировать, а для каких наложен запрет. Но это самое примитивное описание. На самом деле c robots txt все немного сложнее.
Файл robots txt — это как «администратор гостиницы». Вы приходите в нее, администратор выдает вам ключи от номера, а также говорит, где ресторан, SPA, зона отдыха, кабинет управляющего и прочее. А вот в другие номера и помещения для персонала вход вам заказан. Точно так же и с robots txt. Только вместо администратора — файл, вместо клиента — поисковые роботы, а вместо помещений — отдельные веб-страницы и файлы. Сравнение грубое, но зато доступное и понятное.
Для чего нужен файл robots.txt
Без этого файла поисковики будут хаотично блуждать по сайту, сканировать и индексировать буквально все подряд: дубли, служебные документы, страницы с текстами «заглушками» (Lorem Ipsum) и тому подобное.
Правильный robots txt не дает такому происходить и буквально ведет роботов по сайту, подсказывая, что разрешено индексировать, а что необходимо упустить.
Существуют специальные директивы robots txt для данных задач:
- Allow — допускает индексацию.
- Disallow — запрещает индексацию.
Кроме того, можно сразу прописать, каким конкретно роботам разрешено или запрещено индексировать заданные страницы. Например, чтобы запретить индексацию директории /private/ поисковым роботам «Гугл», в роботс необходимо прописать User-agent:
User-agent: Google
Disallow: /private/
Также вы можете указать основное зеркало веб-сайта, задать путь к Sitemap, обозначить дополнительные правила обхода через директивы и прочее. Возможности robots txt достаточно обширны.
И вот мы разобрались, для чего нужен robots txt. Дальше сложнее — создание файла, его наполнение и размещение на сайте.
Как создать файл robots.txt для сайта?
Итак, как создать файл robots txt?
Создать и изменять файл проще всего в приложении «Блокнот» или другом текстовом редакторе, поддерживающим формат .txt. Специальное ПО для работы с robots txt не понадобится.
Создайте обычный текстовый документ с расширением .txt и поместите его в корень веб-ресурса. Для размещения подойдет любой FTP-клиент. После размещения обязательно стоит проверить robots txt — находится ли файл по нужному адресу. Для этого в поисковой строке браузера нужно прописать адрес:
имя_сайта/robots.txt
Если все сделано правильно, вы увидите во вкладке данные из robots txt. Но без команд и правил он, естественно, работать не будет. Поэтому переходим к более сложному — наполнению.
Символы в robots.txt
Помимо упомянутых выше функций Allow/Disallow, в robots txt прописываются спецсимволы:
- «/» — указывает, что мы закрываем файл или страницу от обнаружения роботами «Гугл», «Яндекс» и т. д.;
- «*» — прописывается после каждого правила и обозначает последовательность символов;
- «$» — ограничивает действие «*»;
- «#» — позволяет закомментировать любой текст, который веб-мастер оставляет себе или другим специалистам (своего рода заметка, напоминание, инструкция). Поисковики не считывают закомментированный текст.
Синтаксис в robots.txt
Описанные в файле robots.txt правила — это его синтаксис и разного рода директивы. Их достаточно много, мы рассмотрим наиболее значимые — те, которые вы, скорее всего, будете использовать.
User-agent
Это директива, указывающая, для каких search-роботов будут действовать следующие правила. Прописывается следующим образом:
User-agent: * имя поискового робота
Примеры роботов: YandexBot, Googlebot, Yandex Metrika и другие.
Allow
Это разрешающая индексацию директива для robots txt. Допустим, вы прописываете следующие правила:
User-agent: * имя поискового робота
Allow: /site
Disallow: /
Так в robots txt вы запрещаете роботу анализировать и индексировать весь веб-ресурс, но запрет не касается папки site.
Disallow
Это противоположная директива, которая закрывает от индексации только прописанные страницы или файлы. Чтобы запретить индексировать определенную папку, нужно прописать:
Disallow: /folder/
Также можно запретить сканировать и индексировать все файлы выбранного расширения. Например:
Disallow: /*.css$
Sitemap
Данная директива robots txt направляет поисковых роботов к описанию структуры вашего ресурса. Это важно для SEO. Вот пример:
User-agent: *
Disallow: /site/
Allow: /
Sitemap: http://site.com/sitemap1.xml
Sitemap: http://site.com/sitemap2.xml
Host
Эта директива robots txt предназначена исключительно для роботов «Яндекса» и обозначает главное зеркало сайта. Необходимость в Host возникает лишь тогда, когда у ресурса есть два или больше доменов.
User-agent: Yandex
Disallow: /site/
Host: site.ru
Crawl-delay
Директива ограничивает частоту анализа сайта и тем самым снижает нагрузку на сервер. Здесь прописывается время в сек. (третья строчка):
User-agent: *
Disallow: /site
Crawl-delay: 4
Clean-param
Запрещает индексацию страниц, сформированных с динамическими параметрами. Суть в том, что поисковые системы воспринимают их как дубли, а это плохо для SEO. О том, как найти дубли страниц на сайте, мы уже рассказывали. Вам нужно прописывать директиву:
Clean-param: p1[&p2&p3&p4&..&pn] [Путь к динамическим страницам]
Примеры Clean-param в robots txt:
Clean-param: kol_from1&price_to2&pcolor /polo.html # только для polo.html
или
Clean-param: kol_from1&price_to2&pcolor / # для всех страниц сайта
Кстати, советуем прочесть нашу статью «Как просто проверить индексацию сайта» — в ней много полезного по этой теме. Плюс есть информативная статья «Сканирование сайта в Screaming Frog». Рекомендуем ознакомиться!
Особенности настройки robots.txt для «Яндекса» и «Гугла»
На практике синтаксис файла robots.txt для этих систем отличается незначительно. Но есть несколько моментов, которые мы советуем учитывать.
Google не рекомендует скрывать файлы с CSS-стилями и JS-скриптами от сканирования. То есть правило должно выглядеть так:
User-agent: Googlebot
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Allow: *.css
Allow: *.js
Host: www.site.com
«Яндекс» подобных рекомендаций не дает, однако в для него требуется директория Host, упомянутая выше. Ее задача — указать главное зеркало сайта:
User-agent: Yandex
Disallow: /site
Disallow: /admin
Disallow: /users
Disallow: */templates
Disallow: */css
Host: www.site.com
Примеры настройки файла robots.txt
Каждая CMS имеет свою специфику настройки robots txt для сканирования и индексации. И лучший способ понять разницу — рассмотреть каждый пример robots txt для разных систем. Так и поступим!
Пример robots txt для WordPress
Роботс для WordPress в классическом варианте выглядит так:
User-agent: Yandex
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Host: www.site.ru
User-agent: Googlebot
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Allow: *.css # открыть все файлы стилей
Allow: *.js # открыть все с js-скриптами
User-agent: *
Disallow: /cgi-bin # служебная папка для хранения серверных скриптов
Disallow: /? # все параметры запроса на главной
Disallow: /wp- # файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
Disallow: *?s= # результаты поиска
Disallow: /search # результаты поиска
Disallow: */page/ # страницы пагинации
Disallow: /*print= # страницы для печати
Sitemap: http://site.ru/sitemap.xml
Sitemap: http://site.ru/sitemap1.xml
Пример robots.txt для «Битрикс»
Одна из главных проблем «Битрикс» — по дефолту поисковые системы считывают и проводят индексацию служебных страниц и дублей. Но это можно предотвратить, правильно прописав robots txt:
User-Agent: Yandex
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
HOST: https://site.ru
User-Agent: *
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml
User-Agent: Googlebot
Disallow: /personal/
Disallow: /search/
Disallow: /auth/
Disallow: /bitrix/
Disallow: /login/
Disallow: /*?action=
Disallow: /?mySort=
Disallow: */filter/
Disallow: */clear/
Allow: /bitrix/js/
Allow: /bitrix/templates/
Allow: /bitrix/tools/conversion/ajax_counter.php
Allow: /bitrix/components/main/
Allow: /bitrix/css/
Allow: /bitrix/templates/comfer/img/logo.png
Allow: /personal/cart/
Sitemap: https://site.ru/sitemap.xml
Пример robots.txt для OpenCart
Рассмотрим пример robots txt для платформы электронной коммерции OpenCart:
User-agent: Yandex
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Host: site.ru
User-agent: Googlebot
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Allow: *.css
Allow: *.js
User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Sitemap: http://site.ru/sitemap.xml
Пример robots.txt для Joomla
В «Джумле» роботс выглядит так:
User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Host: www.site.ru
User-agent: Googlebot
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Allow: *.css
Allow: *.js
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /component/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*?start=*
Disallow: /xmlrpc/
Sitemap: http://www.site.ru/sitemap.xml
Пример robots.txt для Drupal
Для Drupal:
User-agent: Yandex
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *register*
Disallow: *login*
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*section
Disallow: /*order
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*calendar
Disallow: /*index.php
Allow: /*?page=
Disallow: /*?
User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /profile
Disallow: /profile/*
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: *register*
Disallow: *login*
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Disallow: /*section
Disallow: /*order
Disallow: /*?sort*
Disallow: /*&sort*
Disallow: /*votesupdown
Disallow: /*calendar
Disallow: /*index.php
Allow: /*?page=
Disallow: /*?
Sitemap: http://путь к вашей карте XML формата
Выводы
Файл robots txt — функциональный инструмент, благодаря которому веб-разработчик дает инструкции поисковым системам, как взаимодействовать с сайтом. Благодаря ему мы обеспечиваем правильную индексацию, защищаем веб-ресурс от попадания под фильтры поисковых систем, снижаем нагрузку на сервер и улучшаем параметры сайта для SEO.
Чтобы правильно прописать инструкции файла robots.txt, крайне важно отчетливо понимать, что вы делаете и зачем вы это делаете. Соответственно, если не уверены, лучше обратитесь за помощью к специалистам. В нашей компании настройка robots txt входит в услугу внутренней оптимизации сайта для поисковых систем Google и Яндекс.
Кстати, в нашей практике был случай, когда клиент обратился за услугой раскрутки сайта, в корне которого файл robots txt попросту отсутствовал и индексация происходила некорректно. Почитайте, там много интересных моментов: «SEO-Кейс: Продвижение сайта медицинских справок».
FAQ
Что такое файл robots.txt?
Robots txt — это документ, содержащий правила индексации вашего сайта, отдельных его файлов или URL поисковиками. Правила, описанные в файле robots.txt, называются директивами.
Зачем нужен файл robots.txt?
Robots txt помогает закрыть от индексации отдельные файлы, дубли страниц, документы, не несущие никакой пользы для посетителей, а также страницы, содержащие неуникальный контент.
Где находится файл robots.txt?
Он размещается в корневой папке веб-ресурса. Чтобы проверить его наличие, достаточно в URL-адрес вашего веб-ресурса дописать /robots.txt и нажать Enter. Если он на месте, откроется его страница. Так можно просмотреть данный файл на любом сайте, даже на стороннем. Просто добавьте к адресу /robots.txt.
У Вас остались вопросы?
Наши эксперты готовы ответить на них. Оставьте ваши контактные данные. Будем рады обсудить ваш проект!
Получить консультацию
Наш менеджер свяжется с Вами в ближайшее время
Отправить заявку
Запрет индексации страниц сайта в robots.txt
21 августа 2014
Просмотров: 8 344
При посещении сайта, поисковый робот использует ограниченое количество ресурсов для индексации. То есть поисковый робот за одно посещение может скачать определенное количество страниц. В зависимости от частоты обновления, объема, количества документов и многих других факторов, роботы могут приходить чаще и скачивать больше страниц.
Чем больше и чаще скачиваются страницы — тем быстрее информация с Вашего сайта попадает в поисковую выдачу. Кроме того, что страницы будут быстрее появляться в поиске, изменения в содержании документов также быстрее вступают в силу.
Быстрая индексация сайта
Быстрая индексация страниц сайта помогает бороться с воровством уникального контента, позволяет повысить релевантность страницы сайта за счет ее свежести и актуальности. Но самое главное. Более быстрая индексация позволяет отслеживать как те или иные изменения влияют на позиции сайта в поисковой выдаче.
Плохая, медленная индексация сайта
Почему сайт плохо индексируется? Причин может быть множество и вот основные причины медленной индексации сайта.
- Страницы сайта медленно загружаются. Это может стать причиной полного исключения сайта из индекса.
- Сайт редко обновляется. Зачем роботу часто приходить на сайт, на котором новые страницы появляются раз в месяц.
- Неуникальный контент. Если на сайте размещен ворованый контент (статьи, фотографии), поисковая система снизит трастовость (доверие) к вашему сайту и снизит расход ресурсов на его индексацию.
- Большое количество страниц. Если на сайте много страниц и не настроен last modified, то на индексацию или переиндексацию всех страниц сайта может уйти очень много времени.
- Сложная структура сайта. Запутанная структура сайта и большие количество вложений сильно затрудняют индексацию страниц сайта.
- Много «лишних» страниц. На каждом сайте есть целевые страницы, содержание которых статично, уникально и полезно для пользователей и побочные страницы, вроде страниц пагинации, авторизации или страниц фильтров. Если подобные страницы существуют, их как правило очень много, но в индексацию попадают далеко не все. А страницы, которые попадают — конкурируют с целевыми страницами. Все эти страницы регулярно переиндексируются, расходуя и так ограниченый ресурс, выделенный на индексацию вашего сайта.
- Динамические страницы. Если на сайте существуют страницы, содержимое которых не зависит от динамических параметров (пример: site.ru/page.html?lol=1&wow=2&bom=3), в результате может появиться множество дублей целевой страницы site.ru/page.html.
Есть и другие причины плохой индексации сайта. Однако, самой распространенной ошибкой является плохо настроенный robots.txt.
Убрать из индексации все лишнее
Существует множество возможностей рационально использовать ресурсы, которые выделяют поисковики на индексацию сайта. И широкие возможности для управления индексацией сайта открывает именно robots.txt.
Используя дерективы Allow, Disallow, Clean-param и другие, можно эффективно распределить не только внимание поискового робота, но и существенно снизить нагрузку на сайт.
Для начала, нужно исключить из индексации все лишнее, используя дерективу Disallow.
Например, запретим страницы логина и регистрации:
Disallow: /login Disallow: /register
Запретим индексацию тегов:
Disallow: /tag
Некоторых динамических страниц:
Disallow: /*?lol=1
Или всех динамических страницы:
Disallow: /*?*
Или сведем на нет страницы с динамическими параметрами:
Clean-param: lol&wow&bom /
На многих сайтах, число страниц найденых роботом может отличаться от числа страниц в поиске в 3 и более раз. То есть, более 60% страниц сайта не участвуют в поиске и являются баластом, который нужно либо ввести в поиск, либо избавится от него. Исключив, нецелвые страницы и приблизив количество страниц в поиске к 100% вы увидите существенный прирост к скорости индексации сайта, рост позиций в поисковой выдаче и больше трафика.
Подробнее про индексацию сайта, влияние индексации на выдачу, правильную настройку robots.txt, генерацию sitemap.xml, настройку last modified страниц сайта, другие способы ускорения индексации сайта и причины плохой индексации сайта читайте в следующих постах. А тем временем.
Сбрасывайте ненужный баласт и быстрее идите в топ.
Получайте бесплатные уроки и фишки по интернет-маркетингу
Как закрыть сайт от индексации в robots.txt
Автор
wbooster
На чтение
3 мин
Просмотров
1778
Опубликовано
В процессе проведения редизайна или же разработки ресурса нередко бывают ситуации, когда требуется предотвратить посещение поисковых роботов и по сути, закрыть ресурс от индексации. Сделать это можно посредством закрытия сайта в коне сайта. в данном случае используется текстовый файл robots.txt.
Файл находится на файловом хранилище Вашего сайта, найти его можно с помощью файловых менеджеров, через хостинг (файловый менеджер на хостинге) или через админку сайта (доступно не во всех CMS).
kak-zakryt-sajt-v-robots-txt.img
Данные строки закроют сайт от индексации поисковым роботом Google:
User-agent: Google
Disallow: /
А с помощью данных строк, мы закроем сайт для всех поисковых систем.
User-agent: *
Disallow: /
Закрытие отдельной папки
Также существует возможность в указанном файле осуществить процесс закрытия конкретной папки. Посредством таких действий осуществляется закрытие всех файлов, которые присутствуют в указанной папке. Прописывается следующее:
User-agent: *
Disallow: /papka/
Можно будет в такой ситуации отдельно указать на те файлы в папке, которые могут быть открыты для дальнейшей индексации.
Если же вы хотите закрыть не только конкретную папку, а также все вложенные внутри папки, то используйте звездочку на конце папке:
User-agent: *
Disallow: /papka/*
Если же у вас 2 правила, которые могут конфликтовать между собой, то в данном случае поисковые роботы выставят приоритет по наиболее длинной строчке. То есть, для роботов, нет последовательности строчек.
Цифрами мы обозначили, по какому приоритету будет идти строчки:
То есть, в данном случае папка /papka/kartinki/logotip/ будет закрыта, однако остальные файлы и папки в /papka/kartinki/ будут открыты.
Закрытие отдельного файла
Тут все производится в том же формате, как и при закрытии папки, но в процессе указания конкретных данных, нужно четко определить файл, который вы хотели бы скрыть от поисковой системы.
User-agent: *
Disallow: /papka/kartinka.jpg
Если же вы хотите закрыть папку, однако открыть доступ к файлу, то используйте директиву Allow:
User-agent: *
Allow: /papka/kartinka.jpg
Disallow: /papka/
Проверка индекса документа
Чтобы осуществить проверку нужно воспользоваться специализированным сервисом Яндекс.Вебмастер.
Скрытие картинок
Чтобы картинки, расположенные на страницах вашего интернет ресурса, не попали в индекс, рекомендуется в robots.txt, ввести команду – Disallow, а также указать четкий формат картинок, которые не должны посещаться поисковым роботом.
User-Agent: *
Disallow: *.jpg
Disallow: *.png
Disallow: *.gif
Можно ли закрыть поддомен?
Опять же используется директория Disallow, при этом указания на закрытие должно осуществляться исключительно в файле robots.txt конкретного поддомена. Дубли на поддоменне при использовании CDN могут стать определенной проблемой. В данном случае обязательно нужно использовать запрещающий файл с указанием четко определенных дублей, чтобы они не появлялись в индексе и не влияли на продвижение интернет ресурса.
Чтобы осуществить блокировку других поисковых систем вместо Yandex, нужно будет указать данные поискового робота. Для этого можно воспользоваться специализированными программами, чтобы иметь четкие назначения роботов той или же иной системы.
Закрытие сайта или же страницы при помощи мета-тега
Можно процесс закрытия осуществить посредством применения мета-тега robots. В определенных ситуациях данный вариант закрытия считается более предпочтительным, так как он влияет на различные поисковые системы и требует введение определенного кода (в коде обязательно прописываются данные конкретного поискового робота).
Как правило, данную строку пишут в теге <head> или </footer>:
<meta name=”robots” content=”noindex, nofollow”/>
Или
<meta name=”robots” content=”none”/>
Также, мы можем написать отдельное правило для каждого поискового паука:
Google:
<meta name=”googlebot” content=”noindex, nofollow”/>
Яндекс:
<meta name=”yandex” content=”none”/>
FAQ robots.txt: часто задаваемые вопросы
Robots.txt — что это?
Файл robots.txt — это индексный файл в текстовом формате, который рекомендует поисковым роботам (например, Google, Yandex) какие страницы сканировать, а какие нет.
Нужен или нет robots.txt?
Однозначно да. Он помогает поисковым роботам быстрее разобраться какие страницы нужно индексировать, а какие нет.
Где находится файл robots.txt?
Файл располагается в корневой папке сайта и доступный для просмотра по адресу: https://site.ua/robots.txt
Как выглядит стандартный robots.txt?
Robots.txt пример:
Что должно быть в robots.txt?
Атрибуты robots.txt:
- User-agent — описывает каким именно роботам нужно смотреть инструкцию. Существует около 300 поисковых роботов (Googlebot, Yandexbot и т.д.). Чтобы указать инструкции сразу для всех роботов следует прописать:
Другие роботы:
- Ahrefsbot;
- Exabot;
- SemrushBot;
- Baiduspider;
- Mail.RU_Bot.
Список ненужных ботов ЗДЕСЬ. - Disallow — указывает роботу, что не нужно сканировать.
Открыть для сканирования весь сайт (robots.txt разрешить все):Запретить сканирование всего сайта (robots.txt запретить все):
Robots.txt запретить индексацию папки:
Запретить индексацию страницы в robots.txt:
Запретить индексацию конкретного файла:
Запрет индексации всех файлов на сайте с расширением .pdf:
Запретить индексацию поддомена в robots.txt:
Каждый поддомен имеет свой файл robots.txt. Если его нет — создайте и добавьте в корневую папку поддомена.
Закрыть все кроме главной в robots.txt: - Allow — разрешает роботу сканировать сайт/папку/конкретную страницу.
Например, чтобы разрешить роботу сканировать страницы каталога, а все остальное закрыть:
Как выглядит Robots.txt для Гугла и Яндекса?
Как указать главное зеркало в robots.txt?
Для обозначения главного зеркала (копии сайта, доступной по разным адресам) используют атрибут Host.
Host в robots.txt:
Как прописать карту сайта в robots.txt?
Карта сайта (sitemap.xml) сообщает поисковым роботам приоритетные страницы для индексации. Она находится по адресу: https://site.com/sitemap.xml.
Sitemap в robots.txt:
Что обозначают символы в robots.txt?
Наиболее часто используются следующие символы:
- “/” — закрытие от робота весь сайт/папку/страницу;
- “*” — любая последовательность символов;
- “$” — ограничение действия знака “*”;
- “#” — комментарии, которые не учитываются роботами.
Как настроить robots.txt?
В файле обязательно нужно отдельно для каждого робота прописать, что открыто для сканирования и что закрыто, прописать хост и карту сайта.
Файлы robots.txt различаются между собой в зависимости от используемой CMS.
Рекомендуем закрывать от индексации страницы: авторизации, фильтрации, поиска, страницу 404, вход в админку.
Пример идеального robots.txt:
Как проверить robots.txt?
Чтобы проверить валидность robots.txt (правильно ли заполнен файл) — используйте инструмент для вебмастеров Google Search Console. Для этого достаточно ввести код файла в форму, указать сайт и Вы получите отчет о корректности файла:
Ошибки в robots.txt
- Перепутали местами инструкции.
Неправильно:Правильно:
- Записали пару директорий сразу в одной инструкции:
- Не правильное название файла — не Robot.txt и не ROBOTS.TXT, а robots.txt!
- Правило User-agent не должно быть пустым, обязательно нужно указывать для каких роботов оно действует.
- Следите, чтобы не указать лишних символов в файле (“/”, “*”, “$” и т.д.).
- Не открывайте для сканирования страницы, которые не нужны в индексе.
Подойдите со всей ответственностью к формированию файла robots.txt — и будет Вам счастье 😉
Файл robots txt для сайта
Robots.txt – это служебный файл, инструкция для поисковых роботов для индексации сайта. В файле указываются каталоги, которые не требуется индексировать. Обычно это администраторская панель, кеш, служебные файлы. Размещается в корневой папке веб-ресурса. Его использование необходимо для лучшей индексации страниц, защиты приватной информации и повышения безопасности сайта.
Часто используется веб-мастерами вместе с другим служебным файлом, предусмотренным протоколом sitemap ( написанном на языке XML), который действует наоборот, предоставляя карту сайта с разрешенными к чтению роботами страницами.
Robots.txt и его влияние на индексацию сайта
На индексацию сайта также влияют скорость и надежность хостинга. Быстрый и надежный хостинг со скидкой до 30%!
После создания сайта его корневая папка на хосте становится доступной для поисковых систем. Роботы читают все, что найдут, без разбора.
В каталогах динамических сайтов, находящихся под управлением CMS, они не найдут никакой информации, ведь она хранится в базах данных MYSQL. Роботы, если им этого не запретить, беспрепятственно перебирают файлы в директориях, которые закрыты для посещения всем, кроме администратора. Это опасно для сайта и отнимает время у поисковиков, снижая скорость индексации веб-ресурса.
Для хакеров и прочих компьютерных злоумышленников доступные к чтению служебные файлы – это еще не дверь, но замочная скважина, в которую они обязательно залезут с электронной отмычкой для получения контроля над всем сайтом. Если в файле robots.txt указать, что читать надо только индексные файлы, то знакомство поисковой системы с динамическим сайтом произойдет быстрее, а его безопасность повысится.
Для статических веб-ресурсов этот файл станет небольшой гарантией, что хранящиеся конфиденциальные данные (телефоны, адреса электронной почты и другие) не окажутся в открытом доступе.
Веб-мастер, создавая файл robots.txt, может запретить роботам поисковых систем посещение всего сайта или дать доступ к его индексации только одной из категорий или страниц сайта.
Какие страницы стоит запретить и закрыть в robots.txt?
Если на хосте, где размещен сайт, есть панель управления, то этот файл можно создать, открыв корневую папку и нажав кнопку «новый файл» (бывают варианты в названиях). Но лучше создать файл на домашнем компьютере, а для загрузки воспользоваться каналом FTP.
Самой удобной программой для создания файла robots.txt является Notepad++. Но не возбраняется использовать обычный блокнот из набора Windows или текстовый редактор Word. Сохранять файл надо с расширением .txt.
Даже если он написан неправильно, это не приведет к потере работоспособности сайта, как это происходит с неправильным файлом .htaccess.
— Если не хочется ни изучать синтаксис файла, ни создавать его самостоятельно, то можно обратиться, например на http://pr-cy.ru/robots/, где его сгенерируют автоматически.
Директивы файла — user agent, host и т.д.
Директивы (команды) файла пишутся на латинице, после каждой из них ставится двоеточие и указывается объект управления.
Директивы бывают стандартные:
- User-agent – имя поискового робота;
- Allow – разрешить;
- Disallow – запретить;
- Sitemap – адрес, где находится sitemap.xml;
- * – для всех.
И расширенные:
- Craw-delay– промежуток времени между чтением директорий;
- Request-rate – количество страниц, просмотренных за одну секунду;
- Visit-time – желаемое время посещения сайта роботом.
Расширенные директивы снижают нагрузку на сервер и защищают сайт от слишком назойливых парсеров.
Google, Яндекс и настройка роботс
Поисковые системы Гугл и Яндекс одинаково хорошо читают этот файл, но рассчитывать, что его наличие послужит установлению каких-либо особенных отношений поисковых систем с сайтом – это ненужный романтизм, лишенный оснований. Есть некоторые отличия в том как можно обратиться к поисковому роботу, ведь у каждой системы их целый набор:
- YandexBot и Googlebot – это обращение к основным поисковым роботам;
- YandexNews и Googlebot-news – роботы, специализирующиеся на новостном контенте;
- YandexImages и Googlebot-image – индексаторы картинок.
У Яндекса поисковых роботов девять, а у Google восемь. Если требуется общая индексация, то после директивы User-agent пишется Yandex или Googlebot.
У Яндекса есть еще одна особенность: его роботы читают директиву Host, указывающую на «зеркало» сайта. Гугл ее не понимает.
Нужен красивый домен для Вашего проекта? Проверить и купить домен дешево болеее чем в 300 зонах!
Как составить robots.txt для Joomla
Вот как может выглядеть этот файл для новостного сайта на CMS Joomla.
User-agent: YandexNews
Disallow: /administrator
Disallow: /components
Disallow: /libraries
Allow: /index1.php
Allow: /index2.php
Request-rate: 1/20
Visit-time: 0200-0600
В нем для индексации «приглашен» новостной бот Яндекса, которому запрещено читать директории administrator, components и libraries (папка, где собственно и содержится «движок»). Индексировать можно 1 страницу за 20 секунд, а посещать сайт с двух ночи до шести утра по Гринвичу.
Проверить правильность написания файла robots.txt можно обратившись в Яндексе к сервису «Вебмастеру». Такой же Центр Веб-мастеров есть и у Google.
Не нужно использовать этот файл как основу – в нем просто показано использование директив.
Пример правильного файла robots.txt для WordPress — как запретить все лишнее
А это – рабочий файл robots.txt для CMS WordPress.
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /*?*
Disallow: *?replytocom
Disallow: /wp-*
Disallow: /comments/feed/
Host: http://вашсайт.ру
Sitemap: http://вашсайт.ру/sitemap.xml
В первом блоке написаны директивы для всех поисковых роботов, они же дублируются для Яндекса, только с уточнением основной версии сайта. Как видно, из индекса исключена пагинация, служебные файлы и каталоги.
iPipe – надёжный хостинг-провайдер с опытом работы более 15 лет.
Мы предлагаем:
Закрыть сайт от индексации на WordPress: плагины и способы
Если вы заглядывали в серверную часть WordPress, то заметили настройку: «Попросить поисковые системы не индексировать сайт», и задались вопросом, что это означает. А может быть ищете способ скрыть свой сайт от нежелательных посетителей и задаетесь вопросом, достаточно ли этого маленького флажка, чтобы контент оставался конфиденциальным.
Что означает эта опция и что именно она делает с сайтом? И почему не следует полагаться на нее, если вы пытаетесь скрыть свой контент?
Ответы на эти вопросы и несколько способов закрыть сайт от индексации и блокировки доступа к определенным страницам будут рассмотрены ниже.
Как понимать «Попросить поисковые системы не индексировать сайт»
Вы задумывались, как поисковые системы индексируют сайт и оценивают его SEO? Они делают это с помощью автоматизированной программы, называемой пауком, также известной как робот или краулер. Пауки «ползают» по сети, посещая веб-сайты и регистрируя их контент. Google использует их, чтобы ранжировать и размещать веб-сайты в результатах поиска, извлекать фрагменты текста из статей для страницы результатов поиска и вставлять изображения в Картинки Google.
Когда устанавливается флажок «Попросить поисковые системы не индексировать сайт», WordPress изменяет файл robots.txt (файл, дающий паукам инструкции о том, как сканировать сайт). А еще может добавить метатег в заголовок сайта, который сообщает Google и другим поисковым системам, что сайт или какой-либо контент закрыт от индексации.
Ключевое слово здесь – «попросить»: поисковые системы не обязаны выполнять этот запрос, особенно поисковые системы, не использующие стандартный синтаксис robots.txt, который использует Google.
Сканеры по-прежнему смогут найти ваш сайт. Но правильно настроенные сканеры прочитают файл robots.txt и уйдут, не индексируя контент и не показывая его в результатах поиска.
В прошлом эта опция в WordPress не мешала Google показывать веб-сайт в результатах поиска, просто индексируя его контент. Вы по-прежнему можете видеть, что ваши страницы отображаются в результатах поиска с ошибкой типа «Информация для этой страницы недоступна» или «Описание этого результата недоступно из-за файла robots.txt сайта».
Хотя Google не индексировал страницу, он также и не скрывал ее полностью. Эта аномалия привела к тому, что люди могли посещать страницы, которые им не предназначались. Благодаря WordPress 5.3 теперь он работает правильно, блокируя как индексацию, так и листинг сайта.
Представляете, как это разрушит SEO сайта, если случайно будет включен этот флажок? Критически важно использовать эту опцию только в том случае, если вы действительно не хотите, чтобы кто-либо видел контент – и даже в этом случае это не единственная мера, которую нужно предпринять.
Почему иногда нужно закрыть сайт от индексации
Веб-сайты созданы для того, чтобы их видели люди: чтобы пользователи читали статьи, покупали продукты, потребляли контент. Зачем намеренно пытаться блокировать поисковые системы?
Есть несколько причин, по которым нужно скрыть часть или весь свой сайт:
- Сайт находится в разработке и не готов к публикации.
- Используете WordPress в качестве системы управления контентом, но хотите, чтобы указанный контент оставался конфиденциальным.
- Пытаетесь скрыть конфиденциальную информацию.
- Хотите, чтобы сайт был доступен только небольшому количеству людей по ссылке или только через приглашения, а не через общедоступные страницы поиска.
- Планируете разместить некоторый контент для платного доступа (например, статьи, эксклюзивные предложения, информационные бюллетени).
- Хотите сократить трафик к старым, устаревшим статьям.
- Стараетесь предотвратить получение штрафов SEO на тестовых страницах или дублировании контента.
Для некоторых из этих пунктов есть лучшие решения – использование надлежащего автономного сервера разработки, установка приватности статей или размещение их под паролем. Но есть законные причины, по которым необходимо закрыть часть или весь свой сайт от индексации.
Как проверить, не отпугивает ли ваш сайт поисковые системы
Хотя могут быть законные причины для закрытия сайта от индексации, может быть ужасным шоком понимание, что вы включили этот параметр без намерения или оставили его включенным случайно. Если трафик с сайта нулевой, то есть подозрение, что сайт не индексируется. Как подтвердить это предположение?
Один из простых способов – установить флажок «На виду» на главном экране панели администратора. Если видите сообщение «Поисковые системы не одобряют» (Search Engines Discouraged), значит, эта настройка активирована.
Еще более надежный способ – проверить файл robots.txt. Это можно легко проверить в браузере, даже не заходя на сайт.
Чтобы проверить robots.txt, добавьте/robots.txt
в конец URL вашего сайта. Например:https://namesite.com/robots.txt
Если видите, Disallow: /
значит, весь сайт заблокирован для индексации.
Если видите, что Disallow:
за ним следует URL-путь, например Disallow: /wp-admin/
, это означает, что любой URL-адрес с /wp-admin/
путем заблокирован. Такая структура является нормальной для некоторых страниц, но если, например, она блокирует /blog/
страницы, которые необходимо проиндексировать, это может вызвать проблемы.
Теперь, когда WordPress использует метатеги, а не robots.txt для закрытия сайта от индексации, нужно проверить свой заголовок на наличие изменений.
Войдите в свой бэкэнд и выберите «Внешний вид» > « Редактор тем». Найдите заголовок темы (header.php) и следующий код:
<meta name='robots' content='noindex,nofollow' />
Еще можете проверить functions.php на наличие noindex
тега, так как через этот файл можно удаленно вставить код в заголовок.
Если найдете этот код в своих файлах темы, значит сайт не индексируется Google. Но вместо того, чтобы удалять его вручную, сначала попробуем отключить исходную настройку.
Как препятствовать индексации поисковыми системами в WordPress
Можно пропустить лишние шаги и сразу перейти к исходным настройкам, чтобы активировать или деактивировать опцию «Попросить поисковые системы не индексировать сайт» в WordPress.
Войдите в свою панель управления WordPress и перейдите в «Настройки» > «Чтение». Найдите параметр «Видимость для поисковых систем» с флажком «Попросить поисковые системы не индексировать сайт».
Если обнаружите, что он уже включен и хотите, чтобы сайт был проиндексирован, снимите флажок. Если собираетесь запретить индексирование сайта, ставьте флажок (и запишите где-нибудь заметку, напоминающую выключить его позже!).
Теперь нажмите «Сохранить изменения», и все готово. Переиндексация сайта или его удаление из результатов поиска может занять некоторое время.
Если сайт все еще закрыт от индексации, можно удалить noindex
код из файла заголовка или вручную отредактировать robots.txt, чтобы убрать флаг «Disallow».
Это достаточно просто, но по каким причинам следует избегать этого варианта или, по крайней мере, не полностью полагаться на него?
Недостатки использования опции «Попросить поисковые системы не индексировать сайт»
Это кажется простым – поставьте галочку, и никто не сможет увидеть ваш сайт. Разве этого не достаточно?
Когда включаете этот параметр или любой другой подобный ему, он просто добавляет тег в заголовок или в файл robots.txt. Как показывают более старые версии WordPress, которые по-прежнему позволяют отображать ваш сайт в результатах поиска, небольшой сбой или другая ошибка может привести к тому, что люди увидят ваши предположительно скрытые страницы.
Кроме того, поисковые системы должны выполнить запрос на запрет индексировать указанный сайт. Основные поисковые системы, такие как Google и Bing, обычно выполняют эту опцию. Но не все поисковые системы используют один и тот же синтаксис robots.txt, и не все пауки, сканирующие Интернет, рассылаются поисковыми системами.
Например, одна из служб, использующих поисковые роботы, – это Wayback Machine. А если контент проиндексирован такой службой, он навсегда останется в сети.
Можно думать, если на новом сайте нет ссылок, то он защищен от пауков, но это неправда. Существование на общем сервере, отправка электронного письма со ссылкой на веб-сайт или даже посещение сайта в браузере (особенно в Chrome) может открыть этот сайт для сканирования.
Если хотите скрыть контент, не рекомендуется просто добавлять параметр и надеяться, что он поможет. Давайте проясним: если контент, который закрыт от индексации, носит конфиденциальный или личный характер, ни в коем случае не следует полагаться на robots.txt или метатег, чтобы скрыть его.
И последнее, но не менее важное: эта опция полностью скроет сайт от поисковых систем, хотя во многих случаях нужно закрыть индексирование только определенные страницы.
Итак, что нужно делать вместо этого метода или вместе с ним?
Смотрите также:
Как исправить фатальную ошибку WordPress max_execution_time
Другие способы закрыть сайт от индексации
Хотя вариант, предоставляемый WordPress, обычно выполняет свою работу, в определенных ситуациях лучше использовать другие методы сокрытия контента. Даже сам Google говорит, что не используйте robots.txt для скрытия страниц.
Пока сайт имеет доменное имя и находится на общедоступном сервере, нет никакого способа гарантировать, что контент не будет виден или проиндексирован поисковыми роботами, если вы не удалите его или не скроете за паролем или требованием входа в систему.
Тем не менее, как лучше скрыть сайт или определенные страницы на нем?
Блокируйте поисковые системы с помощью .htaccess
Хотя его реализация функционально такая же, как при простом использовании опции «Попросить поисковые системы не индексировать сайт», вы можете вручную использовать .htaccess, чтобы закрыть индексирование сайта.
Используйте программу FTP / SFTP для доступа к сайту и открытия файла .htaccess, который обычно находится в корневой папке (первая папка, которую видно при открытии сайта) или в public_html. Добавьте этот код в файл и сохраните:
Header set X-Robots-Tag "noindex, nofollow"
Примечание. Этот метод работает только для серверов Apache. Серверы NGINX должны вместо этого кода добавить другой код в файл .conf, который можно найти в / etc / nginx / (можете найти здесь пример реализации метатега):
add_header X-Robots-Tag "noindex, nofollow";
Защита секретных страниц паролем
Если есть определенные статьи или страницы, которые поисковые системы не должны индексировать, лучший способ закрыть их – защитить сайт паролем. Таким образом, только вы и желаемые пользователи сможете видеть этот контент.
К счастью, эта функция встроена в WordPress, поэтому устанавливать какие-либо плагины не нужно. Просто перейдите на Страницы записей и нажмите на ту, которую хотите скрыть. Отредактируйте свою страницу и найдите меню справа Статус и видимость > Видимость.
Если не используете Gutenberg, процесс будет аналогичным. Найдите такое же меню в поле «Опубликовать». Измените Видимость на «Защищено паролем» и введите пароль, затем сохраните – и теперь контент скрыт от широкой публики.
Что делать, если защитить паролем весь свой сайт не нужно? А требовать пароль для каждой страницы непрактично. Можно включить защиту паролем в Сайтах > Инструменты, потребовав как имя пользователя, так и пароль.
В противном случае вы можете использовать плагин ограничения контента (например, Password Protected). Установите и активируйте его, затем перейдите в «Настройки» > «Защищено паролем» и включите «Статус защиты паролем». Это дает более тонкий контроль, позволяя занести в белый список определенные IP-адреса.
Примечание: на момент написания статьи этот плагин не обновлялся более 11 месяцев. Он может больше не поддерживаться, что может повлечь за собой проблемы совместимости с последними версиями WordPress.
Установите плагин WordPress
Когда стандартной функциональности WordPress недостаточно, хороший плагин часто может решить ваши проблемы. Например, если вы хотите не индексировать определенные страницы, а не весь сайт, у плагина Yoast есть такая опция.
В Yoast SEO вы можете открыть страницу, которую хотите скрыть, и найти опцию на вкладке «Дополнительно»: Разрешить поисковым системам показывать эту запись в результатах поиска? Измените его на Нет, и страница будет закрыта.
Должны отметить, что оба плагина полагаются на те же методы, что и вариант WordPress по умолчанию, чтобы закрыть сайт от индексации поисковыми системами, и подвержены тем же недостаткам. Некоторые поисковые системы могут не удовлетворить ваш запрос. Поэтому нужно будет использовать другие методы, если вам действительно нужно полностью скрыть этот контент.
Другое решение – заплатить за доступ к вашему контенту или скрыть его за обязательным логином. Плагины Simple Membership или Ultimate Member помогут создать бесплатный или платный контент членства.
Используйте промежуточный сайт для тестирования
При работе над тестовыми проектами или незавершенными веб-сайтами лучше всего скрывать их, используя промежуточный или разрабатываемый сайт. Эти веб-сайты являются частными, часто размещаются на локальном компьютере, к которому никто, кроме вас и других доверенных лиц не могут получить доступ.
Многие веб-хосты предоставят простые в развертывании промежуточные сайты и позволят отправить их на собственный общедоступный сервер, когда вы будете готовы.
Если у вас нет доступа к простому способу создания промежуточного сайта, плагин WP STAGING может продублировать установку и переместить ее в папку для легкого доступа.
Используйте Google Search Console для временного скрытия веб-сайтов
Консоль поиска Google – это служба, которая позволяет заявить о праве собственности на веб-сайты. Что дает возможность временно заблокировать Google от индексации определенных страниц.
У этого метода есть несколько проблем: он эксклюзивен для Google (поэтому такие сайты, как Bing, не будут затронуты) и действует всего 6 месяцев.
Но если нужен быстрый и простой способ временно удалить контент из результатов поиска Google, это способ прекрасно справится. Для этого нужно добавить сайт в Google Search Console, если его тап нет. После этого откройте «Удаление» и выберите «Временное удаление» > «Новый запрос». Затем нажмите «Удалить только этот URL-адрес» и укажите ссылку на страницу, которую хотите скрыть.
Это надежный способ блокировки контента, но, опять же, он работает исключительно для Google и длится всего 6 месяцев.
Есть много причин, по которым нужно закрыть контент на своем сайте, но использование опции «Попросить поисковые системы не индексировать сайт» – не лучший способ убедиться, что такой контент не виден. Воспользуйтесь рекомендациями, подробно предоставленными в этой статье, чтобы закрыть сайт от индексации.
Источник: kinsta.com
Смотрите также:
Изучает сайтостроение с 2008 года. Практикующий вебмастер, специализирующий на создание сайтов на WordPress. Задать вопрос Алексею можно на https://profiles.wordpress.org/wpthemeus/
что это, как настроить и ускорить индексирование в поисковых системах
Как только вы создадите сайт для своего бизнеса, однозначно столкнетесь с понятием «индексация в поисковых системах». В статье постараемся как можно проще рассказать, что это такое, зачем нужно и как сделать, чтобы индексация проходила быстро и успешно.
Что такое индексация в поисковых системах
Под индексацией понимают добавление информации о сайте или странице в базу данных поисковой системы. Фактически поисковую базу можно сравнить с библиотечным каталогом, куда внесены данные о книгах. Только вместо книг здесь веб-страницы.
Если совсем просто, индексация — процесс сбора данных о сайте. Пока информация о новой странице не окажется в базе, ее не будут показывать по запросам пользователей. Это означает, что ваш сайт никто не увидит.
Индексация сайта — базовая часть работы по продвижению ресурса. Только потом уже добавляются все остальные элементы по оптимизации сайта. Если у веб-страницы будут проблемы с индексированием, ваш бизнес не получит клиентов с сайта и понесет убытки.
Как проходит процесс индексации
Давайте посмотрим, как происходит индексирование страниц сайта.
-
Поисковый робот (краулер) обходит ресурсы и находит новую страницу.
-
Данные анализируются: происходит очистка контента от ненужной информации, заодно формируется список лексем. Лексема — совокупность всех значений и грамматических форм слова в русском языке.
-
Вся собранная информация упорядочивается, лексемы расставляются по алфавиту. Заодно происходит обработка данных, поисковая машина относит информацию к определенным тематикам.
-
Формируется индексная запись.
Это стандартный процесс индексации документов для поисковых систем. При этом у «Яндекса» и Google существуют небольшие отличия в технических моментах, про это мы расскажем дальше.
Читайте также:
Отличия SEO под Яндекс и Google
Технологии и алгоритмы индексации
Сразу стоит оговориться, что точные алгоритмы индексирования — закрытая коммерческая информация. Поисковые системы тщательно охраняют эти данные.
Поэтому в этом разделе расскажем про алгоритмы только в общих чертах
Вначале нужно отметить: «Яндекс» при индексации ориентируется в основном на файл robots.txt, а Google на файл sitemap.xml.
Основным отличием является использование технологии Mobile-first. Она подразумевает первоочередное сканирование и индексацию мобильной версии сайта. В индексе сохраняется именно мобильная версия. Получается, что если ваша страница при показе на мобильных устройствах будет содержать недостаточно нужной информации или в целом проигрывать основной версии сайта по качеству. Так, что она может даже не попасть в индекс.
Также Google подтверждает наличие «краулингового бюджета» — регулярности и объема посещения сайта роботом. Чем больше краулинговый бюджет, тем быстрее новые страницы будут попадать в индекс. К сожалению, точных данных о способах расчета этого показателя представители компании не раскрывают. По наблюдениям специалистов, тут оказывают сильное влияние возраст сайта и частота обновлений.
«Яндекс»
В «Яндексе» основной версией считается десктопная версия сайта, поэтому в первую очередь сканируется именно она. Официально краулингового бюджета здесь нет, поэтому индексирование происходит вне зависимости от траста и других показателей вашего ресурса. Еще может влиять количество выложенных в сеть на данный момент страниц. Речь про страницы, которые конкуренты и другие пользователи выкладывают одновременно с вами.
Приоритет при индексации имеют сайты с большой посещаемостью. Чем выше посещаемость, тем быстрее новая страница окажется в поисковой выдаче.
Также Яндекс не индексирует документы с весом более 10 Мб. Учитывайте это при создании страниц сайта. Советуем также почитать кейс: Продвижение сайта REG.RU за процент от продаж.
Заказать продвижение сейчас
Как настроить индексацию сайта
В целом сайт должен индексироваться самостоятельно, даже если вы не будете ничего предпринимать для этого. Но если вы разберетесь с настройкой, то получите быструю и надежную индексацию и в случае возникновения проблем с сайтом будете понимать, в чем причина.
Первое, что стоит сделать, — создать файл robots.txt. У большей части систем управления сайтом (CMS) есть автоматизированные решения для его генерации. Но нужно как минимум понимать, какие директивы используются в этом файле. На скриншоте показан стандартный документ для сайта на WordPress:
Типовой файл robots.txt сайта на WordPress
Обратите внимание, что здесь нет директивы host: она не используется «Яндексом» с 2018 года, а Google никогда ее и не замечал. Но при этом до сих пор встречаются рекомендации по использованию этой директивы, и многие по инерции вставляют ее в файл.
В таблице ниже указаны основные параметры, используемые в robots.txt:
Директива |
Зачем используется |
User-agent: |
Показывает поискового робота, для которого установлены правила |
Disallow: |
Запрещает индексацию страниц |
sitemap: |
Показывает путь к файлу sitemap.xml |
Clean-param: |
Указывает на страницы, где часть ссылок не нужно учитывать, например UTM-метки |
Allow: |
Разрешает индексацию документа |
Crawl-delay: |
Указывает поисковому роботу минимальное время ожидания между посещением предыдущей и следующей страницы сайта |
Рассмотрим более подробно код на следующем скриншоте. User-agent показывает, что директивы предназначены для «Яндекса». А директива Disallow показывает, какие страницы не должны попасть в индекс. Это технические документы, в частности админ-панель сайта и плагины.
Фрагмент кода robots.txt
Более подробно о том, каким должен быть robots.txt для сайта, можно прочитать в справке сервиса «Яндекс.Вебмастер».
Далее делаем файл sitemap.xml: фактически это карта сайта, созданная в формате xml. Сделано это для упрощения считывания данных поисковыми роботами. В файл вносятся все страницы, которые должны быть проиндексированы.
Для правильной индексации файл не должен превышать 50 Мб или 50000 записей. Если нужно проиндексировать больше адресов, делают несколько файлов, которые в свою очередь перечисляются в файле с индексом sitemap.
На практике сайты, работающие с бизнесом, редко имеют потребность в подобном решении — просто имейте в виду такую особенность.
На скриншоте показан фрагмент кода sitemap.xml, сгенерированный одним из плагинов WordPress:
Так выглядит файл sitemap.xml «изнутри»
Остается разобраться, как создать файл sitemap.xml. Решение зависит от CMS вашего сайта. Если он сделан не на популярном «движке», придется делать все руками. Можно воспользоваться онлайн-генератором: например, mySitemapgenerator. Вводим адрес сайта и через короткое время получаем готовый файл.
Для сайтов на CMS WordPress сделать такую карту сайта еще проще. У вас все равно уже установлен один из плагинов для SEO-оптимизации ресурса. Заходим в настройки плагина и включаем генерацию sitemap.xml. На скриншоте показан пример включения карты сайта через плагин AIOSEO:
Плагин для настройки sitemap.xml в WP
Чтобы сайт максимально быстро индексировался, следует обеспечить перелинковку. Тогда поисковый робот без проблем будет переходить по страницам и своевременно найдет новый документ.
Далее необходимо выполнить настройку индексирования в «Яндекс.Вебмастер» и Google Search Console.
Читайте также:
Подробный гайд по оптимизации сайта на WordPress
Как ускорить индексацию сайта
В начале статьи мы рассказывали, как настроить индексирование. Теперь поговорим о том, как ускорить это процесс. В целом современные поисковые роботы довольно быстро собирают информацию о ресурсе: по моим наблюдениям, новые страницы появляются в индексе уже через 20–40 минут. Но так бывает не всегда, потому что может произойти сбой или еще какая-то нештатная ситуация, и страница будет индексироваться очень долго.
Появление адреса в списке проиндексированных страниц «Яндекс.Вебмастера» не совпадает с моментом индексации. На практике URL оказывается в индексе намного раньше, а в кабинете только при очередном апдейте.
При этом есть ситуации, когда индексирование нужно ускорить:
-
Сайт выходит из-под фильтров.
-
Молодой ресурс обладает небольшим краулинговым бюджетом.
В обоих случаях рекомендуется подтолкнуть поисковых роботов. Отметим, что для «Яндекса» и Google подход будет разным.
Начнем с отечественной поисковой системы. Заходим в «Яндекс.Вебмастер» и в меню слева, во вкладке «Индексирование», находим ссылку «Переобход страниц». Переходим по ней:
Яндекс.Вебмастер — подраздел «Переобход страниц» в меню «Индексирование»
На следующей вкладке вводим URL новой страницы, после чего жмем кнопку «Отправить». Отследить статус заявки можно в расположенном ниже списке:
Процесс отправки страниц сайта на переобход
Так можно поступать не только с новыми страницами, но и в случае изменения уже имеющихся на сайте. Только помните, что количество отправок в сутки ограничено, причем все зависит от возраста и траста сайта.
В самом «Вебмастере» предлагается для ускорения индексирования подключать переобход по счетчику «Яндекс.Метрики». Это не самое лучшее решение. Дело в том, что поисковый робот может ходить по всем страницам — даже тем, которые не нужно индексировать, причем в приоритете будут наиболее посещаемые документы. Может получиться ситуация, когда старые страницы робот обошел, а новые не заметил. Или вообще в поиск попадут технические страницы: например, страница авторизации или корзина интернет-магазина.
У Google ускорение индексации состоит из двух этапов. Сначала идем в Search Console, где на главной странице вверху находится поле «Проверка всех URL». В него вставляем адрес страницы, которую нужно проиндексировать. Далее нажимаем на клавиатуре «Enter».
Поле для ввода URL страницы, которую мы хотим добавить для индексирования
Ждем около минуты. Сервис нам будет показывать вот такое окно:
Всплывающее окно в Search Console о получении данных из индекса
Следующая страница выглядит вот так:
Как видите написано, что URL отсутствует в индексе, поэтому нажимаем на кнопку «Запросить индексирование»
Некоторое время поисковая машина будет проверять, есть ли возможность проиндексировать адрес:
Техническое окно с сообщением о проверке
Если все прошло успешно, Google сообщает, что страница отправлена на индексирование. Остается только дождаться результатов.
Сообщение об отправке запроса. Обратите внимание, что не стоит повторно отправлять на индексацию один и тот же URL
При отправке на индексирование страниц сайта, следует помнить, что Google до сих пор очень ценит ссылки. Поэтому, существует альтернативный способ ускорения индексации — Twitter.
Сразу после публикации страницы идем в Twitter и делаем твит с нужным адресом. Буквально через полчаса URL будет уже в индексе Google.
Лучше всего использовать эти обе способа совместно. Так будет надежнее.
Читайте также:
Внешняя оптимизация сайта: как продвигать сайт с помощью сторонних ресурсов
Как запретить индексацию страниц
В некоторых случаях может потребоваться не проиндексировать, а наоборот запретить индексацию. К примеру, вы только создаете страницу и на ней нет нужной информации, или вообще сайт в разработке и все страницы — тестовые и недоработанные.
Существует несколько способов, чтобы «спрятать» страницу от поисковых роботов. Рассмотрим наиболее удобные варианты.
Способ первый
Если вам нужно скрыть всего один документ, можно добавить в код страницы метатег Noindex. Эта команда дает поисковому роботу команду не индексировать документ. Размещают его между тегами <head>. Вот код, который нужно разместить:
<meta name=»robots» content=»noindex» />
Большая часть CMS позволяют использовать этот метод в один клик, предлагая готовые решения. У WordPress, например, для этого имеется отдельная строчка в настройках редактора, а в «1С-Битрикс» путем настроек раздела и конкретной страницы.
Способ второй
Заключается в редактировании файла robots.txt. Разберем несколько примеров закрытия страниц от индексирования.
Начнем с полного закрытия сайта от индексирования. На скриншоте код, который выполняет эту задачу: звездочка говорит, что правило работает для всех поисковых роботов. Косая черта (слеш) показывает, что директива Disallow относится ко всему сайту.
Полное закрытие сайта от индексирования
Если нам нужно закрыть ресурс от индексирования в конкретной поисковой системе, указываем название ее краулера. На скриншоте показано закрытие от робота «Яндекса».
Закрываем сайт от индексации «Яндексом»
Когда нужно избежать индексирования конкретной страницы, после слеша указываем параметры пути к документу. Пример показан на скриншоте:
Закрытие одной страницы в Robots.txt
Для Google все перечисленные способы работают аналогично. С разницей лишь в том, что если страницу или целый сайт нужно скрыть конкретно от этой поисковой системы, в User-agent указывают атрибут Googlebot.
Закрытие страниц от индексации используется довольно часто. В процессе развития своего веб-ресурса вам часто придется делать новые страницы, или переделывать имеющиеся. Чтобы избежать попадания в поисковую выдачу не готовых к показу страниц, имеет смысл закрывать их от индексации.
Присоединяйтесь к нашему Telegram-каналу!
- Теперь Вы можете читать последние новости из мира интернет-маркетинга в мессенджере Telegram на своём мобильном телефоне.
- Для этого вам необходимо подписаться на наш канал.
Распространенные ошибки индексации
Чаще всего проблемы возникают из-за случайного закрытия сайта от индексирования. У меня был случай, когда клиент при самостоятельном обновлении плагинов как-то внес изменения в файл robots.txt, и сайт исчез из поисковой выдачи. Поэтому при всех действиях, которые связаны с этим файлом, обязательно проверяйте, нет ли изменений в директивах.
Для проверки можно использовать инструмент Яндекс.Вебмастер «Анализ robots.txt».
Анализатор robots.txt — бесплатный и полезный инструмент проверки файла на корректность записанных директив
В некоторых случаях могут индексироваться технические страницы. К примеру, на WordPress при размещении изображений в виде медиафайла поисковый робот может индексировать каждую картинку в качестве отдельной страницы. В таком случае делаем редирект с этой страницы на тот документ, где изображение будет выводиться.
Читайте также:
Как сделать редирект — подробное руководство по настройке и использованию
Иногда встречаются проблемы с индексированием из-за неполадок на сервере или хостинге, но это уже нужно решать с администратором сервера, что выходит за рамки этой статьи.
Медленное индексирование может быть следствием наложения фильтров со стороны поисковых систем. Посмотрите, нет ли предупреждений в сервисах для вебмастеров: если они есть, устраните проблемы.
Как проверить индексацию сайта
Проверить индексацию сайта можно несколькими способами. Самым простой — в поисковой строке браузера набрать адрес сайта с оператором «site» или «url». Выглядит это вот так: «site: kokoc.com». На скриншоте показан запрос с проиндексированной страницей.
Проверка индексирования в поисковой системе
Если страница еще не вошла в индекс, вы увидите вот такую картину. Проверка в Google производится аналогично.
Страница не проиндексирована
Также можно посмотреть статус документа в «Яндекс.Вебмастер». Для этого находим в меню «Индексирование» и переходим на «Страницы в поиске».
Меню «Яндекс.Вебмастер»
Внизу страницы будут три вкладки. Нас интересуют «Все страницы», там можно увидеть статус документа, последнее посещение и заголовок.
Проиндексированные страницы
Обязательно посмотрите вкладку «Исключенные страницы». Тут вы увидите, какие документы оказались вне поискового индекса. Также указана причина исключения.
Исключенные страницы
При любых сложностях с индексированием в первую очередь следует смотреть конфигурационные файлы robots.txt и sitemap.xml. Если там все в порядке, проверяем, нет ли фильтров, и в последнюю очередь обращаемся к администратору хостинга.
Выводы
Индексация страниц сайта сейчас происходит в самые короткие сроки. При правильной настройке документы могут попадать в индекс поиска уже через полчаса после размещения.
Настройка сводится к созданию правильных конфигурационных файлов и созданию удобных условий для поискового робота для перехода по страницам сайта. Вот какие шаги нужно сделать для правильной индексации:
-
Создаем и настраиваем файл robots.txt.
-
Генерируем файл sitemap.xml.
-
Регистрируем сайт в сервисах Google Search Console и «Яндекс.Вебмастер».
-
Каждый раз после размещения статьи или новой страницы отправляем URL на проверку.
-
Используем дополнительные инструменты: размещение ссылок в Twitter и на других трастовых ресурсах.
После этого вероятность возникновения каких-либо проблем с индексированием будет стремиться к нулю. Теперь нужно наращивать позиции в топе — но это уже совсем другая история…
Продвижение сайта в ТОП-10
- Оплата по дням нахождения в ТОП
- Подбираем запросы, которые приводят реальных покупателей!
Правильный способ предотвращения индексации вашего сайта • Yoast
Мы уже говорили это когда-то, но мы повторим: нас удивляет, что до сих пор есть люди, использующие только файлов robots.txt для предотвращения индексации своего сайта в Google или Bing. В результате их сайт все равно появляется в поисковых системах. Вы знаете, почему это нас удивляет? Потому что robots.txt на самом деле не выполняет последнего, хотя и предотвращает индексацию вашего сайта. Позвольте мне объяснить, как это работает, в этом посте.
Чтобы узнать больше о robots.txt, прочтите robots.txt: полное руководство. Или найдите лучшие методы работы с robots.txt в WordPress.
Есть разница между индексированием и включением в Google
Прежде чем мы продолжим объяснять вещи, нам нужно сначала рассмотреть некоторые термины:
- Индексирование / индексирование
Процесс загрузки сайта или содержания страницы на сервер поисковой системы, тем самым добавляя его в свой «индекс».” - Рейтинг / Листинг / Отображение
Отображение сайта на страницах результатов поиска (также известных как SERP).
Подробнее: Что такое индексирование в отношении Google? »
Итак, хотя наиболее распространенный процесс идет от индексирования к листингу, сайт не обязательно должен индексироваться , чтобы быть внесенным в список. Если ссылка указывает на страницу, домен или другое место, Google перейдет по этой ссылке. Если файл robots.txt в этом домене препятствует индексации этой страницы поисковой системой, он все равно будет показывать URL в результатах, если он может быть получен из других переменных, на которые, возможно, стоит обратить внимание.
Раньше это мог быть DMOZ или каталог Yahoo, но я могу представить, что Google использует, например, данные о вашем бизнесе в наши дни или старые данные из этих проектов. Больше сайтов резюмируют ваш сайт, верно.
Теперь, если приведенное выше объяснение не имеет смысла, взгляните на это видеообъяснение бывшего сотрудника Google Мэтта Каттса из 2009 г .:
Если у вас есть причины для предотвращения индексации вашего веб-сайта, добавление этого запроса на конкретную страницу, которую вы хотите заблокировать, как говорит Мэтт, по-прежнему является правильным способом.
Но вам нужно сообщить Google об этом метатеге robots. Итак, если вы хотите эффективно скрыть страницы от поисковых систем, вам нужно , чтобы проиндексировали этих страниц. Хотя это может показаться противоречивым. Это можно сделать двумя способами.
Предотвратить листинг вашей страницы, добавив метатег роботов
Первый способ предотвратить размещение вашей страницы в списке — использовать метатеги robots. У нас есть подробное руководство по метатегам роботов, которое более обширно, но в основном оно сводится к добавлению этого тега на вашу страницу:
Если вы используете Yoast SEO, это очень просто! Самостоятельно добавлять код не нужно.Узнайте, как добавить тег noindex с помощью Yoast SEO здесь.
Проблема с таким тегом в том, что его нужно добавлять на каждую страницу.
Управление метатегами роботов упрощено в Yoast SEO
Чтобы упростить процесс добавления метатега robots на каждую страницу вашего сайта, поисковые системы разработали HTTP-заголовок X-Robots-Tag. Это позволяет вам указать HTTP-заголовок с именем X-Robots-Tag
и установить значение так же, как и значение мета-тегов robots.Самое замечательное в этом то, что вы можете сделать это для всего сайта. Если ваш сайт работает на Apache и включен mod_headers (обычно это так), вы можете добавить следующую единственную строку в свой файл .htaccess :
Заголовочный набор X-Robots-Tag "noindex, nofollow"
И это приведет к тому, что весь сайт можно будет проиндексировать . Но никогда не будет отображаться в результатах поиска.
Итак, избавьтесь от этого файла robots.txt с Disallow: /
в it.Используйте вместо этого X-Robots-Tag или этот метатег robots!
Продолжайте читать: полное руководство по метатегу роботов »
Йост де Валк
Йост де Валк — основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.
Безопасность
— Как запретить поисковым системам сканировать весь сайт?
Используя роботов.txt
, чтобы не допустить попадания сайта в индексы поисковых систем, имеет одну небольшую и малоизвестную проблему: если кто-либо когда-либо будет ссылаться на ваш сайт с любой страницы, проиндексированной Google (что в любом случае должно произойти, чтобы Google нашел ваш сайт, robots. txt
или нет), Google по-прежнему может проиндексировать ссылку и показывать ее как часть результатов поиска, даже если вы не разрешаете им получать страницу, на которую указывает ссылка.
Если это может быть проблемой для вас, решение: , а не , использовать роботов .txt
, но вместо этого включить метатег robots
со значением noindex, nofollow
на каждой странице вашего сайта. Вы даже можете сделать это в файле .htaccess
, используя mod_headers и HTTP-заголовок X-Robots-Tag
:
Заголовочный набор X-Robots-Tag noindex, nofollow
Эта директива добавит заголовок X-Robots-Tag: noindex, nofollow
на каждую страницу, к которой он применяется, включая не-HTML-страницы, такие как изображения. Конечно, вы можете также захотеть включить соответствующий метатег HTML, на всякий случай (это более старый стандарт и, вероятно, более широко поддерживается):
Обратите внимание, что если вы это сделаете, робот Googlebot по-прежнему будет пытаться сканировать любые ссылки, которые он находит на ваш сайт, поскольку ему необходимо получить страницу до того, как он увидит заголовок / метатег.Конечно, некоторые могут посчитать это функцией, а не ошибкой, поскольку она позволяет вам просматривать журналы доступа, чтобы узнать, нашел ли Google какие-либо ссылки на ваш сайт.
В любом случае, что бы вы ни делали, имейте в виду, что очень сложно держать «секретный» сайт в секрете очень долго. По прошествии времени вероятность того, что один из ваших пользователей случайно пропустит ссылку на сайт, приближается к 100%, и если есть основания предполагать, что кто-то будет заинтересован в поиске сайта, вы должны предполагать, что они это сделают.Таким образом, убедитесь, что вы также установили надлежащие средства контроля доступа на свой сайт, постоянно обновляете программное обеспечение и проводите регулярные проверки безопасности на нем.
Запретить Google индексировать ваш сайт / Майкл Ли
Пока я разрабатываю веб-сайт клиента, в корне его веб-сайта есть простая страница, которая скоро появится. Я решил также настроить поддомен, чтобы я мог использовать его в качестве среды разработки, а также отправить его в качестве ссылки клиенту, чтобы они могли видеть подробное представление о ходе работы и фактически взаимодействовать с веб-сайтом.
Одна проблема с этим заключается в том, что хотя я хочу, чтобы корневой домен со следующей страницей был проиндексирован Google, я не хотел, чтобы субдомен индексировался, потому что в какой-то момент, когда сайт будет готов, я, вероятно, удалю поддомен.
noindex
метод
Согласно Google, включение метатега со значением содержимого noindex
и значением имени robots
приведет к тому, что робот Googlebot полностью исключит страницу из результатов поиска Google при следующем сканировании.
Так выглядит метатег noindex
в заголовке вашей веб-страницы.
Ваш крутой веб-сайт
Метатег должен быть включен на каждую страницу, которую робот Googlebot не должен индексировать. Если вы хотите полностью заблокировать бота, а не сообщать, какие отдельные страницы не индексировать, вам нужно использовать метод robots.txt
.
метод robots.txt
Другой метод — заблокировать индексирование вашего сайта роботами-роботами поисковых систем. Для этого вы создадите файл robots.txt
и поместите его в корень домена. Этот метод также предполагает, что у вас есть доступ для загрузки файлов на ваш сервер.
Содержимое robots.txt будет:
Агент пользователя: *
Запретить: /
Указывает всем сканерам не сканировать весь домен. Так, например, если у меня есть поддомен dev.example-url.com
, и я хочу заблокировать только поддомен dev
, я хочу разместить файл robots.txt
в корне поддомена.
http://dev.example-url.com/robots.txt
Мне нужны оба?
Нет, вам нужен только один метод, но помните, что с тегом noindex
вам нужно будет добавить его на каждую страницу, которую вы не хотите индексировать, а файл robots.txt
проинструктирует поисковый робот не индексировать весь поддомен.
Как предотвратить индексирование вашего веб-сайта разработки
Во время создания нового веб-сайта или при внедрении новой разработки на существующем сайте, как правило, рекомендуется заблокировать сканирование поисковыми системами и предотвратить индексирование вашего веб-сайта.
Очевидная проблема заключается в дублировании контента и в том, как это может негативно повлиять на SEO вашего действующего веб-сайта. Если разрабатываемая версия индексируется поисковыми системами, это может привести именно к этой проблеме.Но, что, возможно, более важно, для совершенно новых веб-сайтов весь этот новый контент и дизайн будут просачиваться в сеть, прежде чем вы будете готовы к своему большому раскрытию. Даже если ваш сайт создается на непонятном URL, который не могут найти даже средства взлома кода Enigma Machine, Google найдет его, если вы не заблокируете индексирование.
Новая веб-разработка | Прячась на виду
Если вы работаете над своим новым веб-сайтом в среде онлайн-разработки или если у вас есть копия действующего сайта для целей подготовки / разработки, крайне важно, чтобы вы случайно не позволили Google (или любой поисковой системе для этого имеет значение) просканируйте ваш сайт разработки.
Разрешение поисковым системам сканировать как рабочую, так и разрабатываемую версию вашего сайта, может нанести вашему SEO вред, иногда значительно. Это происходит из-за ряда факторов, но не в последнюю очередь из-за разделения вашей оценки SEO между двумя сайтами и возникновения проблем с дублированным контентом.
Noindex — заблокировать всех агентов в вашем файле robots.txt
Самый простой способ помешать поисковым системам индексировать ваш сайт разработки — это добавить файл robots.txt в каталог основного домена (т.е.е. родительский веб-каталог для вашего веб-сайта). Этот файл роботов должен содержать единственную директиву, указанную ниже:
Пользовательский агент: *
Disallow: /
Наиболее авторитетные поисковые системы будут уважать директивы в вашем файле robots.txt, поэтому описанного выше метода будет достаточно для блокировки сканирования и индексации во время разработки. Однако эти надоедливые боты, которые безумно ползают по сайтам по менее чем добродетельным причинам, ничего не уважают. так что не ждите, что они снимут шляпу и пройдут мимо.
Конечно, они не совсем то, чем мы здесь занимаемся; в этом случае мы просто хотим избежать, например, Google, от индексации нашего сайта разработки. Вы можете узнать больше о robots.txt на Moz.com.
Блокировка поисковых систем в WordPress
На сайте WordPress вам не нужно беспокоиться о ручном редактировании и загрузке файла robots.txt. Вы можете просто зайти на страницу настроек -> читать страницу управления и поставить галочку в поле: «Не позволяйте поисковым системам индексировать этот сайт».
Обратите внимание, что комментарий под флажком на скриншоте выше: Поисковые системы должны выполнить этот запрос . Это то, о чем мы говорили ранее, и хотя большинство поисковых систем будут выполнять запрос, некоторые из менее благородных будут.
Вот почему вы найдете в Интернете ссылки на защиту паролем всего сайта WordPress на уровне сервера, чтобы предотвратить индексацию каких-либо элементов вообще. Однако, по нашему опыту, это, вероятно, излишне и не обязательно, но помните об этом, если вы начнете замечать изображения или фрагменты контента, попадающие в результаты поиска.
Не забудьте удалить директиву при выходе в эфир
Если в конечном итоге ваш сайт разработки будет развернут как действующий веб-сайт, не забудьте соответствующим образом отредактировать файл robots.txt и / или отменить выбор этого параметра в WordPress. В противном случае вы будете ломать голову, недоумевая, почему не происходит индексирование, и тупо уставитесь на экран консоли поиска Google, в то время как ваш веб-сайт не получит никакой поддержки в поисковой выдаче.
Как я могу запретить Google-Bot сканировать мой веб-сайт?
Если вы хотите запретить Google сканирование всего или части вашего домена, вы можете сделать это в файле robots.txt файл.
Примечание. Если вы хотите заблокировать определенные URL-адреса, вы можете использовать метатег robots. Также имейте в виду, что в некоторых случаях URL-адреса все равно будут индексироваться, даже если они заблокированы с помощью файла robots.txt.
Блокировка Google-бота с помощью файла robots.txt
Файл robots.txt — это простой текстовый файл с именем «robots». Он должен быть размещен в корневом каталоге веб-сайта, чтобы поисковые системы следовали директивам.
Если на сайте есть файл robots.txt, к нему можно получить доступ по следующему пути:
http://www.my-domain.com/robots.txt
Содержимое robots.txt
Используя следующие инструкции, мы исключительно запрещаем доступ Google-Bot ко всему нашему веб-сайту:
Вы должны добавить следующее в свой robots.txt, чтобы сообщить Google-Bot держаться подальше от всего домена:
User-Agent: Googlebot
Disallow: /
Если вы хотите ограничить доступ только к некоторым каталогам или файлам, а не ко всему веб-сайту, файл robots.txt должен содержать следующее:
Следующее только говорит Google-Bot, что ему запрещен доступ к каталогу «a-directory», а также к файлу «one-file.pdf»:
User-Agent: Googlebot
Запретить: / каталог /
Disallow: /one-file.pdf
Некоторые URL-адреса все еще могут быть проиндексированы
Примеры кода, показанные здесь, предназначены только для Google-Bot. Сканеры из других поисковых систем, таких как Bing, не будут заблокированы.
Сканеры блоков, использующие WordPress
WordPress имеет встроенную функцию, которая устанавливает метатег robots на noindex в заголовке каждой страницы.
Предполагая, что у вас есть права администратора на сайте WordPress, перейдите на страницу «Настройки» -> «Чтение» и выберите «Запретить поисковым системам индексировать этот сайт» 1, как показано выше.
Дополнительная информация об управлении роботами Googlebot и поисковыми роботами
В чем разница между robots.txt и метатегом robots?
https://support.google.com/webmasters/answer/6062608?hl=ru
WordPress 5.3 изменит способ блокировки индексирования
WordPress объявил о важном изменении того, как он будет блокировать индексацию веб-сайтов поисковыми системами.Это изменение отказывается от традиционного решения Robots.txt в пользу подхода Robots Meta Tag. Это изменение приводит WordPress в соответствие с причиной блокировки Google, которая заключается в том, чтобы заблокированные страницы не отображались в результатах поиска Google.
Это метатег роботов, который будет использовать WordPress:
Блокировка индексации Google
Давно стандартная практика использования роботов.txt, чтобы заблокировать «индексацию» веб-сайта.
Слово «индексация» означало сканирование сайта роботом GoogleBot. Используя функцию блокировки Robots.txt, вы могли запретить Google загружать указанную веб-страницу, и предполагалось, что Google не сможет отображать ваши страницы в результатах поиска.
Реклама
Продолжить чтение ниже
Но эта директива robots.txt только помешала Google сканировать страницу. Google по-прежнему может добавить его в свой индекс, если сможет обнаружить URL.
Итак, чтобы заблокировать отображение сайта в индексе, издатель заблокировал бы Google от «индексации» страниц. Что не всегда было эффективным.
WordPress 5.3 действительно предотвратит индексацию
WordPress адаптировал подход Robots.txt. Но это изменилось в версии 5.3.
Когда издатель в настоящее время выбирает « препятствовать поисковым системам индексировать этот сайт », он добавляет в файл robots.txt запись, запрещающую Google сканировать сайт.
Реклама
Продолжить чтение ниже
Начиная с WordPress 5.3, WordPress будет применять более надежный подход с метатегами роботов для предотвращения индексации веб-сайта.
Это изменение повлияет на настройку «запретить поисковым системам индексировать этот сайт».
Это изменение является улучшением. Издатели WordPress могут быть в большей безопасности, зная, что заблокированные веб-страницы не будут отображаться в результатах поиска Google.
Скриншот объявления об изменении WordPress 5.3.
Почему WordPress использовал Robots.txt?
WordPress использовал Robots.txt для блокировки индексации веб-сайта, потому что именно так все не позволяли страницам отображаться в результатах поиска Google. Это был стандартный способ сделать это.
Тем не менее, хотя все так поступали, как уже объяснялось, это был ненадежный подход.
Слово «индексирование» имеет два значения:
- Индексирование означает сканирование, например, когда робот Googlebot посещает и загружает веб-страницы.
- Индексирование также может означать добавление веб-страницы в базу данных веб-страниц Google (которая называется The Index) .
Блокировка Google от «индексации» веб-страницы не позволит ему видеть веб-страницу, но Google все равно может проиндексировать веб-страницу и добавить ее в индекс Google. Есть смысл?
Реклама
Продолжить чтение ниже
Robots.txt в сравнении с метатегом «Роботы»
Роботы не собирались убирать веб-страницу из индекса Google.txt решение. Это работа метатега роботов.
Так что приятно видеть, что WordPress использует метатег Robots как решение, блокирующее отображение веб-страниц в поисковых системах.
WordPress 5.3 планируется выпустить в ноябре 2019 года.
Прочтите объявление WordPress:
Изменения для предотвращения индексации сайтов поисковыми системами
Прочтите авторитетную документацию Google
- Мета-тег роботов и X- Спецификации HTTP-заголовка Robots-Tag
- Блочная поисковая индексация с помощью noindex
Как скрыть контент из поисковых систем и почему вам это может понадобиться — Блог по юридическому маркетингу и технологиям — 2 мая 2017 г.
В общем, веб-маркетинг направлен на то, чтобы заставить поисковые системы индексировать ваш контент.Однако при определенных обстоятельствах вы можете не захотеть, чтобы поисковые системы индексировали часть вашего контента. Узнайте о стандарте исключения роботов, когда и как его использовать, а также о некоторых нюансах, связанных с его использованием и другими протоколами исключения в рамках вашей общей маркетинговой стратегии.
Ключевым компонентом поисковой оптимизации является обеспечение того, чтобы ваш контент индексировался поисковыми системами и хорошо ранжировался, но есть законные причины, по которым вы можете захотеть, чтобы часть вашего контента не отображалась в поисковых системах.К счастью, существует механизм, известный как стандарт исключения роботов, который помогает вам блокировать контент из поисковых систем. Существует несколько способов реализации стандарта исключения роботов, и какой из них вы будете использовать, будет зависеть от типа контента, который вы хотите заблокировать, и вашей конкретной цели при его блокировке.
В разработке
Создание или обновление веб-сайтов может занимать много времени, и часто вы можете захотеть поделиться прогрессом сайта с другими людьми, пока вы над ним работаете.Наиболее распространенный способ справиться с этим — создать разрабатываемую или промежуточную копию вашего сайта и внести в нее изменения, прежде чем они будут запущены. Поскольку это неполный сайт и его содержимое, скорее всего, дублирует содержимое вашего действующего сайта, вы не хотите, чтобы ваши потенциальные клиенты нашли эту неполную версию вашего сайта. Таким образом, когда вы настраиваете разрабатываемую копию своего сайта, вы должны использовать один или несколько из приведенных ниже методов, чтобы заблокировать всю вашу разрабатываемую копию от пауков поисковых систем.
Частное содержимое
Если содержимое конкретной страницы носит частный характер, вы можете заблокировать эту страницу от индексации поисковыми системами. Как правило, контент, заблокированный поисковыми системами, доступен только людям, получившим прямую ссылку. Однако важно отметить, что использование стандарта исключения роботов для блокировки индексации страницы поисковыми системами не предотвращает несанкционированный доступ к странице. Таким образом, если контент является конфиденциальным, вы должны не только блокировать контент от поисковых систем, используя стандарт исключения роботов, но также использовать схему аутентификации, чтобы заблокировать контент от неавторизованных посетителей.
Динамическое содержимое
Если у вас есть контент на вашем сайте, который является эфемерным по своей природе, постоянно меняющимся, вы можете заблокировать поисковые системы от индексации контента, который скоро станет устаревшим. Поисковым системам часто требуется время для индексации обновленного контента, поэтому, если ваш контент регулярно меняется, вы можете посчитать важным заблокировать индексирование эфемерного контента, чтобы предотвратить появление устаревшего контента в поиске.
Умышленное дублирование содержания
Мы уже объясняли важность наличия оригинального, а не дублированного содержания.Однако в некоторых ситуациях у вас может быть законная причина для того, чтобы одна страница вашего сайта содержала контент, дублирующий другую страницу (вашу или нет), поэтому для предотвращения любых штрафов за дублированный контент вы можете захотеть заблокировать этот дублированный контент. из поисковых систем. Следует отметить, что есть другие, более эффективные способы обработки дублированного контента в целом. В частности, тег
позволяет вам явно указать, что содержимое страницы, на которую попал паук, дублирует другую, более «официальную» страницу.Например, у нас есть клиенты с несколькими веб-сайтами, и для определенных страниц на их сайте они хотели бы, чтобы основная версия сайта была проиндексирована. В этих случаях мы устанавливаем правильные канонические теги, чтобы поисковые системы распознавали только ту страницу, которую они хотят.
Но если вы просто хотите убедиться, что ваша дублирующая страница вообще не ранжируется, исключение роботов поисковых систем с использованием стандарта исключения роботов может быть вашим лучшим вариантом.
Рекламные целевые страницы
При настройке рекламной кампании, такой как цена за клик, информационные бюллетени по электронной почте, офлайн, печать или телевидение, вы можете захотеть направить посетителей, привлеченных с помощью этой кампании, на страницу, специально разработанную для сообщение рекламы.Часто содержание этой страницы либо дублирует другие страницы вашего сайта (например, аналогичное содержание, но адаптировано для одной географической области), либо специфично для конкретной рекламы (например, со специальным кодом скидки). В этих случаях вы можете убедиться, что единственный способ получить доступ к этому контенту — это реклама. Для наших клиентов, у которых есть такие страницы для рекламы, мы используем стандарт исключения роботов, чтобы блокировать индексацию этих целевых страниц поисковыми системами.
robots.txt
Самый старый и наиболее известный механизм блокировки контента от ботов поисковых систем — это простой текстовый файл в корне вашего веб-сайта с именем robots.txt
. Этот файл представляет собой обычный текст (без HTML) и просто перечисляет страницы, которые вы не хотите, чтобы поисковые (или другие) роботы открывали. Файл robots.txt разделен на разделы, каждый из которых предназначен для отдельного робота. Разделите разделы строкой:
User-agent: [robotname]
Например, чтобы указать, что этот раздел предназначен для Google, вы должны использовать User-agent: Googlebot
Если хотите Чтобы правила раздела применялись ко всем возможным ботам, вы можете создать раздел с именем User-agent: *
Внутри каждого раздела вы можете иметь любое количество строк Allow: и Disallow:, указывающих, что указанная страница должна или должна не будут проиндексированы поисковой системой / роботом.Однако вы должны отметить, что робот будет читать только первый раздел, который они найдут, который соответствует их собственному пользовательскому агенту, поэтому, если у вас есть что-то вроде этого:
User-agent: Googlebot
Запретить: /nogoogle.html
Разрешать: /
Пользовательский агент: *
Запретить: /nobody.html
Разрешить: /
Google не будет читать блокировку /nobody.html
, и робот Google получит доступ к этой странице. Чтобы заблокировать доступ всех роботов к /nobody.html
и только роботов Google от доступа к / nogoogle.html
, вам нужно будет написать следующее:
User-agent: Googlebot
Запретить: /nogoogle.html
Запретить: /nobody.html
Разрешать: /
Пользовательский агент: *
Запретить: /nobody.html
Разрешить: /
Этот код запретит роботу Google обращаться к /nogoogle.html
или /nobody.html
, но позволит другим поисковым системам получить доступ к /nogoogle.html
. Хотя не все роботы понимают Allow:
и понимают только строки Disallow:
, большинство современных крупномасштабных роботов понимают этот синтаксис.
Нестандартные расширения robots.txt
Вышеупомянутая директива Allow: была создана Google как способ создания системы на основе исключений (блокировать все URL-адреса, соответствующие этому шаблону, за исключением этого более конкретного URL-адреса, который вы можете разрешить) . Поисковые системы, которые не поддерживают директиву Allow :, обычно просто игнорируют эти строки, поэтому убедитесь, что если вы ее используете, учитываете всех роботов, которые могут ее не поддерживать.
Существует ряд других расширений robots.txt, которые поддерживают не все поисковые системы, но некоторые из них могут быть полезны.
Карта сайта:
— популярное расширение для robots.txt (настоятельно рекомендуется как Google, так и Bing). Это расширение позволяет указать URL-адрес файла карты сайта в файле robots.txt. Это позволяет поисковым системам, поддерживающим эту директиву, находить и индексировать вашу карту сайта, даже если вы специально не отправляете им карту сайта.
Noindex:
— недокументированная (и неподдерживаемая) директива, которую инженеры Google несколько раз упоминали в прошлом (Мэтт Каттс упомянул об этом в своем личном блоге в 2008 году, а Джон Мюллер упомянул об этом в Hangouts для веб-мастеров в 2015 году).Эта директива работает так же, как метатег noindex или http-заголовок robots, описанные ниже, поскольку в ней явно перечислены URL-адреса, которые Google не должен индексировать (для пояснения, Disallow: означает, что паукам не разрешено посещать страницу, но они могут индексировать страницу. если они обнаруживают его, не посещая, Noindex: означает, что поисковым системам вообще не разрешено индексировать страницу) Однако важно отметить, что в официальной документации для веб-мастеров Google директива Noindex: не упоминается.Напротив, на их главной странице документации о файлах robots.txt говорится (выделено в оригинале):
Для файлов без изображений (то есть веб-страниц) robots.txt следует использовать только для управления сканированием трафика, обычно потому, что вы не хотите, чтобы ваш сервер был перегружен поисковым роботом Google или тратил впустую краулинговый бюджет на сканирование неважных или похожих страниц на вашем сайте. Не следует использовать robots.txt как средство, чтобы скрыть свои веб-страницы от результатов поиска Google. Это связано с тем, что другие страницы могут указывать на вашу страницу, и ваша страница может быть проиндексирована таким образом, минуя robots.txt файл. Если вы хотите заблокировать свою страницу из результатов поиска, используйте другой метод, например защиту паролем, теги или директивы noindex.
В настоящее время тестер robots.txt
внутри Google Search Console по-прежнему распознает Noindex:
как допустимую директиву, но, учитывая, что Google никогда не документировал эту директиву, мы не рекомендуем полагаться на нее.
ОБНОВЛЕНИЕ Июль 2019 г .: Google объявил об отмене поддержки Noindex: из робота Google с 1 сентября 2019 г.У нас есть полная запись об этом и других изменениях в том, как Google обрабатывает robots.txt в этом блоге.
Тег Meta Robots
В отличие от файла robots.txt, тег
позволяет явно указать, какие страницы могут быть проиндексированы в поисковых системах и разрешено ли поисковой системе следовать любые ссылки на странице на любые другие страницы. Есть несколько возможных значений для добавления в метатег robots, но в этой статье мы сосредоточимся на четырех наиболее распространенных значениях (которые являются парными).
index
/ noindex
: это указывает, должна ли страница, которую читает робот, индексировать или нет ( index
для да, noindex
для нет)
follow
/ nofollow
: это указывает, следует ли робот должен перейти по любой из ссылок на этой странице.
Этот тег означает, что робот поисковой системы не должен индексировать текущую страницу, а должен переходить по любым ссылкам на странице, чтобы найти другие страницы, чтобы показатель.
Этот тег означает, что робот поисковой системы не должен индексировать текущую страницу и не должен переходить ни по одной из ссылок на странице, чтобы получить на другие страницы.
Вы можете настроить таргетинг правила на конкретного робота, заменив слово «роботы» в названии на имя, подходящее для рассматриваемой поисковой системы.
Страница, содержащая эти два тега, будет заблокирована для Google, но не заблокирована для других поисковых систем.В отличие от файла robots.txt, порядок написания тегов не имеет значения; робот будет искать наиболее подходящий тег.
HTTP-заголовок X-Robots-Tag
Мета-роботы — идеальное решение, так как он явно сообщает роботам, что делать с HTML-страницей, которую они анализируют, но не весь контент в сети является HTML. Если вы хотите установить эти типы правил для изображений или PDF-документов (или любого другого типа файла, кроме файлов HTML), многие поисковые системы теперь позволяют вам установить HTTP-заголовок на вашем сервере, чтобы передать те же правила обратно.
X-Robots-Tag: noindex, nofollow
Этот HTTP-заголовок имеет тот же эффект, что и
, за исключением того, что он также работает на не- HTML-контент.
Как вы устанавливаете эти HTTP-заголовки, зависит от вашего веб-сервера и вашей системы управления контентом, но они могут быть установлены всем популярным программным обеспечением веб-серверов и большинством языков программирования, которые могут выводить веб-контент.
Другие способы блокировки страницы
Существуют и другие, более сложные способы блокировки страниц от поисковых систем.Вы можете убедиться, что ваш контент выводит код состояния 404 или 410, чтобы роботы думали, что вашего контента нет, вы можете заблокировать свой контент за заголовком авторизации 401, чтобы никто, включая поисковые системы, не мог получить доступ к странице для чтения или вы можете повторно использовать портал для веб-мастеров своей поисковой системы (Google Search Console, Bing Webmaster Tools и т. д.), чтобы вручную удалить страницу из индекса.
После того, как вы настроили механизм блокировки роботов, если контент уже был проиндексирован, вы можете заметить, что контент выпадает из поисковых систем в течение длительного времени.Как упоминалось выше, у основных поисковых систем есть порталы для веб-мастеров, которые позволяют вам запрашивать удаление вашего контента из поисковых систем.
Хотя большинство поисковых систем позволяют отправлять запросы на удаление, даже если вы не внедрили стандарт исключения роботов для контента, эти типы удаления носят временный характер (блокировка контента только на 90 дней). Поэтому важно не только отправить запрос, но и реализовать один из механизмов блокировки, упомянутых выше.
К использованию стандарта исключения роботов для блокировки контента из поисковых систем непросто относиться легкомысленно. Важно убедиться, что вы тщательно настроили исключения для роботов только с тем контентом, который вы не хотите индексировать. Использование директивы типа Disallow: /
в вашем файле robots.txt заблокирует весь ваш сайт от поисковых систем, что почти наверняка приведет к значительному падению трафика.
Кроме того, при блокировании содержимого, в частности содержимого, не являющегося HTML (изображения, файлы css, файлы javascript и т. Д.), Вы должны знать, что у роботов нет контекста, объясняющего, почему вы блокируете этот контент, и различные упомянутые консоли веб-мастеров. ранее может отправлять вам предупреждения, чтобы убедиться, что вы действительно намеревались заблокировать рассматриваемый контент.
В Justia мы следуем рекомендациям Google и других поисковых систем и кодируем сайты наших клиентов для оптимальной видимости.