Robots.txt: основные правила настройки

Robots.txt: основные правила настройки Инструментарий

Содержание
Предисловие
Привет! Сегодня я хочу рассказать о файле robots.txt. Если ты вебмастер, то скорее всего, знаешь что это такое. Ну а если нет, то сейчас познакомишься с ним. Именно в этом файле ты прописываешь основные правила для поисковых роботов. Какие-то из них запрещают роботам ходить по страницам, а какие-то разрешают. Очень важно правильно настроить роботс, один неверный знак может просто закрыть сайт от роботов и запретить им индексировать страницы или весь сайт.

В статье ты сможешь познакомиться с основными правилами для роботов, ознакомиться с каждым правилом более подробно и составить файл для сайта. Если после прочтения у тебя появятся вопросы или ты захочешь высказать своё мнение, то напиши об этом в комментариях и я обязательно отвечу.

Если информация из статьи будет казаться сложной, то ниже можно посмотреть видео, где поэтапно рассказывают, как создать его самому. Также я буду публиковать ссылки на сервисы, в которых можно автоматически создать файл роботс.
🤖Поехали!

Что такое robots.txt?
ROBOTS.TXT — это обычный текстовый файл, который содержит некие правила, указывающие какие разделы или страницы необходимо показать для индексации поисковых систем, а какие наоборот скрыть. Можно показать или запретить доступ для индексации как весь сайт, так и его часть. Содержимое файла robots состоит в основном из так называемых директив файла robots, иначе говоря команд.

К примеру директива Allow — разрешает, а директива Disallow — наоборот запрещает индексирование. Если к этой директиве добавить путь к файлу, папке или целому разделу, то это уже будет целое правило.

Приведем пример: директива Disallow: */comment — запрещает индексировать комментарий на сайте, а директива Allow: */uploads — разрешает индексировать файлы для загрузки. Но кроме этих директив бывают и другие.

Зачем скрывать содержимое сайта от поисковиков?

Дело все в том, что поисковые сервера могут проиндексировать содержимое с паролями, файлы со скриптами, плагины и остальную информацию, которая не нужна поисковикам и такое положение дел, может навредить Вашему сайту.

Более того поисковики индексируют лишние страницы и в итоге у вас образуются дублирующие страницы, за которые поисковики наказывают ваш сайт, поэтому так важно знать как настроить файл robots.

Источник
Источник: myborder.ru

Синтаксис

Логика и структура файла robots.txt должны строго соблюдаться и не содержать лишних данных:
  • Любая новая директива начинается с новой строки.
  • В начале строки не должно быть пробелов.
  • Все значения одной директивы должны быть размещены на этой же строке.
  • Не использовать кавычки для параметров директив.
  • Не использовать запятые и точки с запятыми для указания параметров.
  • Все комментарии пишутся после символа #.
  • Пустая строка обозначает конец действия текущего User-agent.
  • Каждая директива закрытия индексации или открытия содержит только один параметр.
  • Название файла должно быть написано прописными буквами, файлы Robots.txt или ROBOTS.TXT являются другими файлами и игнорируются поисковыми роботами.
  • Если директива относится к категории, то название категории оформляется слешами «/categorya/».
  • Размер файла не должен превышать 32 кб, иначе он трактуется как разрешающий индексацию всего.
  • Пустой файл robots.txt считается разрешающим индексацию всего сайта.
  • При указании нескольких User-agent без пустой строки между ними обрабатываться будет только первая
Источник
Источник: canwas.ru

Таблица основных юзер-агентов ПС

Бот Функция
Google
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
Яндекс
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
Bing
Bingbot основной индексирующий робот Bing
Yahoo!
Slurp основной индексирующий робот Yahoo!
Mail.Ru
Mail.Ru основной индексирующий робот Mail.Ru
Rambler
StackRambler Ранее основной индексирующий робот Rambler. Однако с 23.06.11 Rambler перестает поддерживать собственную поисковую систему и теперь использует на своих сервисах технологию Яндекса. Более не актуально.

Директивы

Основные директивы

Существуют две основные директивы:

Disallow — это директива, запрещающая поисковым роботам индексацию конкретного документа или раздела на сайте.
Allow – это директива противоположная Disallow, разрешающая поисковым роботам индексацию конкретного документа или раздела на сайте.
Пример: На блоге мы запретили индексировать папку /wp-content/ где находятся файлы плагинов, шаблон и.т.п. Но так же там находятся изображения, которые должны быть проиндексированы ПС, для участия в поиске по картинкам. Для этого надо использовать такую схему:
User-agent: *
Allow: /wp-content/uploads/ # Разрешаем индексацию картинок в папке uploads
Disallow: /wp-content/
Порядок использования директив имеет значение для Яндекса, если они распространяются на одни страницы или папки. Если вы укажите вот так:
User-agent: *
Disallow: /wp-content/
Allow: /wp-content/uploads/

Изображения не будут загружаться роботом Яндекса с каталога /uploads/, потому что исполняется первая директива, которая запрещает весь доступ к папке wp-content.

Чти:   Мониторинг апдейтов выдачи Google

Google относится проще и выполняет все директивы файла robots.txt, вне зависимости от их расположения.

Так же, не стоит забывать, что директивы со слешем и без, выполняют разную роль:

Disallow: /about Запретит доступ ко всему каталогу site.ru/about/, так же не будут индексироваться страницы которые содержат about — site.ru/about.html, site.ru/aboutlive.html и.т.п.

Disallow: /about/ Запретит индексацию роботам страниц в каталоге site.ru/about/, а страницы по типу site.ru/about.html и.т.п. будут доступны к индексации.

Источник
Источник: seoblog.life

Регулярные выражения

Поддерживается два символа, это:

* — подразумевает любой порядок символов.

Пример:

Disallow: /about* запретит доступ ко всем страницам, которые содержат about, в принципе и без звёздочки такая директива будет так же работать. Но в некоторых случаях это выражение не заменимо.

Например, в одной категории имеются страницы с .html на конце и без, чтобы закрыть от индексации все страницы которые содержат html, прописываем вот такую директиву:

Disallow: /about/*.html

Теперь страницы site.ru/about/live.html закрыта от индексации, а страница site.ru/about/live открыта.

Ещё пример по аналогии:

User-agent: Yandex
Allow: /about/*.html #разрешаем индексировать
Disallow: /about/

Все страницы будут закрыты, кроме страниц которые заканчиваются на .html

$ — обрезает оставшуюся часть и обозначает конец строки.

Пример:

Disallow: /about — Эта директива robots.txt запрещает индексировать все страницы, которые начинаются с about, так же идёт запрет на страницы в каталоге /about/.

Добавив в конце символ доллара — Disallow: /about$ мы сообщим роботам, что нельзя индексировать только страницу /about, а каталог /about/, страницы /aboutlive и.т.п. можно индексировать.

Директива Sitemap

В этой директиве указывается путь к Карте сайта, в таком виде:
Sitemap: http://site.ru/sitemap.xml

Директива Host

Она предназначена только для Яндекса, потому что он с помощью неё определяет главные зеркала сайта и склеивает их по ней.

Однако Яндекс отказался от этой дерективы и сейчас она не актуальна.

Указывается в таком виде:
Host: site.ru

Без http://, наклонных слешей и тому подобных вещей. Если у вас главное зеркало сайта с www, то пишите:
Host: www.site.ru

Clean-param — Исключение страниц с динамическими параметрами

Директива Clean-param позволяет бороться с динамическими дублями страниц, когда содержимое страницы не меняется, но добавление Get-параметра делает Url уникальным. При составлении директивы сначала указывается название параметра, а затем область применения данной директивы:
Clean-param: get1[&get2&get3&get4&..&getN]

Простой пример для страницы http://domain.ru/catalog/?&get1=1&get2=2&get3=3. Директива будет иметь вид:

Clean-param: get1&get2&get3 /catalog/

Данная директива будет работать для раздела /catalog/, можно сразу прописать действие директивы на весь сайт:

Clean-param: get1&get2&get3 /

Crawl-delay — Снижение нагрузки

Если сервер не выдерживает частое обращение поисковых роботов, то директива Crawl-delay поможет снизить нагрузку на сервер. Поисковая система Яндекс поддерживает данную директиву с 2008 года.
User-agent: *
Disallow: /search/
Crawl-delay: 4

Поисковый робот будет делать один запрос, затем ждать 4 секунды и снова делать запрос.

Источник
Источник: cospi.ru
Видео от SEMANTICA

Примеры настройки файла (в раскрывающемся меню)

Если хотите скачать robots.txt, то советую сделать проще:
  • cоздать txt файл в блокноте;
  • скопировать содержимое ниже;
  • назвать файл robots.txt;
  • закинуть в папку сайта;
  • проверить содержимое по адресу site.ru/robots.txt.
User-agent: *
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Crawl-Delay: 5

User-agent: GoogleBot
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Disallow: *utm=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif

User-agent: Yandex
Disallow: /admin/
Disallow: /plugins/
Disallow: /search/
Disallow: /cart/
Disallow: */?s=
Disallow: *sort=
Disallow: *view=
Allow: /plugins/*.css
Allow: /plugins/*.js
Allow: /plugins/*.png
Allow: /plugins/*.jpg
Allow: /plugins/*.gif
Clean-Param: utm_source&utm_medium&utm_campaign
Crawl-Delay: 0.5

Sitemap: https://site.ru/sitemap.xml

Примеры правильных robots.txt для других CMS

Файл для WordPress

User-Agent: *
Allow: /wp-content/uploads/
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /template.html
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content
Disallow: /tag
Disallow: /category
Disallow: /archive
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /?feed=
Disallow: /?s=

Sitemap: http://site.ru/sitemap.xml

Файл для Лендинга (Landing Page)

User-agent: *
Allow: /images/
Disallow: /js/
Disallow: /css/
User-agent: Googlebot
Allow: /
User-agent: Yandex
Allow: /images/
Disallow: /js/
Disallow: /css/

Файл для WooCommerce

User-agent: *
Disallow: /cgi-bin
Disallow: /xmlrpc.php
Disallow: /wp-
Disallow: */author
Disallow: */trackback
Disallow: */feed
Disallow: */comment
Disallow: */comments
Disallow: */attachment
Disallow: */embed
Disallow: *?
Disallow: *.inc$
Disallow: *.php$
Disallow: *utm=
Disallow: /cart/
Disallow: /checkout/
Disallow: /*add-to-cart=*
Allow: */uploads
Allow: /*/*.js
Allow: /*/*.css
Allow: /wp-*.png
Allow: /wp-*.jpg
Allow: /wp-*.jpeg
Allow: /wp-*.gif
Allow: /wp-admin/admin-ajax.php

Sitemap: http://site.ru/sitemap.xml

Файл для Joomla

Следующая CMS по популярности — Джумла. Сделаем совсем небольшие изменения в официальной версии robots.txt. А именно пропишем sitemap и мы получим правильный файл для Joomla

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /xmlrpc/

Sitemap: http://site.ru/sitemap.xml

Файл для uCoz

На бесплатной платформе uCoz когда вы делаете сайт, там по умолчанию подгружается настроенный системой файл robots.txt. Но бывают случаи, когда надо его изменить. Например, дописать директивы закрытия каких-то страниц. Но многие не знаю где же найти robots.txt на uCoz. Прикол в том, что его на сайте нет, он подгружается из системы. Поэтому если вас не устраивает тот, что есть по умолчанию его надо создать. Создаем в блокноте файл с названием robots.txt, пишем в него дрективы и загружаем в корень сайта. Ниже приведен пример стандартного файла для uCoz.

User-agent: *
Disallow: /a/
Disallow: /stat/
Disallow: /index/1
Disallow: /index/2
Disallow: /index/3
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /panel/
Disallow: /admin/
Disallow: /secure/
Disallow: /informer/
Disallow: /mchat
Disallow: /search
Disallow: /shop/order/
Disallow: /?ssid=

Чти:   Эксперимент закупки ссылок с автоматического сервиса Blackhatlinks.com: мой отзыв и результаты

Sitemap: //forum.ucoz.ru/sitemap.xml
Sitemap: //forum.ucoz.ru/sitemap-forum.xml
Sitemap: //forum.ucoz.ru/sitemap-shop.xml

Файл для OpenCart

Набирающий популярность движок для создания онлайн OpenCart я тоже не могу обойти стороной.

User-agent: *
Disallow: /*route=account/
Disallow: /*route=affiliate/
Disallow: /*route=checkout/
Disallow: /*route=product/search
Disallow: /index.php?route=product/product*&manufacturer_id=
Disallow: /admin
Disallow: /catalog
Disallow: /download
Disallow: /export
Disallow: /system
Disallow: /*?sort=
Disallow: /*&sort=
Disallow: /*?order=
Disallow: /*&order=
Disallow: /*?limit=
Disallow: /*&limit=
Disallow: /*?filter_name=
Disallow: /*&filter_name=
Disallow: /*?filter_sub_category=
Disallow: /*&filter_sub_category=
Disallow: /*?filter_description=
Disallow: /*&filter_description=
Disallow: /*?tracking=
Disallow: /*&tracking=
Disallow: /*?page=
Disallow: /*&page=
Disallow: /wishlist
Disallow: /login
Disallow: /index.php?route=product/manufacturer
Disallow: /index.php?route=product/compare
Disallow: /index.php?route=product/category

Sitemap: http://site.ru/sitemap.xml

Файл для CMS Drupal

Для Друпала правильный файл будет таким:

User-agent: *
Disallow: /database/
Disallow: /includes/
Disallow: /misc/
Disallow: /modules/
Disallow: /sites/
Disallow: /themes/
Disallow: /scripts/
Disallow: /updates/
Disallow: /profiles/
Disallow: /xmlrpc.php
Disallow: /cron.php
Disallow: /update.php
Disallow: /install.php
Disallow: /index.php
Disallow: /admin/
Disallow: /comment/reply/
Disallow: /contact/
Disallow: /logout/
Disallow: /search/
Disallow: /user/register/
Disallow: /user/password/
Disallow: /user/login/
Disallow: /top-rated-
Disallow: /messages/
Disallow: /book/export/
Disallow: /user2userpoints/
Disallow: /myuserpoints/
Disallow: /tagadelic/
Disallow: /referral/
Disallow: /aggregator/
Disallow: /files/pin/
Disallow: /your-votes
Disallow: /comments/recent
Sitemap: //noindex.by/sitemap.xml
Disallow: /*/edit/
Disallow: /*/delete/
Disallow: /*/export/html/
Disallow: /taxonomy/term/*/0$
Disallow: /*/edit$
Disallow: /*/outline$
Disallow: /*/revisions$
Disallow: /*/contact$
Disallow: /*downloadpipe
Disallow: /node$
Disallow: /node/*/track$
Disallow: /*&
Disallow: /*%
Disallow: /*?page=0
Allow: /*?page=
Disallow: /*?

Sitemap: http://site.ru/sitemap.xml

Файл для DLE

Часто возникают вопросы по настройке индексации Datalife Engine.

User-agent: *
Disallow: /*print
Disallow: /autobackup.php
Disallow: /admin.php
Disallow: /engine/go.php
Disallow: /user/
Disallow: /newposts/
Disallow: /favorites/
Disallow: /statistics.html
Disallow: /*subaction=userinfo
Disallow: /*do=lastcomments
Disallow: /*do=feedback
Disallow: /*do=register

Sitemap: http://site.ru/sitemap.xml

Файл для MODx Evo

User-agent: *
Disallow: /assets/cache/
Disallow: /assets/docs/
Disallow: /assets/export/
Disallow: /assets/import/
Disallow: /assets/modules/
Disallow: /assets/plugins/
Disallow: /assets/snippets/
Disallow: /install/
Disallow: /manager/
Disallow: /?
Disallow: /*?
Disallow: /index.php

Sitemap: http://site.ru/sitemap.xml

Файл для MODx Revo

User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?

Sitemap: http://site.ru/sitemap.xml

Файл для Webasyst

User-agent: *
Disallow: /auth/
Disallow: /cart/
Disallow: /checkout/
Disallow: /feedback/
Disallow: /installer/
Disallow: /published/
Disallow: /installer/
Disallow: /published/wbsadmin/
Disallow: /login/
Disallow: /logout/
Disallow: /myaccount/
Disallow: /order_status/
Disallow: /published/SC/html/scripts/
Disallow: /register/
Disallow: /remind_password/
Disallow: /*view=*
Disallow: /*/reviews/
Disallow: /order_status/
Disallow: /order_history/
Disallow: /*ukey=order_history
Disallow: /*print_form*
Disallow: /*save_voting_results=yes
Disallow: /category/*/offset
Disallow: /en/

Sitemap: http://site.ru/sitemap.xml

Файл для Битрикс (Bitrix)

User-agent: *
Disallow: /*index.php$
Disallow: /bitrix/
Disallow: /auth/
Disallow: /personal/
Disallow: /upload/
Disallow: /search/
Disallow: /*/search/
Disallow: /*/slide_show/
Disallow: /*/gallery/*order=*
Disallow: /*?*
Disallow: /*&print=
Disallow: /*register=
Disallow: /*forgot_password=
Disallow: /*change_password=
Disallow: /*login=
Disallow: /*logout=
Disallow: /*auth=
Disallow: /*action=*
Disallow: /*bitrix_*=
Disallow: /*backurl=*
Disallow: /*BACKURL=*
Disallow: /*back_url=*
Disallow: /*BACK_URL=*
Disallow: /*back_url_admin=*
Disallow: /*print_course=Y
Disallow: /*COURSE_ID=
Disallow: /*PAGEN_*
Disallow: /*PAGE_*
Disallow: /*SHOWALL
Disallow: /*show_all=

Sitemap: http://site.ru/sitemap.xml

Файл для Tilda

У Tilda robots.txt генерируется автоматически, доступа к нему нет.

Частые вопросы

Как проверить работоспособность файла (валидацию)?

Это можно сделать в разделе «Инструменты для веб-мастеров» от поисковика Google или на сайте «Яндекс.Вебмастер» в разделе «Анализ robots.txt». Укажите ссылку на ваш сайт и посмотрите, нет ли ошибок. Обычно никаких проблем не возникает.

Если будут ошибки, исправьте их и проверьте еще раз. Добейтесь хорошего результата, затем не забудьте скопировать в robots.txt и залить его на сайт.

Источник
Источник: яработаюдома.рф

Как добавить и где находится?

После того как вы создали файл, его необходимо разместить на вашем сайте по адресу site.ru/robots.txt — т.е. в корневом каталоге. Поисковый робот всегда обращается к файлу по URL /robots.txt

Как посмотреть у чужого сайта?

На своем и чужом ресурсе можно посмотреть файл по адресу site.ru/robots.txt
Например у Google:

Как проверить robots.txt?

Проверка осуществляется по следующим ссылкам:

В Яндекс.Вебмастере — на вкладке Инструменты>Анализ robots.txt
В Google Search Console — на вкладке Сканирование>Инструмент проверки файла robots.txt

Как закрыть весь сайт от индексации?

User-agent: *
Disallow: /

Как закрыть сайт от индексации оставив поисковикам главную страницу?

Иногда требуется закрыть все кроме главной на сайте, для этого необходимо будет использовать регулярные вырожение и дерективу Allow.
Пример файла закрывающего:
User-agent: *
Disallow: /
Allow: /$

Как разрешить страницы пагинации к индексации и при этом запретить страницы сортировки?

Интересную ситуацию рассказа автор телеграм канала

Есть сайт и у него страницы пагинации такого типа

/accessories?page=2

и есть мусорные страницы сортировки

/accessories?page=1&sort=p.price&order=ASC

Собственно задача простая

  • разрешить страницы пагинации к индексации
  • запретить страницы сортировки

Имеем в роботс 2 такие строчки

Diallow: /*?* запрещает все страницы с get параметрами

и

Allow: /*?page=* разрешает индексацию страниц пагинаций

Казалось бы просто добавляем

Чти:   Как использовать Планировщик ключевых слов Google

Disallow: /*order=*

и тем самым запрещаем страницы сортировки? но это не сработало…, а вот такая строка сработала

Disallow: /*&order=*

Если кто не заметил, то добавился всего 1 символ & (амперсанд). Тут я завис. Ведь, как известно, * обозначает любой символ, в том числе и &

Так почему же Disallow: /*order=* не работает, а Disallow: /*&order=* работает?

Найти решение помогла поддержка Я.Вебмастера за что им большое спасибо, далее цитата:

На ситуацию, возникающую при добавлении символа & в правило, влияет один нюанс: директивы Allow и Disallow из соответствующего User-agent блока сортируются по длине префикса URL (от меньшего к большему). В директиве Disallow: /*order= меньше символов, чем в директиве Allow: /*?page=, поэтому приоритет остается за директивой Allow, а если добавить символ &, то у директивы Disallow будет больше символов. Если удалить директиву Allow, то запрет вида Disallow: /*order=* тоже будет работать.

Вот такая вот простая и красивая отгадка.
Если 2 директивы противоречат друг друга, одна разрешает, а другая запрещает, то приоритет отдается той, у которой больше длина префикса URL.
Как говорится век живи — век учись)

Понимает ли Google директиву Host?

Хороший ответ на вопрос я нашел на форуме вебмастеров Google.
Есть разница между роботсом для Яндекса и Google.
В первом случае это глобальный кофиг. Во втором это каманды для краулера, который уже обратился на хост. В Google нет зеркал, как у Яндекса, и технически отличается система сканирования похожих страниц и доменов.

Грубо говоря, если Яндекс сканирует и индексирует то, что нужно. То Гугл сканирует всё, что разрешено, а потом определяет, что нужно индексировать (похожие страницы, междоменная и внутридоменная канонизация), если таковое не оговорено тегами и заголовками. Просто директивой host обозначить, что сканировать нужно этот хост, вообще ничего не даст. Это надо будет поднимать все версии сайта и всем писать host :-), что было бы глупым, потому что для этого существует 301 редирект.

Что еще стоит закрывать?

Конечно, статья была бы далеко не полной, если бы я не рассказал, какие файлы и папки следует закрывать от индексирования.

 

  • Страницы поиска.

 

    Тут кое-кто может поспорить, так как бывают случаи, когда на сайте используют внутренний поиск именно для создания релевантных страниц. Однако, так поступают далеко не всегда и в большинстве случаев открытые результаты поиска могут наплодить невероятное количество дублей. Поэтому мой вердикт — закрыть.
  • Корзина и страница оформления/подтверждения заказа. Данная рекомендация актуальна для интернет-магазинов и других коммерческих сайтов, где есть форма заказа. Данные страницы ни в коем случае не должны попадать в индекс ПС.
  • Фильтры и сравнение товаров. Рекомендация относится к интернет-магазинам и сайтам-каталогам.
  • Страницы регистрации и авторизации. Информация, которая вводится при регистрации или входе на сайт, является конфиденциальной. Поэтому следует избегать индексации подобных страниц, Google это оценит.
  • Системные каталоги и файлы. Каждый сайт состоит из множества данных — скриптов, таблиц CSS, административной части. Такие файлы следует также ограничить для просмотра роботам.
Замечу, что для выполнения некоторых из вышеописанных пунктов можно использовать и другие инструменты, например, rel=canonical, про который я позже напишу в отдельной статье. Кроме этого, не подходите к рекомендациям буквально — всегда есть исключения.

Например, фильтры в некоторых магазинах имеют свои ЧПУ, уникальные мета, контент. Конечно, не надо такие страницы закрывать — это дополнительные релевантные страницы под ключи.

Источник
Источник: sky-fi.info

Еще одно видео о robots.txt

Использование комментариев в файле

Комментарий в robots.txt начинаются с символа решетки — #, действует до конца текущей строки и игнорируются роботами.

Примеры комментариев:

User-agent: *
# Комментарий может идти от начала строки
Disallow: /page # А может быть продолжением строки с директивой
# Роботы
# игнорируют
# комментарии

Типичные ошибки

В конце статьи приведу несколько типичных ошибок файла
  • robots.txt отсутствует;
  • в robots.txt сайт закрыт от индексирования (Disallow: /);
  • в файле присутствуют лишь самые основные директивы, нет детальной проработки файла;
  • в файле не закрыты от индексирования страницы с UTM-метками и идентификаторами сессий;
  • в файле указаны только директивы: Allow: *.css Allow: *.js Allow: *.png Allow: *.jpg Allow: *.gif при этом файлы css, js, png, jpg, gif закрыты другими директивами в ряде директорий
  • директива Host прописана несколько раз (неактуально);
  • в Host не указан протокол https (неактуально);
  • путь к Sitemap указан неверно, либо указан неверный протокол или зеркало сайта;
Источник
Источник: seogio.ru

Онлайн сервисы генерации файла robots.txt

Вы можете использовать сервисы автоматической генерации файлов роботс. Не гарантирую, что с их помощью вы создадите идеально правильный вариант, но в качестве ознакомления можно попробовать.
Среди таких сервисов можно выделить:

С их помощью вы сможете создать файл в автоматическом режиме. Лично я крайне не рекомендую этот вариант, потому как намного проще сделать это вручную, настроив под свою платформу.
Говоря о платформах, я имею ввиду всевозможные CMS, фреймворки, SaaS-системы и многое другое.

Вывод:
Чтобы быть уверенным, что ваш сайт представлен наилучшим образом для поисковых роботов стоит позаботиться о том, чтобы для них был открыт необходимый контент.

Как мы увидели, хорошо настроенный файл robots поможет показать роботам, каким образом лучше взаимодействовать с вашим сайтом. Таким образом, они помогут тем, кто ищет получить более релевантный и полезный контент.


Зацени
SEO блог BOLSHAKOF.RU
Ваше мнение

  1. Дмитрий

    К сожалению, правило запрета к индексации страниц с фидом в конце: https://example.html/feed не помогает запретить гуглу к их индексации. Они отображаются в «Покрытие» серчконсоли в пункте «Проиндексировано, несмотря на блокировку в файле robots.txt».

    Ответить
  2. RaZoR

    Для Yandex не обязательно все тоже самое повторять, достаточно будет первой секции. У меня robots.txt попроще:

    User-agent: *
    Disallow: /admin/
    Disallow: /profile/
    Disallow: /discover/
    Disallow: /search/
    Disallow: /login/
    Disallow: /register/
    Disallow: /online/
    Disallow: /staff/
    Disallow: /contact/

    Sitemap: http://www.site.ru/sitemap.php

    Ответить
    1. Большаков Александр автор

      На вкус и цвет все фломастеры разные 🙂

      Ответить
  3. killer911

    Вопрос: а зачем прятать /search/?
    если можно ответ по существу, без иронии, а то самооценка и так не к чёрту)

    Ответить
    1. Большаков Александр автор

      Если в поиске на сайте что то искать, то это что то может быть проиндексировано роботом, чтоб его не мучить этим — закрываем поиск.

      Если на этом сайте вбить в поиск «301 РЕДИРЕКТ» то URL получится с таким параметром:
      http://bolshakof.ru/?s=301+редирект

      Ответить
  4. Follow Trend

    Здравствуйте ! Народ, скажите пожалуйста, а вот для лэндинг-странички, которая расположена НА ПОДДОМЕНЕ — то для неё — robots.txt и sitemap.xml имеют какие то особенности ? И если да — то какие? Потому что основной домен я использую чисто как носитель поддоменов, и надо чтобы роботы гугла и яндекса — «видели» только эти поддомены, которые мне нужны, а не все поддомены подряд.
    И где физически эти файлы должны помещаться, — в корне основного домена? Или в корне каждого нужного мне поддомена?

    Ответить