Содержание
- Зачем закрывать сайт от индексации
- Закрываем сайт от индексации в robots.txt
- Как закрыть отдельные страницы
- Как закрыть другую информацию
- Как закрыть сайт через мета-теги
- В настройках сервера
- Проверка robots.txt на ошибки
Индексация сайта - это процесс добавления данных вашего ресурса в индексную базу поисковых систем. Именно в этой базе и происходит поиск информации в тот момент, когда пользователь вводит любой запрос в Гугл, Яндекс или любой другой поисковик.
Если сайта нет в индексной базе, значит, его нет и в поисковой выдаче. На него невозможно будет перейти по поисковым запросам.
Зачем закрывать сайт от индексации
Причин, из-за которых вам может понадобиться скрыть сайт от поисковых машин множество. Перечислим самые популярные:
- Сайт находится на этапе разработки/доработки
Ваш сайт пока не готов принимать посетителей. Вы только начали его разрабатывать он сырой или вам необходимо срочно внести какие-либо доработки. В этом случае необходимо закрыть сайт от индексации для того чтобы страницы низкого качества, служебные страницы и разделы не попали в индексную базу. В противном случае, на них будет тратится краулинговый бюджет (лимит документов, которые краулер может обойти на вашем сайте за один день), а те страницы, которые нужны вам для продвижения попадут в индекс гораздо позже.
- Сайт узкой направленности
Ресурс предназначен для узкого круга посетителей или вообще только для вас и вы не хотите, чтобы случайные пользователи видели его содержимое.
- Переезд сайта или аффилированный ресурс
Вы решили изменить главное зеркало сайта. Для этого нужно закрыть от индексации старый домен и открыть новый. При этом поменяв, главное зеркало сайта. Возможно, у вас несколько сайтов одной тематики, а продвигаете вы один, главный.
- Стратегия продвижения
Возможно, ваша стратегия предусматривает продвижение нескольких доменов, например, в разных регионах или поисковых системах. В этом случае, может потребоваться закрыть определенный домен в определенной поисковой системе.
Закрываем сайт от индексации в robots.txt
Самое простое - закрыть сайт от индексации в файле robots.txt. Ведь именно с него начинается обращение к вашему сайту поисковой системой. Robots.txt «подсказывает» роботам, какие страницы нужно в первую очередь добавить в индекс, а какие нужно пропустить.
Найти Robots.txt можно в корневой папке сайта. Если же его нет, создайте в любом текстовом редакторе и перенесите в нужную директорию.
Если у вас сайт на «Битриксе» создавать robots.txt с нуля не нужно. Он уже автоматически сгенерирован в административной панели. Для того чтобы редактировать файл, перейдите в Маркетинг->Поисковая оптимизация->Настройка robots.txt.
В файле должны находиться всего лишь две строчки:
User-agent: *
Disallow: /
Остальные правила нужно удалить. Это позволит запретить ботам всех поисковиков обрабатывать и вносить в базу данных информацию с вашего сайта.
Если нужно скрыть сайт только для Яндекса
User-agent: Yandex
Disallow: /
Чтобы проверить, скрыт ли ваш сайт от Яндекса, нужно загрузить файл robots. txt в Яндекс.Вебмастер, затем перейти по ссылке «https://webmaster.yandex.ru/tools/robotstxt/». В поле для проверки URL вставьте несколько ссылок на документы сайта, и нажмите «Проверить». Если они скрыты, то напротив ссылок должна появиться надпись ««Запрещено правилом /*?*»
Если нужно скрыть сайт только для Гугла
User-agent: Googlebot
Disallow: /
Чтобы проверить запрет индексации, перейдите в панель «Google Search Console». Напротив ссылок должно отображаться «Заблокировано по строке» с командой запрета индексации.
Для других поисковиков
Для каждого поисковика есть боты с уникальными именами, вы можете прописывать их в robots.txt и задавать для них команды.
Далее указаны наиболее распространенные боты (кроме Яндекса и Google):
- Поисковик Yahoo. Имя робота - Slurp.
- Спутник. Имя робота - SputnikBot.
- Microsoft Network Search. Имя робота - MSNBot.
Как закрыть отдельные страницы
Если вы не хотите запрещать просмотр всего сайта целиком, но вам нужно скрыть любую служебную информацию( формы регистрации, административную панель, формы заказа, корзину, старые новости и акции ит.д.), воспользуйтесь следующими командами:
Запрет индексации
Отдельной страницы | User-agent: * Disallow: /contact.html |
Раздела | User-agent: * Disallow: /catalog/ |
Всего сайта, кроме одного раздела | User-agent: * Disallow: / Allow: /catalog |
Всего раздела, кроме одного подраздела | User-agent: * Disallow: /product Allow: /product/auto |
Поиска на сайте | User-agent: * Disallow: /search |
Административной панели | User-agent: * Disallow: /admin |
Как закрыть другую информацию
Файл robots.txt позволяет закрывать папки на сайте, файлы, скрипты, utm-метки, а также картинки. Их можно скрыть полностью или выборочно.
Запрет индексации
Типа файлов | User-agent: * Disallow: /*.jpg |
Папки | User-agent: * Disallow: /images/ |
Папку, кроме одного файла | User-agent: * Disallow: /images/ Allow: file.jpg |
Скриптов | User-agent: * Disallow: /plugins/*.js |
utm-меток | User-agent: * Disallow: *utm= |
utm-меток для Яндекса | Clean-Param: utm_source&utm_medium&utm_campaign |
Как скрыть от индексации изображения
Чтобы полностью запретить индексацию картинок, нужно прописать следующие команды (в зависимости от формата):
User-Agent: *
Disallow: *.png
Disallow: *.jpg
Disallow: *.gif
Закрыть поддомен
Как правило у поддоменов есть собственный robots.txt. Обычно его можно найти в корневой папке поддомена. Откройте файл и пропишите:
User-agent: *
Disallow: /
Как закрыть сайт через мета-теги
Существует еще один способ закрыть от поиска какой-либо документ или полностью весь сайт. Используйте мета-тег robots. Пропишите его в исходный код сайта в файле index.html. Размещайте в контейнере <head>. Указывайте, для каких краулеров нужно закрыть сайт. Если для всех, напишите robots. Если для одного робота, укажите его название. Для Google - Googlebot, для Яндекса - Yandex. Существуют два варианта записи мета-тега:
<meta name=”robots” content=”noindex, nofollow”/>
или
<meta name=”robots” content=”none”/>
Атрибут “content” имеет следующие значения:
- none - индексация запрещена, включая noindex и nofollow;
- noindex - запрещена индексация содержимого;
- nofollow - запрещена индексация ссылок;
- follow - разрешена индексация ссылок;
- index - разрешена индексация;
- all - разрешена индексация содержимого и ссылок.
Если вы решили закрыть сайт от индексации через мета-теги, не нужно отдельно создавать robots.txt.
В настройках сервера
В крайнем случае, когда никакие методы не сработали, и боты все еще никак не реагируют на изменения, вебмастеры прибегают к методу обращения к серверу. В данном случае придется решать проблему в настройках сервера посредством файла .htaccess., в котором нужно прописать:
SetEnvIfNoCase User-Agent "^Googlebot" search_bot
SetEnvIfNoCase User-Agent "^Yandex" search_bot
SetEnvIfNoCase User-Agent "^Yahoo" search_bot
SetEnvIfNoCase User-Agent "^Aport" search_bot
SetEnvIfNoCase User-Agent "^msnbot" search_bot
SetEnvIfNoCase User-Agent "^spider" search_bot
SetEnvIfNoCase User-Agent "^Robot" search_bot
SetEnvIfNoCase User-Agent "^php" search_bot
SetEnvIfNoCase User-Agent "^Mail" search_bot
SetEnvIfNoCase User-Agent "^bot" search_bot
SetEnvIfNoCase User-Agent "^igdeSpyder" search_bot
SetEnvIfNoCase User-Agent "^Snapbot" search_bot
SetEnvIfNoCase User-Agent "^WordPress" search_bot
SetEnvIfNoCase User-Agent "^BlogPulseLive" search_bot
SetEnvIfNoCase User-Agent "^Parser" search_bot
Проверка robots.txt на ошибки
Следующими инструментами можно проверить robots.txt на наличие ошибок:
- Панель Вебмастера Яндекс - https://webmaster.yandex.ru/tools/robotstxt/
- Google Search Console - https://www.google.com/webmasters/tools/robots-testing-tool
Здесь можно увидеть ошибки и предупреждения о наличии ограничений в конкретных директивах. Здесь также можно проверить как работают страницы после изменений в robots.txt.
Вне зависимости от того, по какой причине вы хотите закрыть сайт, конкретные его страницы или материалы от индексации, можете воспользоваться любым из перечисленных способов. Они просты в реализации, и не потребуют много времени.
Резюме
- Закрыть сайт от индексации можно двумя способами: создать файл robots.txt и там указать запрет на индексацию через директиву disallow. Другой вариант - прописать запрет через мета-тег robots в файле index.html внутри тега.
- Для того, чтобы скрыть служебную информацию, устаревающие данные, скрипты, сессии и utm-метки необходимо для каждого запрета создать отдельное правило. Вы можете запретить индексировать информацию всем поисковым роботам через * или указать имя конкретного краулера.
- Проверяйте файл robots.txt через инструменты Яндекс.Вебмастер и Google Robots Testing Tool.