SEO

Правильный файл robots.txt

  Настройка файла robots txt

   Файл robots.txt должен находиться в корневой папке вашего сайта. Для новичков подсказка: там же находятся папки admin, файлы index.php, .htaccess и другие. Здесь я опишу создание данного файла на примере CMS WordPress.

   Этот файл необходим для оптимизации в поисковых системах Google, Яндекс и других. Он показывает поисковикам, какие файлы (и соответственно страницы) им не надо индексировать. Это могут быть плагины, медиатека или некоторые созданные Вами страницы, которые вы не хотите индексировать.

Содержимое файла robots txt

   Дело в том, что помимо созданных вами страниц, на вашем сайте могут быть доступны страницы с изображениями, кодами плагинов, страницами редактирования и т.д. При проверке своего сайта в Google Analytics, Яндекс Метрике и на разных сайтах аудита вы можете эти страницы не увидеть. Более полный технический аудит можно провести, скачав бесплатную программу Screaming Frog Seo Spider, лучше на официальном сайте. К сожалению, у движка WordPress и его тем есть такое слабое место: файл rodots.txt просто отсутствует.

   На будущее: для работы с файлами в форматах, которые стандартная настройка Windows не видит, используйте программу Notepad++ или подобную ей. Если у вас нет её, скачайте бесплатно. Эта программа позволяет просматривать, создавать и редактировать файлы различных форматов типа .php и других.

   До размещения файла robots.txt сохраните старые данные аудита вашего сайта, чтобы сравнить эти данные до и после. После размещения файла robots.txt происходит запрет на индексацию файлов (страниц), и напротив них при новом сканировании сайта появится надпись «Blocked by Robots» — данные страницы стали закрытыми от индексации.

Пример файла robots

   Ниже приводится простейший правильный файл robots.txt с пояснениями.

   Внимание: какие именно файлы закрывать от индексации вы решаете самостоятельно.

robots

   Указанный пробел между строками обязателен.

   User-agent: * — эта строка говорит о том, что все правила указанные ниже работают для всех поисковых роботов;

   User-agent: Yandex – для Яндекса прописывается отдельно, директива Host прописывается только для Яндекса, Google её не понимает.

   Disallow: — запрет на посещение, в этой строке указываются файлы верхнего уровня, ниже которого поисковым роботам ходить не надо – то есть по ссылкам, которые начинаются на указанное название;

   Host: — ссылка на главное зеркало вашего сайта, его следует прописать правильно, т.к. для поисковиков сайт с www и сайт без www – это разные сайты

   Sitemap: — адрес вашей карты сайта, можете его уточнить. Указано два адреса, для возможности создать вторую карту сайта

   yoursite.com – не забудьте заменить эту надпись в трёх местах на адрес вашего сайта.

   В данном случае указан запрет на индексацию большинства файлов, у меня стоит такой файл на одном из сайтов. На самом деле вы можете запрещать выборочно, на своё усмотрение. После создания файла robots.txt просто загрузите его на свой хостинг в корневую папку.

Добавить комментарий