Правильный robots.txt для сайта wordpress

Здравствуйте, дорогие читатели блога agubtor.ru!

Сегодня я расскажу вам о том, как правильно создать файл robots.txt для сайта на wordpress.

Наверняка вы знаете, что этот файл обязательно нужен для продвижения блога и любого сайта. Вообще в оптимизации сайта и его продвижении есть много тонкостей. Одной такой тонкостью является правильное составление файла robots txt для сайта.

Чаще всего я работаю с wordpress, да и блоги в основном сидят на этой системе. Поэтому я расскажу о robots txt для сайта на wordpress.
Обычно этот файл используют, чтобы закрыть от индексации определенные страницы сайта. Здесь же вы прописываете главное зеркало сайта (с www или без этих букв). Кроме того, в файле robots.txt находится путь к файлу sitemap.xml (карта сайта).

Примечание: для поисковых роботов сайт с www и без www это два разных сайта. Но, если поисковики увидят, что содержимое одно и тоже в этих двух вариантах, то эти адреса «склеиваются». По этой причине главное зеркало обязательно нужно определить в файле robots.txt.

Если у вас на сайте совсем нет этого файла, то создайте новый пустой файл с именем robots.txt, и загрузите его в корень вашего сайта на сервере, то есть туда же, где лежат папки wp-content, wp-admin и wp-includes

Когда поисковики приходят на сайт, то сначала ищут этот файл. Ведь именно robots.txt говорит, что нужно индексировать, а что нет.
Особенность блогов на wordpress в том, что движки этих сайтов состоят из множества папок. Пока поисковой робот будет по ним ходить, он потратит много времени, но по сути ничего в них не найдет полезного. Нужно сразу сказать роботу, что туда может не ходить. Иначе робот среди такого количества хлама может пропустить то, что как раз нужно было проиндексировать.

А это безумно важно, ведь роботу может надоесть смотреть всякую ерунду и он упустит из виду то, что наоборот нужно было проверить. Так что настоятельно рекомендую уделить файлу robots.txt особое внимание.

Как правильно настроить robots.txt для сайта на wordpress? В файле, который вы уже создали пропишите:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
User-agent: Yandex
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */*/feed/*/
Disallow: */feed
Disallow: /*?*
Disallow: /tag
Host: royal-site.ru 
Sitemap: http://royal-site.ru/sitemap.xml

Замените royal-site.ru на url вашего сайта и все!

Для тех кто не умеет или не хочет создавать этот файл вручную, можете скачать отсюда и отредактировать последние строки.

Так просто? Точно все правильно?

Не беспокойтесь, именно такой файл robots.txt одобрен разработчиками wordpress.
Знаю, что среди вас есть щепетильные ребята, которые хотят понимать все, что происходит у них на блоге и, что за коды они прописывают себе. Поэтому ниже немного поясню что по чем.

Что написано в файле robots.txt

Строка User-agent -задает правила для определенного поисковика.
Например, знак “*” (звездочка) показывает, что правила прописаны для любого поисковика.
Другой пример: User-agent: Yandex – это значит, что тут правила только для Яндекса.
Правило Disallow в файле robots.txt показывает какие разделы индексировать не нужно.

Например, мы закрываем все разделы, которые содержат в себе дубли страниц, ведь дублирование страниц сильно тормозит продвижение.

 

В файле robots.txt, который я вам предоставил,запрещены для индексации практически все лишние разделы WordPress. Можете ничего не менять.
Host. В этой строке мы указываем главное зеркало сайта.

Sitemap. В этой строке мы пишем адрес к файлу sitemap.xml, который можно создать в плагине All in One SEO PACK. Об этом расскажу чуть позже в следующих статьях.

Возможные проблемы 

Если на Вашем сайте ссылки не в виде ЧПУ, то с файлом robots.txt, который я дал выше, возникнут трудности. То есть если ваши ссылки на сайте выглядя вот так:

ssilki-bez-chpu

Поэтому строчка Disallow: /*?* запрещает индексировать опубликованные посты, а это никому не надо! Так что, если у вас ссылки на блоге выводятся в таком виде, то уберите эту строчку из правил для всех поисковиков и из правил для Яндекса.

Анализ robots.txt

Рекомендую проверить ваш файл robots.txt в Яндекс.Вебмастер . Кстати, он недавно обновился, я писал о новых фишках и изменениях в этой статье. Заходите в Инструменты –> Анализ robots.txt:

analiz-robots-txt

Тут загрузите ваш robots.txt и нажимайте “Проверить”:
Ниже в поле “Разрешены ли URL” можете проверить любую страницу вашего блога, запрещена ли она файлом robots.txt :

proverka-url

Думаю, после этого обзора вы не будете больше думать о том, как правильно составить robots.txt для wordpress

Можете смело создавать у себя файл по тому образцу, который я предоставил.
Как вам статья? Все понятно? Советую подписаться на новые статьи, чтобы не пропустить клеевые фишки для блогеров и веб-мастеров.

С уважением,
Артем Губтор


2 комментария

  • Геннадий

    Здравствуйте Артем!!! Спасибо за статью! Мне она скорей всего поможет

    Ноябрь 27, 2016 в 10:42 дп
    Ответить
    • Артем Губтор

      Здравствуйте, очень рад

      Ноябрь 27, 2016 в 7:42 пп
      Ответить

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

18 − 4 =