robots.txt для MODX Revo

robots.txt для MODX Revo MODX Revo

Сегодня мы составим правильный robots.txt для MODX Revo. Данный файл в первую очередь создается для того что бы закрыть дубли страниц и системный файлы от индексации в поисковых системах.

Как создать robots.txt для MODX Revo

Перед тем как начать вы должны включить ЧПУ MODX в настройках сайта.

robots.txt можно создать 2-мя способами:

Первый — прямо на компьютере при помощи блокнота создать текстовый документ с именем robots и расширением txt.

Второй — непосредственно в самом modx (создать документ — и в настройках выбрать тип содержимого txt)

Выбирайте любой способ, который больше нравится. Ну а теперь самое главное.

Правильный стандартный robots.txt для MODX Revo и Evo

User-agent: *                  # правила для всех роботов
Disallow: /manager/            # авторизация
Disallow: /assets/components/  # папка с файлами modx пакетов
Disallow: /core/               # папка с системными файлами modx
Disallow: /connectors/         # папка с системными файлами modx
Disallow: /index.php           # дубль главной страницы index.php
Disallow: *?*                  # удаляем дубли для всех страниц (с параметрами)
Disallow: *openstat=           # ссылки с метками openstat
Disallow: *from=               # ссылки с метками from
Disallow: *utm*=               # ссылки с utm-метками
Allow: /*.jpg                  # здесь и далее открываем для индексации изображения, скрипты и прочие файлы
Allow: /*.jpeg 
Allow: /*.gif 
Allow: /*.png 
Allow: /*.pdf 
Allow: /*.doc 
Allow: /*.docx 
Allow: /*.xls 
Allow: /*.xlsx 
Allow: /*.ppt 
Allow: /*.pptx 
Allow: /*.css
Allow: /*.js
Allow: *?page=                 # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical)

# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml

Также часто на хостингах в директориях сайта, есть папка cgi-bin, ее тоже закрываем от индексации: Disallow: /cgi-bin

Если вы используете модуль pThumb (phpThumbOf или phpThumbOn), то желательно открыть для индексации обрезанные изображения:
Allow: /core/cache/phpthumb/*.jpeg
Allow: /core/cache/phpthumb/*.png
Allow: /core/cache/phpthumb/*.svg
Раньше еще указывали директиву host (Host: сайт.ru) но ее сейчас поисковые боты не учитывают — она устарела)

Краткий разбор нестандартного «роботс» для CMS MODX

robots для modx

Использование кириллицы

Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.

Для указания имен кириллических доменов и папок с русскими именами используйте Punycode. Названия указывайте в кодировке, соответствующей кодировке текущей структуры сайта. Пример для указания сайтмапа для http://сайт.рф:

Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml

Проверка корректности robots.txt

Анализ robots.txt от Yandex (нужна авторизация).

Анализ robots.txt от Google (нужна авторизация).

Если у вас есть какие либо вопросы или предложения по правильному составлению robots.txt для CMS MODX пишите в комментариях.

Поделиться с друзьями
Алексей

Веб-дизайнер и SEO оптимизатор. Занимаюсь созданием сайтов с 2010 года и их продвижение с 2012 года!

Оцените автора
( 1 оценка, среднее 5 из 5 )
Web-Revenue.ru
Добавить комментарий

  1. Андрей Швед

    Можно воспользоваться генератором robots.txt — capyba.ru/services/tools/robots/ в нем есть настройки для modx

    Ответить
    1. Голягин Алексей

      Гeнерит стандартный robots — лучше в ручную составить)

      Ответить
  2. Юрий

    ну, вообще-то для MODX в robots.txt не рекомендуется указывать sitemap — для поисковых систем, sitemap загружайте через панель вебмастера

    Ответить
    1. Алексей автор

      От куда такая информация у вас? Прям не рекомендуется? https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html

      Ответить
  3. Влад

    Вопрос. Рекомендуется переименовать директории для защиты ModX (и не только), но в robots.txt мы все эти папки прописываем (доступно по http(s)://сайт/robots.txt). То есть выбирать нужно между безопасностью и SEO?

    Ответить
    1. Алексей автор

      Не совсем понял вопрос. Смотрите защита и безопасность: к примеру я переименовал все директории в: rAwRAdAkmCRGSD_assets, rAwRAdAkmCRGSD_connectors, rAwRAdAkmCRGSD_core, rAwRAdAkmCRGSD_manager, тогда мы их просто указываем одной строчкой Disallow: /rAwRAdAkmC* — соответственно не палим нашу защиту)

      Ответить