Сегодня мы составим правильный robots.txt для MODX Revo. Данный файл в первую очередь создается для того что бы закрыть дубли страниц и системный файлы от индексации в поисковых системах.
Как создать robots.txt для MODX Revo
Перед тем как начать вы должны включить ЧПУ MODX в настройках сайта.
robots.txt можно создать 2-мя способами:
Первый — прямо на компьютере при помощи блокнота создать текстовый документ с именем robots и расширением txt.
Второй — непосредственно в самом modx (создать документ — и в настройках выбрать тип содержимого txt)
Выбирайте любой способ, который больше нравится. Ну а теперь самое главное.
Правильный стандартный robots.txt для MODX Revo и Evo
User-agent: * # правила для всех роботов
Disallow: /manager/ # авторизация
Disallow: /assets/components/ # папка с файлами modx пакетов
Disallow: /core/ # папка с системными файлами modx
Disallow: /connectors/ # папка с системными файлами modx
Disallow: /index.php # дубль главной страницы index.php
Disallow: *?* # удаляем дубли для всех страниц (с параметрами)
Disallow: *openstat= # ссылки с метками openstat
Disallow: *from= # ссылки с метками from
Disallow: *utm*= # ссылки с utm-метками
Allow: /*.jpg # здесь и далее открываем для индексации изображения, скрипты и прочие файлы
Allow: /*.jpeg
Allow: /*.gif
Allow: /*.png
Allow: /*.pdf
Allow: /*.doc
Allow: /*.docx
Allow: /*.xls
Allow: /*.xlsx
Allow: /*.ppt
Allow: /*.pptx
Allow: /*.css
Allow: /*.js
Allow: *?page= # открываем для индексации страницы пагинации (и проверьте, чтобы для них был настроен canonical)
# Укажите один или несколько файлов Sitemap
Sitemap: http://site.ru/sitemap.xml
Также часто на хостингах в директориях сайта, есть папка cgi-bin, ее тоже закрываем от индексации: Disallow: /cgi-bin
Если вы используете модуль pThumb (phpThumbOf или phpThumbOn), то желательно открыть для индексации обрезанные изображения:
Allow: /core/cache/phpthumb/*.jpeg
Allow: /core/cache/phpthumb/*.png
Allow: /core/cache/phpthumb/*.svg
Раньше еще указывали директиву host (Host: сайт.ru) но ее сейчас поисковые боты не учитывают — она устарела)
Краткий разбор нестандартного «роботс» для CMS MODX
Использование кириллицы
Использование кириллицы запрещено в файле robots.txt и HTTP-заголовках сервера.
Для указания имен кириллических доменов и папок с русскими именами используйте Punycode. Названия указывайте в кодировке, соответствующей кодировке текущей структуры сайта. Пример для указания сайтмапа для http://сайт.рф:
Sitemap: http://xn--80aswg.xn--p1ai/sitemap.xml
Проверка корректности robots.txt
Анализ robots.txt от Yandex (нужна авторизация).
Анализ robots.txt от Google (нужна авторизация).
Если у вас есть какие либо вопросы или предложения по правильному составлению robots.txt для CMS MODX пишите в комментариях.
Можно воспользоваться генератором robots.txt — capyba.ru/services/tools/robots/ в нем есть настройки для modx
Гeнерит стандартный robots — лучше в ручную составить)
ну, вообще-то для MODX в robots.txt не рекомендуется указывать sitemap — для поисковых систем, sitemap загружайте через панель вебмастера
От куда такая информация у вас? Прям не рекомендуется? https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html
Вопрос. Рекомендуется переименовать директории для защиты ModX (и не только), но в robots.txt мы все эти папки прописываем (доступно по http(s)://сайт/robots.txt). То есть выбирать нужно между безопасностью и SEO?
Не совсем понял вопрос. Смотрите защита и безопасность: к примеру я переименовал все директории в: rAwRAdAkmCRGSD_assets, rAwRAdAkmCRGSD_connectors, rAwRAdAkmCRGSD_core, rAwRAdAkmCRGSD_manager, тогда мы их просто указываем одной строчкой Disallow: /rAwRAdAkmC* — соответственно не палим нашу защиту)