Robots.txt: что это такое

Robots.txt — текстовый файл в корне сайта, содержащий инструкции для поисковых роботов (краулеров). Что такое robots.txt: файл сообщает боту Яндекса и Google какие страницы разрешено индексировать, а какие нет. Индексация страниц контролируется через robots.txt сайта — первое, что проверяет поисковый робот при обходе.

Синтаксис файла robots.txt

Robots.txt директивы: User-agent: указывает для какого бота правило (User-agent: * — для всех). Disallow: /admin/ — запрещает индексацию раздела. Allow: / — явное разрешение. Sitemap: https://site.ru/sitemap.xml — указывает путь к sitemap. Файл robots.txt чувствителен к регистру на Unix-серверах.

Что закрывать в robots.txt

Что закрыть от индексации через robots.txt: административные панели (/admin/, /wp-admin/), дублирующиеся страницы (пагинация, фильтры), технические страницы (/cart/, /checkout/), личные кабинеты пользователей. Что не закрывать в robots.txt: страницы с ценами, товарами, услугами — это коммерческие страницы.

Ошибки в robots.txt

Частые ошибки robots.txt: Disallow: / (закрыт весь сайт — критическая ошибка), закрытые CSS и JS файлы (поисковик не может отрисовать страницу), избыточные правила. Проверить robots.txt онлайн: Яндекс.Вебмастер → "Инструменты" → "Анализ robots.txt". Правильная настройка robots.txt — часть технического SEO-аудита.