Большой сайт нельзя аудировать как обычный. Это не вопрос амбиций или масштаба — это вопрос другого типа проблем, другого инструментария и другой логики приоритизации.
На сайте с миллионами страниц вы физически не можете проверить каждый URL. Это не нужно. И это не поможет.
Enterprise SEO — это работа с системами, шаблонами и процессами. Не со страницами.
Страницы vs шаблоны: принципиальная разница
Когда у вас 500K страниц и title на 80% из них генерируется одним шаблоном — проблема не в 400K страниц. Проблема в шаблоне.
Исправьте шаблон — закрыли 400K проблем одним коммитом. Продолжайте фиксить страницы поштучно — через год окажетесь на том же месте, только с большим техдолгом.
В чём главное расхождение
Чиним конкретные страницы, находим конкретные ошибки. Стандартный чек-лист работает.
Ищем дисфункциональные шаблоны, сегменты индекса и системные паттерны. Поштучные фиксы — пустая трата времени.
Crawl budget: когда это реально проблема
Crawl budget становится реальным ограничением, когда объём сайта значительно превышает возможности бота обойти его за разумный срок.
Практическая эвристика: если ваш сайт содержит сотни тысяч URL и Googlebot по данным логов обходит менее 1–2% страниц в день — это сигнал, что crawl budget требует управления. Точный порог зависит от авторитетности домена, частоты обновлений и структуры.
- Важные страницы могут месяцами не переиндексироваться после изменений.
- Мусорные страницы в индексе расходуют бюджет в ущерб полезным.
- Новые разделы могут не появляться в выдаче неделями.
Поэтому первый вопрос в enterprise-аудите — не «есть ли дубли», а «как распределяется crawl budget и куда бот ходит чаще всего». Ответ — только в логах.
Лог-анализ: что видит бот против того, что видите вы
Server logs — единственный источник правды о том, как поисковый бот реально обходит сайт. GSC даёт агрегированную картину. Sitemap.xml — ваши намерения. Логи — реальность.
В логах видно:
- Какие разделы бот обходит чаще всего.
- Какие URL запрашивает, но не индексирует.
- Есть ли аномальные всплески запросов — сигнал проблемы.
- Насколько часто обходятся приоритетные коммерческие страницы.
- Какие страницы не посещались месяцами.
# 1. Установить зависимость (один раз): pip install openpyxl # 2. Положить log_analyzer.py в папку с лог-файлами (.log / .txt) и запустить: python log_analyzer.py # Что получите в log_analysis.xlsx: # Stats_* — топ URL, IP, статус-коды, распределение по часам # UA_* — все user agent с числом запросов # Bot_RL_* — rate-limit: Googlebot, Yandexbot, другие боты # Что смотреть в первую очередь: # 1. Bot_RL_* → max_requests_per_minute Googlebot — норма 1–3, аномалия > 20 # 2. Stats_* → url_counts по паттерну /page/, /filter/, /?= — # если > 40% краулинга, crawl budget уходит в мусор # 3. UA_* → незнакомые боты с высокой частотой — кандидаты на блокировку
Анализ шаблонов: одна проблема = миллион страниц
Проблемы на enterprise-сайтах существуют в двух режимах:
- Системные — возникают из шаблона и воспроизводятся на всех страницах, созданных по нему.
- Точечные — локализованы на конкретных URL и не масштабируются.
Большинство времени на enterprise-аудите нужно тратить на системные проблемы. Что ищем в шаблонах:
- Генерация дублирующегося title/description.
- Шаблонные h1 без уникализации.
- Canonical, который всегда указывает на себя — даже там, где это неверно.
- JavaScript-зависимые блоки, которые бот не видит.
- Пустой контент на страницах, сгенерированных из пустых полей базы данных.
Сегментация: «денежные шаблоны» в приоритете
На большом сайте всегда будет много шаблонов. Не все они одинаково важны. Логика: сначала работаем с сегментами, которые приносят деньги или имеют наибольший потенциал. Трафик сам по себе не всегда коррелирует с доходом — важна маржинальность и конверсия.
| Сегмент | Приоритет и логика |
|---|---|
| Категории 1–2 уровня | Максимальный: высокочастотные запросы, высокая маржа, прямой трафик |
| Карточки топ-продаж | Высокий: транзакционный спрос, конверсия, маржинальные товары |
| Страницы брендов | Средний: коммерческий, более узкий спрос |
| Страницы фильтров | Только при ценном уникальном спросе, иначе — noindex |
| Пагинация | Управлять краулингом, не давать попадать в индекс без нужды |
| Блог / контент | После коммерции — информационный трафик в воронку |
Index bloat: невидимая проблема
Index bloat — ситуация, когда в индексе находятся тысячи или миллионы страниц без реальной ценности.
Есть управленческий аспект: команда теряет фокус. Когда в GSC 5M страниц и половина из них — мусор, сложно понять, что реально нужно улучшать. Отчёты засорены, приоритеты размыты.
Типичные источники index bloat:
- Страницы пагинации без ограничений.
- Фильтры с параметрическими URL без управления.
- Технические страницы: авторизация, корзина, поиск по сайту.
- Устаревшие URL после редизайна или миграции.
- Дубли: trailing slash, www/без www, http/https.
Управление процессами: почему enterprise SEO ломается изнутри
Index bloat — это не только техническая проблема. Технические страницы попадают в индекс не потому что «так настроено», а потому что нет процесса, который не дал бы им туда попасть. Это уже вопрос управления SEO-процессами.
На больших сайтах SEO ломается не только снаружи. Оно ломается в процессах разработки, деплоя и управления контентом.
Чек-лист перед каждым релизом
Список SEO-проверок перед любым деплоем, затрагивающим шаблоны или URL-структуру. Без него каждый релиз — потенциальная регрессия. Классика: разработчик обновляет шаблон категорий, canonical сбрасывается на дефолт — 300 000 страниц теперь указывают сами на себя.
Проверка на тестовом окружении
Обязательный этап перед выкаткой в прод: title, canonical, robots, структура ссылок по SEO-критичным шаблонам. На ряде крупных проектов SEO-регрессия в продакшне обнаруживалась через две недели — когда Google уже переиндексировал.
Карта ответственных по типам страниц
У каждого типа страниц — конкретный ответственный, который согласует изменения с SEO-стороны. Нет ответственного — нет контроля. Типичная история: «мы не знали, что это сломает индекс».
Шаблон SEO-требований для разработки
Стандартный документ: как описывать SEO-требования в задачах разработчикам. Убирает «я не знал, что это влияет на SEO» — потому что всё написано до начала работы.
Процесс вывода URL из оборота
Как правильно удалять страницы: редиректы, noindex, консолидация. Без процесса страницы накапливаются годами. Видел сайты с 40% индекса из устаревших URL после трёх миграций — ни одна не была закрыта по правилам.
Порядок работ
Лог-анализ + карта crawl budget
Понять реальность до любых изменений. Без этого вы оптимизируете то, что вы видите, а не то, что видит бот.
Устранение index bloat в коммерческих сегментах
Прямой выигрыш в crawl budget — бот перераспределяет ресурс на полезные страницы.
Исправление системных шаблонных проблем
В «денежных» сегментах. Мультипликативный эффект: один фикс — тысячи страниц.
Управление процессами
Процессы, которые не дадут всему сломаться снова. Это не разовая задача — это изменение операционной модели.
JavaScript SEO
Если рендеринг создаёт проблемы с доступностью контента для бота — отдельный аудит.
Пошаговая инструкция: как начать enterprise-аудит
Запросить логи сервера за 30–90 дней
Запрос к DevOps/системному администратору: access.log с фильтрацией по user-agent Googlebot и Яндексбот. Минимум 30 дней, лучше 90 — нужна статистически значимая картина.
Составить карту сегментов
Выгрузить все URL из GSC Coverage и Screaming Frog, размечить по типу шаблона: категории, карточки, фильтры, пагинация, блог, технические страницы. Без этой карты лог-анализ превратится в хаос цифр.
Сопоставить логи с картой сегментов
Сколько процентов краулинга уходит на каждый сегмент? Сколько уходит на мусор (пагинация, фильтры, технические страницы)? Это и есть карта потерь crawl budget.
Найти шаблонные проблемы в «денежных» сегментах
Screaming Frog: выгрузка title, description, h1, canonical, noindex по каждому сегменту. Какой процент шаблонных? Есть ли аномалии? Одна шаблонная проблема = приоритет выше любой точечной.
Составить план по сегментам, а не по страницам
Приоритизировать работы по принципу: какой сегмент даёт максимальный возврат при минимальных правках шаблона? Каждый пункт плана — это шаблонное исправление, а не список конкретных URL.
Работаете с крупным сайтом?
Проведу аудит с сегментацией шаблонов и лог-анализом — реальные приоритеты, а не список из 300 замечаний. Понятный план для разработки и менеджмента.
Написать в Telegram