Большой сайт нельзя аудировать как обычный. Это не вопрос амбиций или масштаба — это вопрос другого типа проблем, другого инструментария и другой логики приоритизации.

На сайте с миллионами страниц вы физически не можете проверить каждый URL. Это не нужно. И это не поможет.

Enterprise SEO — это работа с системами, шаблонами и процессами. Не со страницами.

Страницы vs шаблоны: принципиальная разница

Когда у вас 500K страниц и title на 80% из них генерируется одним шаблоном — проблема не в 400K страниц. Проблема в шаблоне.

Исправьте шаблон — закрыли 400K проблем одним коммитом. Продолжайте фиксить страницы поштучно — через год окажетесь на том же месте, только с большим техдолгом.

В чём главное расхождение

Малый / средний сайт

Чиним конкретные страницы, находим конкретные ошибки. Стандартный чек-лист работает.

Enterprise

Ищем дисфункциональные шаблоны, сегменты индекса и системные паттерны. Поштучные фиксы — пустая трата времени.

Crawl budget: когда это реально проблема

Crawl budget становится реальным ограничением, когда объём сайта значительно превышает возможности бота обойти его за разумный срок.

Практическая эвристика: если ваш сайт содержит сотни тысяч URL и Googlebot по данным логов обходит менее 1–2% страниц в день — это сигнал, что crawl budget требует управления. Точный порог зависит от авторитетности домена, частоты обновлений и структуры.

Если бот тратит ресурс не туда — все остальные улучшения работают медленнее. Исправленные title не обновятся в выдаче. Добавленный контент не проиндексируется вовремя. Crawl budget — это ограничение на скорость всех изменений на сайте.

Поэтому первый вопрос в enterprise-аудите — не «есть ли дубли», а «как распределяется crawl budget и куда бот ходит чаще всего». Ответ — только в логах.

Лог-анализ: что видит бот против того, что видите вы

Server logs — единственный источник правды о том, как поисковый бот реально обходит сайт. GSC даёт агрегированную картину. Sitemap.xml — ваши намерения. Логи — реальность.

В логах видно:

Реальный кейс: на ритейл-проекте с 2M SKU лог-анализ показал — 70% краулинга уходило на страницы пагинации. Коммерческие категории бот посещал раз в неделю. Исправление robots.txt удвоило частоту обхода важных страниц за полтора месяца.
log_analyzer.py — скрипт анализа логов
Python · Apache / nginx / JSON · выгрузка в Excel
Скачать
# 1. Установить зависимость (один раз):
pip install openpyxl

# 2. Положить log_analyzer.py в папку с лог-файлами (.log / .txt) и запустить:
python log_analyzer.py

# Что получите в log_analysis.xlsx:
#   Stats_*   — топ URL, IP, статус-коды, распределение по часам
#   UA_*      — все user agent с числом запросов
#   Bot_RL_*  — rate-limit: Googlebot, Yandexbot, другие боты

# Что смотреть в первую очередь:
# 1. Bot_RL_* → max_requests_per_minute Googlebot — норма 1–3, аномалия > 20
# 2. Stats_* → url_counts по паттерну /page/, /filter/, /?= —
#    если > 40% краулинга, crawl budget уходит в мусор
# 3. UA_*    → незнакомые боты с высокой частотой — кандидаты на блокировку

Анализ шаблонов: одна проблема = миллион страниц

Проблемы на enterprise-сайтах существуют в двух режимах:

Большинство времени на enterprise-аудите нужно тратить на системные проблемы. Что ищем в шаблонах:

Управленческий вывод: если команда большую часть времени фиксит конкретные URL вместо шаблонов — это сигнал неправильной приоритизации, а не нехватки ресурсов.

Сегментация: «денежные шаблоны» в приоритете

На большом сайте всегда будет много шаблонов. Не все они одинаково важны. Логика: сначала работаем с сегментами, которые приносят деньги или имеют наибольший потенциал. Трафик сам по себе не всегда коррелирует с доходом — важна маржинальность и конверсия.

Сегмент Приоритет и логика
Категории 1–2 уровня Максимальный: высокочастотные запросы, высокая маржа, прямой трафик
Карточки топ-продаж Высокий: транзакционный спрос, конверсия, маржинальные товары
Страницы брендов Средний: коммерческий, более узкий спрос
Страницы фильтров Только при ценном уникальном спросе, иначе — noindex
Пагинация Управлять краулингом, не давать попадать в индекс без нужды
Блог / контент После коммерции — информационный трафик в воронку

Index bloat: невидимая проблема

Index bloat — ситуация, когда в индексе находятся тысячи или миллионы страниц без реальной ценности.

Есть управленческий аспект: команда теряет фокус. Когда в GSC 5M страниц и половина из них — мусор, сложно понять, что реально нужно улучшать. Отчёты засорены, приоритеты размыты.

Типичные источники index bloat:

Управление процессами: почему enterprise SEO ломается изнутри

Index bloat — это не только техническая проблема. Технические страницы попадают в индекс не потому что «так настроено», а потому что нет процесса, который не дал бы им туда попасть. Это уже вопрос управления SEO-процессами.

На больших сайтах SEO ломается не только снаружи. Оно ломается в процессах разработки, деплоя и управления контентом.

01

Чек-лист перед каждым релизом

Список SEO-проверок перед любым деплоем, затрагивающим шаблоны или URL-структуру. Без него каждый релиз — потенциальная регрессия. Классика: разработчик обновляет шаблон категорий, canonical сбрасывается на дефолт — 300 000 страниц теперь указывают сами на себя.

02

Проверка на тестовом окружении

Обязательный этап перед выкаткой в прод: title, canonical, robots, структура ссылок по SEO-критичным шаблонам. На ряде крупных проектов SEO-регрессия в продакшне обнаруживалась через две недели — когда Google уже переиндексировал.

03

Карта ответственных по типам страниц

У каждого типа страниц — конкретный ответственный, который согласует изменения с SEO-стороны. Нет ответственного — нет контроля. Типичная история: «мы не знали, что это сломает индекс».

04

Шаблон SEO-требований для разработки

Стандартный документ: как описывать SEO-требования в задачах разработчикам. Убирает «я не знал, что это влияет на SEO» — потому что всё написано до начала работы.

05

Процесс вывода URL из оборота

Как правильно удалять страницы: редиректы, noindex, консолидация. Без процесса страницы накапливаются годами. Видел сайты с 40% индекса из устаревших URL после трёх миграций — ни одна не была закрыта по правилам.

Реальный кейс: крупный ритейл, 5M страниц в индексе. Из них 2,3M — технический мусор: страницы сессий, дубли с параметрами, устаревшие после миграции URL. Аудит это показал. Управление процессами отсутствовало — новые URL появлялись быстрее, чем команда успевала их закрывать. Первые 3 месяца работы ушли исключительно на процессы: чек-листы, шаблоны требований, карта ответственных. Только после этого технический аудит начал давать результат, который не откатывался через месяц.
Без выстроенных процессов даже сильный технический аудит теряет эффект за несколько месяцев — новые проблемы появляются быстрее, чем исправляются старые.

Порядок работ

01

Лог-анализ + карта crawl budget

Понять реальность до любых изменений. Без этого вы оптимизируете то, что вы видите, а не то, что видит бот.

02

Устранение index bloat в коммерческих сегментах

Прямой выигрыш в crawl budget — бот перераспределяет ресурс на полезные страницы.

03

Исправление системных шаблонных проблем

В «денежных» сегментах. Мультипликативный эффект: один фикс — тысячи страниц.

04

Управление процессами

Процессы, которые не дадут всему сломаться снова. Это не разовая задача — это изменение операционной модели.

05

JavaScript SEO

Если рендеринг создаёт проблемы с доступностью контента для бота — отдельный аудит.

Enterprise SEO без процессов почти всегда проигрывает даже при сильной техничке. Можно провести блестящий аудит, исправить 300 проблем — и через полгода получить новые 300, потому что управление процессами не выстроено.

Пошаговая инструкция: как начать enterprise-аудит

01

Запросить логи сервера за 30–90 дней

Запрос к DevOps/системному администратору: access.log с фильтрацией по user-agent Googlebot и Яндексбот. Минимум 30 дней, лучше 90 — нужна статистически значимая картина.

02

Составить карту сегментов

Выгрузить все URL из GSC Coverage и Screaming Frog, размечить по типу шаблона: категории, карточки, фильтры, пагинация, блог, технические страницы. Без этой карты лог-анализ превратится в хаос цифр.

03

Сопоставить логи с картой сегментов

Сколько процентов краулинга уходит на каждый сегмент? Сколько уходит на мусор (пагинация, фильтры, технические страницы)? Это и есть карта потерь crawl budget.

04

Найти шаблонные проблемы в «денежных» сегментах

Screaming Frog: выгрузка title, description, h1, canonical, noindex по каждому сегменту. Какой процент шаблонных? Есть ли аномалии? Одна шаблонная проблема = приоритет выше любой точечной.

05

Составить план по сегментам, а не по страницам

Приоритизировать работы по принципу: какой сегмент даёт максимальный возврат при минимальных правках шаблона? Каждый пункт плана — это шаблонное исправление, а не список конкретных URL.

Работаете с крупным сайтом?

Проведу аудит с сегментацией шаблонов и лог-анализом — реальные приоритеты, а не список из 300 замечаний. Понятный план для разработки и менеджмента.

Написать в Telegram