Векторный анализ сайта: что ИИ видит в вашем контенте и почему это важнее классического SEO-аудита

Допустим, вы продаёте корпоративное ПО. Ваш сайт стоит в топ-3 Google по ключевым запросам. Ссылочный профиль чистый, Core Web Vitals в норме, контент обновляется регулярно.

Потенциальный клиент открывает ChatGPT и спрашивает: «Какую CRM выбрать для отдела продаж на 20 человек?»

Вашего бренда в ответе нет.

Это не гипотетический сценарий. Это то, что происходит прямо сейчас с большинством компаний, которые инвестировали годы в классическое SEO — и не думали о том, как их сайт выглядит с точки зрения генеративных моделей.

Почему классический аудит не отвечает на этот вопрос

Традиционный технический SEO-аудит проверяет то, что важно для поисковых роботов: индексацию, скорость, структуру заголовков, canonical-теги, редиректы, микроразметку. Всё это по-прежнему актуально.

Но ChatGPT, Perplexity, Claude, Gemini и Grok работают иначе. За их ответами стоит процесс RAG — Retrieval-Augmented Generation. Модель не просто генерирует текст из обучающих данных. Она сначала извлекает фрагменты контента из индекса, оценивает их семантическую близость к запросу пользователя, и строит ответ на основе того, что нашла.

Оценка близости происходит через векторы и косинусное сходство. Ваш контент разбивается на чанки по 1200–2000 токенов. Каждый чанк превращается в числовой вектор — математическое представление смысла в многомерном пространстве. Запрос пользователя тоже становится вектором. Побеждает тот, чей вектор ближе.

Классический аудит это не измеряет. Вообще.

Мы решили это измерить — и сделали инструмент

Большинство GEO-инструментов на рынке — AIclicks, Profound, Rank Prompt и другие — делают одно и то же: прогоняют запросы через модель и считают упоминания бренда. Упомянули или нет. Позиция в ответе. Тональность. Это поведенческие данные — они говорят что произошло, но не почему.

Мы реализовали в Geometrika функцию Векторного анализа — первого в своём роде аудита, который спускается на уровень самого retrieval-процесса.

Что это означает на практике: мы берём реальные страницы сайта, разбиваем их на чанки так же, как это делают RAG-пайплайны, эмбеддируем каждый фрагмент и прогоняем тестовые запросы. На выходе — не «бренд упомянут в 7 из 10 случаев», а конкретные числа: какой именно чанк попал в топ по каждому запросу, с каким косинусным сходством, и как это соотносится с аналогичными чанками конкурентов на том же запросе.

Это меняет разговор с «нас плохо видно в ИИ» на «вот конкретный блок навигации, который выигрывает у вашего продуктового контента по score 0.63 против 0.54, вот почему, вот что менять».

Что реально мешает вашему сайту попадать в AI-ответы

Мы провели векторный анализ десятков сайтов крупных брендов. Одни и те же паттерны повторяются независимо от индустрии.

Навигация и футер поглощают до 30–70% токенов каждой страницы. Меню, подменю, правовые дисклеймеры, CTA-кнопки — всё это попадает в чанки вместе с контентом. У Marks & Spencer топовый чанк по запросу «лучшие женские кардиганы до £50» — это блок с кредитными картами, страховкой и программой лояльности. Не описание кардиганов. Навигационный блок с косинусным сходством 0.63 обыграл сам продукт.

JavaScript-блокировки делают страницы невидимыми. EasyJet обслуживает миллионы пассажиров в год. Девять из одиннадцати страниц их испанского сегмента возвращают краулерам одно и то же: «You need to enable JavaScript to run this app.» Топовый чанк по запросу «дешёвые рейсы Барселона — Лиссабон» — незаполненный шаблон: «К сожалению, мы не предлагаем прямые рейсы из [в] {Destination}.» Vueling отдаёт статический HTML. Разрыв в retrieval-качестве не нуждается в объяснениях.

Антибот-защита блокирует LLM-краулеры так же, как блокирует парсеров. Back Market — лидер рынка восстановленной техники во Франции: 17 миллионов клиентов, рейтинг 4.29/5 на основе 2.9 миллиона отзывов. 89% страниц с товарами и категориями возвращают 403. Конкуренты — Certideal, Refurbed, Swappie — индексируются полностью. По запросам про конкретные модели iPhone они выигрывают у бренда с многократно большей аудиторией.

Бренд в обучающих данных не равно бренд в retrieval. Volkswagen появляется в 27 из 30 небрендовых запросов в нашем эксперименте — один из лучших показателей среди всех проанализированных сайтов. Но страницы несут 60–70% boilerplate-шума, нет JSON-LD разметки, sitemap.xml возвращает 404. Они выигрывают за счёт веса бренда в обучающих данных. Как только этот эффект ослабнет — а он ослабнет по мере того как модели будут переобучаться на более свежих данных — retrieval-инфраструктуры у них нет.

Что включает векторный аудит сайта

Векторный анализ — это не замена классическому SEO-аудиту. Это отдельный слой проверки, специфичный для генеративного поиска.

Retrieval-эксперимент. Формируется набор небрендовых коммерческих запросов по тематике бизнеса — до 30 штук, разбитых по интент-кластерам. Каждый запрос прогоняется через выбранную модель: ChatGPT, Perplexity, Claude, Gemini или Grok. Для каждого ответа фиксируется: упоминается ли бренд, в какой позиции, с какой тональностью, какие конкуренты появляются рядом.

Chunk-level анализ с косинусными score. Страницы сайта разбиваются на чанки так же, как это делают RAG-пайплайны. Каждый чанк эмбеддируется. По каждому тестовому запросу показываются топ-3 чанка с их косинусными оценками — и аналогичные данные по конкурентам на тех же запросах. Это позволяет видеть не «ваш бренд упомянут 7 из 10 раз», а «ваш лучший чанк на этот запрос scored 0.43, конкурент — 0.71, вот почему».

DOM noise quantification. Измеряется, какой процент токенов на каждой странице приходится на навигацию, футеры, баннеры и прочий семантически бесполезный контент. Показывается, какие блоки конкретно попадают в топ-чанки по коммерческим запросам вместо продуктового контента.

Технический surface audit. Sitemap-структура, robots.txt, crawlability страниц для LLM-краулеров, hreflang-покрытие, наличие и корректность структурированных данных, динамические параметры URL — всё что влияет на то, попадает ли контент в индекс вообще.

SERM proximity. Когда бренд появляется в AI-ответах, что стоит рядом? Анализируется co-occurrence бренда с негативными концептами, жалобами, названиями конкурентов в retrieval-ответах.

Автоматическое обнаружение алиасов. Исторические названия, транслитерации, продуктовые суббренды — если модель знает бренд под несколькими именами, учёт только одного из них фальсифицирует данные. Алиасы обнаруживаются автоматически из ответов в процессе retrieval-эксперимента.

Итоговый документ — это аудит с конкретными числами и action plan: что именно менять, в каком приоритете, какой ожидаемый эффект.

Кому это нужно прямо сейчас

Компаниям с высокой конкуренцией в информационных запросах. Fintech, e-commerce, SaaS, авиаперевозки, недвижимость — категории, где пользователи активно используют AI-ассистентов для исследования рынка перед покупкой.

Брендам с сильной позицией в Google, но слабой в AI-ответах. Это не редкость — поисковая оптимизация и retrieval-оптимизация решают разные задачи разными методами. Хороший технический SEO не гарантирует retrieval-fitness.

Агентствам и SEO-командам, которым нужна методология для нового типа аудита — с числами, которые можно положить в отчёт клиенту и защитить на встрече.

Примеры отчётов можно найти на странице векторного аудита. На русском доступны аудиты для Т-банка, Лукойла и Aviasales. Если переключать языки, можно посмотреть и другие примеры по другим странам.

Для тех кому лень искать на нашей странице (но не лень искать дешевые авиабилеты), вот линк на готовый аудит для Aviasales -> https://geometrika.dev/examples/vector-analysis/ru/deep-aviasales.pdf

Как сделать аудит

Если в компании есть SEO или GEO-команда, которая возьмёт аудит в работу самостоятельно — Geometrika позволяет запустить векторный анализ по любому сайту, получить PDF-отчёт с chunk scores, retrieval-экспериментом и action plan, и передать его в разработку.