Мы создали и развиваем первый в России инструмент по GEO - Тунец, который сосредоточен не на том, чтобы просто анализировать ваше присутствие в ответах нейросетей, а выдавать четкие и конкретные рекомендации по созданию контента и местам его размещения.
В ходе изучения и внедрения нейросетей в работу Тунца мы подмечаем разные странности и делимся этой информацией с вами.
Ограничения ИИ при работе с веб-ресурсами: что нужно знать владельцам бизнеса
Если вы используете ИИ-сервисы для анализа веб-контента, важно понимать их реальные возможности. Наши тесты показали критический момент: из 15 отправленных источников модели успешно обрабатывают только 6–10, несмотря на наличие единственного URL в каждом запросе.
Почему это происходит
ИИ-модели не всегда имеют доступ к открытым интернет-ресурсам. При попытке обработки страницы система часто сталкивается с недоступностью: сервер не возвращает HTTP статус 200, блокирует запросы или ограничивает доступ. В результате модель не может извлечь реальный контент, заголовки, структуру и метаданные.
Типичные ошибки, которые вы увидите:
Не удалось открыть страницу
HTTP статус не равен 200
Контент недоступен
Что это значит для вашего анализа
Когда модель не может загрузить источник, она не может выполнить качественный SEO-анализ, проверить релевантность контента или оценить его структуру. Это не означает, что сайт плохой — просто инструмент не имеет к нему доступа.
Таким образом: если не требовать подтверждения "положительного" статуса у нейросети, то модель будет просто генерировать ложный ответ, так как она в целом не может не дать ответа.

Существующие способы защита веб-сайтов от автоматизированного доступа
Robots.txt и User-Agent блокировки — это первая линия защиты, которую используют сайты для управления доступом AI-краулеров. Специальные User-Agent строки помогают сайтам идентифицировать различные боты: GPTBot (OpenAI), ClaudeBot (Anthropic), CCBot (Cohere) и другие. Владельцы сайтов могут явно запретить этим ботам доступ, добавив в robots.txt строки типа User-agent: GPTBot и Disallow: /. Однако важно отметить, что некоторые боты, как Bytespider, игнорируют robots.txt полностью и требуют серверных методов блокировки.
Cloudflare и CDN-блокировки представляют собой системную проблему масштабов. С 1 июля 2025 года Cloudflare изменил поведение по умолчанию для всех новых доменов, размещённых на его платформе. Сервис управляет трафиком 20% всемирной сети, и теперь каждый новый домен по умолчанию блокирует AI-краулеры. Это означает, что значительная часть интернета теперь требует явного разрешения от владельца сайта на доступ AI-моделям.
Rate Limiting и HTTP статус-коды ошибок
Когда AI-модель направляет множество запросов слишком быстро, серверы отвечают кодом 429 (Too Many Requests), что свидетельствует о превышении лимита запросов. Это не редкость для краулеров: системы защиты специально разработаны, чтобы ограничить интенсивность доступа, используя token bucket алгоритмы или per-IP лимиты. Код 403 (Forbidden) указывает на то, что доступ к ресурсу запрещён, а код 503 (Service Unavailable) сигнализирует о временной недоступности сервера.
JavaScript и динамический контент создают отдельный класс проблем. Если сайты размещают основной контент за JavaScript-кодом, который выполняется в браузере. Простые HTTP-запросы, которые использует большинство AI-краулеров, получают только пустой HTML без содержимого. Для обработки JavaScript требуются полнофункциональные браузер-движки, которые требуют значительных вычислительных ресурсов и замедляют процесс извлечения данных.
Комментарии (10)

helia1221
09.12.2025 14:05Статья получилась крайне поверхностной, не находите?
Зарегистрировался специально, чтобы поставить вам лайк на вашей ранее опубликованной статье, сейчас же вижу абсолютную противоположность. Если вас похитили или подменили - дайте знать, я позвоню в полицию, уж очень мне ваша прошлая статья понравилась, не хочу соглашаться на меньшее)

Ja-gagarin Автор
09.12.2025 14:05Спасибо)
Да, это скорее заметка на полях в процессе создания инструмента.
Для меня было новостью что такой большой процент отказов приходит.
А еще ходите страшное? Пока на уровне первичных тестов. Есть риск что сайты на тильде почти невидимы для нейростей)))
Вот уж будет бомба-статья про "GEO не работает на тильде" ))
helia1221
09.12.2025 14:05Ценю ваш юмор, когда вы используете слова "тильда" и "нейросети" в одном предложении :D В этой жизни подойдёт любое подставленное слово во фразу "... не работает на Тильде"

helia1221
09.12.2025 14:05Особенно точно смотрятся:
SEO
здравый смысл
Ни один уважающий себя разработчик
Забирайте себе в качестве шпаргалки :D

Ja-gagarin Автор
09.12.2025 14:05ну не так категорично конечно же. На тильде вполне можно добиваться каких-то результатов

helia1221
09.12.2025 14:05Чисто технически, океан тоже можно вплавь пересечь. По расчетам не устроит либо время, либо скорость
Не говорю, что тильда такая уж плохая. Но там, где будет борьба за позиции, тильда проиграла ее уже со старта
Tolnik
Вот и хорошо, что так происходит. Не фиг мусорный трафик генерить.
Ja-gagarin Автор
откуда мусорный трафик?
Lastman
Из комментариев на хабре)