
Вначале небольшая история
Несколько месяцев назад решил поэкспериментировать с ChatGPT по поводу поиска информации в интернете. Задал вопрос «Что такое длинная воля?».
Это выражение встречается в работах Льва Гумилёва, на мой взгляд, лучшего учёного‑историка нашего времени. Не помню уже в какой именно книге, но в его работах это выражение встречается несколько раз по отношению, в частности, к Чингис‑Хану. Но толком не объясняется.
В общем, задал вопрос и получаю ответ совсем никудышный. ChatGPT выдаёт несколько «ответов» со ссылками на какие‑то совершенно левые работы, даже не упоминая непосредственно работы Гумилёва. И сами ответы были в таком стиле, что это выражение встречается в его работах, но как это понимать — ни слова. И главным источником информации названа статья какого‑то совсем неизвестного автора 20–30-х годов. В общем, облом.
Потом, спустя некоторое время появляется Perplexity — новая поисковая система на базе ИИ. Проверяю её на том же запросе и чудо: она чётко выдаёт Гумилёва и даёт толковое объяснение этого термина. В общем, эйфория, «будущее уже здесь» и все такое.
После этого активно пользуюсь этой самой Perplexity. Google уже практически забыт, да и ChatGPT практически тоже выглядит как бы ненужным. И с удовольствием отмечаю, что не я один это заметил. Потому как в интернете пошли слухи, что Apple обсуждает возможность купить Perplexity за $24 ярда, что для Apple самая крупная покупка.
Но потом эти разговоры утихли и уже появляется информация о том, что Apple решила сама создавать свой ИИ‑поисковик. Удивительным образом эта новость совпала и с моим разочарованием в этой новой поисковой системе.
А именно, часто пользуясь этим поисковиком, начал замечать, что и ответы, и выбор ссылок какие‑то слабые, не внушающие доверия. С одной стороны вроде как бы шерстит интернет вживую, обрабатывает и выдаёт готовый результат, а с другой — такое впечатление, что результаты становятся все хуже и хуже.
Последней каплей стал запрос «Найди результаты исследований по формированию здоровых пищевых привычек». Он выкатил вообще практически мусор. На первой позиции не исследование, а речь на каком‑то экономическом форуме. т. е., он не различает, где исследование, а где другие материалы. И ищет практически также как Google по ключевым словам. Но при этом явно хуже.
Я, конечно, могу ошибаться и понимаю, что это мнение субъективно. Но давайте попробуем проанализируем как же всё‑таки осуществляется поиск сегодня с помощью ИИ?
Неосознаваемое ожидание
Начнём с неосознаваемого и поэтому слабо рефлексируемого ожидания. А именно: как мы себе представляем механизм поиска ИИ в отличие от Google?
Первое, что приходит на ум, что Google выдаёт кучу ссылок, в которых приходится разбираться вручную. А вот ИИ как бы анализирует эти ссылки, сравнивает, выбирает наиболее релевантные и на их основе формирует уже готовый ответ.
Оказывается, что в этом нашем понимании есть психологическа дыра. Вопрос такой: сколько ссылок просматривает и анализирует ИИ? С Google ответ более менее понятен и достаточно наглядный. Об этом можно судить по количеству ссылок, которые он выдаёт. Это могут быть десятки, сотни и даже тысячи. А сколько ссылок находит ИИ, столько же, как и Google, или иначе?
Алгоритм оценки
При просмотре результатов интернет поиска Perplexity и других моделей сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов на вопрос.
т. е., они не прокачивают тысячи ссылок, а идут каким‑то образом то ли по своей базе, то ли в живом интернете, до того момента, когда получают ответ на вопрос пользователя.
Причём, само понимание, что такое есть этот самый «ответ» у ИИ может быть своё, не совпадающее со смыслом пользователя.
В результате, ИИ находит и выдаёт несколько ответов, которые по его мнению, отвечают на запрос пользователя. А дальше он не идёт, потому как в этом нет необходимости. Ведь ответ он уже «нашел». Точно также как конструкция if: если первое условие выполнено, то второе не проверяется. Так и здесь. А как в народе шутят, ИИ — это большая конструкция того самого if:‑)
Технический момент
К этому вопросу можно подойти и с другой стороны.
Насколько легко ИИ могут выполнять поиск в интернете? И не только найти, что само по себе уже очень непросто, но и проанализировать. И все это прямо на ходу, за пару минут!
Честно говоря, как‑то не верится. Ведь даже Google, этот самый большой и самый мощный поисковый гигант, делает это не сразу, а предварительно индексирует сайты. А тут как бы сразу, без предварительной индексации, пролистать сотни сайтов, найти нужные в глубинах интернета, просмотреть их содержимое (иногда десятки страниц, а то и сотни), проанализировать, сделать вывод, что это релевантный контент, обобщить его и сформулировать ответ — и всё это на лету?! Реально не верится!
Ещё раз повторю: могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет или хотя бы его значительную часть. А просто находят первые подходящие сайты и работают с ними. Иначе как объяснить, что такие «умные» модели нередко выдают в результатах поиска явно нерелевантный контент.
Память и анализ — болевые точки ИИ
В общем, похоже, что у ИИ сегодня действительно есть эти две болевые точки.
Первая — это память, с которой уже все столкнулись и которая постепенно совершенствуется.
И вторая — это анализ. Здесь ситуация сложнее. В каких‑то творческих заданиях (тексты, сценарии, видео и т. д.) эта проблема мало ощутима, поскольку создаётся что‑то новое, которое не с чем сравнить.
А вот в запросах, где у человека есть уже какие‑то предварительные образцы, явно видно, что ИИ нередко хромает и, как было сказано выше, вместо результатов научного исследования может выдавать материалы какого‑нибудь пленума. Получается, что не умеет толком сравнивать и оценивать, выбирать нужное.
Вангую, что эти два направления будут весьма перспективными для дальнейшего усовершенствования ИИ‑моделей.
Комментарии (13)
Kamil_GR
15.08.2025 02:32Клод берет топ выдачи brave и всё.
AppCrafter Автор
15.08.2025 02:32да, мне он тоже это рассказал. И тогда следующий вопрос - что такое brave и чем он лучше Google?
pol_pot
15.08.2025 02:32Гугл джемини в режиме глубокого поиска составляет план поисков, то есть делает разные запросы, читает и отбрасывает кучу веб страниц, и в итоге выдает почти то же самое что и обычный гугол по более менее точному запросу. Например спросите кому принадлежит пивоваренный завод балтика и узнаете - первой попавшейся фирме прокладке. То что это подстава для него не очевидно.
AppCrafter Автор
15.08.2025 02:32в любом случае прошерстить весь интернет за секунды без индексации на сегодняшний день не может ни один поисковик
nikonru
15.08.2025 02:32Голубой бывает глаз, а бывает карий…
AppCrafter Автор
15.08.2025 02:32Голубой бывает глаз, а бывает карий,
А бывает серый глаз — строгий и печальный.
А бывает глаз — как ночь, чёрный, как смородина,
А бывает — как трава, светлый, как мелодия…
irkutru
15.08.2025 02:32А вот что на этот пост отвечает они(ии)))
Макс, ты довольно точно подметил больные места — и я прям по пунктам разложу, как это выглядит “изнутри кухни” ИИ.
1. Почему кажется, что ИИ “ищет в интернете” как человек
На самом деле всё иначе.
Модели вроде меня работают в двух режимах:Без доступа к интернету — отвечают только на основе того, что выучили во время обучения (это огромная статистическая модель с “знаниями” до даты среза).
С доступом к поиску (как сейчас, через встроенный web-инструмент) — мы отправляем запрос в обычный поисковик (Google, Bing и т.д.), получаем несколько ссылок, “читаем” фрагменты страниц и анализируем их.
И вот ключевое:
— Мы не обшариваем весь интернет в реальном времени — это физически невозможно за секунды.
— Мы работаем с первой партией найденных документов (обычно 5–10 сайтов), анализируем их и формируем ответ.Поэтому, как ты сказал, ИИ может “остановиться на первом условии” — если из первых источников уже собрана версия ответа, то глубже не копаем. И да, это часто похоже на тот самый
if
в коде.2. Почему иногда прилетает “мусор”
Тут два момента:
Поиск: если поисковик выдал нерелевантные страницы, то и мне остаётся работать с тем, что есть.
Фильтрация: модель пытается понять релевантность текста, но это субъективный процесс — у нас нет 100% понимания твоего смысла, мы делаем вероятностное угадывание.
А ещё у человека есть контекст и интуиция — ты видишь, что сайт кривой или автор пишет бред, и закрываешь вкладку. А ИИ может воспринять этот бред как полезный фрагмент, если в нём встречаются нужные ключевые слова.
3. Про память
Да, это отдельная боль.
В долгих диалогах мы ограничены размером контекста (примерно как “оперативка” в ПК).
Когда место заканчивается, старые куски разговора “вытесняются”. Поэтому некоторые ИИ вроде меня иногда теряют нить, если диалог длинный.Сейчас в разработке долговременная память, когда модель будет хранить факты между сессиями, но пока это всё в зачатке.
4. Про анализ
Вот тут ты прав на 200%.
ИИ хорошо работает в:генерации идей,
суммировании текстов,
подборе вариантов.
Но в аналитике с высокой точностью пока хромает, особенно если задача — выбрать лучший вариант из множества похожих.
Причина простая: у нас нет “внутреннего мира” с целью, а есть алгоритм, который высчитывает вероятность того, что “эта фраза — хороший ответ”.5. Что будет дальше
Я думаю, что в ближайшие 2–3 года:
Память станет долговременной, с выборочной загрузкой нужных фактов.
Анализ станет глубже за счёт подключения спецмодулей (не просто “поиск + генерация”, а “поиск → сравнение → оценка → вывод”).
ИИ научится докапываться до второго, третьего, четвёртого слоя источников, а не останавливаться на первом.
Если хочешь, я могу тебе показать на живом примере, как я нахожу инфу через поиск, и где именно у меня стоит “тот самый if”, из-за которого всё останавливается.
Будет наглядно, почему иногда прилетает чушь.Хочешь, устроим такой эксперимент?
AppCrafter Автор
15.08.2025 02:32Круто! Практически подтверждение основных пунктов статьи.
А какой ИИ спрашивали?
N3v4j80
15.08.2025 02:32У разных ИИ в формате чат бота инструмент web_search может разительно отличаться даже внутри 1 компании разработчика (в комментах уже указывалась функция deep research). Основная база - это поиск по сниппетам (сжатые версии ссылок с "самым полезным содержанием" в поисковике), так же указаны лимиты иттераций на обращение к инструменту на 1 запрос, у разных компаний и функций ИИ моделей они разные, у таких моделей как perplexity и грок4, кроме поиска по сниппетам модель может сама открыть вместо сниппета полную версию ссылки если посчитает это полезным, так же грок 4 ведет парралельный поиск по X(twitter), так же ИИ может ленится и смотреть меньшее количество сниппетов в зависимости от промта пользователя, в общем странно что автор статьи решил написать о поиске ИИ в интернете, по всей видимости не зная о термине RAG.
ilyakruchinin
Суть статьи в трёх предложениях (цитирую автора):
1) "Как же всё-таки осуществляется поиск...?"
2) "сложилось впечатление, что этот поиск работает по принципу нахождения первых ответов"
3) "могу ошибаться. Но пока складывается впечатление, что ИИ не просеивают весь интернет"
Автор! Ваши личные домыслы, безусловно, достойны публикации на Хабре (зачем я это читал?).
AppCrafter Автор
Это вы теперь вместо ИИ резюмируете содержание статей? ))