ИИ для «чайников» / forpes.ru

Главная
ИИ для «чайников»

ИИ для «чайников» +8

23.07.2025 08:59

fvv 16 1800 Источник

Периодически приходится делиться представлением об ИИ с далекими от него людьми, при этом приходится каждый раз изобретать простое объяснение принципа его работы. Кажется что такое объяснение полезно: часто даже на серьезных презентациях слышатся восторженные заявления о "магии ИИ", использование которого автоматически ведет к успеху, поскольку "людям нравится ИИ". Хочется кратко и доступно, "на пальцах" изложить, что такое ИИ, как он функционирует и какие задачи способен решать.

Что такое ИИ

ИИ (искусственный интеллект) это собирательное название для множества подходов, методов и алгоритмов. Сейчас, на хайпе, под ИИ, как правило, подразумеваются нейронные сети.

Нейронные сети сами по себе не новость, изучаются и развиваются достаточно давно.
Современная революция в нейросетях получилась из того что:

Накопилось очень много оцифрованных данных,
Вычислительные мощности позволили тренировать на этих данных очень большую нейросеть.
И она научилась на человекочитаемые запросы генерировать человекочитаемые ответы

Вот это и называется LLM.

Что такое LLM

Это нейросеть, то есть сеть из нейронов. У каждого нейрона несколько входов от других нейронов, и один выход. По входам нейрона приходят какие-то числа, нейрон вычисляет от них функцию, выдает на выход результат: f(x1, x2, x3, ...) -> y. Берет входные данные с какими-то весами, выдает выходное число.

Берем запрос пользователя, переводим его в числа, числа пихаем входным нейронам нейросети, они вычисляют результаты, отправляют их следующим нейронам, те снова вычисляют и отправляют следующим, и так далее. В итоге на выходе нейросети получаем какие-то числа, переводим их в текст.

На похожие запросы нейросеть выдает похожие ответы, и даже лучше: на похожие кусочки запросов выдает похожие кусочки ответов. Так как ее обучили на очень большой выборке, а вы не Стивен Хокинг и не Альберт Эйнштейн, кусочки вашего запроса есть в кусочках данных, на которых нейросеть училась. И она собирает ответ на ваш запрос из этих кусочков: делит ваш запрос на кусочки, ищет по кусочкам ответы (учитывая соседние входные кусочки), склеивает ответы в связный текст.

Обучение LLM

Обучение LLM, если примитивно, выглядит так: набросали как бог на душу положит миллиарды нейронов и связи между ними, даем сети на вход запрос, смотрим на ответ. Чем меньше нам нравится ответ, тем ниже делаем вес сработавшим нейронам. Чем лучше ответ, тем выше делаем вес.

Повторяем триллионы раз на большой куче данных.

Получилась какая-то сеть: перечень нейронов, связей между ними и функций с весами.
Теперь просто задаем вопрос и вычисляем ответ нейросети, никак не меняя веса - вот с этим и работаем.

Дообучение LLM

Взяв готовую нейросеть, мы в любой момент можем продолжить ее обучать, то есть менять веса входов нейронов. Большая нейросеть при генерации ответа использует много нейронов, поэтому обычно для дообучения "в лоб" для получения значимого эффекта требуется очень много данных, больше сотни тысяч примеров.

Ученые и инженеры изобрели много всяких подходов как менять веса нейронам и откуда брать данные для дообучения.

Один пример: если ответы нейросети понравились пользователю, тогда поощрим сработавшие нейроны.

Другой пример: если ответы нейросети понравились другой нейросети, тогда поощрим сработавшие нейроны.
И так далее.

Вычисления и GPU

Нейронов может быть много, но бывают и такие сети, которые можно развернуть на своем компьютере. Нейросеть требует гораздо меньше места для хранения, чем данные, на которых она обучена.

Чтобы посчитать ответ нейросети нужно посчитать много функций в большом количестве нейронов. GPU позволяет вести такие расчеты параллельно, т.к. функции в нейронах простые, и связи между нейронами несложные.

Инструменты и функции, tools

К нейронам нейросети можно подключить не только генерацию текста, но и вызов какой-нибудь функции. Например, интернет-поиск, открывание и закрывание штор и т.д.

Следствия

Необъяснимая работа
Изначально мы набросали более-менее случайно миллиарды нейронов, обучили их на триллионах данных в случайном порядке. Задаем нейросети вопрос, получаем ответ. Но объяснить "почему" ответ именно такой не можем: за ответом нет простой человеческой логики, он такой потому что нейросеть видела похожие комбинации кусочков запроса.
Галлюцинации
Так как нейросеть не думает, а составляет ответ из кусочков виденных ранее данных, она умеет галлюцинировать, то есть ошибочно на взгляд пользователя отвечать на запрос.
Например, недавно ИИ-подсказка в поиске Google на голубом глазу на запрос "django functions framework" рекомендовала пойти на github и практически показывала куски документации этого несуществующего проекта.

Или, например, ChatGPT может выдумать номера дел при обзоре юридической практики.
С другой стороны, люди галлюцинируют сходным с ИИ образом.
Качество ответа
Для обучения большой нейросети нужно много данных: примеров запрос-ответ. От качества этих данных сильно зависит качество работы нейросети. Чем больше берем данных, тем хуже их качество.

С другой стороны, эксперт в какой-то области это человек, выдающий результат заметно качественней среднего. Экспертов мало, результатов их труда мало, учить на их результатах сложно.

Так что качество ответа нейросети обычно ниже качества ответа эксперта. Но часто нам сойдет ответ и среднего качества.

Правдивая ложь У нейросети нет понятия правды и лжи. За что поощряли при обучении, то и "хорошо". Например, обученная в американском интернете нейросеть будет рассказывать что во Второй Мировой Войне победили американцы, а обученная в рунете нейросеть - что победил СССР. Может дойти до того что если спросить на английском - ответит что выиграли США, если на русском - что СССР.

Трюки

Принципиальная схема работы понятна, теперь хочется максимизировать пользу, бороться с минусами нейросети, пытаться прикрутить разнообразные костыли. Получаются всякие трюки:

Температура
"А давайте будем слегка случайным образом шуметь в процессе генерации ответа, чтоб задействовались посторонние нейроны".
В запросе выставляем температуру от 0 до 1, чем выше температура тем более "творческим" получится ответ. Чем ниже температура, тем больше ответ будет опираться на "факты", то есть меньше будет случайностей при генерации.
CoT (Chain-of-thoughts) prompting
"А давайте будем спрашивать у нейросети пошаговое решение нашей задачи".
Оказывается что на мелких шагах у нейросети меньше простора для ошибок. Использовать будем только конечный результат, а промежуточные шаги просто проверяем.
Few-shot prompting
"А давайте пихать в вопрос нейросети примеры вопросов и ответов, чтоб ей было понятней чего от нее ждем".
RAG
"А давайте пихать в вопрос к нейросети кусочки информации, чтоб она эту информацию использовала при генерации ответа".
Например, для этого надо нашу внутреннюю информацию (архив документов) собрать, перевести в текст, поделить на кусочки, проиндексировать и чем-то выбирать какие кусочки этой информации будем вставлять в запрос.
LORA
"А давайте прицепим к нашей основной нейросети небольшую нейросеть-паразита. Ее обучим чему нам надо, она будет усиливать или ослаблять сигналы основной нейросети".
А учить небольшую нейросеть сильно проще чем большую.
Обрезка (pruning) LLM
"А давайте из готовой нейросети выкинем лишнее?".
Например, выкинем очень слабые связи между нейронами и слабо работающие нейроны. Тогда нейросеть уменьшится, но для каких-то случаев ухудшатся ответы. Зато такая нейросеть меньше по объему и проще считается.
Дистилляция (distillation) LLM
"А давайте научим простую нейросеть вести себя как сложная".
Зачем содержать умного специалиста с большим багажом знаний, он стоит дорого, умничает, а нужны нам от него простые действия. Возьмем джуна, пусть научится просто повторять за мастером и не отсвечивать.
LIMO
"А давайте доучим обученную нейросеть, но не всему подряд, а качественно выбранным примерам с рассуждениями".
Оказывается, если обучать логическим задачкам целенеправленно, сильно хвалить и не обучать мусору, нейросеть будет лучше имитировать логические рассуждения. Внезапно.
Reasoning
"А давайте работу в стиле CoT вкорячим прям в логику работы самой нейросети".
Нейросеть пусть сама автоматически пытается все задачи решать пошагово.

Словарик

Промпт (prompt)
запрос к нейросети чтоб получить нужный пользователю ответ.
Молитва, в том смысле что четких правил нет, есть подходы. И надо стараться уговаривать конкретную нейросеть конкретным образом, надеяться возбудить нужные нейроны и чтоб она выдала приемлемый результат. Получаем "Кто верит в Магомета, кто в Аллаха, кто в Исуса..." - кому-то лучше отвечает Deepseek, кому-то ChatGPT, кому-то Claude.
Prompt-инжиниринг
навык составления молитв в сторону нейросети.
Составление хорошей молитвы требует серьезной работы и ~~духовной~~ практики, вплоть до появления отдельной профессии промпт-инженера ("LLM-попа").
AI-ассистент
нейросеть, использующая данные пользователя.
AI-агент
нейросеть с подключенной возможностью вызова функций, возможно памятью, целью и каким-нибудь небольшим бизнес-процессом.
MCP
протокол для запуска нейросетью функций на MCP-сервере пользователя во время выполнения запроса пользователя.

Пример: MCP-сервер умеет нажимать большую красную кнопку, подключили этот сервер к нейросети, нейросеть в процессе генерации ответа на кодовое слово задевает нужные нейроны, отправляет MCP-серверу команду нажать кнопку, сервер нажимает кнопку. Занавес.

Можно разрабатывать свои MCP-серверы, описывать доступные нейросети кнопки и подключать их к нейросети при запросе.
Ollama
программа, которая позволяет скачать и запустить готовую нейросеть
HuggingFace
библиотека готовых нейросетей
LangChain
python-библитека чтоб писать запускаемые нейросетью функции
n8n
платформа автоматизации бизнес-процессов с набором интеграций с источниками данных и хорошей интеграцией с ИИ

Какие задачи решает LLM

Исходя из архитектуры и подходов понятно, что LLM решает задачи нечеткого сопоставления кусочков информации:

Перевод текста с одного языка на другой и обратно: с русского на английский, с программистского на журналистский, с недружелюбного на дружелюбный, с длинного на короткий (суммаризация), с кошачьего на человеческий, из звуков в буквы, текста в картинку.
Перевод текста в структурированные данные и обратно, как следствие: классификация, вызов функций, генерация текста и т.д.

Выводы

ИИ работает с информацией лучше большинства людей. Если результат LLM понимать не как "генерацию текста", а как "генерацию мыслей", то мыслями он обгоняет большинство уже сейчас.
ИИ ускоряет распространение знаний. Средний уровень знаний по всем вопросам становится еще доступней каждому.
ИИ меняет подход к работе с информацией. Быстрая генерация и сокращение текстов помогают быстро переходить от сути к деталям и обратно.
ИИ не приводит к успеху сам, его надо еще суметь озадачить и воспользоваться результатами его работы. Допустим, без ИИ можем решить задачу за неделю, с ИИ за минуту. Но не у всех задач ключевая проблема во времени исполнения.

Пример: производительность труда в России на порядок ниже чем на Западе. Резерв по улучшению производительности труда на порядок в стране есть, как ее улучшить понятно и без ИИ. Появится ИИ и будет говорить о производительности труда то же самое что и сейчас говорят умные люди, только на несколько порядков быстрее. Ситуация от этого не улучшится.

Выводы для человека

ИИ не "думает" (хотя есть попытки прикрутить к нему рассуждения).
ИИ может перекладывать информацию из одного вида в другой. Если ваша работа в этом - ИИ может взять ее на себя.
ИИ может улучшить вашу работу с информацией до среднего качества там, где вы не специалист.
ИИ может дать вам заготовку среднего качества для доработки там, где вы специалист.
ИИ не заменит человека, но человек с ИИ заменит несколько человек без ИИ.

Выводы для бизнеса

ИИ может оцифровать недоступные ранее для оцифровки данные.
ИИ позволяет автоматизировать не автоматизированные ранее процессы.
ИИ это дешевый помощник для каждого сотрудника.

При этом ИТ-инфраструктура компаний сейчас не приспособлена к этому новому изменению.
Можно ждать когда ИИ встроится во все продукты, станет общепринятым и будет у всех. Тогда и купить.
Но тогда окажешься в позиции догоняющего: купить и внедрить придется просто чтобы выжить на рынке.
Если сейчас правильно выбрать направление автоматизации можно сильно выиграть в бизнесе, получить серьезное преимущество.

Итого

Вот так видится объяснение "на пальцах", без деталей, логики работы ИИ. Мне самому оно бы сильно помогло начального понимания принципов работы. Ничего не напутал? Буду рад обсуждению )

Комментарии (16)

NeriaLab
23.07.2025 09:18
#28610304
Смешано все в одну кучу: люди, кони... Начали за здравие, закончили за упокой

Автор, а почему ни слова про тесты Тьюринга? Когда можно ПО называть ИИ? Каковы морально-этические стороны ИИ? Вы даже базу не дали, а кликбейтное название дали - ИИ для «чайников»
1. wtigga
  23.07.2025 09:18
  #28610388
  ни слова про тесты Тьюринга
  
  А он ещё актуален? Кажется, что GPT пройдёт его без особого труда.
  1. NeriaLab
    23.07.2025 09:18
    #28610462
    
    Актуален как никогда. Давайте посмотрим на злоупотреблением термина ИИ всеми, кому не лень, даже здесь на Хабре, я уже молчу про то, что в мире творится;
    
    То есть, каждые полгода, проходят тесты независимыми исследователями и каждые полгода, уже на протяжении нескольких лет, ни один ChatGPT не прошел за планку 52% (на уровне статистической погрешности) И каждый раз, OpenAI у одних крупных независимых исследователей, у них в блоге, официально "извиняется", что-то вроде такого: "Извините, в другой раз попробуем пройти". И это только чтобы пройти простой тест, я уже молчу про прохождение строгого теста
    
    Моё личное мнение, почему ни одна LLM никогда не пройдет даже простой тест Тьюринга - "мозгов" не хватит, а именно памяти. Уже через 12 минут (личная статистика) "общения" с большинством LLM у них "крышу сносит" и они "забывают" о том, о чем был разговор "пару минут назад"
    
    AdrianoVisoccini
    23.07.2025 09:18
    #28610516
    ни один ChatGPT не прошел за планку 52% (на уровне статистической погрешности)
    
    во первых, 54%
    
    https://www.livescience.com/technology/artificial-intelligence/gpt-4-has-passed-the-turing-test-researchers-claim
    
    во вторых... а вы точно понимаете суть теста? как раз таки результат "На уровне статистической погрешности" является ПРОХОЖДЕНИЕМ ТЕСТА.
    
    Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».
    
    Таким образом, если результат теста статистически равен слепому угадыванию, тем самым 50%, это БУКВАЛЬНО ОЗНАЧАЕТ ЧТО ЧЕЛОВЕК НЕ СПОСОБЕН ДОСТОВЕРНО ОПРЕДЕЛИТЬ ГОВОРИТ ЛИ ОН С ГПТ ИЛИ С ЧЕЛОВЕКОМ, т.е буквально, успешное прохождение теста для ИИ.
    
    А какого результата вы ожидаете? 100%? Это уже не интеллект равный человеческому будет, а интеллект, который способен буквально манипулировать сознанием проверяющего, не так ли?
    
    NeriaLab
    23.07.2025 09:18
    #28610578
    во первых, 54%
    
    Статья улыбнула, действительно. Вот только статья - "пустышка". Почему? Там "красиво" все написано, но давайте серьёзно: Где список экспертов? Где можно ознакомиться с материалами? Где видеосъемка? и т.д. ... Там ничего из этого нет. То есть, "дядя Вася" "сказал" 54% и я этому "дяде Васе" должен поверить? Ни за какие коврижки. Есть классические стандарты прохождения тестов, вот я им верю, а не "дяде Васе"
    
    А какого результата вы ожидаете? 100%?
    
    Минимум 60% в строгом тесте, а не в простом
    
    AdrianoVisoccini
    23.07.2025 09:18
    #28610640
    ну вот peer rewiew на 49.7% который был чуть раньше, не велика разница
    https://www.researchgate.net/publication/375117569_Does_GPT-4_Pass_the_Turing_Test
    
    Минимум 60% в строгом тесте, а не в простом
    
    а можно пояснение, почему вдруг 60%? Откуда цирфа взялась? Вот например, что говорят в исследовании:
    
    Does GPT-4 pass the Turing test?
    
    I believe that in about ﬁfty years’ time it
    
    will be possible to programme computers,
    
    with a storage capacity of about
    
    109
    
    , to
    
    make them play the imitation game so
    
    well that an average interrogator will
    
    not have more than 70 per cent chance
    
    of making the right identiﬁcation after
    
    ﬁve minutes of questioning.
    
    — (Turing,1950, p.442)
    
    The results suggest that certain GPT-4 witnesses
    
    met Turing’s criterion of being misidentiﬁed 30%
    
    of the time (even if they are 2 decades later and
    
    several orders of magnitude larger than Turing an-
    
    ticipated). However, it is not clear that 30% is
    
    an appropriate benchmark. A more conventional
    
    benchmark of 50% would suggest that interroga-
    
    tors are incapable of distinguishing the model from
    
    a human. One model, Dragon, achieved an SR that
    
    was not statistically different from 50%. But this
    
    chance baseline suffers from the drawback that it
    
    could be achieved by random guessing, for instance
    
    if a witness said nothing
    
    NeriaLab
    23.07.2025 09:18
    #28610648
    Потому что эта та минимальная планка, которую поставила наша команда и пройти не один простой, а три строгих теста Тьюринга в полном соответствии со всеми стандартами прохождения и публично. О дате и месте проведения, мы сделаем официальное заявление в своё время
    
    AdrianoVisoccini
    23.07.2025 09:18
    #28610662
    ваша команда...
    А на каком основании ваша команда ставит планки? В исследовании которое я выше привел есть обоснование. Ваше обоснование каково?
    
    Если тест тьюринга должен доказать что ИИ не уступает человеку, каким образом он может достичь больше 50%? Если мы проведем исследование без ИИ с двумя людьми, на большой выборке результат будет отличаться от 50%? если да - почему? Если нет, то почему вы требуете от ИИ другой процент?
    
    NeriaLab
    23.07.2025 09:18
    #28610710
    Если тест тьюринга должен доказать что ИИ не уступает человеку, каким образом он может достичь больше 50%?
    
    ИИ, о котором мы говорим, должен превзойти человека не просто на уровне диалогов, у на уровне решения когнитивных задач. Именно для этого и нужны тесты Тьюринга. А просто "говорилки" - это даже не уровень прото-ИИ
    
    Если мы проведем исследование без ИИ с двумя людьми, на большой выборке результат будет отличаться от 50%?
    
    Как пример: Вы знаете больше о робототехнике, а я даже обычное радио не могу собрать. И разговор зашел о современных тенденциях в робототехнике. Вы, для стороннего независимого наблюдателя (эксперта), в его глазах, будете получать больше "баллов". Кто такой независимый эксперт, надеюсь, говорить не надо?!
    
    AdrianoVisoccini
    23.07.2025 09:18
    #28610768
    я спросил на каком основании, а вы отвечаете вопросом на вопрос. С чего вы взяли, что ваша интерпретация результатов и самого текста является верной? Я вот основания привел из peer rewiev статьи. А вы привели просто свои умозаключения, как будто это не одно и то же, не так ли?
    
    Вы знаете больше о робототехнике, а я даже обычное радио не могу собрать. И разговор зашел о современных тенденциях в робототехнике. Вы, для стороннего независимого наблюдателя (эксперта), в его глазах, будете получать больше "баллов".
    
    каким образом количество знаний в какой-то области вдруг приведет к большему количеству балов в тесте на человечность? Из чего делается вывод, что если ответчик выдает бесконечное количество точной информации то он не будет воспринят скорее как машина, чем скорее как человек?
    
    Я от вас вообще аргументации не вижу, кроме вашего личного "фи"
    
    NeriaLab
    23.07.2025 09:18
    #28610850
    Для того, чтобы полностью Вы смогли услышать моё мнение, я предлагаю Вам перейти в личку
    
    P.S.: попробуйте больше узнать о простых и строгих тестах Тьюринга, они отличаются как небо и земля.
1. fvv Автор
  23.07.2025 09:18
  #28610440
  Автор, а почему ни слова про тесты Тьюринга? Когда можно ПО называть ИИ? Каковы морально-этические стороны ИИ?
  
  Потому что, на мой взгляд, обычному нормальному человеку ответы на эти вопросы не нужны, у них нет практического результата.
  1. NeriaLab
    23.07.2025 09:18
    #28610614
    Естественно, почему и я не ожидал другого ответа. "А давайте забьем на морально-этическую сторону ИИ и все проблемы с ним связанные?". Зачем о них думать? Помер человек о советов ПО не являющимся ИИ, да и фиг с ним. Умерло 1000 человек, тоже фиг с ними. Даже если умрет 1 миллион человек, плевать - ведь " обычному нормальному человеку ответы на эти вопросы не нужны". Я все правильно понял?! И это я только описал одну проблему, которая уже проявилась в обществе и о которой пишут.

Zerg-link
23.07.2025 09:18
#28610364
В качестве вывода можно ещё указать, что ИИ - это по сути более удобный поисковик, который пытается из кучи информации слепить ответ
1. fvv Автор
  23.07.2025 09:18
  #28610712
  По-моему это вывод номер 2: про ускорение распространения знаний. И это не единственная польза ИИ.
  
  То есть ИИ можно использовать как поисковик, но можно и иначе.

Emelian
23.07.2025 09:18
#28611150
Обучение LLM, если примитивно, выглядит так: набросали как бог на душу положит миллиарды нейронов и связи между ними, даем сети на вход запрос, смотрим на ответ.

Не расточительно ли?

Я, вот, невольно, построил «LLM» вручную. Задача была такая: «Есть множество видео, со встроенными французско-английскими субтитрами. Нужно распознать их текст, для целей создания французско-русских и англо-русских аналогичных видео и данных для собственной обучающей программы.».

Существует несколько вариантов решения, например, с помощью сервисов распознавания речи, либо скармливанию «ФайнРидеру» кадров изображений этих видео. Оба эти метода хорошо работают и меня вполне устраивают.

Но, я решил пойти по пути собственного распознавания текста изображений, с помощью своего скрипта на Питоне. Ну, хотя бы, ради творческого любопытства.

Так вот, оказалось, что если расщепить текст на символы (чего я смог добиться с помощью своего алгоритма «сглаживания символов» и использования разделительных отрезков на базовой линии шрифта строки текста), то распознавать эти символы можно уже с помощью всего четырех параметров. Для этого надо построить «функцию выбора», ставящую в соответствие эти четыре метрики – самому символу.

Поначалу я строил условия выбора для ключевой функции вручную. Чтобы распознать французский текст из видео, на два с половиной часа, мне потребовалось всего около пятисот таких условий. Результат получил, ошибок было менее двадцати.

Потом, понял, что эти условия можно строить «вножную», то бишь, полуавтоматически, используя результат, полученный из другого источника, например, бесплатного распознавания речи на 15 минут.

Я это все рассказываю, чтобы показать, что допотопные методы, в наш компьютерный век, тоже работают. Не, ну, правда, зачем мне LLM, со всеми ее триллиардными запросами, когда нужную задачу вполне можно решить старым дедовским способом?

Естественно, в данном случае, проще всего использовать «FineRider» (если его правильно настроить, то он очень хорошо распознает ключевые кадры видео) либо лучшие ИИ-сервисы по распознаванию речи, лимиты которых можно обходить с помощью вэпээн.

Т.е., я хочу сказать, что бездумное использование современных дорогостоящих методов может быть не рационально, если они могут быть заменены более дешевыми альтернативами…