Если вдруг автомобильный дилер скажет про свои автомобили, что у них под капотом двигатель, цикл которого состоит двух изотерм и двух адиабат и коэффициент полезного действия .., короче "Цикл Карно — идеальный термодинамический цикл". То Вы наверно покрутите у виска пальцем (к счастью не все покрутят и некоторые поймут и выслушают, может даже потом объяснят тем, кто хочет слушать) и пойдёте к другому. Но эти слова - правда и ничего кроме правды, но она вам не нужна.

Но вот это "звук винтажного двигателя V-8 «давно считался призывным вызовом «Мустанга», готового к спариванию» (mating call of Mustang), новая система обработки и усиления звука «спортивна и энергична», обеспечивает «более изящное рычание» и «низкочастотное ощущение всемогущества»" - полная туфта всего лишь для почёсывания ЧСВ потенциального покупателя и на качество движения никак не влияет.

Вот сейчас то же самое, слово в слово, происходит в ИТ.

это рука ИИ показывает известный фрукт
это рука ИИ показывает известный фрукт

Могучие и незабвенные, нежные и проникновенные всевозможнейшие искусственные интеллекты засрали все информканалы.

Но вот под капотом у них интерполяция, экстраполяция, аппроксимация, ЦПТ, дисперсия, матожидание (не перепутайте, это МАТожидание, оно никого не ждёт) вот, в общем-то и всё.

Можно про них про всех прочесть в википедии или пара классических учебников по теорверу и численным методам всё объяснит.

Вот сейчас кратко и ясно немного расскажу про обе стороны того, что называют сейчас ИИ.

Про интерполяцию и экстраполяцию.

Машинное производство, это про токарные, фрезерные и прочие ЧПУ) отличается от кустарного в первую очередь тем, что станок работает по формуле. Просто выполняет некую функцию. Вот если мы знаем формулы кривых корпуса скрипки Страдивари или Гварнери, то сможем делать очень похожие.

Но как для станка получить эту формулу? Мы можем замерить кривизну готового изделия и по точкам получить функцию — вот такая идея была сто лет назад.

Задача казалась простой - по значению функции в некоторых точках получить её саму в аналитическом виде и спокойно вычислять в любом месте. Теория говорит, что так можно. Можно из простых кусочков и операции сложения построить любую функцию.

Короче так. Берём точки неизвестной функции и ищем приближенную функцию в определённом виде. Вот математика это разрешает, но не гарантирует, что с конкретной выбранной простой функцией приблизимся на удовлетворительную точность.

То, как современные авторы ИИ пытаются найти эту функцию, является их основной гордостью. Но по сути там просто варианты достаточной простой идеи просто и наглядно расписанной далее, в "Итого" этой статьи.

Но и тут оказалась засада. Дальше приведу пример, классический и простой, ему уже почти 100 лет, но засада в том, что нужно знать гораздо больше про ту функцию, которую ищем и точки которой знаем. Функций очень много, очень!! И через любое количество точек можно найти сколько угодно функций, которые будут проходить сколько угодно близко к этим точкам.

А пример простой, проще некуда. Вот мы измерили нашу неизвестную функцию в четырёх точках. Достаточно четырех, то же самое можно и на 4 миллиарда точек, суть не поменяется, только наглядности не будет.

нам известны только эти четыре точки
нам известны только эти четыре точки

Чтобы долго не рассказывать приведу сразу три решения нашей проблемы - функции по четырём точкам.

вот три решения
вот три решения

Но если попробовать вычислить нужное нам значение функции (может одна из трех сгодится?) между известными точками, например в точке 5.0 или где-то рядом, то три ответа найденных функций будут существенно отличаться. Это как бы три аналитических отдела построили прогноз и ждут бонусов, но грубая реальность показывает четвёртый, совсем другой вариант.

вот так выглядят эти решения вне диапазона
вот так выглядят эти решения вне диапазона

И дело тут не в том, что они, аналитики, плохо считали, дело в том, нет ещё такой математики, которая по конечному количеству точек выдаст искомую функцию точно и однозначно. Вот из какого нибудь ограниченного списка, например, если эти четыре ( ну или много) точки это про плавку стали, или резку дерева или ещё что по-конкретнее со своей физикой-химией-биологией и формулами, то может появиться шанс.


Если значения точек искомой, той, которую ищем по точкам, функции мы померяли с погрешностью, то тут к интерполяции прибавляется теорвер. Только теорвер хоть как-то описывает случайности и их вероятности.

Теорвер

Всё опять началось в эпоху промышленного производства. Вот произвели на станке миллион болтов и что, все проверять? Так разоришься. А ведь по контракту нужно поставить чётко оговорённое количество годных болтов. Можно на каждые миллион ( просто к слову выбрано звучное число) доложить ещё 100, а может 150 или 95 штук хватит?

Вот и придумали теорвер с его матожиданием, дисперсией и прочим шаманством. А суть проста и понятна. Болты разные совсем немного и на эту разность влияют множество разных факторов и нет одного существенного. Так вот про них и есть ЦПТ - центральная предельная теорема, суть и смысл которой в том, что сумма независимых случайных величин совсем не случайна. Или если множество мелких, но независимых погрешностей складывать, то в итоге получится вполне предсказуемый результат. И вот тут и начинаются всякие умные слова, перцентили, доверительные интервалы, дисперсии и матожидания. Если эти умные слова начинаются до того, как выяснили независимость мелких погрешностей, то это вранье. Так и запомните - сначала независимость, потом вполне предсказуемая сумма и никак иначе.

Но суть одна и с тех пор как Александр Михайлович Ляпунов больше ста лет назад центральную предельную теорему в общем виде доказал, так и не менялась.

И никакой другой предсказательной силы в теории вероятностей нет, никто ещё там не придумал ничего нового.

И запомните главное - случайные мелкие должны быть независимы. Давно уже исследуется вопрос, а если эти мелкие почти независимы, то что тогда? Ну так и получается, что их сумма тоже почти предсказуема.

И у неё, у этой ЦПТ, есть очень полезное следствие, что достаточно большие выборки (классики советуют не менее 10, но тут как посмотреть ) из изучаемой последовательности обладают такими же вероятностными свойствами. Т.е. не нужно изучать всю последовательность и обмерять все болты, достаточно малой части, но достаточно большой.

Вот и получаем А/В тест. Берём сделанные одной сменой из металла одной партии на станке одной наладки - проверяем не все, а только сотую часть, но не меньше 10. Если брак 0.5%, то и в основной части будет такой же. Вот и докладываем 0.7% в партию болтов в уверенности, что там есть нужное количество.

Есть ещё задача - стрелять из пушки по цели. Каждый выстрел не зависит от предыдущего (прогрев ствола не считаем, хотя ) и вот вопрос, а сколько нужно выстрелов, что бы поразить цель с вероятностью 99% ?

Или ещё задача, сколько мелочи должно быть в кассе при открытии, чтобы была возможность почти всем дать сдачи. Много мелочи - убыток, мало - уйдёт клиент к конкурентам не обслуженный. Только вот люди не договариваются, сколько в нынешнем сезоне прилично носить мелочи в кошельке. Монетки и размен тут условны, это очень хорошая задача "обслуживание очередей" и если вы зашли на сайт, а он "висит", значит его авторы неучи.

Вот только во всей этой умной и правильной науке есть пара существенных ограничений - случайные события, сумму которых мы изучаем и которая как раз и не случайна, должны быть независимы. А это уже свойство предметной области, самой математике про это неизвестно ничего и как только мы от объектов предметной области правильно и корректно перешли к формализму — то только тогда можно включать всю мощь ЦПТ. Только вот этот переход и есть главное занятие любого, кто хочет приложить математику. Сама по себе математика строга и там много не нафантазируешь про прибыль, а вот этот переход, от реальности к матрицам, по сути невозможно формализовать.

Кстати, раз тут зашёл разговор о предметной области, то наверно это чей-то бизнес, и для бизнесменов отдельно тут скажу.

Главное, в этом деле, в применении теории вероятностей, не перцентили считать с дисперсией. Самое главное, это формализовать ваш бизнес. Это самое главное. Перцентили считать учат на курсах и любой выпускник любых курсов, хоть ШАД, хоть ВШЭ, не говоря уж о просто математиках, легко это может сделать.

А вот что бы правильно и точно выбрать необходимый и подходящий раздел математики, который тут можно и нужно применить, нужно обладать всесторонними и фундаментальными знаниями математики, нужно знать философию и философию математики. На курсах этого не учат совсем. И сущность очень легко спутать с проявлениями.

Нужно бизнесу понять самому или получить экспертное заключение, что те самые мелкие факторы, влияющие на выбор картошки посетителем в вашем овощном ларьке являются независимыми. И если ваш высокооплачиваемый VP по DS на самом деле недоучившийся химик, то он так и будет считать априори, что эти покупки и есть независимые эксперименты (им, химикам от теорвера больше и знать ничего не нужно, у них молекулы и атомы это объекты) и спокойно заниматься предсказаниями с помощью ЦПТ, в химии, как и у недоучившихся физиков, все молекулы воды одинаковые во всей вселенной и их соседское поведение зависит только от независимых мелких внешних воздействий.

А вот у людей нужно это доказывать в каждом конкретном случае. Например вы верите, что посетитель выбрал картошку этого сорта независимо от того, какой сорт картошки выбрал в прошлый раз. Или десять человек в магазине выбирают сорт картошки независимо друг от друга и от остальных родственников и знакомых.

При формализации реальности очень четко нужно понимать, что если бухгалтерский баланс вашего предприятия напоминает кому-то вектор и руки чешутся применять линейную алгебру, то это совсем не означает, что он, этот баланс, им, этим вектором, является и линейная алгебра даст хоть какую-то пользу. Есть шанс, что будут складывать тёплое с мягким, а получившаяся прибыль будет отрицательной.

Это про теорвер. Как видите в основе достаточно понятное свойство природы - сумма независимых случайных совсем и не случайна.

Только вот некоторые прикладные аспекты бездумного и бездарного применения этой теории многим подгадили существенно. Один умник решил, что шишки на голове могут судить о наличии преступных наклонностей. Он замерил шишки у пары сотен каторжников и решил, что все люди такие же и те, кто с шишками, и если ещё не стали, так скоро станут преступниками. Он конечно обосрался в своём деле, но скольким он жизнь попортил.


Заключение

Теперь можно объединить два вышеизложенных раздела математики - искать интерполирующую функцию при условии, что значения искомой функции в точках замерены с небольшим и случайным искажением. Значение функции в точке, что мы измерили, есть собственно значение и к нему прибавился невзначай мелкий шум. Функцию ищем интерполяцией, а параметры шума нам даст ЦПТ.

Теперь уже можно перейти к основному блюду, а именно, как же устроены все эти ИИ.

Так вот, все эти супермощные, гигаумные, под титильён долларов искусственные интеллекты всего лишь интерполирующая обучающие точки функция. Только и ничего больше. Точки с известным значением функции (задачи и ответы, картинки и названия и так далее), дают на вход и предполагают, что с помощью хитрых методов найдут ту самую функцию, которая по остальным точкам выдаст правильные ответы.

Вся хитрость метода поиска искомой интерполирующей функции состоит в следующем. Выбирают функцию простую и из её кусочков склеивают большую. И на каждом шаге самый неправильный кусочек подкручивают, двигают, переклеивают, чтобы он стал правильней. И так на каждом шаге - самый плохой подкручивают и после многих шагов на многих точках суммарная ошибка становится приемлемой.

Но как уже выше был пример, если нет никакой информации о виде, классе искомой функции, то решений можно найти сколько угодно и все они будут врать.

Да, там много точек, много значений, но всё равно, по сути это интерполяция и приближается к точному её функции значению только около известных точек.

Поэтому все эти искусственные интеллекты могут только одно - хорошо (с достаточной точностью) выдать значение искомой (но не известной нам аналитически, формулами) функции только там, где мы и так знаем.

Больше ничего там под капотом нет и не предвидится.

Даже если мы добавим в обучающую последовательность много, очень много точек, то у нас всё равно останется интерполяция, экстраполяция и аппроксимация.

Но и тут засада.

Как-то тут на Хабре был толковый коммент ( жаль потерял ссылку )(это вольная форма, но суть такая же) "если сложить большую, очень большую дровяную печь, то атомная\ядерная реакция там всё равно не начнётся"

В стратегическом плане запихивания точек в интерполяцию ( они называют увеличение датасета ) есть и другое ограничение, очень суровое.

Вот все адепты ИИ хорошо знают задачу MNIST распознавания рукописных цифр, это "мама мыла раму" или "Hello word!" этого дела.

Так вот, если обучать робота распознавать рукописные цифры, пусть даже только такие, какие есть в этом MNIST, то тут вот такая засада математики.

Если не ограничить поиск существенно ( пусть цифры будут только эти, это неважно, начертаний гораздо больше, но пусть только эти) то только вариантов раскраски этих цифр больше чем атомов в видимой вселенной. Даже если брать одну из 10 в сотой степени раскрасок, надеясь, что они все похожи, то их останется больше чем 10 в сотой степени. А столько атомов нет в видимой вселенной и компьютера с такой памятью нет и не будет.

Теперь, надеюсь, нет иллюзий и есть понимание того, как из этого ИИ извлечь пользу своему бизнесу. Только рядом с известными точками приблизительное значение любой ИИ будет выдавать.

P.S. И последнее замечание - на КПВ должна быть картинка "рука робота показывает фигу". Только вот ни один из них не смог нарисоовать правильно. Ни один!!

Комментарии (10)


  1. janvarev
    09.08.2025 11:23

    Поскольку стараюсь читать статьи содержательно, дам имхо содержательный коммент:

    Самым интересным вопросом является то, достаточны ли функции интерполяции большинства текстовых знаний человечества (на которых тренируются LLM) для того, чтобы создавать значимые результаты выше человеческого уровня? Потому что один человек специализируется, как правило, на одном - и в этом одном его качество выше и не сводится к интерполяции (если он профессионал). С другой стороны, LLM добавляет к рассуждениям интерполяцию знаний из соседних областей - например, условный бекендщик может с её помощью написать фронт или создать маркетинговую программу продвижения проекта, в которых у него компетенций близко к нулю.

    Традиционно считалось "объедините несколько областей, и получите качественное междисциплинарное исследование, на которое один человек не способен". LLM на это способны (интерполяцией знаний и рассуждений), но теперь вопрос - а действительно ли это эффективный способ порождения исследований, который приведет к AGI и ASI? Или же эта гипотеза неверна, и интерполяция не заменит умений моделирования человеком?


    1. Spaceoddity
      09.08.2025 11:23

      У вас как будто "проблематика перцептрона и «исключающего или»" в комментарии. Почему выбор надо ставить в виде "или заменит, или не заменит"?

      Где-то заменит, где просто поможет, а где-то и откровенно может навредить. Для каждой задачи свой инструмент просто нужен!

      Имхо: каких-то прорывов уровня Эйнштейна от них ждать точно не следует - ограничение выборки на которой обучали модель, отсутствие субъективного "квалиа", неспособность к образному мышлению - всё это накладывает ряд фундаментальных (не больше и не меньше) ограничений.

      Но вот подтолкнуть человека к прорыву уровня Эйнштейна - уже умеет)) Ну и задачи на генерацию, проверку. синтез 100500 вариантов чего-либо - вполне-вполне...


      1. janvarev
        09.08.2025 11:23

        Почему выбор надо ставить в виде "или заменит, или не заменит"?

        Потому что это очевидно вопрос "на подумать" читателю с учетом указанных рассуждений. Ответ "где-то будет лучше, где-то хуже" для него не содержателен, вопрос не для этого задается.


        1. Spaceoddity
          09.08.2025 11:23

          Ответ "где-то будет лучше, где-то хуже" для него не содержателен, вопрос не для этого задается.

          А это уже проблемы задающего вопрос! Если человек спросит "какой язык программирования самый лучший?", ответ "в зависимости от сферы и контекста применения" для него тоже будет "не содержателен".

          "Чтобы задать верный вопрос. надо знать большую часть ответа" (с) Р. Шекли


  1. acc0unt
    09.08.2025 11:23

    Не знаю, сколько раз нужно это повторять: понимание низкоуровневых процессов не даёт само по себе понимания высокоуровневых процессов.

    А в этой статье ещё хуже. Тут даже адекватного понимания низкоуровневых процессов нет!

    То, что базовую модель LLM можно представить в виде математической функции, которая пытается в ходе обучения натянуть себя на точки данных из датасета - это в целом верно. Только применимость этого знания ограничена. Потому что мы даже близко не знаем всех свойств этой функции - ни приближенной функции, которая получена в результате обучения, ни тем более оригинальной функции, которая создала точки датасета - и поэтому не можем делать далеко идущих выводов. Матаппарат до такого не дорос.

    Статья же вместо этого громко говорит "ИИ сосать", и всё.


  1. Spaceoddity
    09.08.2025 11:23

    Как-то тут на Хабре был толковый коммент ( жаль потерял ссылку )(это вольная форма, но суть такая же) "если сложить большую, очень большую дровяную печь, то атомная\ядерная реакция там всё равно не начнётся"

    Начнётся термоядерная. Всё дело только в масштабах этой печи ;)


  1. dsorokin2000
    09.08.2025 11:23

    А вы полагаете, что человеческий мозг не применяет этот комплект из "интерполяция, экстраполяция, аппроксимация, ЦПТ, дисперсия, матожидание".

    Не знаю как сейчас считает наука, но в прошлом находили много общего между тем, как работает память человека, и тем, как устроена сеть Хопфилда, а она в свою очередь довольно близка к обобщенному ряду Фурье.

    Тут возможен закон диалектики в действии о том, что количественные изменения могут перейти в качественные. Правда, я пока не уверен, что современные ИИ-ассистенты достигли такого уровня. По крайней мере, с темы они иногда сбиваются, контекст теряют, неверно иногда обобщают так, что человек так не обобщил бы. И что мне особенно не нравится, могут резко поменять стиль общения - как будто подменили робота. Человек куда более целостный и последовательный в общении.

    В общем, поживем - увидим.


  1. T968
    09.08.2025 11:23

    На КДПВ что-то сильно обнаженное женское

    Где капот?


  1. drWhy
    09.08.2025 11:23

    Мерял шишки - это про Гальтона, родителя евгеники, внука Эразма Дарвина, автора композитной фотографии (ака фоторобот), участника создания матапарата статистики?


    1. ChePeter Автор
      09.08.2025 11:23