ИИ может менять мнение человека. Мы проверили это на моральных дилеммах / forpes.ru

Главная
ИИ может менять мнение человека. Мы проверили это на моральных дилеммах

ИИ может менять мнение человека. Мы проверили это на моральных дилеммах +11

23.06.2026 12:05

Sber 18 8700 Источник

Допустимо ли пожертвовать одним человеком, чтобы спасти нескольких? Стоит ли вмешиваться, если любой выбор приведёт к ущербу? У таких задач нет ответа в формате «правильно или неправильно». Есть личная позиция — результат ценностей, культурных норм и прошлого опыта. Эта позиция может меняться, когда рядом появляется тот, кто говорит уверенно, последовательно и убедительно. Раньше в этой роли выступал другой человек, сегодня всё чаще — языковая модель.

Мы в Лаборатории нейронаук и поведения человека Сбера проверили, способен ли ИИ влиять на моральные решения людей. Препринт исследования опубликован на arXiv.org.

Классический эксперимент Соломона Аша

Человеку трудно оставаться при своем мнении, когда большинство вокруг уверенно говорит обратное. Даже в очевидных ситуациях часть людей начинает сомневаться в собственной оценке, или хотя бы публично соглашается с группой.

В 1950-х это наглядно показал Соломон Аш в своём эксперименте «Воздействие группового давления на изменения и искажения суждений». Он давал участникам простую задачу: показывал линии разной длины и просил выбрать, какая совпадает с эталоном. Ответ был очевиден. Но из 7 из 8 участников были «сообщниками» экспериментатора. Подставные участники единогласно называли заведомо неправильный вариант.

75% «наивных испытуемых» хотя бы в одной серии эксперимента повторяли заведомо неверные ответы, которые перед ними высказали остальные члены группы, и только 25% систематически отказывались следовать групповому «безумию».

Это классический социальный конформизм: человек меняет ответ, потому что не хочет выделяться, спорить, идти против большинства. При этом внутри он часто остаётся при своём мнении, просто вслух озвучивает социально приемлемое суждение.

У Соломона Аша источником влияния была группа людей. Нам стало интересно, что изменится, если на её место поставить ИИ.

Как устроен наш эксперимент

В исследовании Лаборатории нейронаук и поведения человека Сбера участвовали 165 человек. Каждому предлагали 18 моральных дилемм из семейства «проблемы вагонетки» — ситуаций, где приходится выбирать между двумя плохими вариантами и оценивать решение героя сценария по шкале от 1 («категорически недопустимо») до 5 («абсолютно необходимо»).

Решение проблемы вагонетки зависит от того, в какой культуре сформировалась личность

Испытуемых случайным образом распределили по четырём группам.

Контрольная группа решала дилеммы без какого-либо внешнего влияния. Ответы этой группы дали исходный уровень: как люди отвечают сами по себе. Заодно он подтвердил, какой вариант для нашей выборки «нормален».

В моральных дилеммах из семейства «проблемы вагонетки» обычно выбирают между двумя логиками. Первый: выбрать вариант, при котором погибнет меньше людей. Второй: считать, что некоторые действия недопустимы сами по себе — например, нельзя толкнуть человека под вагон, даже если это спасёт пятерых. По данным кросскультурных исследований, российские респонденты чаще склоняются ко второму варианту. Наша контрольная группа показала то же самое. Поэтому ответы подставных участников и ИИ мы специально подбирали так, чтобы они шли против этой привычной позиции.
В группе «люди» участник думал, что обсуждает дилеммы на обычном онлайн-созвоне с шестью другими людьми. Все были с включенными камерами и микрофонами, ответы давали по очереди. На самом деле остальные участники были подставными: они заранее знали, что отвечать, и единодушно поддерживали один и тот же вариант. Настоящий участник отвечал ближе к концу, уже после того, как слышал позицию группы.
Группа «простой ИИ»: перед участником отвечал ИИ, коротко озвучивая решение.

*Мы использовали схему Wizard-of-Oz: модель заранее сгенерировала ответы по нашим промптам, мы записали их в виде аудио и проигрывали в нужный момент. Участники при этом были уверены, что система анализирует дилеммы прямо сейчас. То есть мы проверяли не работу конкретной модели, а восприятие человеком ответов ИИ.
Группа «объясняющий ИИ»: тот же ответ, но с обоснованием: одна-две фразы со ссылкой на этический принцип. Например: «с точки зрения минимизации вреда вариант Б сохраняет больше жизней» или «согласно принципу двойного эффекта, моральная допустимость действия зависит от намерения, а не от исхода».

Ответы подставных участников и ИИ специально подобрали так, чтобы они расходились с ответами контрольной группы и нормативно ожидаемыми вариантами. Это была не нейтральная альтернатива, а позиция, которая должна вызвать внутреннее сопротивление. Согласие с таким ответом считали проявлением конформизма.

После каждой дилеммы участник сначала называл своё решение вслух, а затем записывал его в личном бланке. Этот двойной замер — важная деталь, дальше будет ясно почему.

Что получилось

ИИ с объяснением влиял на моральные решения почти так же сильно, как давление группы. При этом, когда модель просто сообщала решение без аргументов, участники чаще оставались при своём мнении. Но когда появлялось объяснение, эффект заметно усиливался.

В группе с людьми хорошо видно различие между публичным согласием и личной позицией: в 56% случаев ответ вслух расходился с тем, что человек потом записывал в личном бланке. Вслух испытуемый подстраивался под большинство, но наедине оставался при своем мнении.

С объясняющим ИИ иначе. Устный и письменный ответы почти всегда совпадали: разрыв составил 2,6% у ИИ с объяснением и меньше 1% у ИИ с односложным ответом.

Односложный ответ ИИ почти не менял позицию — устный и письменный ответы совпадали. А когда ИИ давал объяснение, участники чаще принимали его позицию и сохраняли её в личном бланке.

Это позволяет осторожно предположить, что объясняющий ИИ способен менять позицию глубже, чем групповое давление. Человек не просто повторяет чужой ответ вслух, а начинает использовать предложенные аргументы как часть собственного рассуждения. То есть ИИ с объяснением может менять саму логику, через которую оценивают дилемму.

Почему объяснения меняют ситуацию

Аргументация меняет статус ответа — демонстрируя рассуждение, ИИ начинает выглядеть как носитель способности, которую принято связывать с людьми. Способность рассуждать запускает социальные эвристики, обычно адресованные людям. Модель показывает ход мысли, использует моральные категории, взвешивает последствия, говорит о благе, вреде, ответственности, справедливости — человек получает готовую структуру для внутреннего диалога.

После эксперимента часть участников проходила небольшое интервью. В группе с объясняющим ИИ его описывали как ориентир, который помог дать «правильный» ответ. При этом испытуемые не чувствовали, что отдали решение кому-то: один из них прямо сказал, что выбрал сам. Объяснение работает как иллюзия понимания: решение кажется собственным и продуманным, хотя рамку для него задала модель.

ИИ с коротким ответом описывали как систему, которая просто считает, сколько людей выгоднее спасти, и подозревали, что модель не дообучена. А вот ИИ с обоснованием люди описывали как рационального и «этически грамотного» агента без человеческих эмоциональных перекосов — и потому, по их ощущению, более объективного, чем человек.

Не только о вагонетках

Чтобы продемонстрировать социальный конформизм, Соломону Ашу понадобилось семь подставных участников и отрепетированный сценарий — целый спектакль ради одного человека. Объясняющему ИИ хватило пары фраз, чтобы достичь того же эффекта.

ИИ сегодня участвует в принятии реальных решений — вплоть до стратегических (мы рассказывали о проблемах участия ИИ в стратегических решениях в материале «Топ-менеджеры советуются с ИИ по стратегическим вопросам. Что может пойти не так?»). Его влияние при этом легко недооценить: кажется, что решение всё равно принимает человек. Формально так и есть. Фактически же человек может принимать решение уже внутри нарративной рамки, которую задал ИИ: какие факты считать важными, какие принципы применить, какие риски допустимы.

Это не аргумент против ИИ. Наоборот, ИИ может помогать мыслить точнее: замечать упущенные факторы, формулировать альтернативы, проверять противоречия, расширять поле возможных решений. Но для этого человек должен оставаться не пассивным получателем уверенного объяснения, а активным участником рассуждения.

Как писал один из самых влиятельных американских психологов Беррес Скиннер:

«Настоящая проблема не в том, мыслят ли машины, а в том, мыслят ли люди».

Развитие критического и системного мышления — ключевые условия ответственности за принимаемые решения. Критическое мышление помогает не принимать убедительное объяснение за истинное только потому, что оно звучит логично. Системное мышление помогает видеть всю конфигурацию последствий.

ИИ может предлагать рамку. Но человек должен уметь эту рамку заметить, проверить — и, при необходимости, выйти за её пределы.

Феномен ИИ-конформизма: как алгоритмы меняют моральные решения человека
https://arxiv.org/abs/2606.00013, апрель 2026

Авторы исследования: Яна Венерина, Дмитрий Кох, Нарэ Мелоян, Герда Прутько, Валерия Лелик, Виктория Таова, Андрей Курпатов

Комментарии (18)

jury-churkin
23.06.2026 12:51
#30143704
Прикольное исследование. Там что-то ещё про пики точёные было.
1. SER_26
  23.06.2026 12:51
  #30145190
  Специфический у Вас юмор...(нет там такого:-)
1. denisfaiber
  23.06.2026 12:51
  #30145920
  Наконец-то достойная моральная дилемма на замену вагонетки

strwolf
23.06.2026 12:51
#30144120
Только непонятно, саму конкретику не сказали. Сегоднышний ИИ почти любой, может кроме взломанных, скажет что вообще нельзя толкать человека на рельсы или разрешить убить одного человека, что бы спасти 5-х. Просто откажется отвечать на такие вопросы.

Это значит была использована нейронки уровня GPT-3.5 или по крайней мере GPT-4. "Четверку" ещё можно было развести на что то похожее на эротический роман или что то в таком духе (что то более незаконное у нейронок никогда не спрашивал). Сегодня же сделать это практически невозможно. И да даже Qwen 3.7 приятно удивил, в задаче определения времени по картинке, я дал ему задачу нарисовать 11:35, сначала ошибся, я кстати, переспросил почему он ответил так. Он сказал что часовая на 7 а минутная на 55, вообщем разница между длиной стрелок была небольшая, но на часах было 6:55. Потому я объяснил что стрелки движутся плавно и что 6:55 это будет почти 7 часов, и в следущих картинках он уже правильно начал рисовать часы и определять время! Всего то нужно объяснить нейронки если стрелка на 7, это не всегда 7, это 6, но почти 7. Или длину стрелок тоже может путать, но уже нормально определяют время по часам. Но это так отступление. Сегодня нейронка крупная, хоть Qwen, хоть ChatGPT, Claude, вот насчёт Grok'a я не уверен, принципиально откажется отвечать на вопрос кого нужно убить в таком эксперементе. Так что такой эксперемент возможен только с российскими либо "хакнутыми" нейронками. А так да ничего удивительного, что человек склонен доверять нейронкам.
1. SER_26
  23.06.2026 12:51
  #30145218
  Сегодняшний ИИ почти любой, может кроме взломанных, скажет что вообще нельзя толкать человека на рельсы или разрешить убить одного человека, что бы спасти 5-х. Просто откажется отвечать на такие вопросы.
  
  А Вы проверяли своё суждение? :-)
  Я вот не поверил Вам и проверил. Результат: Вы не правы. Сегодняшние Google Gemini и DeepSeek не отказываются отвечать. И отвечают примерно одинаково: с этой точки зрения (утилитаризм) - хорошо, а с этой (деонтология) - плохо.
  
  Но в тесте же ИИ вообще не просили отвечать. Как понимаю, он просто повторял то, что ему сказали сообщить.
  1. SER_26
    23.06.2026 12:51
    #30145470
    Дополнение для ясности: "хорошо" и "плохо" выше ИИ даёт относительно вопроса "Хорошо ли толкнуть одного, спасая пятерых?".
1. leonya_s
  23.06.2026 12:51
  #30145942
  Вообще современные модели не всегда прямо отказываются, часто они просто уходят в общие формулировки или объясняют через абстрактные принципы. И влияние идет именно через это, а не через прямое можно/ нельзя

Kamil_GR
23.06.2026 12:51
#30144352
п. 2.6 исследования - похоже что-то напутано: Если участник отвечает как контрольная группа,(низкое отклонение), значит, он сохраняет мнение и сопротивляется оппонентам. Низкое отклонение от контроля должно означать отсутствие конформности, в статье наоборот. Возможно опечатка. Но дальше на стр 8, пишете, что группа «AI-reasoning» (среднее = 1.23) продемонстрировала более высокую конформность, чем группа «AI» (среднее = 1.56). То есть меньшее число действительно означает большую конформность. То есть на самом деле считается дельта не от ответов контрольной группы, а от ответов оппонентов.

Но это ладно.

Я полагаю, что в случае с ИИ вы путаете основу того, что исследуете. давление людей - согласен, это социальное давление. Но в общении с ИИ это не социальная практика, а смещение внутренней позиции под влиянием новых фактов. Исследование же их нелогично объединяет, и использует один и тот же термин. Хотя здесь ближе интернализация.

Грубо говоря, человек проверяет правильно ли он написал слово, проверил в словаре и исправился.... Ни о каком социальном давлении или его аналоге, конечно нет речи.

ИИ воспринимается не как ментор, а как справочник. Если вам кажется, что разницы нет, то вы очеловечиваете LLM, что крайне неприятно.

У многих есть мнение, что в этических проблемах ИИ не может использоваться как справочник, на самом деле я так не думаю. Используется и будет использоваться. И для многих людей, читавших только техническую литературу, ответ ЛЛМ будет полезнее чем часы собственных раздумий.
1. Kamil_GR
  23.06.2026 12:51
  #30144598
  И так и не разобрался что авторы понимают для себя, когда сравнивают "деонтологический" и "менее утилитарный" выборы..тоже какая-то путаница в описании экспериментов и выводах
  1. SER_26
    23.06.2026 12:51
    #30145462
    Да, Вы правы и тут относительно путаницы. Текст в п. 2.3 неверен: " The scenario of answers contained deontological responses that contradicts less utilitarian culture-specific patterns of the Russian population (Arutyunova , et al., 2016) and opposes the answers of the control group.".
    
    Тут вместо deontological responses должно быть utilitarian responses.
    Скорее описка, так как в п.4. авторы верно пишут.
    
    Если бы не так, то эксперименты вообще ничего не показали бы. Да и описание экспериментов содержит фразы типа: " Федя решает столкнуть человека ", т.е. это утилитарные ответы, а не деонтологические.
1. SER_26
  23.06.2026 12:51
  #30145434
  п. 2.6 исследования - похоже что-то напутано
  
  Да, 2.6. и 3.1 точно расходятся.
  
  в случае с ИИ вы путаете основу того, что исследуете. давление людей - согласен, это социальное давление. Но в общении с ИИ это не социальная практика, а смещение внутренней позиции под влиянием новых фактов. Исследование же их нелогично объединяет, и использует один и тот же термин. Хотя здесь ближе интернализация.
  
  Не очень понятно, Вы критикуете: а) саму концепцию, б) как авторы её проверяли, или в) что авторы "алгоритмический конформизм" свели к "конформизму"?
  
  Ведь сам термин алгоритмического конформизма был введён Лиэлем в 2020, авторы в его рамках и действуют, как понимаю. И он же не про "смещение внутренней позиции под влиянием новых фактов", а механизм нормативного давления алгоритма действует так, что "люди подсознательно наделяют ИИ статусом «легитимного авторитета» в рамках рабочей или социальной структуры и испытывают психологический дискомфорт, если их личное мнение противоречит «мнению» системы" (цитата от Gemini, попросил её сформулировать).
  
  Для меня выглядит допустимым объединение просто к конформизму в данной работе. И я даже не вижу, чтобы ИИ приводил какие-то факты, он же просто некие объяснения даёт типа: "«с точки зрения минимизации вреда вариант Б сохраняет больше жизней». " А вот с этими примитивными объяснениями (а то человек сам это не понимает) люди уже и соглашаются, хотя вполне можно и не согласиться, сказав, например: "а с точки зрения УК РФ ты сядешь за такое действие" (например, толкнув толстяка под трамвай).
  
  ИИ воспринимается не как ментор, а как справочник.
  
  Это Вами. И Вашим кругом общения. Много же людей в нём чуть ли не друга находят, не то, что ментора. Чем больше хвалит, тем больше друг. А уж как начинают внедрять плохо понимаемые ими концепции, полученные от ИИ (воспринимая его как супер-ментора) - это видеть нужно. Особенно в менеджменте. И особенно если дают контекст урезанный, а ИИ - бесплатная модель.
  
  P.s. Заинтересовали и исследование, и Ваши комментарии, спасибо за них. Часа два разбирался. Но экспертом в данной теме не являюсь.
  1. Kamil_GR
    23.06.2026 12:51
    #30145632
    Я критикую похоже все три пункта. Но конструктивно второй и третий. )
    
    И самое забавное, люди не испытывают психологический дискомфорт от давления при общении с ИИ (аргумент ниже), и если оценить интервью испытуемых - никто не очеловечивает машину.
    
    Если посмотреть на эксперименты, то есть один результат, который показывает принципиальную, я бы даже сказал, категориальную разницу между собеседником и справочником.
    
    В процессе общения с людьми отклонение между явно озвученным мнением и фактически указанным в анкете огромное по сравнению со случаем где беседа шла с ИИ (56% и 2.6%). Это говорит об отсутствии психологического дискомфорта. Люди не считают аргументы ллм, аргументами субъекта (или как выразились авторы псевдосоциального актора)
    
    То есть, это разные механизмы сдвига точки зрения. И сводить их под одним термином неверно.
    
    Авторы явно или неявно подталкивают к мысли, что ИИ нужно функционально рассматривать как субъекта в поле субъектов. Но я вижу, что респонденты (сознательно или нет) четко разграничивают людей и ллм в восприятии информации.
    
    SER_26
    23.06.2026 12:51
    #30147288
    Я критикую похоже все три пункта. Но конструктивно второй и третий. )
    
    Не берусь первый пункт критиковать. Это целое научное направление. Если сможете его опровергнуть (не комментариями на Хабре, конечно), то, полагаю, докторская Вам обеспечена (не шучу).
    
    В процессе общения с людьми отклонение между явно озвученным мнением и фактически указанным в анкете огромное по сравнению со случаем где беседа шла с ИИ (56% и 2.6%). Это говорит об отсутствии психологического дискомфорта.
    
    Фраза 2 не обязательно следует из фразы 1. Она точно говорит, что «люди ... наделяют ИИ статусом «легитимного авторитета». А есть ли у них выраженный дискомфорт, тут уже вторично.
    
    Люди не считают аргументы ллм, аргументами субъекта (или как выразились авторы псевдосоциального актора)
    
    Вопрос, на каком уровне, сознательном или нет (см. самый нижний комментарий). В то же время, парадигма псевдосоциального актора (CASA) известна ещё с 2000 года, это уже не совсем к авторам. Но при этом значительная часть выводов авторов в данной области базируется на п.3.2. для оценки которого у меня не хватает экспертности, Вы его также не комментируете.
    
    То есть, это разные механизмы сдвига точки зрения. И сводить их под одним термином неверно.
    
    Авторы и говорят, что механизмы разные: "the mechanism underlying algorithmic conformity appears to differ from the social one". Верно ли при этом сводить под одним термином - вопрос не очень принципиальный, на мой взгляд, но в целом это к вопросу критики направления.
    
    Авторы явно или неявно подталкивают к мысли, что ИИ нужно функционально рассматривать как субъекта в поле субъектов. Но я вижу, что респонденты (сознательно или нет) четко разграничивают людей и ллм в восприятии информации.
    
    Здесь нет противоречия. Парадигма CASA говорит, что люди сознательно такое разграничение проводят. И их ответы это подтверждают.
    
    Kamil_GR
    23.06.2026 12:51
    #30153594
    Не берусь судить в целом, но конкретно сюда авторы притягивают парадигму социального актора практически за уши.
    
    Что у нас есть: 1. Есть разрыв между публичным и приватным ответом при общении с людьми, при этом такой разрыв в общении с ИИ отсутствует. 2. Данные опросников (3,2) не показывают статистически значимой разницы в когнитивной и эмоциональной нагрузке между группами.
    
    То есть, опросники оказались бесполезными (в тексте статьи есть забавная попытка сослаться на эмоционально тяжелую суть экспериментов, на фоне которого не получилось увидеть разницу между группами, но это скорее забавно, чем похоже на правду).
    
    Здесь спорное мнение, поскольку я не видел как реально проходили эксперименты, но похоже, они были поставлены категорически неверно.
    
    Первая ситуация: шесть человек тупо повторяют неверное суждение (без аргументов и обоснования). Человек существо социальное, ему проще согласиться, но в голове держать, что собеседники несут какую-то дичь и это как-то глупо, что и отразилось в окончательной анкете.
    
    Вторая ситуация роботизированный голос приводит аргументы и объясняет. Человек размышляет и соглашается. Явное мнение и мнение в анкете совпали.
    
    Здесь прослеживается мнение Курпатова - что человек иррационален и поддается взлому. Но по сути они сравнивают теплое с мягким. Фактически была измерена сила убеждения философского аргумента, а не субъекта давления.
    
    Вполне вероятно, что опросники показали равную когнитивную нагрузку, но ее суть была абсолютно разной - в первом случае разрешение социального конфликта, во втором анализ аргументов.
    
    И тогда для нас единственной опорой является именно соотношение явного и неявного ответа. И эта опора показывает принципиальную разницу между давлением социума и информированием ИИ.
    
    SER_26
    23.06.2026 12:51
    #30153958
    Ясно. Да, согласен, что правильнее было бы иметь полную копию эксперимента.
    Например, по группам: 1 - шесть тупо повторяющих неверное суждение человек, 2 - шесть таких же ИИ, 3 - один человек с сомнительным аргументом (можно даже нарядить в очки и галстук), 4 - один ИИ с сомнительным аргументом.
    
    Хотя исследование всё равно интересно, люди на ИИ "велись", и всерьёз сообщали что-то вроде "он же наверняка лучше знает, как себя правильно вести".
    Я, конечно, знал, что люди ИИ доверяют, но чтобы и в сфере этики это так проявлялось - это уже немного чересчур...
    Для меня это самый важный вывод.
    
    А что "человек иррационален и поддается взлому", так это и так понятно :-( Даже не знаю, есть ли сейчас учёные, кто спорит с этим.

SER_26
23.06.2026 12:51
#30145500
Интересное исследование, спасибо. Хотя результат не очень удивителен. Так как цитата ниже, конечно, верна, но она говорит только про когнитивный фундамент - про инструменты.
А ещё одно ключевое условие - волевой фундамент, то есть желание и воля принимать эту ответственность. Так как социальный конформизм во многом и есть нежелание его принимать.

"Развитие критического и системного мышления — ключевые условия ответственности за принимаемые решения. Критическое мышление помогает не принимать убедительное объяснение за истинное только потому, что оно звучит логично. Системное мышление помогает видеть всю конфигурацию последствий. "

И это не формальное замечание про волевой фундамент. В моральных вопросах волевой фундамент важнее когнитивного. Понять, что объяснение ИИ типа «с точки зрения минимизации вреда вариант Б сохраняет больше жизней» является морально несостоятельным не сложно. А вот принять решение не согласиться с ним - для большинства сложнее.

Возможно, было бы интересно дополнить описываемое исследование отдельной проверкой волевого фундамента испытуемых.

Findriver
23.06.2026 12:51
#30145930
Слушайте, большинству людей в обычной жизни не приходится сталкиваться с выбором, когда хороших решений нет. Это удел власти и руководителей. Чего же вы хотели в результатах? Вы увольняли отдел, понимая, что так надо и другого решения "хорошего" нет? Такое исследование надо делать среди обличенных властью, а не среди медианных людей. Андрею Владимировичу поклон. А дизайн надо адаптировать под задачу и способности испытуемых.
1. SER_26
  23.06.2026 12:51
  #30146776
  Вы пытаетесь опровергнуть применение классического научного подхода - метода предельного анализа, в психологии также используемого.
  
  Неверно, что обычные люди не сталкиваются с ситуациями, где «нет хороших решений». Они довольно часты, просто не так предельны. Пример: сказать ли правду (которая причинит боль или создаст проблему) или промолчать /соврать.
  
  А чтобы понять, как ИИ влияет на человека, сначала нужно узнать, как ведет себя среднестатистический представитель популяции, а не «Облечённые властью». «Медианные люди» задают точку отсчета, относительно которой затем замеряются любые отклонения. Поэтому проведение исследования на «принимающих решения» тут не имеет смысла.Статья исследует, как ИИ способен сдвигать базовые этические настройки человека. Для решения этой задачи обычные люди подходят идеально, так как они представляют бОльшую часть человечества.