
OpenAI представила результаты масштабного исследования, в котором более тысячи человек со всего мира оценивали поведение языковых моделей в этически сложных ситуациях. Это часть программы по так называемой «коллективной настройке» (collective alignment), цель которой — приблизить ответы ИИ к общественным ожиданиям.
Когда пользователь спрашивает ChatGPT о политике, религии или этике — модель старается быть нейтральной. Но что считать «нейтральностью»? Где заканчивается осторожность и начинается цензура? До недавнего времени такие решения принимались исключительно внутри команды OpenAI. Теперь начали спрашивать общество.
Коллективная настройка — попытка сделать поведение модели более прозрачным и соотносимым с разными социальными и культурными нормами.
? Как проходило исследование
OpenAI организовала опрос, в котором 1 012 участников из разных стран оценивали поведение модели в 1 078 ситуациях. Участникам предлагалось прочитать запрос к модели и четыре варианта ответа, после чего нужно было выбрать наилучший.

Примеры тем:
обсуждение религии;
просьбы о создании эротического контента;
моральные дилеммы;
споры о правах, идентичности, культуре.
Всего было собрано 18 384 пользовательских оценок. Эти данные легли в основу датасета Collective Alignment 1 (CA-1), который OpenAI опубликовала в открытом доступе.
Структура датасета:
comparisons.jsonl
— пары «запрос + ответы + пользовательские оценки»;annotators.jsonl
— демографические данные участников;merged_comparisons_annotators.jsonl
— объединённый набор для анализа.
Датасет доступен на ? HuggingFace
? Что такое Model Spec
Model Spec — это спецификация поведения моделей OpenAI, своего рода внутренний «кодекс» ИИ. Он определяет, как модель должна отвечать на спорные вопросы, где нет единственно верного ответа.
Примеры принципов:
сохранять уважительную, но нейтральную позицию;
не высказывать собственных оценочных суждений;
избегать генерации контента для взрослых (в том числе по запросу);
поддерживать общедоступную, а не индивидуальную трактовку фактов.
Исследование было направлено на то, чтобы выяснить: насколько эти правила соответствуют мнению пользователей? И если не соответствуют, то готовы ли разработчики их пересматривать?
? Что изменилось по итогам
OpenAI классифицировала все полученные оценки по трём категориям:
1. Уточнения
Мнения участников совпадали с действующей Model Spec, но формулировки оказались недостаточно чёткими. Эти положения были переработаны и дополнены.
2. Изменения
Некоторые оценки прямо противоречили текущим правилам. Например, значительная часть респондентов поддержала идею, что ИИ может создавать откровенный текст для взрослых (при соответствующих ограничениях). Эти вопросы были признаны спорными и отложены для дальнейших обсуждений.
3. Нереализованные предложения
Некоторые запросы не были внедрены, либо по техническим причинам, либо из-за несоответствия базовым ценностям OpenAI (например, политической нейтральности).
? Как это влияет на разработчиков
Во-первых, это публичный этический прецедент: крупная ИИ-компания делегирует часть этических решений широкой аудитории.
Во-вторых, открытый датасет даёт возможность другим лабораториям и исследователям обучать ранжировщики, сравнивать поведение моделей, или анализировать, как люди воспринимают моральные дилеммы.
Для компаний, которые интегрируют LLM в продукты, это важный сигнал:
Пользовательские предпочтения можно (и нужно) учитывать в настройке моделей.
Этика — это не только фильтры, но и обоснованные принципы, подкреплённые общественным доверием.
Модели будущего должны адаптироваться не к одному «вселенскому стандарту», а к разным культурам, рынкам и контекстам.
⚠ Ограничения подхода
OpenAI честно признаёт ряд проблем:
Model Spec Ranker (модель, которая оценивает соответствие ответов принципам) - сам по себе ИИ, а не идеальный судья;
ответы участников могли зависеть от формулировки, контекста и интерфейса;
выборка всего 1000+ человек, хоть и разнообразных по полу, возрасту и географии;
обсуждались примеры, а не абстрактные принципы, а это создаёт разрыв между частным и общим.
? Что в итоге
OpenAI сделала шаг в сторону демократизации настройки ИИ, и пусть он неидеален, но важен. Коллективная настройка - это попытка приблизить работу моделей к реальным ожиданиям пользователей. Она открывает путь к этически устойчивому и общественно приемлемому ИИ, в котором слышен не только голос разработчиков, но и голос людей.
? Полезные ссылки
Датасет CA-1 на Hugging Face
Разбор исследования NEURO-AI
MbongoMutombo
Чем не угодил эротический контент?
stas-clear Автор
Это же временно. Видимо приоритеты другие пока.
MbongoMutombo
Мы все тут временно.
Чем эротика всем мешает?