К 2026 году видеосозвон стал базой рабочего общения — дейлики, синки на 15 минут, чтобы проговорить то, что можно было обсудить текстом, встречи 1-1 с руководителем. Камеры на созвонах включают всё реже, несмотря на корпоративные политики и ожидания.
Вместе с командой Контур.Толка попробовали разобраться, почему мы чаще видим чёрные квадраты вместо видео, как на это влияют культурные особенности, какие продуктовые фичи могут возродить культуру встреч с картинкой. И смогут ли ходить наши ИИ-аватары на встречи вместо нас?

Парадокс включённой камеры
Нужно ли включать камеру на звонках и помогает ли это сделать звонок более эффективным — вопрос дискуссионный. Одни исследования настаивают, что камера утомляет и снижает вовлечённость. Другие — что выключенное видео портит репутацию и сигнализирует о незаинтересованности. Давайте разбираться.
Тезис первый: камера утомляет
В 2021 году Джереми Бэйленсон из Стэнфорда опубликовал работу Nonverbal Overload, где объяснил, почему формируется усталость от онлайн-встреч. Причин несколько:
чрезмерно близкий зрительный контакт со всеми участниками одновременно;
фоновая тревожность от наблюдения за собственным лицом в углу экрана или же mirror anxiety;
ограниченная подвижность — человек буквально приклеен к камере;
повышенная когнитивная нагрузка от считывания невербалики через экран.
В том же 2021 году вышла работа University of Arizona — эксперимент со 100+ сотрудниками, 1 400+ наблюдений. Дни с включенной камерой стабильно сопровождались более высокой утомляемостью и более низкой вовлеченностью. Эффект сильнее у женщин и недавно нанятых сотрудников.
Команда Стэнфорда в исследовании на 10+ тысячах респондентов тоже подтвердила, что женщины переживают зум-усталость и mirror anxiety сильнее мужчин.
Тезис второй: выключенная камера — это репутационный долг
В апреле 2025 года в European Journal of Social Psychology вышла работа с противоположным выводом. Серия экспериментов показала: коллеги воспринимают человека с выключенной камерой как менее вовлеченного, менее ответственного и менее компетентного. Эффект воспроизводится в нескольких независимых выборках и проявляется даже в коротких пятиминутных встречах.
В этом и есть парадокс. Включаем камеру — устаём сильнее, потому что нужно быть в фокусе, не вставать со стула и концентрироваться на звонке. Выключаем — создаём у коллег впечатление не вовлечённого человека. Среднестатистическому сотруднику, у которого пять созвонов в день, остаётся выбирать между этими состояниями.
География: где включают камеру, где выключают и почему
Поведение зависит от культурного контекста сильнее, чем мы могли подумать. Интересные цифры из глобального исследования Bitrix24:
Италия — самая «камера-он» страна: только 13% звонков идут без видео.
Глобальное среднее — около 40% звонков без видео.
Индия и Латинская Америка — около 48% звонков с выключенными камерами.
Объяснения примерно такие. В южноевропейских и латиноамериканских культурах визуальная экспрессия — часть нормы коммуникации, и без видео разговор воспринимается как холодный. В Индии огромное значение имеет инфраструктурная привычка: годы работы с нестабильным мобильным интернетом приучили выключать камеру.
Японский кейс заслуживает отдельного абзаца — слишком уж он показателен. Журнал Vice описал, как японские компании стали инструктировать сотрудников расставлять окна Zoom, чтобы руководитель оказывался в верхнем левом углу, а младшие — внизу справа. То есть иерархия офисной переговорной перенеслась в сетку видеосозвона буквально, в координаты экрана. Поклон в камеру тоже стал темой методичек по корпоративному этикету.
А сколько людей включают камеру в России
Бытовое наблюдение знакомо каждому: тет-а-тет — обычно с камерой, общая встреча — как пойдёт. Чем больше людей в виртуальной комнате, тем выше шанс, что почти все будут чёрными квадратами.
Мы в Контур.Толке собираем статистику по включенным камерам и видим, что это поведенческая метрика, на которую можно влиять. Дальше — короткая история про то, как мы два года искали, что именно эту цифру двигает, и почему ML-модель для скрытия заднего фона оказалась не главным героем.
Точка отсчёта
В 2024 году мы провели в Толке опрос про раздражители: в топ-2 попали проблемы со звуком и с картинкой, 40% пользователей отдельно указали, что им важно скрывать обстановку позади себя, и 72% говорили, что встречи с включёнными камерами эффективнее. Реальная доля включённых камер в продукте на тот момент была 47% — всё ровно как в международных опросах.
Гипотеза первая: дать чистую модель
Стартовая гипотеза звучала так: если дать пользователям чистый виртуальный фон без артефактов на краях волос и наушников, страх «увидят мою кухню» уйдёт, метрика включённых камер вырастет минимум на 50%.
ИИ-команда собрала собственную модель сегментации вместо готовой Google MediaPipe, на которой Толк работал до этого (подробный технический разбор лежит у нас на Хабре). Картинка стала заметно чище, но рост метрики составил 11% вместо ожидаемых 50%. Это был первый сигнал, что качественная модель сама по себе никого не заставляет включать камеру.
Гипотеза вторая: дать удобный путь
Когда вернулись к пользовательским интервью, выяснилось: чтобы включить виртуальный фон в Толке, нужно было пройти несколько кликов по разным уровням настроек, и большая часть пользователей до этого места не доходила. Дело было не в качестве сегментации, а в том, что фича физически жила далеко от кнопки «Подключиться».
Команда переделала экран входа в конференцию — собрала кнопки для управления картинкой на странице, которую пользователь видит до старта встречи. После этого релиза доля включенных камер впервые в истории Толка превысила 50%. Превышение было небольшим, но именно оно стало переломом.

И ещё три ИИ-инструмента
В сентябре 2025-го в этот же экран мы вынесли три ИИ-инструмента: генерацию виртуального фона по текстовому промпту, бьютификацию и автоматическую подсветку лица. Доля включённых камер поднялась до 63% — на типичной встрече в Толке двое из трёх участников теперь сидят с видео.

Вывод
ML-модель в этой истории была примерно четвертью работы, а остальные три четверти — пользовательские интервью, переделка интерфейса и сборка функций в одном понятном месте. Если у пользователя нет удобной кнопки, даже лучшая сегментация фона почти не меняет поведение.
По той же логике в первом квартале 2026-го мы добавили разделение спикеров в транскрипции — для случаев, когда несколько человек сидят в одной переговорной. Сейчас в работе — детекция дипфейков и протокол с доменной лексикой клиента. Зачем продукту для созвонов дипфейк-детекция в 2026 году, понятнее станет в следующем разделе.
Кстати, про детекцию дипфейков и датасет мы выпускали статью на Хабре в конце прошлого года, вот ссылка на неё. |
Куда движется индустрия: смерть VR, рассвет ИИ-аватаров
Усталость от созвонов стала диагнозом массовой культуры — индустрия ищет способы снизить цену присутствия в кадре. Microsoft в отчёте Breaking Down the Infinite Workday сообщает, что у самых загруженных офисных сотрудников переключение между задачами происходит каждые две минуты — до 275 раз за день, если суммировать письма, чаты и встречи. На этом фоне идея «давайте все включим камеру» начинает звучать почти жестоко: камера требует сфокусированного внимания, а его к 11 утра уже почти нет.
Самые крупные сервисы для онлайн-звонков двигаются к тому, чтобы снизить «цену включения» камеры. Например, Zoom давно даёт возможность выбирать виртуальные фоны, а недавно добавил ИИ-аватары и иммерсивные представления.

Логика везде та же, что и у нас в Толке: если человек выглядит на видео чуть лучше, чем на самом деле в десять утра, он охотнее включит камеру.
Любопытно и то, как индустрия заигрывается в новые форматы, которые могли бы заменить встречи. А потом признаёт свои ошибки. Например, Microsoft делал ставку на VR-метавселенную для рабочих встреч, но проект закрылся 1 декабря 2025 года.

Параллельный сюжет — асинхронная коммуникация. ИИ-стартап HeyGen в версии Avatar 5 научился собирать фотореалистичный аватар с клоном голоса по 15-секундному видео и липсинком на 175+ языков. То есть мы теперь буквально можем делать двойников и пускать их на встречи с коллегами. Правда, вряд ли они будут выглядеть так же реалистично, как мы в 10:00 на дейлике.

Ещё один тип сервисов, который может изменить паттерн созвонов — ноуттейкеры на базе ИИ, которые подключаются к звонку вместо человека и присылают саммари. Может сработать, если на встрече вам не критично быть онлайн, но важно погрузиться в контекст.
Кажется, видеосозвон постепенно перестаёт быть единственно возможным форматом коммуникации. Часть встреч уже сейчас можно заменить трёхминутным записанным видео, в котором за вас разговаривает аватар.
Как изменятся звонки на горизонте пары лет?
Вопрос открытый. Реальное видео, чуть улучшенное видео, аватар на основе мимики, записанный заранее двойник, текстовая трансляция через ИИ — на разные типы встреч уместными могут стать разные режимы. Стендап в понедельник в 9 утра — может, и хорошо, что это будет аватар. Глубокая 1×1 встреча с тимлидом — реальное видео. Презентация для широкого круга — записанная заранее.
Делитесь в комментариях, в каком вы лагере: любите встречи с камерой или предпочитаете быть чёрным квадратом? Я, например, включаю камеру на всех встречах, но в дни, когда неважно себя чувствую, могу отключать — конечно, всегда предупреждаю об этом коллег. А ещё, бывает, во время долгой групповой встречи захочется выпить кофе или съесть кого-то — тоже стараюсь отключиться, чтобы не смущать людей. ?
Комментарии (7)

tsbt
14.05.2026 11:17Наличие включенных камер - всегда плохо сказывается на качестве восприятия того, что говорит докладчик.
На дейликах и прочих встречах - надо в рамках регламента быстро донести ключевые тезисы и ответить на возможные вопросы, а не коллег рассматривать.
Любые детали - уже круг участников значительно меньше и камера опять же только вредит процессу. Трансляции медиа контента и чата хватит для рабочих задач. Если вам надо видеть собеседника - это к работе не имеет отношения.
Если просто потрындеть собрались во внерабочей обстановке подруги или дети-родители, то польза очевидна - хоть так друг друга увидят, если географически далеко.

Diana1991 Автор
14.05.2026 11:17Интересная мысль. Но еще многое зависит от специфики созвонов... конечно, если это дейлики и цель быстро рассказать и показать, над чем работаешь и бежать дальше - можно действительно без камер. А если важна вербалика, контакт с людьми какой-то эмоциональный? Например, с руководителем на 1-1 или подчиненным - как без камеры то быть? как почувствовать, разглядеть, если у человека проблема? Ведь часто люди выражают эмоциями на лице то, чего не напишут в тексте и не скажут ртом по аудиосвязи. Лично мне неуютно общаться с людьми, у которых выкл камера, особенно, если это первая наша встреча-созвон еще и 1-1. Всегда сидишь в неведении, что там за человек? что за эмоции у него? контакт как будто неполный

Moog_Prodigy
14.05.2026 11:17А чего вы хотите по "вербалике" определить для себя? Типа, человек глаза отводит - ага, что то скрывает? Или наоборот - видно - боится, значит уважает?
Для работы это вообще зачем? Даже IRL когда никто ни с кем общаться не желает, работают докладные записки, заявления, обьяснительные, сообщения в чате в конце концов даже просто обычный телефонный звонок. Вот кстати да, обьяснительные. "Я опоздал на работу, потому что попал в ДТП" - на бумаге вполне нормально выглядит. Можно еще копию европротокола приложить или протокола от гибдд. Документ, в общем. А если вы вызовете сотрудника в режиме "заключенный-следователь" и будете из себя строить детектор лжи, наблюдая за глазами и мимикой, то ничего хорошего из этого точно не выйдет. Зачем вам "вербалика", эмоции и "чтение мыслей по лицу" на работе, если вы не нанимаете манекенщиц на подиум или "крутых мачо" для сьемки фильма? Незачем! Сосредоточьтесь на том, что они говорят, пишут и делают, а не на том, как они выглядят и куда смотрят. Вы бы еще карты Таро предложили или отбор резюме в зависимости от созвездия "обосравшегося волопаса".

Roman_Grey
14.05.2026 11:17В чем сложность понять, что человеку просто не надо, чтобы его на камеру разглядывали? Захочет - он вас сам заставит с него глаз не сводить.
shaggyone
Когда команда распределена по миру, включающие видео с высокой вероятностью становятся причиной плохой связи у других. Соответственно выбор, или картинка, или связь.
ComputerPers
Все верно, очнь часто на встречах просят отключить камеры по этой ппичине.
shaggyone
У нас в фирме по дефолту камеры все выключают. Говорящий включает по желанию. В созвонах 1 на 1 когда как.