Автор перевода: Снежана Киселева (ТГК: Анализ данных и BI)
Аргумент в пользу анализа, выполняемого человеком (по крайней мере, пока)
ИИ заставляет нас, аналитиков, посмотреть на себя в зеркало и задаться вопросом: какова ценность создания и распространения графиков и диаграмм вручную?
Большие языковые модели (LLM) могут генерировать запросы и код для создания убедительных диаграмм на основе подсказок на естественном языке за считанные секунды. Они знают синтаксис, который мы забыли, пакеты, о которых мы никогда не слышали, и слишком охотно откликаются на каждое требование руководителей о создании диаграмм в любое время суток!
Но что стоит за диаграммой?
По сути, диаграмма сжимает большой объем данных в легко понятную информацию, на основе которой люди, как мы надеемся, могут принять меры. Зритель диаграммы должен быть уверен, что её создатель1 позаботился о том, чтобы она была правильной2 и уместной3. В противном случае зрителю пришлось бы пройти собственный аналитический процесс, чтобы самостоятельно получить эту информацию.
Сноски
Будь то человек или машина.
Насколько это можно подтвердить, приложив разумные усилия.
То, что график правильный, ещё не значит, что это подходящий график.
Итак, давайте рассмотрим те части процесса создания диаграмм, где ИИ все еще не справляется — не только чтобы указать на его текущие ограничения, но и чтобы подчеркнуть, где аналитики-люди приносят наибольшую пользу. Если вы работаете в бизнес-аналитике, эта статья поможет вам лучше понять, как сотрудничать с инструментами ИИ, где оставаться вовлеченным, и как проектировать свои рабочие процессы и модели данных таким образом, чтобы как люди, так и машины могли генерировать более надежные данные.
В DataCamp мы много думаем о том, как выглядит отличная аналитика в эпоху ИИ. Будучи платформой, которая обучает как техническим, так и стратегическим аспектам современной бизнес-аналитики, мы на собственном опыте убедились, что лучшие результаты достигаются благодаря сочетанию скорости ИИ и человеческого суждения. В этой статье представлены некоторые из ключевых закономерностей, которые мы наблюдали, и практические выводы, которые, по нашему мнению, должны использовать специалисты по бизнес-аналитике.
4 области, в которых ИИ не справляется с процессом создания диаграмм
Отсутствие метаданных
Отсутствие дополнительных данных
Понимание приходит через исследование
Сжатие является неточным и произвольным
Отсутствие метаданных
Рассмотрим этот простой набор данных о продажах:
customer_id |
customer_name |
order_date |
amount |
region |
sales_rep |
1001 |
ACME |
2024-01-15 |
2500.00 |
NE |
Johnson |
1002 |
Bill Sanchez |
2024-01-16 |
1200.50 |
SW |
Martinez |
1003 |
Skynet |
2024-01-17 |
NULL |
SE |
NULL |
Промпт для ИИ «показать продажи по регионам» мгновенно сгенерирует диаграмму:

И эта диаграмма кажется вполне разумной. Зачем её оспаривать?
Что ж, давайте посмотрим на контрфактную ситуацию, когда человек отвечает на тот же вопрос. Хотя он может сразу создать ту же или похожую диаграмму, он с большей вероятностью найдет важный контекст метаданных в процессе изучения данных при создании диаграммы:
customer_id
на самом деле представляет как индивидуальных клиентов, так и корпоративные аккаунты (что требует потенциально разных подходов к анализу).amount
представляет общую стоимость заключенного контракта, а не полученные денежные средства или признанный доход (что критически важно для финансовой отчетности).Значения NULL в поле
sales_rep
указывают на продажи через партнёрские каналы (что представляет собой совершенно иную бизнес-модель).
Вы запросили «продажи по регионам» и на графике, созданном ИИ, увидели, что регион Юго-Восток (SE) показывает низкие результаты. Очевидным следующим шагом было бы сосредоточиться на улучшении работы отдела продаж в этом регионе. Однако исследование метаданных, проведённое аналитиком-человеком, показывает, что это было бы совершенно неверным шагом.
Углубившись в данные, аналитик мог бы обнаружить, что низкая производительность региона Юго-Восток на самом деле вызвана проблемами со сбором платежей по партнёрским продажам (те самые NULL-значения в sales_rep
), а не неэффективностью прямых продаж. Это не регион терпит неудачу — это партнёрский канал испытывает трудности.
Таким образом, версия графика от аналитика может выглядеть примерно так:

Это не совсем то, что вы запрашивали, и в этом вся суть.
Без этого человеческого исследования, которое вышло за рамки вашего запроса, вы бы отчитывали не тот отдел продаж за низкую производительность, в то время как вам следовало бы связаться с вашими партнёрами по каналу. Кроме того, эти выводы также имеют значение для модели данных. Вы обнаружили, что вам требуется несколько преобразований и метаданных, встроенных в эту таблицу, чтобы её можно было более надёжно использовать LLM или другим человеком для создания графика на основе этих данных.
Следует отметить, что многие BI-инструменты используют различные методы для предоставления LLM большего доступа к метаданным, таким как схемы, словари данных и dbt, но все они предполагают, что метаданные были записаны, что часто не соответствует действительности.
Недостаток дополнительных данных
Существуют данные, которые ИИ знает; данные, которые ИИ не знает; данные, которые ИИ знает, что не знает; и данные, которые ИИ не знает, что не знает.
Данные, необходимые ИИ для интерпретации графика или метрики, могут быть совершенно неожиданными и их трудно заблаговременно сделать доступными. Рассмотрим расширенную версию того же набора данных и попросим ИИ объяснить падение выручки в марте 2024 года:


Эти предложения потенциально стоит изучить, и общая рекомендация о том, что это аномалия, имеет смысл. Однако опытный аналитик, скорее всего, интуитивно почувствует истинную первопричину. Например, аналитик-человек может знать о некоторых данных, существующих вне базы данных, которые, по его мнению, могут быть причиной:
Внешнее рыночное событие: Ваш основной конкурент провёл крупную акцию в том месяце.
Внутренняя активность: Ваша команда по ценообразованию провела A/B-тест, который случайно исключил 30% потенциальных клиентов.
Историческая справка: Ключевой партнёр по интеграции изменил свой API, что привело к сбоям в процессах регистрации на две недели.
Эти открытия требуют данных, которые распределены по всей организации и её экосистеме, а не только в базе данных, подключённой к BI-инструменту.
Это позволяет нам лучше понять, что происходит с данными, в отличие от менее информированных предположений. В будущем всё больше потоков информации, безусловно, будут учитываться в контекстных окнах больших языковых моделей (LLM), и многие команды оценивают, как спроектировать свои данные, чтобы они были более понятными для ИИ. Однако в настоящее время, чтобы попытаться определить причинно-следственные связи, вам нужен инстинкт человека-аналитика для генерации вероятных гипотез и подтверждения теорий.
Понимание рождается в процессе исследования
Реальные наборы данных зачастую грязные, и очистка данных играет ключевую роль в получении правильного ответа. Давайте вернёмся к нашим данным о продажах и добавим ещё пару полей, связанных с заказами:
customer_id |
customer_name |
order_date |
amount |
region |
total_orders |
order_type |
1001 |
ACME |
2024-01-15 |
2500.00 |
NE |
3 |
new |
1001 |
ACME |
2024-03-22 |
NULL |
NE |
3 |
renewal |
1002 |
Bill Sanchez |
2024-01-16 |
1200.50 |
SW |
1 |
new |
Теперь вам предстоит принять несколько решений по очистке данных:
Считать ли ACME одной продажей на $2500 или отслеживать их покупательскую активность с течением времени?
Что означает значение NULL во второй записи ACME — возврат, ожидаемое продление или ошибка ввода данных?
Что ж, можно спросить ИИ, что делать, и мы так и сделали:

Аналитик часто оказывается в ситуации, когда ему нужно согласовать, а затем кодифицировать то, как несколько команд хотят видеть бизнес-логику. Поговорив с бухгалтерией и отделом продаж, они определяют: «У ACME есть продление без указанной суммы — вероятно, они обсуждают условия или есть задержка обработки». Затем аналитик может решить, исключить эту запись, оценить сумму или создать отдельный трек для анализа продлений.
Это может быть одноразовое решение или нечто, что будет учтено в модели данных. Если бы мы просто попросили ИИ построить график средней суммы продаж, мы, возможно, никогда бы не столкнулись с этой странностью и не очистили бы её. Опять же, человек, который ищет ответ, находит возможности улучшить данные для всех, включая ИИ.
Сжатие — это потери и произвол
Даже когда ИИ выдаёт абсолютно правильный график, он может быть не тем графиком, который нужен. Одни и те же данные о продажах рассказывают совершенно разные истории в зависимости от представления. Вот как можно представить наши данные об эффективности продаж:
Просто цифра — «Общий объём продаж: $1,2 млн» (Звучит хорошо! Но по сравнению с чем? Сколько было в прошлом месяце?)

Простая гистограмма — Продажи по регионам, показывающая, что Юго-Восток (SE) отстаёт от Северо-Востока(NE) и Юго-Запада (SW) (подтверждает ваше предубеждение, что команде Юго-Востока нужна помощь)

Полностью аннотированная и контекстуализированная диаграмма — та же самая диаграмма, но с выделением партнерских продаж, показывающая, что прямые продажи SE на самом деле сильны, а проблема заключается в ошибке обработки платежей через партнерский канал, которая началась в третьем квартале. Отраслевые бенчмарки и тенденции роста показывают, что общая производительность превосходна.

(Примечание: все эти диаграммы были сгенерированы Claude, ИИ-ассистентом, созданным Anthropic.)
Чтобы было ясно, вы можете использовать ИИ для создания любой из них (как это сделал я!). Но когда люди сами работают с ИИ, достигнут ли они нужного уровня глубины и понимания или остановятся на получении просто цифр? ИИ может предоставить пользователям вводящую в заблуждение промежуточную версию, но если бы данные были переданы аналитику-человеку, он, вероятно, знал бы, как копать глубже и представить данные таким образом, чтобы это привело к правильным действиям.
Насколько бы полной ни казалась эта финальная диаграмма, это все еще лишь один из многих способов понять эти данные. Мы могли бы сегментировать по размеру клиента, рассмотреть ежемесячные тенденции, отфильтровать продления и т. д. Мы также могли бы проанализировать эти данные по неделям или дням. Фокус на региональных итогах без сегментирования партнерских и прямых продаж несколько произволен, а месячная детализация сглаживает ежедневную волатильность, которая могла бы выявить, когда началась проблема с партнерскими платежами.
Аналитик часто создает множество диаграмм, прежде чем остановиться на одной представленной, и поэтому может сделать оговорки, контекстуализировать или быстро ответить, почему эта диаграмма была выбрана, и помочь людям задать дополнительные вопросы. Представление одной диаграммы, которая не показывает всей картины, является особенностью, а не ошибкой визуализации данных. Это позволяет представить сфокусированный, понятный взгляд на данные.
В конечном итоге, как аналитик, вы должны спросить себя: устраивает ли вас, что эта диаграмма представляет все базовые данные? Готовы ли вы представить эту диаграмму, чтобы другие могли на ее основе делать надежные выводы?
Сохраняйте спокойствие и продолжайте использовать ИИ
Отличная аналитика — это не быстрое создание диаграмм, это формирование уверенности в решениях посредством тщательного исследования данных. Каждое открытие, дизайнерское решение и контекстная аннотация представляют собой бизнес-анализ, выполненный аналитиком-человеком (это вообще каламбур? Если да: так задумано).
В эпоху ИИ преуспеют те аналитики, которые примут ИИ как мощный инструмент для написания кода, признавая при этом, что самая ценная аналитическая работа — мышление, постановка вопросов и контекстуализация — остается фундаментально человеческой.