Survival analysis, или предсказание смерти пациента / forpes.ru

Главная
Survival analysis, или предсказание смерти пациента

Survival analysis, или предсказание смерти пациента -1

25.02.2026 05:15

igor-shchukin 10 5700 Источник

«Да как ты смеешь! Что ты на себя берёшь?» — могут сказать некоторые из читателей.

И действительно, на первый взгляд идея разрабатывать модели, которые предсказывают, через сколько умрёт человек, звучит пугающе и даже аморально. Но если копнуть глубже, становится ясно: речь идёт не о «предсказании смерти» как факта, а о предсказании «риска смерти» на данный момент времени, что потенциально даёт возможность отслеживать этот риск и возможно даже управлять им.

Эта область называется Survival analysis — анализ выживаемости. Разумеется, мы рассчитываем получить положительный исход, что и подсвечивается в названии.

В этой статье разберём:

что такое survival analysis?
зачем это нужно в медицине и других областях?
какие математические особенности делают её уникальной?
и почему без неё современное здравоохранение, фармацевтика и страхование фактически блуждают в темноте?

Так что же такое survival analysis и в чём его отличие от задачи классификации или регрессии?

Представим медицинское исследование где-то в антиутопии. За пациентами наблюдают пять лет. Часть пациентов к концу наблюдения умерли. Часть — живы.

Мы не знаем, когда умрут те, кто жив. Но знаем, что они прожили как минимум пять лет. И решили построить модель, которая будет предсказывать "время до смерти".

Если попытаться обучить обычную регрессию такой таргет, то возникает простой вопрос: что делать с теми, кто ещё жив? Исключить их? Тогда мы получим смещение выборки. Подставить фиктивное значение? Тогда исказим распределение.

Survival analysis изначально построен так, чтобы учитывать такие данные корректно. В этом его фундаментальное отличие.

Он не требует знать точное время события для каждого наблюдения.
Ему достаточно знать, что событие либо произошло в момент t, либо не произошло до момента t. Такие наблюдения называются right-censored.

"Окей. Давай тогда учить модель бинарной классификации: умрёт ли пациент в течение года?" - скажете вы.

Проблема в том, что это грубая дискретизация непрерывного процесса.

Пациент, умерший через 11 месяцев, и пациент, умерший через 13 месяцев, окажутся в разных классах. Хотя их клинический профиль может быть почти идентичным.

Кроме того, такая постановка не позволяет оценивать, как меняется риск во времени, тем более, если в качестве риска мы хотим видеть именно вероятность (привет MML и логистическая регрессия), а не загадочные скоры модели. Именно динамика риска имеет ключевое значение и позволяет принимать стратегические решения.

Survival-model оценивает функцию выживания — вероятность дожить до времени .

Это уже не «0 или 1», а полноценная работа с распределением вероятностей.

Где это потенциально важно отслеживать?

Я говорю потенциально, потому что пока решение этой задачи только внедряется в реальные процессы и далеко не везде осмеливаются ей заняться. Но в компаниях и кейсах ниже Survival-analysis может привнести очень серьёзный буст в решение:

в медицине (предсказание времени смерти, чтобы вовремя изменить стратегию лечения)
в банкинге (предсказание времени до дефолта, чтобы вовремя предпринять меры и провести коммуникацию или помочь клиенту)
в телеком-компании (предсказание времени до оттока клиента, чтобы успеть провести коммуникацию и удержать клиента, хотя с оттоком компании пока работать не умеют)
в промышленности (предсказание времени до отказа оборудования, чтобы в плановом режиме провести ремонт, а не экстренно)
в страховании (время до наступления страхового случая, чтобы предупредить клиента или просто ввести динамический платёж)

Думаю, комментарии тут излишни. Только встаёт другой вопрос: как правильно работать с предотвращением событий, которые мы хотим детектировать? А это уже совсем другая история...

Какие же методы и какая математика позволяют решать такую задачу?

Survival-analysis интересен ещё и тем, что он стоит на стыке статистики и машинного обучения. И когда-нибудь я точно расскажу про эти вещи подробнее, но не сейчас:)
Поэтому здесь пока список инструментов, ссылки на объяснение которых будут постепенно появляться.

Из классики-статистики можно отметить:

кривые Каплана-Майера (обычно в низкоразмерных временных рядах)
модель Кокса
AFT

И немного поинтереснее

Random Survival Forest
нейронные сети (например, вариации DeepSurv)
гибридные модели с временными ковариатами
early classification подход к задаче (нечто вроде RNN + RL)

Это заставляет мыслить не в терминах «точность предсказания класса», а в терминах ранжирования риска во времени и среди пациентов (для медицинского контекста).

С метриками остаётся ещё больше вопросов, о которых мы обязательно с вами поговорим в следующих статьях.

И всё-таки - про этику

Возвращаясь к началу. Да, формулировка «предсказание смерти» звучит резко.

Но если убрать «моральность», становится ясно: survival analysis — это инструмент количественной оценки риска с целью воздействия на него.

Врачи, например, всегда работают с некоторым прогнозом (своим или коллег). Это неизменно, потому что речь про будущее, которое неизвестно. Поэтому этический вопрос возникает не из‑за самой модели, а из‑за целей её применения и надёжности модели. Как и любой инструмент, она может использоваться ответственно или безответственно.

Но отказываться от неё только потому, что название неприятное, — значит отказываться от возможности лучше понимать риск и, может быть, вовремя на него повлиять.

Survival analysis — это один из способ узнать, произойдёт ли критическое событие и когда, а вот как с этим работать... Это уже совсем другая история, и мы пока этого не умеем

P.S. Если уж быть совсем честным, то вся медицина — это работа с неопределённостью. Просто здесь у неё появляется математический аппарат, который ТОЖЕ (к сожалению) может ошибаться. Только в этом случае непонятно кто будет нести за эти ошибки ответственность.

В этом и сидит вся «неэтичность» задачи

Комментарии (10)

GodAdministrator
25.02.2026 05:25
#29581138
Игорь, а не будет ли более эффективным вкладывание средств в поиск механизмов работы человеческого тела? Просто сейчас ощущение, что ваша работа направленна на изучение последствий работы чёрного ящика с некой статистической вероятностью вместо изучения самого ящика.
Например, Водовозов рассказывает, что врачи до сих пор не знают механизм работы Парацетамола хоть и используют его сплошь и рядом.
Может проще начать изучать "источник проблем" - самого человека?
1. mmans
  25.02.2026 05:25
  #29581204
  40 с лишним лет назад уже был открыт "альтернативный" медицинский фундамент и тут же был задушен. Фарминдустрии это не нужно, "nothing personal, just business"
  1. ExoWeb
    25.02.2026 05:25
    #29583064
    Поясните, пожалуйста, что вы имели ввиду под "альтернативным медицинским фундаментом"?
1. igor-shchukin Автор
  25.02.2026 05:25
  #29584688
  Тут вопрос в том, чего мы хотим добиться: даже, если предположить, что мы идеально знаем механизмы работы человеческого тела, то любые новые вводные (лёгкие стресс при просмотре фильма) уже будут влиять на это. Т.е. мы в любом случае не можем учесть вообще все вводные и максимально точно предсказать, что случится с человеком.
  
  Это как если бы мы знали идеально точно расположение всех частиц во вселенной, то мы смогли бы предсказывать будущее (только в этом случае), но мы этого, к сожалению, не знаем

oeditus
25.02.2026 05:25
#29581614
Я прям расстроился, не найдя в списке предсказания курсов валют и стоков, землетрясений и прочих случайных событий.
1. igor-shchukin Автор
  25.02.2026 05:25
  #29584700
  Тут не стоит задача предсказания что будет (просто предсказать факт), в рассмотренных кейсах стоит задача оценки риска. Чуть более тонкая задача.
  
  А валюта и стоки это скорее задача обычной предиктивной аналитики, что вполне сейчас решается. А вот про землетрясения возможно можно было бы применить такой подход, только в целом интересно как сейчас это работает. Вроде немного заранее умеют уже это делать.
  1. oeditus
    25.02.2026 05:25
    #29584718
    валюта и стоки это скорее задача обычной предиктивной аналитики, что вполне сейчас решается
    
    Серьёзно? Решается? А где же коллапс мировой экономики, гипердевальвация и все сопутствующие? Где бенефициары, наконец?
    
    Оценка риска и предсказание — это одна и та же задача (если под предсказанием не понимать обещания).
    
    igor-shchukin Автор
    25.02.2026 05:25
    #29584788
    С какой-то точностью решается) Как минимум с криптовалютой я строил модель с вполне неплохим качеством в разрезе прибыли
    
    Оценка риска и предсказание - это разные вещи. Предсказание - доллар будет стоить N рублей, риск - с вероятностью X курс упадёт. Игрушечный пример, но оценка риска обычно более сложная задача, потому что это в каком-то смысле оценка с какой вероятностью выполнится прогноз, а с какой нет.
    
    oeditus
    25.02.2026 05:25
    #29584812
    с криптовалютой я строил модель с вполне неплохим качеством в разрезе прибыли
    
    А ~~таксуете~~ на хабре пишете — для души?
    
    Предсказание — доллар будет стоить N рублей […]
    
    У вас нет монополии на переопределение базовых значений слов русского языка. «С вероятностью X курс упадёт» — это тоже предсказание. «Доллар бедет стоить N» — это предсказание курса, а «курс упадет» — предсказание знака его первой производной.
    
    оценка риска обычно более сложная задача
    
    Мощность оценки риска меньше оценки точного курса, поэтому оценка риска, очевидно, всегда проще.
    
    igor-shchukin Автор
    25.02.2026 05:25
    #29588536
    На хабре пишу для души и развития личного бренда) Могу себе позволить радовать себя)
    Делал модель для компании, и чтобы на той модели в крипте зарабатывать должен быть очень хороший базис бюджета) Так что не переживайте по этому поводу
    И можете постараться не цепляться к словам в комментариях или в диалоге с людьми, а говорить свои мысли. Думаю, у вас там есть что-то стоящее.
    
    Есть ощущение, что вы далеки от реальных кейсов решения задач (как предсказания, так и оценки риска) методами машинного обучения и ответственности, которая за этим стоит. Поэтому конструктивного диалога, к сожалению, у нас не получится.
    За словами "с вероятностью X ..." стоит много всего, что многие не видят, в том числе связь с реальностью.
    
    Когда я использовал термин "предсказание," я говорил также в терминах машинного обучения, надеясь, что вы хоть немного имеете опыт и разбираетесь в этой теме раз заглянули почитать эту статью.
    
    В общем, к сожалению, или к счастью мне с вами не о чем разговаривать, потому что конструктивно в рамках машинного обучения и данного семейства задач мы с вами не сможем пообщаться.

Survival analysis, или предсказание смерти пациента -1

Так что же такое survival analysis и в чём его отличие от задачи классификации или регрессии?

Где это потенциально важно отслеживать?

Какие же методы и какая математика позволяют решать такую задачу?

И всё-таки - про этику

Комментарии (10)

GodAdministrator

mmans

ExoWeb

igor-shchukin Автор

oeditus

igor-shchukin Автор

oeditus

igor-shchukin Автор

oeditus

igor-shchukin Автор