Когда – август 2005 года.
Где – журнал PLOS Medicine.
Кем – Джон Иоаннидис, профессор Стэнфордской медицинской школы.
Что – эссе под названием «Why Most Published Research Findings Are False».

Любой человек, который читает научные публикации и сам пишет статьи для научных рецензируемых журналов, на мой взгляд, обязан быть в курсе этого эссе, фактически взорвавшего научный мир двадцать лет назад.

Суть статьи заключена в её заголовке: автор на основании выдвинутых им предположений построил статистическую модель, которая предсказала, что большинство опубликованных результатов, вероятно, являются ложноположительными – то есть, говоря простым языком, согласно Иоаннидису большинство опубликованных результатов (якобы найденных взаимосвязей и зависимостей) на самом деле являются ложными.

Поскольку проблема невоспроизводимости результатов исследований в научном мире стояла и стоит крайне остро, и у огромного количества учёных были большие сомнения в достоверности значительного массива опубликованных результатов исследований – статья быстро стала очень популярной. Быстро выйдя за пределы медицины и биологии, в рамках которых, собственно, и была написана.

/Проблема невоспроизводимости результатов исследований заключается в том, что полученные и опубликованные результаты, не подтверждаются другими, независимыми группами учёных. При этом у этой проблемы есть три уровня глубины. Первый – никто просто не перепроверял эти результаты. Второй – другие группы учёных пытались перепроверять, но у них получились другие результаты. Третий – сам эксперимент построен или описан таким образом, что его невозможно провести повторно для верификации его результатов.

Проблема невоспроизводимости результатов исследований стоит крайне остро.

Но точно так же, огромным числом учёных эта статья была воспринята «в штыки» - была воспринята резко негативно, поскольку эта статья, по сути, ставила под сомнение всю современную организацию науки – как якобы неэффективную. И даже если сам Иоаннидис не ставил перед собой именно такую цель, именно её ставили те, кто эту статью активно продвигал.

В то же время, несмотря на огромное число критикующих и большое их желание раскритиковать выводы Иоаннидиса, основные мысли, изложенные в статье, так и не были оспорены. Оспорены были лишь различные второстепенные допущения, влияющие на оценку степени остроты проблемы.

То есть, говоря по-простому, критики сказали «да, проблема есть, но всё-таки не большинство опубликованных результатов исследований ложны – а, напротив, меньшая часть.

Так биостатистики Джагер и Лик пришли к выводу, что ложноположительные результаты в биомедицинских исследованиях составляют лишь 14%, а статистик Ульрих Шиммак оценил таковые как «не более 17%».

В любом случае, вне зависимости от того, какая из цифр является более достоверной – как мне кажется, крайне важно понимать:

• что сама по себе отдельная публикация в научном журнале тех или иных данных ещё не является доказательством. Даже критики Иоаннидиса это признают.

• причины, по которым ложные результаты исследований публикуются в научных журналах.

• какие признаки указывают на рост вероятности ложности опубликованных в научных статьях результатов.

В первую очередь Иоаннидис вслед за Sterne JA, Davey Smith G, Wacholder S, Chanock S, Garcia-Closas M, Elghormli L, Rothman N, Risch NJ критикует стратегию утверждения об окончательных результатах исключительно на основе единственного исследования, оценённого по формальной статистической значимости – как правило речь идёт о критерии «при p-значении менее 0,05».

Кажущаяся достаточно высокой на первый взгляд вероятность истинности утверждения в 95% на самом деле обозначает, что с вероятностью до 1/20 данное утверждение является ложным.

Таким образом, даже если исключить из рассмотрения все прочие факторы, чисто статистически 100 исследований, направленных на проверку истинности на самом деле ложных гипотез – могут породить до 5 научных публикаций, где с требуемыми показателями формальной статистической значимости данные гипотезы будут продемонстрированы как подтверждённо истинные.

При этом, как правило, исследования, которые показывали бы ложность той или иной гипотезы – не публикуются. Публикуются лишь те, где экспериментальные данные с нужной формальной статистической значимостью указывают на истинность гипотезы.

Это приводит к тому, что, если в мире проверкой какой-либо ложной гипотезы изолированно, независимо друг от друга, занимается множество команд – с ростом числа этих команд мы получаем рост вероятности публикации исследований, постулирующих истинность проверяемой гипотезы. Причём с определённого числа таких команд мы получаем крайне высокую вероятность публикации уже множественных публикаций, каждая из которых доказывает истинность изначально ложной гипотезы.

Пример от Иоаннидиса:

Для Лиги Лени:

представьте, что у вас 100 000 проверяемых ложных гипотез. Очевидно, что при пороге в 95% вероятности вы получите до 5 000 «подтверждённых в результате эксперимента в качестве истинных гипотез», даже если исследователи никак не манипулируют во время исследования и интерпретации результатов. А если манипулирует – то результаты и того больше.

При этом если истинных гипотез всего лишь 10 – они просто потеряются на фоне ложноположительных.

И именно таковы зачастую исследования, какой именно ген в геноме человека коррелирует с какими характеристиками человеческого поведения.

Для Стойких и Смелых:

««< Предположим, что группа исследователей проводит ассоциативное исследование всего генома, чтобы проверить, связан ли какой-либо из 100 000 полиморфизмов генов с восприимчивостью к шизофрении. Исходя из того, что нам известно о степени наследуемости заболевания, разумно ожидать, что, вероятно, около десяти полиморфизмов генов среди исследованных будут действительно связаны с шизофренией, с относительно схожим отношением шансов около 1,3 для примерно десяти полиморфизмов и с довольно схожей способностью идентифицировать любой из них. Тогда R = 10/100 000 = 10^−4, и вероятность связи любого полиморфизма с шизофренией до начала исследования также равна R/(R + 1) = 10^−4. Предположим также, что исследование имеет 60%-ную мощность для обнаружения ассоциации с отношением шансов 1,3 при α = 0,05. Тогда можно оценить, что если статистически значимая ассоциация обнаружена при значении p, едва превышающем порог 0,05, вероятность того, что это действительно так, после исследования увеличивается примерно в 12 раз по сравнению с вероятностью до начала исследования, но всё равно составляет всего 12 × 10^−4.

Теперь предположим, что исследователи манипулируют своим дизайном, анализом и отчетностью таким образом, чтобы большее количество взаимосвязей превысило порог p = 0,05, хотя это не было бы достигнуто при идеальном соблюдении дизайна и анализа, а также при идеальном и всеобъемлющем представлении результатов в строгом соответствии с исходным планом исследования. Такие манипуляции могут осуществляться, например, путем случайного включения или исключения определенных пациентов или контрольных групп, ретроспективного анализа подгрупп, исследования генетических контрастов, которые изначально не были указаны, изменения определений заболевания или контрольной группы, а также различных комбинаций выборочного или искаженного представления результатов. Коммерчески доступные пакеты «интеллектуального анализа данных» действительно гордятся своей способностью выдавать статистически значимые результаты посредством выемки данных. При наличии смещения с u = 0,10 вероятность того, что исследовательский вывод истинен, после исследования составляет всего 4,4 × 10^−4. Более того, даже при отсутствии какой-либо предвзятости, когда десять независимых исследовательских групп проводят аналогичные эксперименты по всему миру, если одна из них обнаруживает формально статистически значимую связь, вероятность того, что результаты исследования верны, составляет всего 1,5 × 10^−4, что едва ли выше той вероятности, которая была у нас до начала этого обширного исследования!»»>

В дополнение к основному результату, Иоаннидис перечисляет шесть следствий, касающихся факторов, которые могут влиять на надежность опубликованных исследований. По его мнению, результаты исследований в научной области тем с меньшей вероятностью окажутся истинными,

• чем меньше проведённых исследований,

• чем меньше величина эффекта (сила взаимосвязи),

• чем больше число и чем меньше выбор/отсев проверяемых взаимосвязей,

• чем больше гибкость в дизайне, определениях, результатах и аналитических методах,

• чем больше финансовых и других интересов и предубеждений,

• чем более напряженной является научная область (с большим количеством вовлечённых научных групп).

На основании вышеперечисленных следствий, а точнее частоты их наличия при публикации научных исследований, Иоаннидис пришёл к той самой сильно критикуемой другими оценке, что большинство результатов научных исследований ложны для большинства исследовательских дизайнов и большинства областей – что добиться в описанной им системе вероятности достоверности опубликованных данных выше 50% довольно сложно.

Заканчивает свою статью Иоаннидис рассуждениями о том, как много ресурсов тратится на исследования, где изначально полезный эффект околонулевой и своими рекомендациями, что можно было бы сделать для повышения среди опубликованных в научных журналах результатах исследований доли истинных: в основном Иоаннидис сосредоточен на вопросах:

• роста статистической значимости выборок,

• проведении параллельных независимых исследований разными группами с регистрацией всех результатов,

• более жёсткому предтестовому отбору, какие именно гипотезы планируются к проверке.

Иоаннидис дополнительно внёс свой вклад в эту работу, приняв участие в метаэпидемиологическом исследовании, которое показало, что только 1 из 20 вмешательств, протестированных в Кокрейновских обзорах, имеет преимущества, подтвержденные высококачественными доказательствами. Он также внёс вклад в исследование, предполагающее, что качество этих доказательств, по-видимому, не улучшается со временем.

P.S. В 2016 году Иоаннидис ещё раз вернулся к данной проблеме. На этот раз он сформулировал основные причины высокого уровня ложноположительных результатов в клинической медицине и биомедицинских исследованиях следующим образом:

* исследователи часто работают в одиночку или малыми группами, изолированно, ограничены небольшими выборками,

* отсутствует предварительная регистрация проверяемых гипотез. Что приводит к выбору гипотез постфактум – из чисел с наилучшими значениями P,

* для публикации обычно требуется лишь соблюдение критерия «p < 0,05»,

* отсутствует повторение аналогичных исследований,

* отсутствует обмен данными между исследователями.

P.P.S.

Последний крупный всплеск интереса к этой теме массового читателя произошёл в 2018 году, когда доктор Ричард Хортон, редактор уважаемого научного медицинского журнала The Lancet в своей авторской колонке в очередной раз поднял внимание к данной проблеме, перечислив свои рекомендации в части мер по увеличению достоверности публикаций в научных журналах.

Впрочем, эти здравые рекомендации привлекли гораздо меньшее внимание, чем одна из сопутствующих фраз: «much of the scientific literature, perhaps half, may simply be untrue» - «значительная доля научной литературы, возможно половина, может быть просто неверной».

Впрочем, сама эта фраза была упомянута таким образом, что не даёт однозначного ответа на вопрос, насколько сам Ричард Хортон солидаризуется с этим тезисом – идёт ли он от него, или же это просто озвученная Ричардом существующая, но не разделяемая им лично позиция.

Автор: Алексей Письменюк

Оригинал

Комментарии (3)


  1. Goron_Dekar
    23.11.2025 11:34

    Из моих статей ложными результатами могут похвастаться от силы 25%. Остальные - или проверенные в практике и кристально прозрачные, или (а таких большинство) - статьи о том, как что-то не работает :)


  1. Elpi
    23.11.2025 11:34

    1. Честно, не понимаю, зачем вы написали такую "портянку". Да еще псевдонаучного вида. Вообще проблемы не вижу. Вся наука построена на воспроизводимости того или иного процесса или феномена. Пока воспроизводимость не доказана, никто всерьез и не воспринимает публикацию.

    2. Причем это все относится к неизменным условиям, в т.ч. граничным. Плюс базовые, исходные аксиомы. Пример - геометрии.

    3. В Германии у ведущего профессора в нашей области рядом со мной американец заново "поднимал" результаты из опубликованной статьи этого профессора. Делали и писали ее работавшие у него ранее азиаты. Опубликована в престижном журнале. А потом проф выяснил, что в указанных соотношениях реакция не идет. Азиаты просто указали заведомо ложные сведения. Я тут уже как-то писал, что самые важные для воспроизводства детали искажаются или скрываются. Это норма жизни, к сожалению.

    4. Много результатов, которые никому не интересны, что бы их проверять. Но когда я делал проект по важному вопросу, амеры были уязвлены и проверили. Воспроизводится.

    5. Добавлю еще, что сами усилия по проверке-воспроизведению не бесполезны. Это помогает генерить новые идеи с учетом опыта данного конкретного исследователя.

    6. Т.е. публикация и проверка спорных результатов - это не брак и не уголовное расследование. Это способ существования науки. Кстати, за подобные ошибки следует наказание. Такого ученого перестают замечать, на его карьере поставлен крест.


  1. alexhu
    23.11.2025 11:34

    чисто статистически 100 исследований, направленных на проверку истинности на самом деле ложных гипотез – могут породить до 5 научных публикаций ,,,

    Нет, это не правильные рассуждения, нельзя так делать расчёт. При таких рассуждениях перетасовывают результаты разных опытов, сперва их как-то "объединяя", а затем перенося результаты с p-значением менее 0,05 в одну группу, а с p-значением более 0,05 во вторую группу и затем непонятно обрабатывают эту совокупность . Это неправильно и не допустимо, а скорее это осознаваемая некомпетентность и заведомое шарлотанство в выводах. Результаты вероятности отдельных измерений , с 0.05 <= p <= 0.05 , существуют не сами по себе, они существуют в группе измерений.

    Конечно есть ошибки в исследованиях, по прежнему встречаются ошибки в рецензируемых материалах - много причин этому; но и применяемый подход "всё взять и поделить" не имеет научной основы.

    Насколько помню статьи по ложным результатам исследований по медицине, то там выявляли подлог и фальсификацию всего исследования, а вовсе не ошибки в расчётах.