Как дата-детектив разоблачает подозрительные медицинские исследования

Системный Блокъ

Джон Карлайл — анестезиолог в государственной больнице общего профиля в английском городе Торки. В свободное время он изучает научные работы, в которых освещаются результаты клинических исследований. Клинические исследования оценивают эффективность и безопасность новых лекарственных препаратов. Разработчики должны протестировать новое лекарство на людях, чтобы зарегистрировать его, начать производство и применение. Для участия в испытаниях ученые набирают добровольцев, чьи данные (пол, возраст, рост, вес и др.) потом указываются при публикации результатов.

Однако не все разработчики добросовестно подходят к этой задаче: некоторые намеренно фальсифицируют данные, а другие — допускают ошибки по невнимательности. Джон Карлайл выявляет такие случаи, используя статистические методы поиска аномалий в данных (подробности ниже). За последнее десятилетие он изучил тысячи исследований: от выявления преимуществ конкретных диет до совершенствования протоколов диагностики и лечения. Это помогло выявить крупных фальсификаторов, а вводящие в заблуждение статьи были отозваны и исправлены.

У Джона Карлайла есть как соратники, так и противники. Пол Майлс, заведующий отделением анестезиологии и периоперационного лечения в больнице Альфреда в Мельбурне, Австралия, вместе с Джоном Карлайлом исследовал статьи, в которых содержались подозрительные статистические данные. Он признает, что техника, которую использует Джон, полезна и помогает выявлять случаи крупного мошенничества. Однако, критики утверждают, что иногда авторы статей неоправданно обвиняются, так как сомнению подвергаются и те статьи, в которых не содержится явных ошибок.

Когда и почему Джон начал проводить расследования

Все началось более 10 лет назад, когда Йошитака Фудзи, сотрудник Токийского университета опубликовал результаты своего исследования. Фудзи утверждал, что изучил влияние различных лекарств на предотвращение рвоты и тошноты у пациентов после операции. Он заявил, что провел серию рандомизированных контролируемых исследований (РКИ): при проведении испытаний такого типа участники случайным образом делятся на группы, в одной из которых проводится исследуемое вмешательство, а в другой (контрольной) применяются стандартные методики или плацебо.

Карлайл обсудил это исследование со своими коллегами анестезиологами, и данные показались им слишком «чистыми», чтобы быть правдой. С помощью статистических тестов он проверил исходные данные, чтобы выявить неправдоподобные закономерности. В 2012 году он доказал, что во многих случаях вероятность того, что закономерность возникла случайно, «бесконечно мала». Редакторы журналов попросили университет, в котором работал Фудзи, провести расследование. Фудзи уволили из университета Тохо в 2012 году, а 183 его работы были отозваны. Четыре года спустя Джон Карлайл опубликовал анализ результатов Юдзи Сайто, частого соавтора Фудзи, и продемонстрировал, что его данные тоже крайне подозрительны. 53 публикации Сайто также были отозваны.

Другие исследователи стали цитировать работы Карлайла и применять его подход. Например, в 2016 году исследователи из Новой Зеландии и Великобритании обнаружили несоответствия в статьях Ёсихиро Сато, врача из больницы на юге Японии. Сато был остеологом — исследовал скелет, отдельные кости и костные ткани. После проверки 66 его статей были отозваны. До скандалов из-за мошенничества Фудзи и Сайто, репутацию анестезиологов подрывали и другие некорректные исследования: у анестезиолога Йоахима Болдта из Германии отозвано более 90 публикаций.

Вскоре Карлайл перестал ограничиваться анестезиологией. Он выбрал восемь ведущих журналов и в свободное время проверил тысячи опубликованных в них рандомизированных исследований. Результаты анализа исследователь опубликовал в журнале «Анестезия» в 2017 году. Карлайл обнаружил подозрительные данные в 90 из более чем 5000 исследований, опубликованных за 16 лет. Впоследствии как минимум 10 из этих статей были отозваны, а шесть — исправлены.

Среди исправленных публикаций оказалось и нашумевшее исследование о пользе средиземноморской диеты. В этом случае, однако, не было никаких признаков мошенничества: авторы допустили ошибку в том, как они рандомизировали участников. После того как авторы удалили ошибочные данные, статья была переиздана в Медицинском журнале Новой Англии (NEJM) с аналогичными выводами.

Тем временем Карлайл продолжает свои исследования. В этом году он предупредил о десятках исследований в области анестезии, которые провел Марио Шьетрома, хирург из Университета Аквилы в Италии. Джон заявляет, что эти исследования не соответствует стандарту надлежащей клинической практики (GCP). Майлз, работавший над отчетом с Карлайлом, поднял тревогу в прошлом году, после того как обнаружил подозрительные сходства в необработанных данных для контрольной группы и группы пациентов в пяти документах Шьетромы.

Результаты исследований Шьетромы оказали влияние на больницы во всем мире, так как Всемирная организация здравоохранения процитировала его работу. В 2016 году она выпустила рекомендацию о том, что анестезиологам следует постоянно повышать содержание кислорода в крови пациентов во время и после операции, чтобы снизить риск инфицирования. Это спорное заявление: ведь анестезиологам известно, что в некоторых процедурах слишком большое количество кислорода может повысить риск развития осложнений. Также, согласно этим рекомендациям, больницам в более бедных странах пришлось бы тратить больше бюджетных средств на закупку дорогого бутилированного кислорода, говорит Майлз.

Эти пять статей, о которых предупредил Майлз, были вскоре отозваны, а ВОЗ изменила статус своей рекомендацию с «настоятельной/строгой» на «условную», что означает, что у лечащих врачей появилось больше свободы в выборе метода лечения пациентов.

Шьетрома говорит, что его расчеты были проверены независимым специалистом по статистике и экспертно оценены коллегой. Он объясняет, что он преднамеренно набирал похожие группы пациентов, поэтому неудивительно, что данные имеют сходства. Ученый также утверждает, что необработанные/исходные данные и документы, связанные с судебными процессами, были утрачены в 2009 году во время землетрясения в Аквиле. Представитель университета заявил, что он оставлял запрос на проведение расследования «компетентным следственным органам», но не уточнил, каким именно, и были ли в итоге проведены какие-либо расследования.

Бутилированный кислород, используемый анестезиологами во время операции. Источник: Mark Thomas Alamy

Как заметить неестественные данные

По словам Карлайла, суть его подхода не нова: подлинные данные естественным образом подчиняются некоторым закономерностям, которым смоделированные данные подчинить очень сложно. Эти закономерности были обнаружены в 1880-х годах, а в 1938 американский инженер-электрик и физик Фрэнк Бенфорд популяризовал их. С тех пор они часто используются при статистических проверках данных. Например, политологи давно используют аналогичный подход для анализа материалов опросов. Они называют его методом Стоуффера в честь социолога Сэмюэля Стоуфера, который популяризировал его в 1950-х годах.

При проверке рандомизируемых контролируемых исследований (РКИ) Карлайл изучает характеристики двух групп добровольцев, контрольной и экспериментальной. Характеристики основываются на исходных данных: росте, весе и других измерениях, необходимых для конкретного исследования. Обычно все это приведено в первой таблице статьи.

При проведении подлинного РКИ волонтеры делятся на контрольную группу и группу(ы) вмешательства случайным образом. В результате среднее значение и среднеквадратическое отклонение должны быть близкими по значению, но не совпадать полностью. Если они одинаковые, это подозрительно.

Сначала Карлайл рассчитывает для каждой пары Р-значение (P-value). Это позволяет понять, насколько вероятно, что исходные данные — реальные, а не вымышленные, если считать, что волонтеры были распределены по группам действительно случайным образом. Карлайл объединяет все полученные P-значения, чтобы выяснить, насколько случайны измерения в целом. Если общее P-значение оказывается слишком большим, то данные подозрительно сбалансированы, а если слишком маленьким — возможно, при рандомизации пациентов была совершена ошибка.

Данный метод не предоставляет 100% доказательств. Для статистических проверок переменные в таблицы должны быть полностью независимы друг от друга, тогда как в реальности они бывают взаимосвязаны. Примером такой связи будет связь между весом и ростом человека. На практике это приводит к тому, что некоторые статьи, отмеченные как недостоверные, на самом деле правдивы. Именно по этой причине некоторые специалисты по статистике критикуют деятельность Карлайла.

Карлайл на это отвечает, что его метод — это первый шаг в выявлении нарушений, который всего лишь указывает на те исследования, которые заслуживают более пристальной проверки. Например, можно запросить индивидуальные данные пациентов, не указанные в статье.

Ошибка или мошенничество

Карлайл говорит, что, когда он находит вероятную проблему, он действует осторожно, а не строит догадки о причинах ее возникновения. Однако в 2017 году, в журнале «Анестезия», редактором которого является Карлайл, одновременно вышли две статьи: анализ тех самых 5000 исследований на подозрительность, написанный самим Карлайлом, а рядом — провокационная редакционная статья анестезиологов Джоном Лоадсманом и Тимом МакКаллохомом, сотрудниками Сиднейского университета в Австралии. В ней говорилось о «нечестных авторах» и «злоумышленниках», и было сделано предположение, что «со временем ещё больше авторов уже опубликованных РКИ получат предупреждение». В ней также было сказано: «Можно привести веские аргументы в пользу того, что каждый журнал в мире должен применять метод Карлайла ко всем РКИ, которые они когда-либо публиковали».

Эта статья спровоцировала редакторов из журнала «Анестезиология», 12 статей которого Карлайл назвал проблемными, на резкое ответное заявление. «Статья Карлайла этически сомнительна и причиняет вред авторам опубликованных и впоследствии „отозванных“ статей», написал главный редактор журнала Эван Хараш, анестезиолог из Университета Дьюка в Дареме, Северная Каролина. В редакционной статье, написанной им в соавторстве с анестезиологом Тимоти Хоулом, статистическим консультантом журнала «Анестезиология», подчеркивается, что метод Карлайла может выдавать «ложные срабатывания» (false positives). «Мы бы с радостью пользовались стопроцентно действенным методом для обнаружения сфабрикованных и сфальсифицированных результатов (как тот, который сейчас используют для выявления плагиата). Но метод Карлайла не такой» (из переписки с журналом «Анестезия»).

В мае «Анестезиология» все-таки исправила одну из статей, на которые указал Карлайл. В ней были обнаружены «систематически неверные» Р-значения в двух таблицах, но авторы потеряли исходные данные и не смогли пересчитать значения. Хараш, однако, продолжает придерживаться точки зрения, высказанной им ранее в редакционной статье. Карлайл же считает, что редакционная статья Лоадсмана и МакКаллоха была «обоснованной» и что критика его работы не подрывает ее ценность. «Мне нравится думать, что прилагаемые усилия того стоят, хотя кто-то может и не согласиться со мной», — говорит он.

Другие методы проверки статистических данных

Метод Карлайла — не единственный появившийся в последние годы способ перепроверки опубликованных данных.

Мишель Нуийтен, изучающая аналитические методы в Тилбургском университете, Нидерланды, разработала программу, которую она называет «спеллчекер для статистики». Эта программа сканирует журнальные статьи и проверяет, не противоречат ли описанные статистические данные друг другу. Например, функция statcheck проверяет, соответствуют ли данные, представленные в разделе результатов, рассчитанным Р-значениям. Эта программа в основном используется для нахождения числовых опечаток в журнальных статьях.

Еще один способ найти подозрительные данные придумали Ник Браун, изучающий психологию в аспирантуре Гронингенском университете (также в Нидерландах), и Джеймс Хизерс, изучающий научные методы в Северо-восточном университете (Бостон, Массачусетс). Чтобы перепроверить статистические расчеты, они использовали программу под названием GRIM.

Ни один из этих методов не применим к статьям, описывающим РКИ, которые исследует Карлайл. Statcheck работает строго с тем форматом представления данных, который используется Американской психологической ассоциацией. GRIM работает только с целыми числами, например, с дискретными числами, когда на вопрос в психологической анкете тестируемый выбирает значение от одного до пяти.
Джон Иоаннидис, изучающий научные методы в Стэнфордском университете, Калифорния, отмечает, что интерес к такого рода проверкам данных растет. Джон выступает за то, чтобы использовать методы статистики для улучшения воспроизводимости результатов научных исследований. «Статистические методы — прекрасные и очень изощренные инструменты». Джон предостерегает, что не следует делать поспешные выводы о причине обнаруженных проблем. «Ситуации мошенничества и опечатки сильно отличаются».

И Браун, и Нуийтен, и Карлайл согласны с тем, что их методы могут только указывать на проблемы, которые необходимо исследовать. «Я не хочу ассоциировать statcheck с мошенничеством», — говорит Нуийтен. По словам Иоаннидиса, все эти методы в первую очередь ценны тем, что позволяют находить подозрительные данные еще ДО публикации статей, чтобы до читателей не доходили опечатки, ошибки и недостоверные данные.

Карлайл говорит, что все больше редакторов журналов связываются с ним по поводу использования его метода. Сейчас большая часть таких проверок выполняется неофициально только тогда, когда материал уже кажется редакторам подозрительным.

Однако как минимум два журнала теперь используют статистические проверки перед публикациями всех статей. Это журнал Карлайла «Анестезия» и Медицинский журнал Новой Англии (NEJM). «Мы стремимся предотвратить эти редкие, но очень негативно влияющие на репутацию происшествия», — говорит представитель NEJM. «Это стоит того, чтобы тратить больше времени и денег».

Карлайл очень впечатлен тем, что такой статусный журнал как Медицинский журнал Новой Англии (NEJM) включил проверку статей его методом перед публикациями, несмотря на то, что это трудоемкий, времязатратный и не всеми признанный метод. Но Карлайл уверен, что чтобы проверить хотя бы малую долю из около двух миллионов статей, публикуемых в мире ежегодно, метод необходимо автоматизировать, и считает, что это возможно сделать. Нуийтен говорит, что в таком режиме работает statcheck, который на постоянной основе используется редакциями нескольких журналов о психологии. А технологии интеллектуального анализа текстовой информации позволяют исследователям оценивать Р-значения в тысячах статей, чтобы выявить случаи намеренного искажения исходных данных.

Сразу несколько исследователей, работающих в этом направлении, говорят об одной и той же проблеме. Она заключается в том, что спонсоры, редакции журналов и многи люди в научном сообществе уделяют мало внимания таким проверкам. Нуийтен считает, что причина этого — неблагодарность и непопулярность такого типа работы — выискивания недостатков в работах других людей.

Однако история не всегда заканчивается на обнаружении того факта, что исследование — мошенническое. В 2012 году исследователи из Южной Кореи прислали в журнал «Анестезия и Анальгезия» отчёт о проведении исследования о том, как по тонусу лицевых мышц определить наилучший момент для трахеотомии — введения дыхательных трубок в горло. Редакция журнала (неофициально) попросила Карлайла взглянуть на эту статью, в которой он обнаружил противоречия между исходными данными пациентов и итоговыми/сводными/обобщенными данными. В итоге статью не опубликовали.

Затем эту же статью, но с другими исходными данными пациентов, прислали в журнал Карлайла. Карлайл узнал статью, и авторам было отказано. Редакции обоих журналов связались с авторами и организациями, в которых они работали. Однако, к большому удивлению Карлайла, несколько месяцев спустя эта статья, в которой с последнего раза ничего не изменилось, была опубликована в «Европейском журнале анестезиологии (European Journal of Anaesthesiology)». В 2017 году, после того как Карлайл поделился с редакцией журнала историей этой статьи, она была отозвана по причине несогласованности данных друг с другом, приведшей к искажению результата.

Столкнувшись с таким большим количеством случаев мошенничества, ошибок и опечаток, Карлайл выдвинул свою собственную теорию о том, что движет людьми, когда они решаются подделать данные в своих исследованиях. «Они уверены, что знают, как в действительности устроена и работает вселенная. А то, что результаты исследований не подтверждают их убеждения, — всего лишь досадная случайность. Поэтому они и изменяют результаты исследований до тех значений, которые, по их мнению, должны были быть получены».

Виктория Терехова