Психиатрия Всемирная психиатрия
№02 2021

Перспективы машинного обучения в прогнозировании исходов лечения в психиатрии №02 2021

Номера страниц в выпуске:154–170
Резюме
На протяжении многих лет психиатры предпринимали попытки выявить факторы, определяющие ответ на фармако- или психотерапию, для персонализации подходов к лечению. В настоящее время наблюдается растущий интерес к идее разработки модели персонализированного выбора лечения на основе новых статистических подходов из области машинного обучения и их применения к большим объемам данных. Произошел сдвиг парадигмы от экспериментальных исследований для подтверждения или опровержения конкретных гипотез в сторону сосредоточения внимания на объяснительной силе предсказательной модели при тестировании на скрытых наборах данных. В данной статье мы рассматриваем ключевые исследования, где машинное обучение использовалось для прогнозирования исходов лечения в психиатрии, начиная с фармако- и психотерапии и заканчивая цифровыми вмешательствами и нейробиологическими методами лечения. Далее мы сосредоточимся на новых источниках данных: электронных медицинских картах, информации со смартфонов и социальных сетей, а также на потенциальной практической пользе от данных генетики, электрофизиологии, нейровизуализации и когнитивного тестирования, использующихся для разработки предсказательных моделей на основе машинного обучения. Наконец, мы обсудим, насколько далеко продвинулась эта область в направлении внедрения инструментов прогнозирования в реальную клиническую практику. Относительно небольшое количество ретроспективных исследований на сегодняшний день включает соответствующие процедуры внешней валидации, и еще меньше проспективных исследований, проверяющих возможность клинического применения и эффективность предсказательных моделей. Применение машинного обучения в психиатрии сталкивается с рядом тех же этических проблем, что и применение его в других областях медицины и информатики, о чем также будет говориться в статье. Таким образом, машинное обучение – это совсем новый и очень важный подход к повышению эффективности психиатрической помощи, и ряд проспективных клинических исследований показывает, что он, вероятно, уже работает.


Ключевые слова: Компьютерная психиатрия, машинное обучение, исходы лечения, прогноз, внешняя валидация, психофармакотерапия, психотерапия, электронные базы данных, данные смартфонов.
Лечебные вмешательства в психиатрии эффективны далеко не во всех случаях, когда они показаны. Например, при депрессии только 30–50% людей достигают ремиссии после любой стартовой терапии, даже в контексте хорошо проведенного клинического исследования 1 . В конце концов, после нескольких попыток или комбинации лечения, большинство пациентов все же достигают ремиссии. Однако что, если вместо того, чтобы перебирать доступные методы лечения, которые потенциально могут принести пользу пациенту, мы могли бы с самого начала спрогнозировать правильное лечение для каждого конкретного человека?
Исследователи десятилетиями старались достичь этого. Изначально ученые пытались выявить конкретные факторы, определяющие ответ на лечение на основе теоретических обоснований, что привело к появлению исследований, сосредоточенных на отдельных переменных: стресс в раннем детстве, суицидальность, важные жизненные события или сопутствующие диагнозы. С тех пор продолжающийся поиск одной (или нескольких) истинных переменных проводился на разных уровнях: пациента (клинические характеристики, маркеры крови), его/ее мозга (структурная и функциональная нейровизуализация, церебральный кровоток, биоэлектрическая активность), его/ее генов (однонуклеотидные полиморфизмы, мутации/редкие генетические варианты, вариации числа копий, экспрессия генов) и характеристик вмешательств (выбранный препарат или метод психотерапии, способ его доставки, терапевтический альянс). Если бы одна переменная могла точно предсказать реакцию на лечение, наши специалисты, вероятно, уже нашли бы ее. Вместо этого большинство выявленных переменных продемонстрировали небольшую объяснительную силу в отношении результатов лечения, и внимание исследователей, естественно, переключилось на многомерные модели, способные объединить множество меньших эффектов.
Машинное обучение – это набор статистических подходов и инструментов, которые очень хорошо подходят для обнаружения и агрегирования небольших эффектов с целью прогнозирования интересующего результата 2 . Это позволяет исследователям перейти от оценки небольшого числа переменных-предикторов (~10) к сотням и тысячам переменных или их комбинациям. При использовании данных методов существует множество потенциальных ловушек, но при правильном применении они предоставляют много возможностей для психиатрических исследований 3,4 . Они позволяют одновременно исследовать множество переменных, в том числе коррелирующих. Они уходят от аддитивных моделей и позволяют нам выявлять более сложные нелинейные закономерности. Они более естественным образом объединяют разрозненные типы данных, потенциально интегрируя клинические данные, геопространственную информацию и биологические данные в единый анализ. Открывая возможность использования мощных подходов, не основанных на построении гипотез, они позволяют обнаруживать менее интуитивные факторы, способные прогнозировать исходы лечения.
Внедрение машинного обучения в психиатрию – это больше чем просто добавление инструмента анализа для объединения и изучения больших наборов данных, оно знаменует собой смену парадигмы 5 . В течение многих лет мы использовали классические статистические подходы для подтверждения или опровержения конкретных гипотез. Теперь исследования машинного обучения смещают акцент на общую предсказательную силу модели, особенно на то, насколько точно она предсказывает желаемый результат в скрытом наборе данных. Исследования в этой области оцениваются в первую очередь по их потенциальному влиянию на клиническую практику: что наша модель может достоверно сказать о прогнозе для новых пациентов, и что мы можем сделать с этой информацией для улучшения лечебной практики.
В данной статье исследуются перспективы машинного обучения в прогнозировании исходов лечения в психиатрии. Однако есть ряд вещей, которые мы не будем подробно рассматривать. Это не учебник по машинному обучению 6 , мы не будем останавливаться на объяснении того, как оно работает 2  или спорах о том, что считать машинным обучением по сравнению с традиционной статистикой или «не-машинным обучением». Мы не объясняем, как строить предсказательные модели 7  или как их проверять. Мы не сравниваем разные алгоритмические подходы, принципы их работы, или обстоятельства, при которых один может подходить больше, чем другой. Мы также избегаем различий между модераторами и медиаторами исходов лечения, а также того, предсказывает ли модель результаты специфично для лечения по сравнению с другими или прогнозирует результаты в более общем плане для нескольких видов лечения 8 . Наконец, мы не ставим целью сделать обзор всех социально-демографических и клинических переменных, которые использовались или могут быть использованы для прогнозирования ответа на лечение в психиатрии, обладающих наибольшей прогностической способностью при легкодоступности 9,10 .
Мы начнем с обсуждения методов машинного обучения, их сравнения с традиционными статистическими подходами и того, в какой степени машинное обучение добавляет ценности при исследовании. Далее мы перейдем к обзору вмешательств, при которых исследователи использовали методы машинного обучения для прогнозирования исходов: от фармако- и психотерапии до цифровых вмешательств и нейробиологического лечения. При этом мы выделим характеристики, которые сделали их “золотым стандартом”, и обсудим различные цели, которые могут быть достигнуты в различных контекстах. Далее мы сосредоточимся на потенциальной пользе электронных медицинских карт, данных со смартфонов и социальных сетей, а также данных генетики, электрофизиологии, нейровизуализации и когнитивного тестирования для разработки предсказательных моделей на основе машинного обучения. Наконец, мы поможем читателю понять: насколько близко мы подошли к реализации этих инструментов прогнозирования в реальной клинической практике и какие этические проблемы несут эти инструменты. Целью данной статьи является обзор исследований по психиатрии; любой акцент на депрессии не является преднамеренным, но он отражает тот факт, что большинство исследований в этой области проводилось на людях с данным психическим расстройством.

ИМЕЕТ ЛИ МАШИННОЕ ОБУЧЕНИЕ ПРЕИМУЩЕСТВА ПО СРАВНЕНИЮ С ТРАДИЦИОННОЙ СТАТИСТИКОЙ?

Исследования машинного обучения обычно отличаются от традиционных исследований двумя способами. Первый – это упор на предсказание (объяснительная сила модели), а не на вывод (проверка гипотез). Второй – это сдвиг в сторону гибкости модели с возможностью одновременной обработки большого количества предикторов.
Прогнозирование можно выполнять без алгоритмов машинного обучения, и во многих исследованиях по-прежнему используются традиционные статистические методы, такие как логистическая регрессия. Фактически, когда допущения и требования к размеру выборки соблюдаются в разумных пределах, количество предикторов невелико (≤25), а нелинейные эффекты относительно слабы, традиционные параметрические модели, вероятно, будут обладать хорошей предсказательной способностью. Несколько исследований не выявили преимуществ машинного обучения по сравнению с традиционной логистической регрессией, например, в прогнозировании устойчивости к лечению при депрессии 11 , исходах черепно-мозговой травмы 12  или серьезных хронических заболеваниях 13 .
В недавнем систематическом обзоре клинических моделей прогнозирования не было обнаружено различий в эффективности между машинным обучением и логистической регрессией 14 , хотя авторы рассмотрели в категории логистической регрессии некоторые продвинутые структуры, которые можно включить в машинное обучение: штрафующее слагаемое (penalization) (например, лассо, ридж/гребневая регрессия, эластичная сеть) и сплайны, которые могут ухватить нелинейность. Для таких заболеваний, как диабет и сердечная недостаточность, простые логистические модели хорошо себя зарекомендовали и прошли внешнюю валидацию в большей степени, чем модели машинного обучения 15,16 .
Преимущества подходов машинного обучения появляются, когда потенциальных предикторов много и/или их эффекты нелинейны. Многие алгоритмы машинного обучения способны обрабатывать большое количество предикторов даже в тех случаях, когда переменных предикторов больше, чем наблюдений, в силу встроенного контроля за переобучением. Например, ридж, лассо и эластичная сеть регрессии 17 , включая штрафующее слагаемое, которые заставляют коэффициенты регрессии быть ближе к нулю, чем в традиционных моделях линейной или логистической регрессии. Подходы машинного обучения также хороши для учета сложных, интерактивных или нелинейных эффектов. Например, модели, основанные на деревьях (tree-based models), способны оценивать множество потенциальных переменных и их комбинаций для выявления подгрупп, которые не могут быть выделены традиционными линейными моделями. Другой распространенный метод машинного обучения – это ансамбль (ensembling). Здесь несколько моделей подбираются на случайных выборках исходного набора данных, а затем используется среднее значение среди прогнозов каждой модели. Этот подход является ключевым элементом многих популярных методов машинного обучения: метода градиентного бустинга (gradient boosting machines) и случайного леса (random forests) 18,1 9,20 .
Ряд недавних исследований по прогнозированию исходов лечения в психиатрии продемонстрировали преимущества машинного обучения. Было обнаружено, что случайный лес и/или эластичная сеть регрессии 21,22,23,24 , а также метод опорных векторов (support vector machines) 25  превосходят традиционные методы регрессии.



Крупномасштабные сравнения наборов контрольных данных неизменно показывают, что машинное обучение превосходит традиционные методы 26,27,28,29 . В целом случайный лес, метод градиентного бустинга, регрессия с регуляризацией (regularized regression), метод опорных векторов и искусственные нейронные сети могут прекрасно работать, но ни один из них не будет иметь высокой эффективности во всех случаях.
Исследователи, как правило, стремятся максимизировать прогнозирующую способность, однако следует также учитывать и практические аспекты: объяснимость (explainability) или сложность включения большего числа переменных. В некоторых случаях предпочтительнее использовать более простые модели с низкой точностью прогнозирования или высокой обобщаемостью, поскольку они уже учитывают большинство эффектов 30,31 . В статистике нет универсального метода, и все алгоритмы прогнозирования сталкиваются с так называемым компромиссом отклонения-дисперсии 2,32,33 , где гибкость должна быть сбалансирована с риском переобучения. Чтобы методы машинного обучения учитывали более сложные эффекты, необходимы гораздо большие размеры выборки. Несмотря на то, что эти методы могут иметь дело с большим количеством потенциальных переменных-предикторов, тщательный предварительный выбор переменных повысит точность прогнозов.
В то время как традиционные исследовательские подходы сосредоточены на p -значениях для конкретных коэффициентов в модели, предсказательные исследования сосредоточены на общей объяснительной силе модели, R2, сбалансированной точности или площади, ограниченная кривой рабочих характеристик приемника (AUC). Предсказательные исследования требуют пристального внимания к подходам валидации, чтобы проверить, изучает ли модель существенные и непротиворечивые закономерности при переходе от одного набора данных к другому, или же модель просто усвоила особенности исходных обучающих данных. В таблице 1 обсуждаются различные виды валидации, которые проводятся в предсказательных исследованиях, от внутренних подходов, использующих только один набор данных, до подходов внешней валидации, которые используют данные из независимых сайтов, исследований, испытаний, стран или консорциумов для проверки обобщаемости модели. Структуры валидации, особенно внешняя валидация, имеют решающее значение для разработки надежных и полезных моделей и понимания того, может ли подобранная модель распространяться на скрытые данные в будущем 34,35,36 .

ПРОГНОЗИРОВАНИЕ ИСХОДОВ ЛЕЧЕНИЯ В ПСИХИАТРИИ С ПОМОЩЬЮ МАШИННОГО ОБУЧЕНИЯ

Лекарства

Прогнозирование исходов лечения психиатрическими препаратами – самая активная область исследований применения машинного обучения в психиатрии, так как с этого было проще всего начать. Исследования машинного обучения требуют больших объемов данных для построения предсказательных моделей, в идеале с четко обозначенными исходами, контролем над вмешательствами и соответствующими данными о пациентах до лечения. Это описывает большинство крупных клинических испытаний, а последние в психиатрии проводятся для оценки эффективности лекарств, вследствие чего исследования машинного обучения начинались с изучения терапевтического ответа на лекарства от депрессии, шизофрении или биполярного расстройства.
В таких исследованиях использовалась в основном информация из демографических бланков сбора данных и шкал клинических симптомов, в последнее время учитываются также генетические данные и нейровизуализация (обсуждаемые далее в этой статье). Несмотря на то, что данная область исследований наиболее активно развивалась, большинство полученных моделей еще не прошли проверку на внешних выборках. На сегодняшний день относительно небольшое количество инструментов прогнозирования, созданных исследователями психического здоровья, внедрено в клиническую практику 37,38,39 . Здесь мы сосредоточимся на примерах исследований, которые имели достаточную мощность, прошли внешнюю валидацию или оказались значимы в силу тех или иных особенностей.
Большинство исследований по прогнозированию исходов лечения сосредоточено на антидепрессантах, обычно используемых в острой фазе депрессии. Например, Chekroud и соавт. 40  выявили 25 переменных, которые до начала лечения наилучшим образом предсказывали ремиссию при приеме циталопрама в исследовании «Последовательные альтернативные методы лечения депрессии» (STAR*D). Точность модели достигла 64,6%. Затем модель применили к данным другого клинического исследования, чтобы проверить, можно ли ее распространить на пациентов из полностью независимой популяции. Модель смогла предсказать ответ на два аналогичных режима приема антидепрессантов (эсциталопрам плюс плацебо и эсциталопрам плюс бупропион, каждый с точностью около 60%), но модель не предсказывала достоверно ремиссию для пациентов, принимавших венлафаксин плюс миртазапин (51%).
Пятью наиболее важными переменными для прогнозирования ремиссии в данной модели, были: исходная тяжесть депрессии, статус занятости, чувство беспокойства в течение последних семи дней (психомоторное возбуждение), снижение уровня энергии в течение последних семи дней и этническая принадлежность к чернокожим или афроамериканцам. Позднее исследование было воспроизведено Nie и соавт. 41 , которые аналогичным образом обучили модель прогнозированию исходов лечения циталопрамом с использованием легко доступной исходной информации. Команда обучила и протестировала модель на наборе данных STAR*D и проверила ее на данных другого открытого исследования циталопрама с использованием 22  переменных-предикторов, которые перекрывались между двумя испытаниями. Несмотря на незначительные различия при использовании разных алгоритмов, сбалансированная точность (BA) моделей составляла примерно 64–67%.
Более раннее исследование Perlis 11  показало, что возможная резистентность к лечению может быть также предсказана с самого начала. Автор разработал модель с использованием данных STAR*D, которая могла предсказать, что человек не достигнет ремиссии после лечения двумя курсами антидепрессантов с AUC 0,71. Ранние доказательства этой концепции, в том числе исследование Perlis, не включали внешнюю валидацию, по крайней мере, частично из-за отсутствия независимых наборов данных с аналогичным дизайном испытаний, которые можно было бы использовать для этой проверки.
Вышеупомянутые исследования антидепрессантов определяли предикторы в рамках подхода, основанного на данных (data-driven way), то есть использовались все возможные исходные данные, к которым применялись методы машинного обучения, отбрасывающие нерелевантную информацию или позволяющие включать сразу несколько переменных. Однако выбор предикторов не всегда является независимым от гипотез, и априорные знания из научной литературы могут задавать направление при выборе переменных и дать хорошие результаты. Iniesta и соавт. 42  хотели предсказать ремиссию при депрессии у пациентов, получавших эсциталопрам или нортриптилин, используя только переменные, ранее подтвержденные как индивидуальные предикторы или модераторы ответа на лечение. Их модели предсказывали общий ответ на лечение с AUC 0,74, и ответ на эсциталопрам с AUC 0,75, но прогноз исходов применения нортриптилина не был статистически значимым.
В последующей работе по включению генетических данных в модели 43  авторы предсказали ответ на эсциталопрам и нортриптилин с AUC 0,77.
Второй вариант использования машинного обучения для прогнозирования исходов лечения – это более точное определение подгрупп пациентов, симптомов или траекторий развития симптомов, с последующим использованием этих подгрупп для составления более детальных прогнозов. Drysdale и соавт. 44 , используя кластеризацию, выделили среди 1188 пациентов с депрессией четыре «подтипа», или группы, на основе паттернов дисфункциональной связности в лимбической и лобно-стриарной сетях. Они разработали классификаторы для каждого депрессивного подтипа с помощью метода опорных векторов, а затем протестировали эти модели на независимом наборе данных, точно классифицируя 86,2% тестовой выборки. Впоследствии команда использовала подтипы для прогнозирования ответа на транскраниальную магнитную стимуляцию, но не проверила эти прогнозы на независимой выборке. Несмотря на то, что подход с выделением подтипов выглядит многообещающим, последующие методологические исследования выявили ряд проблем и ограничений 45 .
Chekroud и соавт. 46  использовали кластеризацию для определения групп симптомов и регрессию смешанных эффектов (mixed-effects regression), чтобы определить, имеют ли они разные варианты ответов. Три группы симптомов (аффективные, сон и атипичные) были последовательно выделены по двум распространенным психометрическим шкалам в двух независимых испытаниях лекарств – STAR*D и «Комбинация лекарств для улучшения исходов депрессии» (COMED). Впоследствии авторы использовали данные STAR*D для градиентного бустинга (по одной для каждой комбинации кластера и группы лечения), обнаружив некоторое улучшение способности кластеров симптомов прогнозировать исходы общей тяжести. Тот же подход к кластеризации симптомов был эффективен в исследовании лечения подростков 47 .
Другие исследователи сначала использовали growth mixture modeling 48  или finite mixture modeling 49 , чтобы определить варианты терапевтического ответа: «быстрая и стабильная ремиссия», «устойчивый ответ» или «поздний рецидив». Затем были разработаны модели машинного обучения, пытающиеся предсказать конкретный ответ пациента на лечение. Этот подход потенциально более устойчив к шуму, который естественным образом присутствует, и в меньшей степени зависит от способа определения результатов в исследованиях – например, от того, определяется ли ремиссия как 5 баллов в Опроснике здоровья пациента-9 (PHQ-9) или 5/6 баллов по Быстрому опроснику депрессивной симптоматики (Quick Inventory of Depressive Symptomatology, QIDS) 48,49 . Однако этот подход основан на доступности повторных измерений.
Исходы медикаментозного лечения депрессии лучше изучены в связи с широкой распространенностью этого состояния и имеющихся данных, но этот подход также применялся для других психических состояний. Для прогнозирования исходов шизофрении Koutsouleris и соавт. 25  использовали данные Европейского испытания первого эпизода шизофрении (EUFEST, N=344), опираясь на показатели глобальной оценки функционирования с использованием метода опорных векторов, и подтвердили десять наиболее прогностически важных функций на невидимой выборке из 108 пациентов со сбалансированной точностью 71,7%. Наиболее ценными предикторами были психосоциальные переменные, а не данные о симптомах: безработица, плохое образование, функциональный дефицит и неудовлетворенные психосоциальные потребности.
В отношении шизофрении Leighton и соавт. 50  не только успешно предсказали ответ на медикаментозное лечение при первом психотическом эпизоде, но и подтвердили результаты на двух независимых выборках. Сначала они определили предикторы, которые были доступны в трех исследованиях – двух когортах исследования «Оценка развития и влияния услуг раннего вмешательства» (Evaluating the Development and Impact of Early Intervention Services, EDEN) в Англии, набранных из Национальной службы здравоохранения (NHS) в Шотландии, и датском клиническом исследовании OPUS. Это позволило им построить и протестировать согласованные модели в трех исследованиях для прогнозирования четырех результатов, отражающих различные аспекты выздоровления: симптоматическая ремиссия, социальное восстановление, профессиональное восстановление и качество жизни. Затем они использовали логистическую регрессию с эластичной сетью регуляризации для определения наиболее релевантных предикторов в исследовании EDEN (N=1027) – так же, как Chekroud и соавт. 40  – для определения меньшего подмножества переменных, которые все еще могли бы предсказывать результаты, но требовали меньших усилий по сбору данных, что облегчило бы возможность клинического применения. Эти модели, обученные на выборке EDEN, достигли значений AUC для внутренней валидации от 0,70 до 0,74 (в зависимости от конкретного исхода). При тестировании во второй шотландской когорте AUC варьировала от 0,68 до 0,87. В испытании OPUS варьировала от 0,57 до 0,68.
Прогнозирование лекарственного ответа при других психических расстройствах исследовано хуже. В двух исследованиях 51,52  для прогнозирования ответа на широко распространенные кветиапин и литий использовалась исходная социально-демографическая, клиническая информация и данные семейного анамнеза, обычно используемые при биполярном расстройстве. Хотя обе полученные модели имели значимую производительность, ни одна из них не была проверена на независимых выборках, а одна включала 180 переменных для прогноза 51 , что затрудняет ее клиническое использование.

Психотерапия

Исторически сложилось так, что исследования по прогнозированию исходов лечения в психотерапии были сосредоточены на теоретически выделенных отдельных переменных, которые могли бы модерировать результаты лечения. Лишь относительно недавно исследователи-психотерапевты применили подходы машинного обучения для прогнозирования исходов лечения 53 . Даже среди этих исследований исторический фокус на модераторах психотерапевтических эффектов сохранился, что побудило различать «прогностические» и «предписывающие» модели. Прогностические модели – это модели, которые предсказывают, наступит ли улучшение у пациента после данного лечения. Предписывающие модели предсказывают, какое из двух (или более) методов лечения лучше всего подходит для конкретного пациента 54 . Обе модели могут применяться в клинической практике, даже если отвечают на несколько разные вопросы. Различия стали стираться после недавних попыток построить предписывающие модели путем разработки нескольких прогностических моделей для разных видов лечения и последующего сравнения их результатов 55 .
В ранней работе Lutz и соавт. 53  использовали моделирование при помощи алгоритма ближайших соседей (nearest neighbor modeling) для прогнозирования скорости изменения симптомов и вариативности от сеанса к сеансу. Модели были основаны на параметрах возраста, пола и исходной оценке симптомов. По сравнению с моделями без использования машинного обучении, прогнозы моделирования при помощи алгоритма ближайших соседей в большей степени коррелировали с фактическими значениями скорости изменения, но не вариабельностью от сеанса к сеансу.
С тех пор в психотерапии получили распространение другие подходы к прогнозированию. DeRubeis и соавт. 56  разработали метод многомерного моделирования, известный как «индекс персонализированного преимущества» ( PAI), который, используя эффект взаимодействия исходных переменных и условий лечения, предсказывает, будет ли пациент лучше реагировать на антидепрессанты по сравнению с когнитивно-поведенческой терапией (КПТ). На выборке из 154 человек клинически значимое преимущество (PAI≥3) в пользу одного из методов лечения было предсказано для 60% пациентов. Когда эти пациенты были разделены на тех, кто рандомизированно получал «оптимальное» лечение, и тех, кому было назначено «неоптимальное» лечение, исход в первой группе оказался лучше (d=0,58, 95% ДИ: 0,17–1,01). Подобные подходы были разработаны другими группами 55,58  и усовершенствованы за счет 59  машинного обучения для создания более точных прогнозов и включения большего количества переменных.
С тех пор в ряде исследований пытались предсказать вероятность пользы для конкретного пациента того или иного доказательного метода психотерапии 55,59 . Были предприняты попытки определить, какой из двух (или более) видов психотерапии может оказаться более эффективным для конкретного пациента 60,61 , и на что лучше будет реагировать пациент: на психотерапию или лекарства 56 . Недавний обзор 62  выявил в общей сложности 44 исследования, в которых была разработана и протестирована модель машинного обучения, но только семь из них сообщили о возможности применения этого инструмента. Поскольку большинство психотерапевтических исследований дорогостоящие и редко обладают большим размером выборки, некоторые считают, что сначала может потребоваться разработка прогностических моделей с использованием больших наборов данных наблюдений 63 .
Подходы в стиле PAI, которые рассчитывают лечение через взаимодействия переменных, быстро приводят к анализу прогнозирования высокой размерности, склонному к переобучению (или требующему очень больших размеров выборки). Используя данные двух голландских рандомизированных исследований, van Bronswijk и соавт. 60  изучили, могут ли модели PAI, разработанные на одном наборе данных клинических испытаний, успешно распространяться на независимый набор данных. И хотя модели имели статистически значимую производительность в испытании, использованном для их обучения, они не распространились на другое клиническое испытание прогнозирования преимуществ КПТ по сравнению с межличностной терапией (IPT) при депрессии.
В литературе по психотерапии есть другие предсказательные модели, потенциально оптимизирующие важные аспекты ухода за пациентами. Например, были разработаны модели 64,65 , которые позволят психиатрам выбирать лечение с низкой или высокой интенсивностью на основе ожидаемого прогноза. В других исследованиях предпринималась попытка деконструировать содержание традиционного курса психотерапии, чтобы предсказать, какие компоненты лечения и в каком порядке должны быть реализованы в рамках данного вмешательства 66,67,68 . Новые направления также используют машинное обучение для подбора пациентам конкретных терапевтов 69 , воспроизведения человеческих оценок и суждений 70,71  и использования методов обработки родного языка (natural language) для выявления паттернов взаимодействий терапевта и пациента, которые предсказывают ответ на лечение 72,73 .
В целом применение машинного обучения для прогнозирования ответа на психотерапию находится на ранних стадиях разработки 62 . Однако заметное исключение можно найти в хорошо разработанной литературе по рутинному мониторингу результатов и «обратной связи». Она включает отслеживание реакции пациента на лечение в режиме реального времени путем ввода его/ее собственной оценки результатов/симптомов в автоматизированную систему, которая сравнивает его/ее ответ с прогнозируемой траекторией улучшения, полученной на основе клинических данных и традиционного статистического анализа (например, продольных многоуровневых/смешанных моделей и моделирования кривой роста (growth curve modelling). В настоящее время проведено более 20 рандомизированных контролируемых испытаний и несколько метаанализов, показывающих, что такие модели клинического прогнозирования могут улучшить исходы лечения 74 .
В дополнение к моделям, изучающим дифференцированный ответ на лечение и оптимизацию лечения, в литературе по психотерапии можно обнаружить исследования адекватной мощности, прогнозирующие общий ответ на лечение на основе социально-демографических и клинических переменных, как и в фармакотерапевтических клинических испытаниях. Buckman и соавт. 75  построили девять различных моделей, используя симптомы депрессии и тревоги, социальную поддержку, употребление алкоголя, и жизненные события, для прогнозирования редукции депрессивных симптомов после 3–4 мес. лечения в учреждениях первичной медико-санитарной помощи. Модели были обучены на данных трех клинических испытаний (N=1722) и протестированы в трех независимых исследованиях (N=1136). Все модели предсказывали ремиссию лучше, чем нулевая модель, использующая только тяжесть депрессии после исходного уровня. Green и соавт. 76  также предсказали редукцию депрессивных симптомов на психотерапии у 4393 пациентов из общественных служб здравоохранения (community health service). Они обнаружили, что модель с пятью исходными переменными (исходная тяжесть тревоги и депрессии, этническая принадлежность, депривация и пол) предсказывала уменьшение симптомов тревоги и депрессии с точностью до 74,9%. Количество посещенных/пропущенных сеансов также было важным фактором, влияющим на ответ на лечение.

Цифровая КПТ

В последние годы вмешательства в области психического здоровья в онлайн-формате рассматриваются как многообещающий подход, уменьшающий препятствия для оказания помощи. Растет число доказательств эффективности как управляемой, так и неуправляемой (бесконтрольной) формы лечения 77,78 . Такие вмешательства, как интернет-КПТ (internet-based CBT, iCBT), идеально подходят для применения методов машинного обучения из-за возможности продольного стандартизированного сбора данных в большом масштабе и прямого включения выходных данных во вмешательства на базе онлайн или приложений. Например, при контролируемом лечении инструменты машинного обучения могут обеспечивать обратную связь с терапевтами или предупреждать о рисках. Они могут быть использованы для проведения своевременных адаптивных вмешательств 79 . Приложения на смартфоне открывают возможность автоматического сбора данных с датчиков для определения поведенческих маркеров 80 , что, бесспорно, открывает множество возможностей для индивидуальных вмешательств, и вызывает ряд этических вопросов и потенциальных проблем с конфиденциальностью.
Прогнозирование исходов iCBT на основе машинного обучения имеет преимущества с точки зрения простоты использования, например, за счет предоставления интегрированной поддержки принятия решений для курирования пациента. Однако большая часть существующих работ по прогнозированию исходов носила исследовательский характер и проводилась на маленьких выборках. Различия заключались в подходах, одни из которых использовали только исходные данные (до лечения) и применялись для выбора лечения, другие же использовали данные, собранные в ходе лечения, например регулярные оценки результатов или экологические ситуативные оценки (ecological momentary assessment, EMA).
Первопроходцы в этой области Lenhard и соавт. 81  изучили, как исходные клинические переменные могут быть использованы для прогнозирования исходов лечения на 61 подростках в испытании iCBT при обсессивно-компульсивном расстройстве. В то время как многомерная логистическая регрессия (multivariable logistic regression) не обнаружила значимых предикторов, четыре исследованных алгоритма машинного обучения смогли предсказать ответ на лечение с точностью от 75 до 83%.
Flygare и соавт. 82  в исследовании на выборке из 88 пациентов, учитывая демографические, клинические данные, а также связанные с терапией предикторы надежности лечения и терапевтического альянса, оцениваемые на 2-й неделе лечения, использовали алгоритм случайного леса для прогнозирования ремиссии после iCBT при дисморфофобическом расстройстве, сравнивая результаты с логистической регрессией. Случайный лес достиг точности прогноза 78% после лечения, и меньшую точность при дальнейших наблюдениях. Наиболее важными предикторами были симптомы депрессии, надежность лечения, терапевтический альянс и исходная тяжесть расстройства.
van Breda и соавт. 83  добавили данные EMA к моделям с исходными показателями в исследовании, прогнозирующем исходы для пациентов, получающих смешанную терапию (личная КПТ и iCBT) или лечение в обычном режиме. Такой подход не улучшил точность прогнозов.
Эффективность интервенций цифровой когнитивно-поведенческой терапии опосредована вовлечением пациентов 84 . Подробные данные о взаимодействии с пациентами могут быть собраны автоматически в ходе онлайн-вмешательств или посредством приложений. Учитываться может просмотр контента, выполнение упражнений и взаимодействие с клиницистами 85 . Данные могут использоваться в предсказательных моделях, что имеет конкретный практический выход (например, определение потребности в более частых контактах с терапевтом для более активного вовлечения пациента). Chien и соавт. 86  проанализировали данные о взаимодействии от 54 604 пациентов, использующих поддерживающие онлайн-вмешательства при депрессии и тревоге. Скрытая марковская модель использовалась для определения пяти подтипов вовлечения. Более вовлеченные пациенты в целом достигали лучших исходов, но наиболее значимых результатов достигали те, кто завершили изучение контента с ключевыми компонентами КПТ (т.е. когнитивную реструктуризацию и поведенческую активацию) в течение первых двух недель программы, несмотря на то, что на вмешательство не тратилось много времени. Эта работа демонстрирует возможность сбора подробных данных о взаимодействии и результатах в любом масштабе.
Терапевтический альянс и содержание текста в упражнениях можно анализировать с помощью методов анализа тональности текста 87 . Анализ текстов пациентов может быть встроен в инструменты обратной связи для терапевта (в контролируемых вмешательствах) или использоваться в предсказательных моделях. Ewbank и соавт. 3  провели анализ 90 934 стенограмм сеансов (КПТ посредством текстовых сообщений в режиме реального времени). Для автоматической категоризации стенограмм по характеристикам, связанным с компетенциями КПТ, использовалось глубокое обучение, после чего с помощью многомерной логистической регрессии оценивалась связь с исходами лечения. Ряд особенностей, среди которых была «терапевтическая похвала», ассоциировались с большими шансами на улучшения состояния.
Chikersal и соавт. 88  проанализировали 234 735 сообщений, отправленных клиентам в рамках iCBT, изучая стратегии поддержки. Авторы стремились выявить стратегию, сильнее всего коррелирующую с клиническим исходом. Они использовали метод k-средних, чтобы определить терапевтов, чьи сообщения были связаны с «сильным», «средним» или «слабым» улучшением исходов терапии, оцененных с помощью PHQ-9 и Генерализованного тревожного расстройства-7 (Generalized Anxiety Disorder-7, GAD-7). Сообщения самых успешных терапевтов были сформулированы более позитивно и обнадеживающе, там чаще использовались местоимения первого лица множественного числа, текст был написан менее абстрактным языком, и в целом чаще обсуждалось социальное поведение. Затем к лингвистическим характеристикам сообщений был применен поиск ассоциативных правил для определения контекста, при котором конкретные стратегии поддержки обладают большей эффективностью. Для менее вовлеченных пациентов с лучшим исходом ассоциированы более длинные, позитивные и поддерживающие сообщения. Для более вовлеченных клиентов – сообщения с меньшим количеством негативных слов и абстрактных понятий и большим количеством ссылок на социальное поведение. Такие результаты могут быть использованы при разработке учебных материалов для терапевтов.
Можно также попытаться предсказать, будет ли пациент получать помощь или прекратит лечение. Wallert и соавт. 89  работали над прогнозированием приверженности онлайн-терапии симптомов депрессии и тревоги у людей, перенесших инфаркт миокарда. Анализ использовал лингвистические особенности текстов домашних заданий, а также демографические и клинические характеристики. Самыми сильными предикторами приверженности был кардиологический страх, пол и количество слов в первом домашнем задании.

Нейробиологические методы лечения

Для лечения тяжелой и резистентной депрессии существуют и нейробиологические методы: транскраниальная магнитная стимуляция (ТМС) и электросудорожная терапия (ЭСТ). С учетом потенциальных рисков, побочных эффектов этих методов и их стоимости сформировалась потребность в определении тех, для кого эти методы будут наиболее безопасны и эффективны 90,91,92 .
В недавних обзорах были изучены предикторы ответа на лечение ТМС и риска рецидива у пациентов с депрессией 92,93,94 . Исследования ТМС с большим количеством женщин среди пациентов имели более высокий размер эффекта, что позволило рассматривать пол как предиктор исходов лечения ТМС 95 . Несколько исследований изучали нейробиологические предикторы ответа на ТМС, однако результаты в настоящее время противоречивы 92 . Небольшой размер выборки обычно означает, что методы машинного обучения, скорее всего, будут переобучаться и дадут результаты, которые нельзя будет воспроизвести в дальнейшем.
Попытки предсказать исходы лечения ЭСТ в основном являются традиционными исследованиями ассоциаций. Некоторые из них определили ряд воспроизводимых переменных. Лучшие исходы были обнаружены среди пожилых пациентов, пациентов с психотической депрессией, лиц с высокими суицидальными намерениями и тех, у кого проявляются ранние изменения симптомов (exhibit early symptom changes) 90,96 . Однако из-за небольших размеров выборок и отсутствия рандомизации, в этой области не наблюдается особого прогресса, что также препятствует применению методов машинного обучения.

ИСПОЛЬЗОВАНИЕ ЭЛЕКТРОННЫХ МЕДИЦИНСКИХ КАРТ, ДАННЫХ СО СМАРТФОНА И СОЦИАЛЬНЫХ СЕТЕЙ

Электронные медицинские карты (EHR) все шире применяются в системах здравоохранения. Они содержат данные о ходе лечения на каждого пациента. Эта информация может оказаться весьма полезной для построения предсказательных моделей, легко интегрируемых впоследствии в клиническую практику 97 . Данные EHR можно разделить на два типа: структурированные закодированные данные – диагностические коды, коды процедур, коды лабораторий и рецептов лекарств; и неструктурированные данные, т.е. клинические заметки и другая текстовая документация, которую можно обрабатывать лингвистическими методами с использованием оригинального языка.
Потенциал данных EHR для прогнозирования исходов лечения в психиатрии основывался преимущественно на изучении депрессии, но существуют примеры данных и о лечении биполярного расстройства 98  и шизофрении 99 . Машинное обучение на данных EHR выявило: 1) людей, которые с большей вероятностью прекратят прием антидепрессантов сразу после начала 100 , 2) тех, у кого будет стабильный терапевтический ответ на антидепрессанты 101 , и 3) тех, у кого инвертируется фаза после начала приема антидепрессантов и обнаружится биполярное течение 102 . Исследования показали многообещающие, хотя и скромные на данный момент, и еще не имеющие клинического применения результаты.
Применяя логистическую регрессию и подходы случайного леса, Pradier и соавт. 102  использовали демографические и структурированные данные EHR (то есть диагностические коды, коды лекарств и процедур), доступные на момент первичного назначения, для прогнозирования отказа от лечения одним из девяти наиболее распространенных антидепрессантов. Хотя средняя AUC была ниже 0,70, они обнаружили, что включение данных EHR значительно улучшило прогнозирование отказа от лечения по сравнению с использованием исключительно демографической информацией. Также было обнаружено, что прогностическая эффективность варьировалась в зависимости от типа антидепрессанта (AUC до 0,80 для эсциталопрама) и того, кто назначает препарат (более высокая точность среди лиц, находящихся на лечении у психиатров).
Hughes и соавт. 101  применили логистическую регрессию и сверхрандомизированные деревья (extremely randomized trees) на демографических и структурированных данных EHR для прогнозирования непрерывности общего и специфического лекарственного лечения у пациентов, получающих любой из 11 антидепрессантов. Средняя наблюдаемая AUC 0,63–0,66 и аналогичные показатели были на каждом отдельном этапе оценки.
В тех случаях, когда данные оценки симптомов (например, PHQ-9) были доступны для меньших когорт EHR (например, N<2,500) 103 , модели лассо, включающие демографическую информацию, структурированные и неструктурированные данные EHR и исходную оценку симптомов, показали эффективность в прогнозировании регресса депрессивных симптомов для медикаментозного лечения (AUC=0,66) и психотерапии (AUC=0,75). Однако наиболее важным предиктором в этих моделях была оценка исходных симптомов. Такие модели станут актуальны для прогнозирования исходов в крупномасштабных системах здравоохранения тогда, когда оценка симптомов будет постоянно регистрироваться в EHR.
Ключевой проблемой при использовании данных EHR для прогнозирования исходов лечения в психиатрии является то, как определять интересующий исход на основе доступной клинической информации. Обычно это требует установления четких правил, где соответствующие характеристики EHR наблюдаются или не наблюдаются в когорте пациентов в течение определенного периода. Например, отказ от лечения определялся Pradier и соавт. 100  по наличию рецепта менее чем через 90 дней после начала лечения антидепрессантом, без указаний на альтернативные психиатрические вмешательства. Стабильным применением антидепрессантов считалось наличие двух или более кодов рецептов на антидепрессанты с разницей не менее 30 дней в течение периода не менее 90 дней, с дополнительными правилами о максимальном промежутке времени между ближайшими кодами рецептов и другими показателями наличия лекарства 101 .
Данные EHR являются многомерными, они включают десятки тысяч возможных диагностических кодов в дополнение к кодам лекарств и процедур. Методы машинного обучения могут хорошо моделировать сложные взаимодействия с помощью разнообразного набора предикторов из EHR, а также уменьшать их количество. В исследовании стабильности лечения антидепрессантами Hughes и соавт. 01  применили контролируемое тематическое моделирование с использованием скрытого распределения Дирихле, чтобы сократить 9256 закодированных характеристик EHR до 10, и обнаружили, что классификатор, основанный на наборе из 10 предикторов, показал производительность, сопоставимую с логистической регрессией, основанной на многомерном наборе функций. Использовался и более простой метод с выбором только тех диагностических кодов, которые соответствуют порогу частоты в популяции пациентов 100 .
Смартфоны способны предоставить различные виды данных, которые трудно получить другими способами. Их ключевая особенность заключается в том, что они содержат множество датчиков, пассивно регистрирующих различные сигналы. Пассивные данные со смартфона учитывают динамические показатели качества сна, упражнений, частоты пульса, геопространственного местоположения, использования языка и моделей общения 80,104 . Методы машинного обучения незаменимы для работы с такого рода данными 105 . В имеющихся исследованиях, применяющих машинное обучение для прогнозирования исходов для психического здоровья с использованием пассивных данных, как правило, использовались скромные выборки от 7 до 70 участников. Маленький размер выборки в таких условиях скорее способствовал доказательству и обоснованности самого принципа, нежели получению обобщаемых результатов 80,106,107,108 . Мобильные телефоны также способствуют сбору EMA данных, позволяющих исследователям проводить измерения через небольшие промежутки времени (например, несколько раз в день). Кроме того, возможность нейрокогнитивных измерений с помощью смартфонов выглядят многообещающим способом масштабируемого сбора когнитивных данных 109,110 .
В нескольких исследованиях для прогнозирования исходов лечения использовались данные смартфонов. Анализировались текстовые данные из электронных писем для прогнозирования ответа на лечение у пациентов с социальной тревожностью 111 , данные EMA для прогнозирования изменений самооценки в результате онлайн-вмешательства 112  и данные EMA для прогнозирования ответа на лечение у пациентов с депрессией 83 . В исследовании, прогнозирующем исходы депрессии, модель, включающая данные EMA, не превосходила модель, использующую исходные характеристики 83 .
Социальные сети позволяют исследователям получать доступ к большим объемам данных, касающихся использования языка и онлайн-активности. Однако, насколько нам известно, эти данные еще не использовались для прогнозирования ответа на лечение. Один из компромиссов между включением различных типов данных – это легкость сбора и количество по сравнению с качеством данных. Зачастую эти данные сопровождаются сильным шумом, который может помешать идентифицировать значимые шаблоны и сигналы. Новые методы топологического машинного обучения устойчивы к шуму и позволяют извлекать дескрипторы формы и структуры данных, способных повысить производительность для анализа в разных временных точках 113 . Данные с повторными измерениями могут быть полезны для проверки гипотез, поскольку размер выборки может компенсировать повышенный шум данных 114 .

ИСПОЛЬЗОВАНИЕ ДАННЫХ ГЕНЕТИКИ, ЭЛЕКТРОФИЗИОЛОГИИ, НЕЙРОВИЗУАЛИЗАЦИИ И КОГНИТИВНЫХ ТЕСТИРОВАНИЙ

Генетика

Методы машинного обучения – это привлекательный аналитический подход для сопоставления генетических данных с прогнозированием ответа на лечение в психиатрии. Машинное обучение делает акцент именно на предсказании, а не на ассоциации, с помощью него можно обнаруживать взаимодействия между локусами, обрабатывать корреляцию и не иметь при этом заранее определенной статистической модели 115 .
Машинное обучение на генетических данных использовалось для улучшения возможности прогнозировать исход лечения для ряда заболеваний, в том числе рака 116,117  и гипертонии 118 .
Возможность генов влиять на ответ на медикаментозное лечение была исследована фармакогеномикой. Более раннее исследование, использующее комплексный анализ признаков на уровне генома в выборке из 3000 пациентов с депрессией, показало, что общие генетические вариации могут объяснить до 42% наблюдаемых индивидуальных различий в ответе на лечение антидепрессантами 119 , что предполагает моделирование общих генетических вариаций полезным инструментом для прогнозирования. Однако результаты фармакогеномных исследований на данный момент дают мало результатов 120 .
Полигенные оценки – распространенный метод количественной оценки общего вклада генетических вариаций в проявление конкретных признаков 121 . Полигенные ассоциации с ответом на лечение были исследованы на относительно небольших выборках (большинство N<1000) и продемонстрировали противоречивые результаты 122,123,124,125 . Например, полигенные оценки большого депрессивного расстройства и шизофрении не позволяют достоверно прогнозировать эффективность антидепрессантов (по улучшению симптомов) в классических исследованиях, таких как “Геномные терапевтические препараты для лечения депрессии” (Genome-Based Therapeutic Drugs for Depression, GENDEP) и STAR*D 123 . Оценки были основаны на более раннем полногеномном поиске ассоциаций (GWAS) и, вероятно, были недостаточно мощными. Мощные GWAS ответа на антидепрессанты дали смешанные результаты: одно исследование выявило наборы генов, влияющих на ответ на бупропион 126 , а другое не обнаружило каких-либо значимых результатов в отношении резистентности к антидепрессантам 127 . Необходимо проведение широкомасштабного GWAS метаанализа. Еще меньше исследований изучали связь общих генетических вариаций с ответом на другие методы лечения: психотерапию 125  или ЭСТ 128 .
Данные о метилировании ДНК и экспрессии генов изучались в сочетании с фенотипическими наборами демографических и клинических переменных по их способности предсказывать ответ на несколько лекарств. В недавнем обзоре 129  было указано, что генетическое предсказание терапевтических исходов при депрессии является наиболее многообещающим 43,130,131,132,133  с общей точностью 0,82 (95% ДИ: 0,77–0,87) 134 . Модели, сочетающие несколько типов данных: данные экспрессии периферических генов, нейровизуализации и клинических переменных, достигли значительно более высокой точности 134 .
Модели, основанные на деревьях, оказались самыми популярными методами машинного обучения, за ними следовали штрафующее слагаемое, метод опорных векторов и глубокое обучение 129 . Исследования были довольно разнородными по дизайну, методам, реализации и валидации, что ограничивало нашу способность выяснить, в какой степени машинное обучение с генетикой может предсказать ответ на антидепрессанты.
Были рассмотрены доказательства для оценки полигенного риска по сравнению с методом опорных векторов для прогнозирования резистентной шизофрении на основе данных GWAS35. И несмотря на то, что метод опорных векторов больше подходят для учета сложных генетических взаимодействий, традиционный подход оценки полигенного риска показал более высокую точность для классификации резистентности к лечению 115 .
Несмотря на многочисленные попытки использовать разные виды генетической информации, результаты до сих пор не достаточно убедительные или точные, чтобы поддерживать использование данных подходов в клинической практике 136,137 . В будущем, пока не станут доступными новые аналитические методы для извлечения сигнала из генома или не появится лучшее понимание генетической основы психических заболеваний, наиболее многообещающим подходом является интеграция генетической информации в многомерный анализ, для возможного улучшения производительности моделей 133,137 .

Электрофизиология и нейровизуализация

Идея принимать терапевтические решения на основе характеристик мозга интуитивно привлекательна и эмпирически хорошо обоснована. Систематические обзоры и метаанализы показывают, что терапевтические исходы связаны с различиями мозга до и после лечения, то есть сам мозг меняется в результате терапии 138,139,140,141,142,143,144,145 . Однако в исследованиях с традиционными статистическими подходами размер эффекта был слишком низким для перехода от статистической значимости к клинической эффективности, внешняя валидация оценивалась редко, размеры выборки были небольшими, методологическая и локальная дисперсия была высокой, и зачастую методы не подходили для интеграции в клиническую практику из-за соотношения затрат и выгоды (например, в случае позитронно-эмиссионной томографии) или зависимости от экспериментальных протоколов, которые недоступны в большинстве клинических условий 138,139,143,145,146 . Подходы машинного обучения дают надежду на преодоление этих барьеров. Предварительные обзоры, сравнивающие точность, внушают оптимизм, предполагая превосходство прогнозов лечения по сравнению с традиционными статистическими методами 134 .
В более ранних исследованиях машинное обучение применялось для выявления ответа на клозапин при психозе 147  и на селективные ингибиторы обратного захвата серотонина (СИОЗС) при депрессии 148,149,150 , но большинство исследований было сосредоточено на прогнозировании исходов стимуляции мозга при депрессии 148,151,152,153,154,155 . Например, Corlier и соавт. 156  обнаружили, что альфа-спектральная корреляция может использоваться для измерения связности ЭЭГ, которая затем может предсказать ответ на повторяющуюся TMS (rTMS), используя кросс-валидированную логистическую регрессию с точностью 77% в подгруппе людей с депрессией. Этот показатель увеличился до 81% при добавлении в анализ клинических симптомов депрессии. Большинство исследований сообщают о точности прогнозов >80% на основе пилотных выборок, состоящих примерно из 50 случаев или менее 155 , что отражает высокую вероятность систематической ошибки и переобучения. Аналогичная ситуация наблюдается для магнитно-резонансной томографии (МРТ) 157 .
Для прогнозирования лечения использовалась и функциональная МРТ (фМРТ) с выполнением заданий 158 . Например, моделирование взаимодействия миндалины со стрессом в раннем возрасте во время экспериментального задания для прогнозирования исхода лечения антидепрессантами 159 . Или использование реакции оборонительного рефлекса для прогнозирования исхода лечения панического расстройства 160,161 . Подобные предсказательные модели с выполнением заданий были построены в исследованиях КПТ 162  или ответа на антидепрессанты 162,163,164 . Однако в фМРТ с выполнением заданий трансляционный потенциал ограничен из-за использования длительных и методологически сложных экспериментальных парадигм. ФМРТ в состоянии покоя – популярная альтернатива, так как она измеряет релевантную для поведения, синхронизированную активность сети нейронов в состоянии покоя, а протоколы визуализации можно легче согласовать между различными сканерами 165 . Исследования в этой области продемонстрировали схожую точность для КПТ 166 , психотерапии, сфокусированной на травме 167 , лечения антидепрессантами 168  
и антипсихотиками 169 , а также продемонстрировали прогностическую точность для ЭСТ 165,170 .
Проблемой функциональной визуализации является надежность сканеров, особенно в неэкспериментальных клинических условиях. Структурная нейровизуализация может предоставить возможность для более быстрого внедрения в существующие клиническую практику. Большинство исследований фокусировались на измерении серого вещества и прогнозировании эффекта от ЭСТ, при этом использовались подходы измерения всего мозга 171 , региональные измерения 172  и комбинации методов нейровизуализации 173 . Измерения белого вещества (например, диффузионно-тензорной визуализация) встречались реже.
В целом отсутствие многоцентровых исследований и внешней валидации отражает то, что изучение в данной области находятся на пилотной стадии. Результаты можно интерпретировать как многообещающие, но скорее экспериментальные. Согласуются ли результаты применения машинного обучения с низким размером эффекта, обнаруженным с помощью классических статистических подходов, остается открытым вопросом 143,145 .

Когнитивное тестирование

Когнитивное тестирование – это простой метод косвенной оценки функционирования мозга, исторически связанный с исходами лечения. Несмотря на то, что тестирование может занимать много времени и быть дорогостоящим, если его проводит обученный нейропсихолог, более современные вычислительные методы могут облегчить эффективные цифровые оценки, хорошо подходящие для машинного обучения, в том числе за счет пассивного сбора данных со смартфона, как было описано выше 80,114,174 .
Etkin и соавт. 175  провели пилотные исследования в рамках международного “Исследования по прогнозированию оптимального лечения депрессии” (Study to Predict Optimized Treatment in Depression, iSPOT-D), направленного на
предсказание ответа на лечение антидепрессантами с использованием набора компьютеризированных когнитивных задач, оценивающих внимание, скорость обработки информации, память, исполнительные и эмоциональные функции. Чтобы получить точные прогностические оценки, они сначала распределили людей с депрессией в подгруппу со сниженными когнитивными способностями, после чего обучили контролируемую дискриминационную функцию (supervised discriminant function) для прогнозирования ремиссии. Результаты показали, что ремиссия после приема эсциталопрама может быть предсказана с точностью 72%, но результаты не подтвердились для сертралина и венлафаксина.
Подтипы или подходы бесконтрольного научения также полезны для определения ответа на когнитивное обучение. Недавнее исследование показало, что самоорганизующиеся карты, обнаруживающие многомерные взаимосвязи между когнитивными функциями, связанными с выполнением задач на рабочую память, могут выявить людей, которые по-разному отвечали на обучение 176 .

НАСКОЛЬКО МЫ ПОДОШЛИ К ВНЕДРЕНИЮ В КЛИНИЧЕСКУЮ ПРАКТИКУ

Не все предсказательные модели могут легко использоваться в клинической практике. При оценке готовности предсказательных моделей к практическому внедрению ключевыми критериями являются внешняя валидация, опыт внедрения испытаний и приемлемость для пользователей (например, клиницистов).
Внешняя кросс-валидация остается “золотым стандартом” для оценки реальной производительности, поскольку она позволяет количественно оценить потерю производительности, при использовании обученной модели на полностью независимой выборке. Кроме того, она защищает от увеличения степеней свободы от исследователя, что может быть актуально из-за множества параметров настройки более сложных методов машинного обучения. Обзор, посвященный машинному обучению в исследованиях психотерапии, показал, что только 3 из 51 исследования прошли внешнюю валидацию 62 .
Исследования, не прошедшие внешней валидации, подвержены высокому риску излишней самоуверенности (overconfidence), как продемонстрировали Van Bronswijk и соавт. 60 , которые разработали и затем протестировали модель выбора лечения в двух рандомизированных контролируемых исследованиях, сравнивающих КПТ и межличностную психотерапию. Они обнаружили, что расчетный размер эффекта для получения преимуществ от рекомендуемого моделью лечения (полученного посредством внутренней кросс-валидации), сократился на 77%, когда модель была протестирована на данных другого исследования (внешняя валидация).
Некоторые попытки прогнозирования с использованием больших натуралистических выборок дали положительные результаты после внешней валидации 65,177,178 .
Когда модель проходит внешнюю валидацию и успешно предсказывает результаты, следующим шагом на пути к внедрению в практику является пробная реализация. Эти испытания предоставляют наиболее убедительные доказательства ценности инструмента поддержки для принятия решений. Здесь пациенты обычно распределяются на группы с лечением по алгоритму или лечением в обычном режиме.
Начали появляться работы по оценке эффективности инструментов персонализации лечения. Одним из примеров является мультисервисное кластерное рандомизированное исследование 179 , в котором пациенты (N=951) направлялись на психотерапию высокой или низкой интенсивности. Для одних выбор интенсивности был основан на алгоритме, разработанном на натуралистическом наборе данных. Для других использовалась стандартная система пошагового лечения с низкоинтенсивной психотерапией в начале лечения и переходом на высокоинтенсивную терапию в случае отсутствия эффекта. Исследование выявило более высокие показатели ремиссии депрессии у пациентов, чье изначальное лечение было рекомендовано алгоритмом, по сравнению с обычным пошаговым лечением (52,3% против 45,1%, отношение шансов, OШ=1,40, p =0,025).
Другое исследование провели Lutz и соавт. 180 , где использовались архивные данные амбулаторной клиники КПТ для разработки системы поддержки принятия решений, предоставляющей терапевтам рекомендации по стратегии лечения и психометрическую обратную связь, дополненную инструментами для решения клинических задач. Они рандомизировали пары терапевт-пациент (N=538) на группу с традиционным подходом к лечению и группу с терапией по рекомендуемым алгоритмам. Результаты в целом не отличались между группами, но следует отметить, что наблюдалась значительная вариабельность в том, насколько терапевты следовали рекомендациям, предоставленным инструментом поддержки принятия решений. Когда авторы проанализировали результаты у пациентов, чьи терапевты следовали рекомендациям, то обнаружили значительные преимущества.
Browning и соавт. 181  провели еще одно испытание, рандомизировавшее пациентов с депрессией на лечение с использованием алгоритмов и традиционным подходом. Их алгоритм PReDicT использовал информацию из шкал симптомов и поведенческих тестов на эмоциональное познание для прогнозирования отсутствия ответа на циталопрам. После восьми недель лечения редукция депрессивных симптомов в группе PReDicT достигла 55,9% по сравнению с 51,8% в группе традиционного лечения (не значимо, OШ=1,18, p =0,25). Из всех случаев, когда алгоритм предсказывал отсутствие ответа, только в 65% это приводило к изменению схемы лечения, и большинство заключалось только в увеличении дозировки.
В совокупности вышеуказанные результаты подчеркивают, что точных алгоритмов недостаточно для обеспечения успеха системы поддержки принятия решений для выбора лечения 39 . При рандомизации пациентов для оказания помощи, с использованием алгоритмов, врачи могут игнорировать рекомендации системы и выбирать альтернативные методы лечения. Пациенты могут отказаться от лечения, рекомендованного алгоритмом, или иметь ограничения на его использование, которые не были предусмотрены инструментом поддержки принятия решений (например, высокая стоимость терапии). В свете этого размер эффекта у этих вмешательств часто будет различаться при применении в разных условиях.
Использование предсказательных моделей может сталкиваться с уникальными проблемами при внедрении в психотерапевтическую практику. Например, психотерапевт может быть обучен использовать только ограниченный набор психотерапевтических методов. В то время как психиатр может иметь квалификацию прописать большое количество различных лекарств или комбинаций лекарств, психотерапевт вряд ли сможет одинаково эффективно применять различные психотерапевтические подходы. Еще одна сложность заключается в том, что модельные предсказания могут стать самоисполняющимся пророчеством, согласно которому врачи будут относиться к «легким» пациентам (с хорошим прогнозом) иначе, чем к «трудным» пациентам 182 .
Как в отношении лекарств, так и в отношении психотерапии в реальной практике терапевтические решения редко будут приниматься исключительно на основе рекомендаций модели. Скорее, эти решения будут учитывать предпочтения пациентов, рекомендации врачей, доступность и стоимость лечения, а также ряд других соображений 183 . Таким образом, разработка инструментов принятия решений, основанных на данных, должна базироваться на расширенных консультациях и совместной работе с предполагаемыми пользователями, чтобы реализовать наиболее применимые модели, которые будут хорошо совместимы с другими клиническими рекомендациями (т.е. контролем риска, нормами по использованию безопасных дозировок или титрации лекарств).
Еще одним важным препятствием для реализации является интерпретируемость моделей машинного обучения. По мере того, как алгоритмы становятся все более сложными, иногда называемыми алгоритмами «черного ящика», их становится трудно интерпретировать, вследствие чего они вряд ли будут приемлемы для клинического использования. Поэтому были разработаны методы объяснения прогнозов сложных моделей 183,184 , но в настоящее время нет согласованных мер оценки качества или точности этих объяснений. Кроме того, модели прогнозирования черного ящика в сочетании с (столь же сложными) объяснительными методами могут усложнить процессы принятия решений, что увеличивает вероятность человеческой ошибки 186 .
Чтобы гарантировать то, что рекомендации алгоритмов будут применяться в испытаниях, необходимо больше усилий по вопросам распространения и реализации, с целью сделать рекомендации понятными, надежными, этичными, экономически эффективными и достаточно убедительными для того, чтобы повлиять на лиц, принимающих решения 187 .
Недавно был проведен эксперимент с 220 врачами, выписывающими антидепрессанты, для оценки эффективности предоставления рекомендаций машинного обучения и сопровождающих их объяснений 188 . Было обнаружено, что рекомендации не улучшили точность выбора антидепрессантов в гипотетических сценариях лечения пациентов, и что точность была даже ниже при представлении неправильных рекомендаций, чем когда была доступна стандартная информация. Перспективные полевые тесты 182,189  – это один из методов выявления множества институциональных, культурных и контекстуальных факторов, способных повлиять на внедрение и использование точного психиатрического инструмента, призванный дать приемлемые и интерпретируемые инструменты принятия решений.

ЭТИЧЕСКИЕ ПРОБЛЕМЫ

От разработки инструментов машинного обучения до их потенциального внедрения в клиническую практику мы можем выделить несколько этических проблем 190,191,192,193 .
Первая касается ответственности. С внедрением программ машинного обучения в клиническую практику врачи и инструменты, основанные на машинном обучении, будут работать вместе на выбор оптимального лечения 194,195 . Кто в подобном сценарии будет выступать авторитетом и нести этическую ответственность за принятое решение? Мы считаем, что компетентный специалист должен в итоге нести ответственность 196 , поскольку только он/она наделен эмпатией, пониманием контекста ситуации и, что наиболее уникально, сознанием.
Вторая проблема – избежать обесчеловечивания 197 . Машинное обучение может использовать большое количество психологических, экологических и социальных переменных, и есть некоторый прогресс в отношении применения субъективного опыта пациентов в модели машинного обучения 198 . Тем не менее предоставление пациенту возможности сформулировать беспокоящие его вещи имеет важное значение для обеспечения точного диагноза, исходов лечения и гуманного ухода 199 .
Третья заключается в том, что принятие решений – сложная часть деятельности врача. Неэксперт чаще действует “по инструкции” и, скорее всего, полагается на протоколы и рекомендации, в то время как эксперт после длительного наблюдения более склонен к принятию решений с учетом опыта 200,201,202 . Сложность заключается в том, что практикующие специалисты используют все возможности, даже если это не соответствует статистической модели. Разногласия между врачами и решениями на основе машинного обучения могут привести к консультациям с другими врачами 193 . Однако в рамках современных систем здравоохранения очень важно уважать мнение клиницистов 193,203 , их не следует заставлять действовать вопреки собственному мнению (свобода действий) 204 .
Практикующие врачи (особенно с меньшим опытом) могут не выработать/потерять собственное клиническое мышление и стать зависимыми от результатов машинного обучения 205 , особенно в сложных случаях, когда, по их опасениям, они могут быть недостаточно компетентны для принятия решения. С другой стороны, врачи должны обучаться использованию, пониманию и интерпретации машинного обучения, чтобы доверять системе и ее результатам и способствовать тому, чтобы пациенты больше доверяли ей 206 .
Инструменты машинного обучения должны быть понятными и доступными для клиницистов 194,207 . Но сама эта идея противоположна идее «черного ящика», в которой алгоритм следует шаблонам, непрозрачным для пациентов и разработчиков, делая очень сложным (если не невозможным) для пациента понимание того, как система разработала для него/нее оптимальную стратегию терапии 190 . Этот парадокс может усилить сопротивление врачей использовать данный инструмент и потенциально лишить пациентов права выбора, нарушая их автономию. Разработчикам следует рассмотреть более простые алгоритмы, уравновешивающие интерпретируемость с точностью 191 .
Основная проблема в развитии честного машинного обучения возникает, когда набор обучающих данных не отражает должным образом изучаемое явление 192,208 . Модель, обученная на таких данных, будет предсказывать ошибочные результаты для плохо представленных групп 209 . Например, широко используемый алгоритм машинного обучения определял одинаковый риск заболеваний для чернокожих и белых пациентов, даже если чернокожие пациенты были тяжелее больны 210 . Как следствие, система активно причиняла вред чернокожим пациентам, приводя к выделению им меньшего количества ресурсов. Потенциально дискриминирующие предикторы следует исключить из модели, но разработчики должны знать, что суррогатные переменные, коррелирующие с исключенными переменными, могут по-прежнему иметь значение для прогнозирования. Объективные непредвзятые приложения могут помочь уменьшить дискриминацию в машинном обучении 211,212 .
Наконец, высок риск неправильного использования личных и конфиденциальных данных, которыми обмениваются при машинном обучении 213 . По этой причине инструменты машинного обучения можно использовать только в том случае, если безопасность и конфиденциальность данных гарантированы.

ВЫВОДЫ

В статье приводится обзор исследований, где обсуждается возможность прогнозирования исходов и персонализация психиатрического лечения с помощью машинного обучения. Несколько прогностических исследований “золотого стандарта” продемонстрировали, что мы можем предсказать наличие ответа у пациентов с депрессией на определенные антидепрессанты 40,41 , психотерапевтические методы 177 , хороший прогноз через год после приема ряда антипсихотических препаратов у пациентов с первым психотическим эпизодом 25,50 . По крайней мере три предсказательные модели были протестированы в проспективных клинических испытаниях.
Несмотря на этот прогресс, возможности машинного обучения в психиатрии только начали изучаться. Прогнозирование ответа на лечение – относительно редкий случай, когда машинное обучение способно улучшить психиатрическую помощь. Прогнозирование может стать полезным в гораздо большем количестве клинических ситуаций. Мы могли бы предсказать препятствия, мешающие человеку начать лечение, или предикторы несоблюдения режима лечения, отказа от него. Можно оптимизировать необходимые условия лечения пациентов до соответствующего уровня: программ самостоятельного лечения, амбулаторного или стационарного лечения, чтобы максимально использовать ограниченные ресурсы здравоохранения. Выбирая конкретный подход к лечению, мы могли оптимизировать дозировку или прогнозировать профили побочных эффектов, чтобы облегчить симптомы, минимизируя влияние на качество жизни пациентов. Некоторые методы лечения в психиатрии являются очень дорогостоящими (например, кетамин, ЭСТ) или обладают рядом нежелательных побочных эффектов (нарушение обмена веществ и увеличение веса при приеме нейролептиков). Непричинение вреда однозначно не менее важно, чем увеличение вероятности выздоровления, поэтому так необходимо определить наиболее безопасное и переносимое лечение.
Машинное обучение может помочь упорядочить лечение или разработать индивидуальные протоколы лечения. Например, типовые психологические вмешательства могут быть персонализированы 66,68  или вмешательства по изменению поведения в отношении здоровья могут быть адаптированы для каждого. Эта форма персонализации доказала свою эффективность при отказе от курения, скрининге на рак груди и физической активности 180,214 .
Такие методы, как лингвистическая обработка родного языка, с использованием алгоритмов машинного обучения, дает нам возможность анализировать текстовые данные – сообщения в социальных сетях, разговоры групп поддержки или записи разговоров, – это может быть предложено пациенту как часть его/ее лечения, чтобы максимизировать будущие результаты. Те же аналитические методы могут лечь в основу создания вмешательств, например чат-ботов, способных обеспечить поддержку массам людей при одиночестве, стрессе и других субклинических психологических проблемах, когда поддержка с привлечением людей-специалистов недоступна или клинически не оправдана. Такая персонализация iCBT лечения может быть необходима для неконтролируемых вмешательств, когда широко распространено несоблюдение режима лечения, подрывающее возможность облегчить симптомы.
Машинное обучение – мощный инструмент, который помогает отсеивать разнородные предикторы и моделировать их сложный/нелинейный вклад. Он может выявить конкретные подтипы пациентов для более детального прогнозирования результатов лечения, например, посредством кластеризации. Методы машинного обучения позволяют нам более эффективно извлекать больше знаний из больших наборов данных, что само по себе перспективно.
Однако конечная цель психиатрии – лучше лечить психические заболевания. Недавние основополагающие открытия 181,182  подчеркивают, что точных алгоритмов недостаточно для эффективной работы системы поддержки принятия терапевтических решений. Это связано с тем, что при трансляции от исследований в клиническую практику многое меняется. На практике врачи могут игнорировать рекомендации алгоритмов и выбирать альтернативные методы лечения. Пациенты могут отказаться от лечения, рекомендованного алгоритмом, или не иметь возможности его использовать по причинам, не предусмотренным инструментами поддержки принятия решений. Рекомендации могут быть предоставлены в плохо спроектированном пользовательском интерфейсе и оставаться незамеченными или активно игнорироваться. Все эти факторы способствуют уменьшению размера эффекта при внедрении алгоритма в клиническую практику.
По собственному опыту, беспокойство пациентов о конфиденциальности – вполне реальная проблема. Поскольку психическое здоровье является чувствительной темой, сбор личных данных может быть сложной задачей, и необходимо изобретать способы сбора этих данных, избегая предвзятого взгляда на ситуацию из-за плохой выборки в определенных группах. Данные необходимо собирать таким образом, чтобы участники знали, как и для каких целей эти данные будут использоваться 216 .
Технологические системы должны внедрять предельно тщательные и безопасные процессы регистрации, чтобы изучить дрейф данных, когда базовое распределение предикторов или исхода меняется с течением времени, а также для обеспечения возможности контроля входных и выходных данных системы. Это необходимо для укрепления доверия к предсказательным моделям и их потенциальному использованию в целях улучшения исходов лечения, и предотвращения нанесения вреда или предвзятости при принятии решений.
В этой статье содержится обзор различных типов данных, которые использовались для прогнозирования исходов лечения в психиатрии. В конечном итоге ответ на лечение – комбинация влияния множества взаимодействующих биологических, психологических и социальных факторов. Следовательно, теоретически мультимодальные подходы с использованием демографических, клинических и нейровизуализационных переменных должны давать наиболее точные прогнозы 217 . Однако в настоящее время ясно, что некоторые виды данных: социально-демографические, самоотчеты, психосоциальные и клинические – постоянно предлагают более значимые и обобщаемые прогнозы. Другие типы данных, более привлекательные с научной точки зрения, такие как нейровизуализация и генетические данные, еще не показали убедительных результатов на большой внешней выборке, не говоря уже о проспективных исследованиях внедрения.
В конечном итоге типы данных, которые можно легко интегрировать в клиническую практику экономически эффективным и этичным способом, соответствующим распространенности и инвазивности терапии, наиболее вероятно смогут окупиться в плане пользы для лиц, принимающих окончательные решения в системе здравоохранения, и среди лиц, оплачивающих медицинские услуги.


БЛАГОДАРНОСТИ
A.M. Chekroud владеет акциями Spring Care Inc., Carbon Health Technologies Inc. и UnitedHealthcare. J. Bondar – сотрудник Spring Care Inc. G. Doherty – соучредитель SilverCloud Health. R. Iniesta поддерживается Фондом исследований мозга и поведения и Центром биомедицинских исследований Модсли Национального института медицинских исследований (NIHR).

Перевод: Мамедова Г. Ш. (Москва) 
Редактура: к.м.н. Федотов И.А. (Рязань)

Chekroud AM, Bondar J, Delgadillo J, et al. The promise of machine learning in predicting treatment outcomes in psychiatry. World Psychiatry 2021;20(2):154–170. 

DOI: 10.1002/wps.20882

Количество просмотров: 441
Предыдущая статьяОбеспечение более экологичного восстановления после пандемии с учетом интересов молодежи и психического здоровья
Следующая статьяВалидность и полезность иерархической таксономии психопатологии (HITOP): II. Экстернализирующий суперспектр
Прямой эфир