Психиатрия Психиатрия и психофармакотерапия им. П.Б. Ганнушкина
№01 2025
Биометрия речи с использованием искусственного интеллекта для диагностики депрессии №01 2025
Резюме
В настоящей статье приведен обзор российских и зарубежных исследований, посвященных анализу речи у пациентов с депрессивным расстройством при помощи методов машинного обучения и искусственного интеллекта. Показано, что речь пациентов с депрессией является важным биометрическим маркером расстройства. Создание программы для распознавания различных особенностей депрессивной речи может стать удобным диагностическим инструментом для практического использования.
Ключевые слова: депрессивное расстройство, речь, голосовая биометрия, искусственный интеллект, машинное обучение.
Для цитирования: Павлова Т.А., Доровских И.В., Сенько О.В., Чучупал В.Я., Сыркин Л.Д., Ляпин А.С., Краснослободцева Л.А., Сейку Ю.В. Биометрия речи с использованием искусственного интеллекта для диагностики депрессии. Психиатрия и психофармакотерапия. 2025; 1: 27–32.
DOI: 10.62202/2075-1761-2025-27-1-27-32
Speech biometrics using artificial intelligence to diagnose depression
T.A. Pavlova1, I.V. Dorovskikh2, O.V. Senko3, V.Y. Chuchupal3, L.D. Syrkin4, А.S. Liapin5, L.А. Krasnoblodtseva2,
Y.V. Seyku2
1 City Clinic Medical Center, Russian Federation, Moscow, 115054, Novokuznetsk str., 36/2c1,
2 N.I. Pirogov Russian National Research Medical University of the Ministry of Health of the Russian Federation, Moscow, 117513, Moscow, Ostrovityanova str., 1
3 Federal Research Center "Informatics and Management" of the Russian Academy of Sciences, Russian Federation, 119333, Moscow, Vavilova str., 44, building 2
4 I.M. Sechenov First Moscow State University of the Ministry of Health of the Russian Federation, Russian Federation, 119048, Moscow, Trubetskaya str., 8, p. 2
5 State University of Social Sciences and Humanities, Kolomna, 140411, Zelenaya str., Russian Federation, Moscow Region.
Abstract
This article provides an overview of Russian and foreign studies on speech analysis in patients with depressive disorder using machine learning and artificial intelligence methods. It has been shown that the speech of patients with depression is an important biometric marker of the disorder. Creating a program for recognizing various features of depressive speech can become a convenient diagnostic tool for practical use.
Keywords: depressive disorder, speech, voice biometrics, artificial intelligence, machine learning.
For citation: Pavlova T.A., Dorovskikh I.V., Senko O.V., Chuchupal V.Y., Syrkin L.D. Liapin А.S., Krasnoblodtseva L.А., Seyku Y.V. Speech biometrics usingartificial intelligence to diagnose depression. Psychiatry and ). Psychiatry and psychopharmacotherapy. 2025; 1: 27–32. DOI: 10.62202/2075-1761-2025-27-1-27-32
Введение
В настоящее время депрессией страдает более чем 264 миллионов человек во всем мире из разных возрастных групп, треть из них имеет терапевтическую резистентность [2]. Клиническая депрессия является одной из основных причин инвалидности во многих странах. По зарубежным данным, в 2020 году у 8,4% взрослого населения США диагностирован по крайней мере один тяжелый депрессивный эпизод, распространенность заболевания в течение жизни составляет 17% у мужчин и 30% у женщин [46], а частота встречаемости симптомов депрессии заметно возросла во время пандемии COVID-19 [16].
Процесс диагностики и мониторинга психических заболеваний, включая депрессивное расстройство, до настоящего времени остаются актуальной потребностью. Эта проблема диктует необходимость разработки и апробации мультимодальной, масштабируемой, простой в использовании и эффективной технологии автоматической оценки индивидуальных особенностей психического здоровья пациентов в естественной для пользователя среде информационных технологий [26].
В современном мире, в том числе в области медицины, все большее место занимает искусственный интеллект (ИИ), который применительно к медицине можно определить как совокупность методов создания компьютерных алгоритмов, решающих задачи диагностики, прогнозирования, распознавания для конкретных случаев заболевания по объективной информации, полученной в результате обследования пациента. Алгоритмы для решения каждой поставленной задачи генерируются по представительным базам данных, включающих результаты обследований пациентов с помощью разнообразных применяемых в медицине методов, а также информацию о пациентах, которую в дальнейшем предполагается предсказывать, включая, например, установленный диагноз или исход заболевания. Во время пандемии COVID-19 в разы возрос спрос на технологии, поддерживаемые ИИ, и многие из них были созданы именно в этот период [10].
Очевидно, что при депрессии меняются речевые особенности пациентов [18, 20, 21], а также их мимика [31, 35] – сигналы, которые потенциально могут являться объективными маркерами и подлежат автоматическому анализу с помощью обработки речи и компьютерного зрения. Учитывая актуальность данного вопроса, нами представлен обзор зарубежных и российских научных исследований по теме использования ИИ и методов машинного обучения для распознавания изменений речи у пациентов с депрессивными расстройствами.
Обзор
Эмиль Крепелин описывал голоса пациентов с депрессией следующим образом: «пациенты говорят тихим голосом, медленно, нерешительно, монотонно, иногда заикаясь, шепча, останавливаясь несколько раз, прежде чем произнести слово, замолкая на середине предложения» [22]. Голос пациента с суицидальными мыслями и намерениями описывается как звучащий глухо и невыразительно, в то время как монотонность, тусклость, снижение речевой активности уже давно ассоциируются с депрессией. Речь – это чувствительная система воспроизведения информации, и даже незначительные физиологические и когнитивные нарушения потенциально могут вызвать заметные акустические изменения [45].
Депрессия влечет за собой как когнитивные, так и физиологические изменения, которые влияют на процесс воспроизведения речи, изменяя ее акустические качества, воспроизводимые способом, который поддается измерению и объективной оценке. Процесс воспроизведения речи включает в себя одновременное когнитивное планирование и сложные моторно-мышечные действия. С когнитивной точки зрения создание речи включает в себя формирование сообщения, которое говорящий желает передать, с последующим формированием фонетической и просодической информации, связанной с этим предполагаемым сообщением. Эта информация затем ненадолго сохраняется в рабочей памяти – кратковременной памяти, необходимой для фиксирования информации, выполнения сложных когнитивных задач, включая анализ визуальной информации и понимание языка [9]. Элементы в кратковременной памяти преобразуются в фонетические представления, говорящий затем выполняет серию нервно-мышечных команд, чтобы инициировать двигательные действия, необходимые для воспроизведения речи. Голосовой тракт действует как фильтр, усиливающий и ослабляющий различные частоты, придавая голосовому сигналу спектральную форму. Расположение артикуляторов формирует речевой тракт для воспроизведения различных фонем. Говорящий человек постоянно отслеживает и контролирует свою собственную речь с помощью двух контуров обратной связи: проприоцептивного контура, который контролирует движение и форму мышц, а также слухового канала, в котором говорящий использует свою собственную речь в качестве обратной связи [40]. Когнитивные нарушения, развивающиеся при депрессии, влияют на кратковременную память больного человека [34]. Ключевым компонентом кратковременной памяти является фонологический контур, который помогает управлять артикуляционной системой и сохранять речевую информацию, как правило, в течение нескольких секунд. По данным исследований, уровень серотонина и BDNF-фактора (нейротрофический фактор мозга) находились в прямой корреляционной связи с улучшением кратковременной памяти [11, 15]. В исследовании Christopher G., MacDonald J. (2005) авторы выявили, что депрессия влияет на фонологический цикл, вызывая фонетические и артикуляционные ошибки [13]. Сообщалось также о нарушениях кратковременной памяти у пациентов с высоким суицидальным риском [42]. Снижение когнитивных способностей и нарушения памяти влияют на планирование речи [27], нарушают нервно-мышечную координацию движений и изменяют проприоцептивную петлю обратной связи, влияющую на положение артикулятора [23]. Результаты различных исследований подтверждают наличие значимой корреляции между тяжестью депрессии и показателями, связанными с паузами в речи, эти работы также показывают, что пациенты в депрессии испытывают трудности с подбором слов [8, 33].
Нарушения в работе симпатической и парасимпатической вегетативной нервной системы вызывают изменения мышечного напряжения [45] и частоты дыхания [24]. Изменения в мышечном напряжении и контроле влияют на фонетику и качество произносимой речи, на движение голосовых связок, в то время как изменения в дыхательных мышцах оказывают влияние на подглоточное давление. Как просодические, так и исходные характеристики речи зависят от степени выраженности депрессии говорящего [32, 41, 44, 47] и риска суицида [39, 44]. На свойства голосового тракта влияет как увеличение мышечного напряжения, так и изменения в слюноотделении и секреции слизи, контролируемые реакцией парасимпатической нервной системы. Показано, что снижение секреции слюны влияет на речь пациентов с депрессией [19, 41, 48].
По мнению этого ряда авторов, наиболее полезные признаки для выявления депрессии или склонности к суициду должны:
1. Фиксировать часто встречающиеся при депрессии и легко измеряемые вокальные признаки;
2. Сильно отличаться для групп из здоровых и больных пациентов и наоборот, мало отличаться внутри каждой из групп;
3. Быть индивидуализированы и способны предсказывать изменения психического состояния субъекта;
4. Фиксировать эффекты, характерные для депрессии, и не являться маркером других симптомов, таких как астения или тревога;
5. Позволять прогнозировать возникновение депрессивного состояния и оставаться стабильными с течением времени.
6. Кроме того, если эти признаки будут использоваться в автоматическом процессе диагностики, они должны быть помехоустойчивыми.
Для автоматической классификации речи пациентов с депрессией был опробован широкий спектр признаков.
В литературе используются такие математические методы, как метод опорных векторов (SVM) и модель гауссовских смесей (GMM). Популярность обоих методов отчасти объясняется их способностью эффективно обрабатывать небольшие выборки данных, относительной дешевизной вычислений и наличием общедоступных программ.
Moore E. et al. (2008), Low L.S.A. et al. (2011), Ooi K.E.B. et al. (2013) исследовали способность формировать классификационную систему из комбинаций – просодические, паралингвистические, спектральные и артикуляторные признаки [30, 32, 38]. Moore E. et al. использовали статистические методы (ANOVA для попарного сравнения) при построении классификатора, основанного на квадратичном дискриминантном анализе, и получили максимальную точность в 91% (чувствительность 0,89, специфичность 0,93) для мужчин и 96% (чувствительность 0,98, специфичность 0,94) для женщин с помощью метода кросс-валидации. Этот анализ выявил пригодность артикуляторных признаков для дифференциации людей, страдающих депрессией и здоровых людей из контрольной группы. Однако авторы признают, что из-за небольшого размера выборки эти результаты не могут быть применены для более обширных групп [32].
Аналогичный подход был использован в работе Low L.S.A. et al., в которой сообщалось о точности классификации в диапазоне от 50% до 75% для бинарного классификатора GMM, вне зависимости от пола пациентов [30]. Результаты обоих приведенных исследований подтверждают ранее обсуждавшуюся гипотезу о том, что влияние депрессии на уровень мышечного напряжения и контроль гортани приводят к более турбулентному голосовому потоку [30, 32].
Ooi K.E.B. et al. также использовали многофункциональный подход, но вместо методов объединения признаковых пространств, использованных предыдущими авторами, а окончательное классифицирующее решение принималось с использованием взвешенной суммы взаимосвязанных промежуточных решений, генерируемых отдельными классификаторами GMM, которые обучались с использованием соответствующих признаковых пространств. Используя этот подход, авторы сообщили, что бинарная классификация составляет 73% (чувствительность 0,79, специфичность 0,67) при анализе речи подростков, подверженных риску развития депрессии и 1661 человека, не относящихся к группе риска [38].
Среди широкого спектра артикуляторных и спектральных характеристик, протестированных с использованием технологии GMM, низкочастотные коэффициенты MFCC (77%) и речевые форманты (74%), а также сочетание того и другого (79%) показали наиболее высокую точность при диагностике депрессии с помощью методов автоматической классификации [14]. Аналогичные результаты также получены в работах Alghowinem S. et al. (2012, 2013), в которых исследователи провели эксперименты по сравнению эффективность ряда существующих технологий и пришли к выводу, что методы GMM и SVM являются наилучшими для диагностики депрессии [6, 7].
Helfer B.S. et al. (2013) также сообщают о более высокой эффективности SVM по сравнению с классификаторами, использующими модель распределения параметров GMM при классификации тяжести депрессии [19]. В исследовании Neumann M. et al. (2023) авторами проведено сравнение лингвистических характеристик групп пациентов с разной степенью тяжести депрессии друг с другом и вне зависимости от приема лекарств. Оценивалась эффективность удаленного сбора речевых данных, позволяющих отличить легкую депрессию от тяжелой. Для этой цели авторы использовали PHQ-9 – шкалу симптомов депрессии, сравнивали пациентов без депрессии (показатель шкалы PHQ-8 ниже 5 баллов), пациентов с легкими (оценка PHQ-8 ≥5), умеренными (PHQ-8 ≥10) и тяжелыми симптомами (PHQ-8 ≥15) депрессии. Из-за небольшого количества выборки пациентов, у которых диагностирован тяжелый депрессивный эпизод (PHQ-8 ≥20, n=25), эта группа не была включена в отдельную когорту и оценивалась вместе с группой умеренной депрессии. Статистическая значимость различий между группами по каждому отдельному показателю оценивалась с помощью непараметрического теста Крускала-Уоллиса. Для признаков со значимыми различиями величины эффекта оценивались с помощью дельты Гласса. Учет поправок на множественное тестирование проводился с помощью метода Бенджамини-Хохберга. Наиболее значимыми были различия в кинематических характеристиках губы и челюсти, таких как средняя и максимальная скорость движения, которые указывают на более медленное движение в группе умеренной и тяжелой депрессии. Среди наиболее важных акустических характеристик выделили следующие: темп речи, количество слогов и продолжительность произнесения прочитанных предложений. Когнитивные показатели, такие как разброс цифр и задачи по немедленному запоминанию слов, указывают на различия между группами. Лингвистические особенности, связанные с соотношением в речи существительных, местоимений, содержательных слов и соотношений существительное/местоимение и существительное/глагол, дают основания для некоторых сравнений [36].
Liu Z. et al. (2017) также обнаружили, что время речевых пауз отражает лечение антидепрессантами, у пациентов, получающих терапию, количество пауз значимо снижалось [29]. Abbas A., Sauder C. et al. (2021) обнаружили, что с началом терапии антидепрессантом пациентов с депрессивным расстройством происходило значительное увеличение множества цифровых маркеров, включая выразительность лица и объем речи [5].
В исследовании Fara S. et al. (2024) авторы применили байесовскую сеть (вероятностная модель, описывающая стохастическую взаимосвязь переменных с использованием теоремы Байеса) для определения взаимосвязей между различными симптомами депрессии и особенностями, полученными из данных речи, мимики и когнитивных функций. Доказана эффективность Бейсовской сети как надежного инструмента прогнозирования большого депрессивного расстройства на основе анализа речи. Однако авторы подчеркнули, что ограничением данной модели является небольшой набор используемых переменных, и будущие исследования должны в более широкий спектр переменных, таких как жизненные события, которые могут повлиять на настроение (психогенные и экстремальные ситуации) или проблемы со здоровьем, которые могут повлиять на голос (например, простуда) [17].
В работе Niu M. et al. (2024) исследователи количественно оценивали несоответствие между эмоциями, выраженными через язык и речь, как промежуточный шаг для идентификации депрессивного настроения. Данное несоответствие получило название Эмоциональный Дисбаланс (ЭДБ). Использовался динамический по времени набор данных, собранный у людей с депрессивным эпизодом биполярного аффективного расстройства, и выявлено, что для эпизодов снижения настроения характерны значительно более специфичные изменения речи по сравнению с эутимическими периодами. Авторы разработали метод идентификации депрессивного состояния на основе анализа результатов автоматического распознавания речи и эмоций пациента [37].
Модель на базе оценки ЭДБ, хотя и меньше по размеру, превосходит по точности базовую модель, основанную только на анализе языка, и последовательно обеспечивает улучшение диагностической функции в выявлении депрессии в сочетании с анализом языка. Предложен набор функций ЭДБ, количественно определяющих соответствие между текстовым и речевым (акустическим) выражением эмоций. Модель ЭДБ превосходит существующие базовые модели, основанные только на анализе языка или только эмоций, а также может использоваться вместе с существующими моделями для дальнейшего усовершенствования диагностики депрессии. Эти результаты подтверждают, что математические модели распознавания настроения улучшаются от изучения вариаций эмоций в качестве промежуточного шага и может быть полезен мультимодальный анализ [37].
В исследовании ирландских ученых Campbell E.L., Dineley J., Conde P. et al. 2023 года представлена новая экспериментальная база данных для оценки симптомов тяжести депрессивного расстройства с использованием речи. Этот набор данных содержит собранные за многие годы образцы речи из клинической базы пациентов с рекуррентным депрессивным расстройством. Авторы использовали этот набор данных, чтобы подчеркнуть преимущества персонализации при прогнозировании тяжести симптомов депрессивного расстройства, исходя из оценки речи. Самая эффективная настройка модели использовала функции самоконтролируемого обучения, сверточной нейронной сети (CNN) и рекуррентной нейросети с долговременной краткосрочной памятью (LSTM). Примененные модели прогнозирования продемонстрировали более высокое качество прогноза. При этом eGeMAPS и SVM хорошо работали и с меньшими наборами признаков [12].
Li Q. et al. (2023) указывают, что в большинстве проводимых исследований не учитывался факт того, что выбор частотных признаков и временных интервалов для их вычисления влияет на качество обнаружения депрессии. Для получения более значимых и отличительных особенностей они предложили эффективный модуль внимания частота-время (FTA) для CNN, который основан на операциях сжатия и расширения и может определить временные интервалы и частотные диапазоны, связанные с депрессией. В этой работе предложили частотно-временную сеть c вниманием – FTA, которая способна выбирать наиболее полезные для идентификации депрессии частотно-временные области [28].
Российские ученые указывают на все большее развитие так называемых аффективных вычислений – области ИИ, изучающей машинные методы, системы и устройства для анализа аффективных состояний человека при взаимодействии с другими людьми или компьютером. Имеющиеся машинные методы для аффективных вычислений являются ограниченными по размеру и количеству доступных данных. Существующие на русском языке корпуса значительно уступают базам данных на иностранном языке, что влечет за собой необходимость в рассмотрении широкого спектра дополнительных методов и алгоритмов решения задачи автоматического распознавания в условиях ограниченного объема доступных данных и, в том числе, в разработке новых подходов к увеличению данных, переносу обучения и адаптации ресурсов на иностранных языках [3].
С другой стороны, рядом российских исследователей разработаны программы анализа речи для распознавания различных состояний аффекта человека. Так, в работе Величко А.Н. (2023) исследован комплекс методов анализа речевого сигнала для выявления ведущих к деструкции неязыковых явлений в разговорной речи, включающий в себя метод определения депрессии в разговорной речи SBC-Depression. Он основан на одном компьютерном классификаторе с использованием нескольких наборов акустических признаков. В данном методе вычисляются и объединяются несколько наборов акустических признаков: eGeMAPS (включает 88 признаков) и DenseNet (включает 1024 признаков). Далее признаки подвергаются нормализации, а затем уменьшению размерности признакового пространства. Таким образом, отличием метода является то, что формируется оригинальный набор акустических признаков, который затем поступает в классификатор. Метод определения депрессивного состояния по речи имеет точность и полноту равную 64,0% [1].
Лебедева С.А. (2024) изучала связи между изменениями психофизиологического состояния человека-оператора и физическими параметрами его произвольной устной речи под воздействием моделируемых факторов космического полета. Комплексный анализ акустических характеристик речи, когнитивной работоспособности и ситуативной тревожности человека в заданных условиях позволяет уточнить динамику развития острого периода адаптации к моделируемым факторам космического полета. Показано, что наиболее значимую роль в определении начала и окончания острого периода адаптации играют частота основного тона (р<0,05) и процент пауз (р<0,05) в речи испытуемых [4].
Заключение
На сегодняшний день клиническая депрессия является одним из наиболее распространенных психических расстройств, что делает необходимость разработок технологий дистанционной оценки и диагностики данного заболевания крайне актуальной проблемой. Очевидно, что при депрессивных расстройствах изменения претерпевают когнитивные функции, мимика и речь пациентов. Компьютерные технологии могут помочь в анализе данных характеристик, что важно не только с диагностической целью, но может помочь в оценке тяжести расстройства, выявлении суицидального риска и мониторинге результатов терапии. Приведенный обзор исследований в этой области демонстрирует, что для этих целей необходимо использовать программную платформу, которая, с одной стороны, позволит оценить большое количество речевых характеристик пациента, а с другой, может быть удобна в использовании и стать основой для создания программы для применения в практике врачами-психиатрами с помощью простых гаджетов – смартфона или планшета. Результаты уже проведенных исследований показывают статистически значимые различия лингвистических характеристик между группами здоровых людей и пациентов с депрессией, между пациентами с легкой и тяжелой выраженностью расстройства, пациентами перед лечением и в процессе терапии. Однако в приведенных работах, как правило, речь шла о небольших выборках пациентов, не рассматривались различия между депрессивными эпизодами при рекуррентном депрессивном и биполярном аффективном расстройствах, а также психогенными депрессиями. Опубликованные результаты являются предварительными, поскольку получены на очень малых и, видимо, недостаточно представительных данных, их сложно сравнить между собой, поскольку эти данные различны для каждой работы. Дальнейшие научные разработки в этой области представляют собой перспективное направление – смежное для современной психиатрии и компьютерных технологий.
Дата поступления: 02.12.2024
Received: 02.12.2024
Принята к печати: 27.01.2025
Accepted: 27.01.2025
Авторы заявляют об отсутствии конфликта интересов.
The authors declare no conflicts of interest.
Список исп. литературыСкрыть список1. Величко А.Н. Методы и программная система интегрального анализа деструктивных паралингвистических явлений в разговорной речи. Автореферат дисс. канд. тех. наук. – Санкт-Петербург. – 2023. – 24 с.
2. ВОЗ. Депрессивное расстройство. – [Электронный ресурс]. – Режим доступа: https://www.who.int/news-room/fact-sheets/detail/depression (дата обращения: 15.07.2024).
3. Двойникова А.А., Маркитанов М.В., Рюмина Е.В. и др. Анализ информационного и математического обеспечения для распознавания аффективных состояний человека // Информатика и автоматизация. – 2022. – Т. 6. – Вып. 21. – С. 1097–1144.
4. Лебедева С.А. Оценка психофизиологического статуса оператора с использованием акустических характеристик речи. Автореферат дисс. канд. тех. наук. – Москва. – 2024. – 22 с.
5. Abbas A., Sauder C. et al. Remote digital measurement of facial and vocal markers of major depressive disorder severity and treatment response: a pilot study // Frontiers in digital health. – 2021. – Vol. 3. – P.610006.
6. Alghowinem S., Goecke R., Wagner M. et al. From joyous to clinically depressed: mood detection using spontaneous speech // In: Twenty-Fifth International FLAIRS Conference. Marco Island, Florida. – 2012. – P. 141–146.
7. Alghowinem, S., Goecke R., Wagner M. et al. Detecting depression: a comparison between spontaneous and read speech // In: Proceedings of ICASSP. Vancouver, Canada. – 2013. – P. 7547–7551.
8. Alpert M., Pouget E.R., Silva R.R., 2001. Reflections of depression in acoustic measures of the patient’s speech // J. Affect. Disord. – 2001. – Vol. 66. – P. 59–69.
9. Baddeley A. Working memory and language: an overview // J. Commun. Disord. – 2003. – Vol.36. – P.189–208.
10. Bindra S., Jain R. Artificial intelligence in medical science: a review // Ir J Med Sci. – 2024. – Vol.193. – N. 3. – P.1419-1429. – DOI: 10.1007/s11845-023-03570-9.
11. Brooks S.J., Nilsson E.K., Jacobsson, J.A. et al. BDNF polymorphisms are linked to poorer working memory performance, reduced cerebellar and hippocampal volumes and differences in prefrontal cortex in a Swedish elderly population // PLoS One. – 2014. – Vol.9. – P.e82707.
12. Campbell E.L., Dineley J., Conde P. et al. Classifying depression symptom severity: assessment of speech representations in personalized and generalized machine learning models. – Conference: Interspeech. – 2023. – DOI:10.21437/Interspeech.2023-1721.
13. Christopher G., MacDonald J. The impact of clinical depression on working memory // Cognit. Neuropsych. – 2005. – Vol.10. – P.379–399.
14. Cummins N., Epps J., Breakspear M. et al. An investigation of depressed speech detection: features and normalization // Proceedings of Interspeech. ISCA, Florence, Italy. – 2011. – P. 2997–3000.
15. Enge S., Fleischhauer M., Lesch, K.-P. et al. Serotonergic modulation in executive functioning: linking genetic variations to working memory performance // Neuropsychologia. – 2011. – Vol.49. – P.3776–3785.
16. Ettman C.K., Abdalla S.M.et al. Prevalence of depression symptoms in us adults before and during the covid-19 pandemic // JAMA. – 2020. – Vol. 3. – N. 9. – P. e2 019 686–e2 019 686.
17. Fara S., Hickey O., Georgescu A., Goria S. et al. Bayesian Networks for the robust and unbiased prediction of depression and its symptoms utilizing speech and multimodal data // Conference: Interspeech. – 2023. –DOI:10.21437/Interspeech.2023-1709.
18. France D.J., Shiavi R.G. et al. Acoustical properties of speech as indicators of depression and suicidal risk // IEEE transactions on Biomedical Engineering. – Vol. 47. – N. 7. – P. 829–837.
19. Helfer B.S., Quatieri T.F., Williamson J.R. et al. Classification of depression state based on articulatory precision // Proceedings of Interspeech. ISCA, Lyon, France. – 2013. – P. 2172–2176.
20. Jain V., Crowley G.L. et al. Depression estimation using audiovisual features and fisher vector encoding // In Proceedings of the 4th International Workshop on Audio/Visual Emotion Challenge. – 2014. – P. 87–91.
21. Kaya H., Eyben F. et al. Cca based feature selection with application to continuous depression recognition from acoustic speech features // In 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE. – 2014. – P. 3729–3733.
22. Kraepelin, E. Manic depressive insanity and paranoia // J. Nerv. Ment. Dis. – 1921. – Vol.53. – P.350.
23. Krajewski J., Schnieder S., Sommer D. et al. Applying multiple classifiers and non-linear dynamics features for detecting sleepiness from speech // Neurocomputing. – 2012. – Vol. 84. – P. 65–75.
24. Kreibig S.D. Autonomic nervous system activity in emotion: a review // Biol. Psychol. – 2010. – Vol. 84. – P. 394–421.
25. Kroenke K., Spitzer R.I. The phq-9: a new depression diagnostic and severity measure // Psychiatric annals. – 2002. – Vol. 32. – N. 9. – P. 509–515.
26. Kumar S., Nilsen W. et al. Mobile health: Revolutionizing healthcare through transdisciplinary research // Computer. – 2012. – Vol. 46. – N. 1. – P. 28–35.
27. Levelt W.J., Roelofs A., Meyer A.S. A theory of lexical access in speech production // Behav. Brain Sci. – 1999. – Vol 22. – P. 1–38 (discussion 38–75).
28. Li Q., Wang D., Ren Y. et al. FTA-net: A frequency and time attention network for speech depression detection. – Conference: Interspeech. – 2023. – DOI:10.21437/Interspeech.2023-296.
29. Liu Z., Kang H. et al. Speech pause time: A potential biomarker for depression detection // In 2017 IEEE International Conference on Bioinformatics and Biomedicine (BIBM). IEEE. – 2017. – P. 2020–2025.
30. Low L.S.A., Maddage M.C., Lech, M. et al. Detection of clinical depression in adolescents; speech during family interactions // IEEE Trans. Biomed. Eng. – 2011. – Vol. 58. – P. 574–586.
31. Meng H., Huang D. et al. Depression recognition based on dynamic facial and vocal expression features using partial least square regression // In Proceedings of the 3rd ACM international workshop on Audio/visual emotion challenge. – 2013. – P. 21–30.
32. Moore E., Clements M.A., Peifer J.W. et al. Critical analysis of the impact of glottal features in the classification of clinical depression in speech // IEEE Trans. Biomed. Eng. – 2008. – Vol. 55. – P. 96–107.
33. Mundt J.C., Vogel A.P., Feltner D.E. et al. Vocal acoustic biomarkers of depression severity and treatment response // Biol. Psych. – 2012. – Vol. 72.– P. 580–587.
34. Murphy F.C., Sahakian B.J., Rubinsztein, J.S. et al. Emotional bias and inhibitory control processes in mania and depression // Psychol. Med. –1999. Vol.29. – P.1307–1321.
35. Nasir M., Jati A. et al. Multimodal and multiresolution depression detection from speech and facial landmark features // In Proceedings of the 6th International Workshop on Audio/Visual Emotion Challenge. – 2016. – P. 43–50.
36. Neumann M., Kothare H., Habberstad D. et al. Multimodal investigation of speech, text, cognitive and facial video features for characterizing depression with and without medication // Interspeech. – Dublin, Ireland. – 2023.
37. Niu M., Romana A., Jaiswal M. et al.. Capturing Mismatch between textual and acoustic emotion expressions for mood identification in bipolar disorder. – Conference: Interspeech. – 2023. – DOI:10.21437/Interspeech.2023-1990
38. Ooi K.E.B., Lech M., Allen N.B. Multichannel weighted speech classification system for prediction of major depression in adolescents // IEEE Trans. Biomed. Eng. – 2013. – Vol. 60. – P. 497–506.
39. Ozdas A., Shiavi R.G., Silverman S.E. et al. Investigation of vocal jitter and glottal flow spectrum as possible cues for depression and near-term suicidal risk // IEEE Trans. Bio-Eng. – 2004. – Vol. 51. – P. 1530–1540.
40. Postma, A. Detection of errors during speech production: a review of speech monitoring models // Cognition. – 2000. – Vol.77. – P. 97–132.
41. Quatieri T.F., Malyska N. Vocal-source biomarkers for depression: a link to psychomotor activity // Proceedings of Interspeech. ICSA, Portland, USA. – 2012. – P. 1059–1062.
42. Raust A., Slama F., Mathieu F. et al. Prefrontal cortex dysfunction in patients with suicidal behavior // Psychol. Med. – 2007. – Vol.37. – P. 411–419.
43. Scherer S., Pestian J., Morency L.P. Investigating the speechcharacteristics of suicidal adolescents // In: IEEE (Ed.), Proceedings of ICASSP. Vancouver, Canada. – 2013. – P. 709–713.
44. Scherer S., Stratou G., Gratch J. et al. Investigating voice quality as a speaker-independent indicator of depression and PTSD // Proceedings of Interspeech. ISCA, Lyon, France. – 2013. – P. 847–851.
45. Scherer, K.R. Vocal affect expressions – a review and a model for future-research // Psychol. Bull. – 1986. – Vol.99. – P.143–165.
46. Simon G.E., Moise N., Mohr D.C. Management of Depression in Adults: A Review // JAMA. – 2024. – Vol.332. – N.2. – P. 141-152. – DOI: 10.1001/jama.2024.5756.
47. Trevino A., Quatieri T., Malyska N. Phonologically-based biomarkers for major depressive disorder // EURASIP J. Adv. Signal Process. – 2011. – Vol. 1. – P. 1–18.
48. Williamson J.R., Quatieri T.F., Helfer B.S. et al. Vocal biomarkers of depression based on motor incoordination // In: Proceedings of the 3rd ACM International Workshop on Audio/Visual Emotion Challenge. – Barcelona, Spain. – 2013. – P. 41–48.