Выявление биохимически подтвержденной болезни Альцгеймера по спонтанной речи на немецком языке

Ключевые результаты

Ученые разработали первую комплексную систему машинного обучения для автоматического выявления болезни Альцгеймера (БА) по спонтанной речи на немецком языке. Исследование отличается использованием строгих клинико-биологических критериев, подтвержденных биомаркерами цереброспинальной жидкости (ЦСЖ). Модели машинного обучения продемонстрировали высокую точность классификации (~91%) при чувствительности около 90%, основываясь на наборе из 7 ключевых лингвистических биомаркеров речи.

Методология

В исследовании участвовали 44 человека:

22 пациента с БА, подтвержденной биомаркерами ЦСЖ (из проспективного обсервационного исследования, номер регистрации DRKS00030633)
22 когнитивно здоровых участника контрольной группы, соответствующих по социально-демографическим характеристикам

Для получения связной речи использовался стандартизированный тест описания картинки "Cookie Theft". Записи были транскрибированы с помощью современной системы автоматического распознавания речи. Из полученных транскриптов вычислялись 32 теоретически обоснованных лингвистических биомаркера, относящихся к трем категориям:

Информационно-теоретические
Показатели лексического богатства
Синтаксические характеристики

Для классификации БА использовались пять моделей машинного обучения:

Логистическая регрессия
Метод опорных векторов с радиальной базисной функцией
Случайный лес
Градиентный бустинг
XGBoost

Модели оценивались с использованием стратифицированной пятикратной перекрестной проверки. Для отбора признаков применялось рекурсивное исключение на основе стабильности. Интерпретируемость моделей оценивалась с помощью SHapley Additive exPlanations (SHAP).

Клиническое значение

Исследование показывает, что даже на небольших выборках с тщательно подобранными клиническими случаями возможно выявление клинически значимых лингвистических биомаркеров из спонтанной речи. Из 32 потенциальных речевых биомаркеров, 7 признаков были определены как наиболее информативные для классификации БА.

Анализ SHAP продемонстрировал, что решения моделей в основном определялись:

Информационно-теоретическими маркерами (более низкая сжимаемость)
Структурными характеристиками (сниженная лексическая плотность)
Особенностями построения предложений (более короткие клаузы и предложения)
Показателями предиктивной последовательности, измеряемыми статистикой n-грамм высокого порядка

Полученные результаты подтверждают потенциал анализа речи с помощью искусственного интеллекта как неинвазивного, масштабируемого дополнения к традиционным биологическим биомаркерам болезни Альцгеймера. Такой подход может значительно облегчить раннюю диагностику БА, особенно в условиях ограниченного доступа к инвазивным методам исследования.

Выводы

Данное исследование представляет первую систему машинного обучения для выявления болезни Альцгеймера по особенностям спонтанной речи на немецком языке с биохимической валидацией диагноза. Работа демонстрирует, что информационно-теоретические и структурные свойства связной речи способны улавливать ключевые речевые нарушения, характерные для болезни Альцгеймера, с высокой точностью классификации.

Особенно важно, что выявленные лингвистические маркеры имеют теоретическое обоснование и хорошо интерпретируемы, что повышает их клиническую применимость. Использование стабильно-ориентированного моделирования позволило выделить наиболее надежные признаки даже на относительно небольшой выборке.

Результаты подтверждают перспективность анализа речи с использованием искусственного интеллекта как неинвазивного, масштабируемого дополнения к установленным биологическим биомаркерам болезни Альцгеймера.