Ключевые результаты
Ученые разработали первую комплексную систему машинного обучения для автоматического выявления болезни Альцгеймера (БА) по спонтанной речи на немецком языке. Исследование отличается использованием строгих клинико-биологических критериев, подтвержденных биомаркерами цереброспинальной жидкости (ЦСЖ). Модели машинного обучения продемонстрировали высокую точность классификации (~91%) при чувствительности около 90%, основываясь на наборе из 7 ключевых лингвистических биомаркеров речи.
Методология
В исследовании участвовали 44 человека:
- 22 пациента с БА, подтвержденной биомаркерами ЦСЖ (из проспективного обсервационного исследования, номер регистрации DRKS00030633)
- 22 когнитивно здоровых участника контрольной группы, соответствующих по социально-демографическим характеристикам
Для получения связной речи использовался стандартизированный тест описания картинки "Cookie Theft". Записи были транскрибированы с помощью современной системы автоматического распознавания речи. Из полученных транскриптов вычислялись 32 теоретически обоснованных лингвистических биомаркера, относящихся к трем категориям:
- Информационно-теоретические
- Показатели лексического богатства
- Синтаксические характеристики
Для классификации БА использовались пять моделей машинного обучения:
- Логистическая регрессия
- Метод опорных векторов с радиальной базисной функцией
- Случайный лес
- Градиентный бустинг
- XGBoost
Модели оценивались с использованием стратифицированной пятикратной перекрестной проверки. Для отбора признаков применялось рекурсивное исключение на основе стабильности. Интерпретируемость моделей оценивалась с помощью SHapley Additive exPlanations (SHAP).
Клиническое значение
Исследование показывает, что даже на небольших выборках с тщательно подобранными клиническими случаями возможно выявление клинически значимых лингвистических биомаркеров из спонтанной речи. Из 32 потенциальных речевых биомаркеров, 7 признаков были определены как наиболее информативные для классификации БА.
Анализ SHAP продемонстрировал, что решения моделей в основном определялись:
- Информационно-теоретическими маркерами (более низкая сжимаемость)
- Структурными характеристиками (сниженная лексическая плотность)
- Особенностями построения предложений (более короткие клаузы и предложения)
- Показателями предиктивной последовательности, измеряемыми статистикой n-грамм высокого порядка
Полученные результаты подтверждают потенциал анализа речи с помощью искусственного интеллекта как неинвазивного, масштабируемого дополнения к традиционным биологическим биомаркерам болезни Альцгеймера. Такой подход может значительно облегчить раннюю диагностику БА, особенно в условиях ограниченного доступа к инвазивным методам исследования.
Выводы
Данное исследование представляет первую систему машинного обучения для выявления болезни Альцгеймера по особенностям спонтанной речи на немецком языке с биохимической валидацией диагноза. Работа демонстрирует, что информационно-теоретические и структурные свойства связной речи способны улавливать ключевые речевые нарушения, характерные для болезни Альцгеймера, с высокой точностью классификации.
Особенно важно, что выявленные лингвистические маркеры имеют теоретическое обоснование и хорошо интерпретируемы, что повышает их клиническую применимость. Использование стабильно-ориентированного моделирования позволило выделить наиболее надежные признаки даже на относительно небольшой выборке.
Результаты подтверждают перспективность анализа речи с использованием искусственного интеллекта как неинвазивного, масштабируемого дополнения к установленным биологическим биомаркерам болезни Альцгеймера.


