Ключевые результаты
В исследовании представлена гибридная модель, объединяющая зрительный трансформер (Vision Transformer, ViT) и двунаправленную сеть с долгой краткосрочной памятью (BiLSTM) для классификации инсультов головного мозга по МРТ-изображениям. Предложенная архитектура продемонстрировала высокие показатели эффективности:
- Точность (Precision): 97,35%
- Полнота (Recall): 93,04%
- Общая точность (Accuracy): 95,21%
- F1-мера: 95,15%
- ROC-AUC: 99,36%
Данные результаты превосходят эффективность сравниваемых методов глубокого обучения, включая базовую сверточную нейронную сеть (85,5%), VGG16 (87,8%), ResNet50 (89,2%), отдельно ViT (91,3%) и BiLSTM (88,6%).
Методология
Исследователи разработали гибридную архитектуру для классификации типов инсульта (геморрагического и ишемического) на основе МРТ-изображений из частного набора данных. Методология включала следующие ключевые компоненты:
Архитектура зрительного трансформера (ViT)
- Обработка изображений путем разделения на патчи размером 16×16
- Проекция патчей в 256-мерное пространство признаков
- Использование 4 слоев трансформер-кодировщика с 8 головками внимания
- Захват глобальных контекстных и пространственных представлений через механизм самовнимания
Архитектура BiLSTM
- Двунаправленная LSTM-сеть с 128 и 64 нейронами
- Моделирование зависимостей внутри признаков, закодированных трансформером
- Способность обрабатывать последовательности в прямом и обратном направлениях
Для валидации модели была проведена 5-кратная кросс-валидация, показавшая стабильную производительность со средней точностью 96,61% и стандартным отклонением 0,78.
Клиническое значение
Данное исследование имеет существенное клиническое значение для диагностики и классификации инсультов:
- Инсульт является ведущей причиной долгосрочной инвалидности, влияющей на социально-экономический статус пациентов
- Геморрагические и ишемические инсульты отличаются размерами, формами и локализацией, что создает сложности для автоматизированного выявления
- МРТ, особенно диффузионно-взвешенные изображения (DWI), позволяют выявлять изменения в балансе жидкостей, обеспечивая раннее обнаружение патологии
- МРТ-сканирование обладает более высокой точностью по сравнению с компьютерной томографией (КТ) благодаря повышенной чувствительности
Предложенная гибридная модель может служить основой для систем поддержки принятия клинических решений при ранней диагностике инсульта, что критически важно для своевременного начала терапии и улучшения исходов заболевания.
Выводы
Исследование демонстрирует, что объединение глобального пространственного контекста через механизм самовнимания (ViT) с двунаправленной обработкой временных последовательностей (BiLSTM) значительно повышает эффективность классификации типов инсульта по МРТ-данным. Гибридная архитектура ViT-BiLSTM превосходит как традиционные сверточные нейронные сети, так и отдельные компоненты (ViT или BiLSTM) по ключевым метрикам производительности.
Авторы отмечают перспективы дальнейших исследований с использованием федеративного обучения (Federated Learning, FL) для защиты конфиденциальности данных и оценки обобщающей способности модели на мультиинституциональных наборах МРТ-данных. Данный подход может способствовать более широкому внедрению искусственного интеллекта в клиническую практику неврологии без компромиссов в области защиты персональных данных пациентов.


