Гибридная модель ViT-BiLSTM для классификации инсультов головного мозга по МРТ

Ключевые результаты

В исследовании представлена гибридная модель, объединяющая зрительный трансформер (Vision Transformer, ViT) и двунаправленную сеть с долгой краткосрочной памятью (BiLSTM) для классификации инсультов головного мозга по МРТ-изображениям. Предложенная архитектура продемонстрировала высокие показатели эффективности:

Точность (Precision): 97,35%
Полнота (Recall): 93,04%
Общая точность (Accuracy): 95,21%
F1-мера: 95,15%
ROC-AUC: 99,36%

Данные результаты превосходят эффективность сравниваемых методов глубокого обучения, включая базовую сверточную нейронную сеть (85,5%), VGG16 (87,8%), ResNet50 (89,2%), отдельно ViT (91,3%) и BiLSTM (88,6%).

Методология

Исследователи разработали гибридную архитектуру для классификации типов инсульта (геморрагического и ишемического) на основе МРТ-изображений из частного набора данных. Методология включала следующие ключевые компоненты:

Архитектура зрительного трансформера (ViT)

Обработка изображений путем разделения на патчи размером 16×16
Проекция патчей в 256-мерное пространство признаков
Использование 4 слоев трансформер-кодировщика с 8 головками внимания
Захват глобальных контекстных и пространственных представлений через механизм самовнимания

Архитектура BiLSTM

Двунаправленная LSTM-сеть с 128 и 64 нейронами
Моделирование зависимостей внутри признаков, закодированных трансформером
Способность обрабатывать последовательности в прямом и обратном направлениях

Для валидации модели была проведена 5-кратная кросс-валидация, показавшая стабильную производительность со средней точностью 96,61% и стандартным отклонением 0,78.

Клиническое значение

Данное исследование имеет существенное клиническое значение для диагностики и классификации инсультов:

Инсульт является ведущей причиной долгосрочной инвалидности, влияющей на социально-экономический статус пациентов
Геморрагические и ишемические инсульты отличаются размерами, формами и локализацией, что создает сложности для автоматизированного выявления
МРТ, особенно диффузионно-взвешенные изображения (DWI), позволяют выявлять изменения в балансе жидкостей, обеспечивая раннее обнаружение патологии
МРТ-сканирование обладает более высокой точностью по сравнению с компьютерной томографией (КТ) благодаря повышенной чувствительности

Предложенная гибридная модель может служить основой для систем поддержки принятия клинических решений при ранней диагностике инсульта, что критически важно для своевременного начала терапии и улучшения исходов заболевания.

Выводы

Исследование демонстрирует, что объединение глобального пространственного контекста через механизм самовнимания (ViT) с двунаправленной обработкой временных последовательностей (BiLSTM) значительно повышает эффективность классификации типов инсульта по МРТ-данным. Гибридная архитектура ViT-BiLSTM превосходит как традиционные сверточные нейронные сети, так и отдельные компоненты (ViT или BiLSTM) по ключевым метрикам производительности.

Авторы отмечают перспективы дальнейших исследований с использованием федеративного обучения (Federated Learning, FL) для защиты конфиденциальности данных и оценки обобщающей способности модели на мультиинституциональных наборах МРТ-данных. Данный подход может способствовать более широкому внедрению искусственного интеллекта в клиническую практику неврологии без компромиссов в области защиты персональных данных пациентов.