Базовый преобразователь зрения улучшает диагностические характеристики электрокардиограммы

npj Digital Medicine, том 6, Номер статьи: 108 (2023) Цитировать эту статью

76 Альтметрика

Подробности о метриках

Электрокардиограмма (ЭКГ) – универсальный диагностический метод. Сверточные нейронные сети (CNN), применяемые для анализа ЭКГ, требуют больших размеров выборки, а подходы к трансферному обучению для биомедицинских проблем могут привести к неоптимальной производительности, когда предварительное обучение выполняется на естественных изображениях. Мы использовали моделирование замаскированных изображений для создания модели трансформатора на основе зрения HeartBEiT для анализа формы сигналов электрокардиограммы. Мы предварительно обучили эту модель на 8,5 миллионах ЭКГ, а затем сравнили производительность со стандартной архитектурой CNN для диагностики гипертрофической кардиомиопатии, низкой фракции выброса левого желудочка и инфаркта миокарда с подъемом сегмента ST, используя различные размеры обучающей выборки и наборы независимых проверочных данных. Мы обнаружили, что HeartBEiT имеет значительно более высокую производительность при меньших размерах выборки по сравнению с другими моделями. Мы также обнаружили, что HeartBEiT улучшает объяснимость диагноза, выделяя биологически значимые области ЭКГ по сравнению со стандартными CNN. Предварительно обученные модели преобразователей для конкретной предметной области могут превосходить эффективность классификации моделей, обученных на естественных изображениях, особенно в режимах с очень низким объемом данных. Сочетание архитектуры и такого предварительного обучения обеспечивает более точную и детальную объяснимость прогнозов модели.

Электрокардиограмма (ЭКГ) — это запись электрической активности сердца на уровне поверхности тела. Благодаря своей низкой стоимости, неинвазивности и широкой применимости при заболеваниях сердца, ЭКГ является распространенным методом исследования, и ежегодно только в Соединенных Штатах1 в различных медицинских учреждениях проводится более 100 миллионов ЭКГ. Однако область применения ЭКГ ограничена, поскольку врачи не могут последовательно идентифицировать закономерности, характерные для заболевания, особенно для состояний, для которых нет установленных диагностических критериев, или в случаях, когда такие закономерности могут быть слишком тонкими или хаотичными для интерпретации человеком.

Глубокое обучение применялось к данным ЭКГ в нескольких диагностических и прогностических случаях2,3,4,5,6. Подавляющее большинство этой работы было построено на сверточных нейронных сетях (CNN)7. Как и другие нейронные сети, CNN представляют собой конструкции с высокой дисперсией8 и требуют больших объемов данных для предотвращения переобучения9. CNN также должны быть специально созданы с учетом размерности входящих данных, и они используются для интерпретации ЭКГ как в виде одномерных сигналов, так и в виде двумерных изображений10.

В этом контексте интерпретация ЭКГ как 2D-изображений представляет собой преимущество благодаря широко доступным предварительно обученным моделям, которые часто служат отправной точкой для задач моделирования на небольших наборах данных11. Этот метод описывается как трансферное обучение, при котором модель, обученная на более крупном, возможно, несвязанном наборе данных, дорабатывается на меньшем наборе данных, имеющем отношение к проблеме12. Трансферное обучение особенно полезно в здравоохранении, поскольку наборы данных ограничены по размеру из-за ограниченной когорты пациентов, редкости интересующих результатов и затрат, связанных с созданием полезных меток. В результате модели зрения, сначала обученные под наблюдением на естественных изображениях13, часто составляют основу моделей, используемых в медицинских учреждениях. К сожалению, трансферное обучение с такими естественными изображениями не является универсальным решением, и известно, что оно дает неоптимальные результаты, когда существуют существенные различия в наборах данных для предварительного обучения и точной настройки14.

Нейронные сети на основе трансформаторов используют механизм внимания15 для установления и определения отношений между дискретными единицами входных данных, известными как токены16. Значительным преимуществом, которое обеспечивают преобразователи, является неконтролируемое обучение на больших массивах немаркированных данных для изучения связей между токенами, а затем использование этой информации для других последующих задач16. Благодаря легкости, с которой неструктурированный текст может быть разбит на токены, преобразователи добились огромных успехов в задачах обработки естественного языка (НЛП)17,18. Недавняя работа расширила функциональность таких моделей до задач, основанных на зрении, что привело к появлению преобразователя видения16,19.