banner
Центр новостей
Грамотно и компетентно владеют своим опытом.

Система здоровья

May 24, 2023

Природа (2023)Цитировать эту статью

18 тысяч доступов

604 Альтметрика

Подробности о метриках

Врачи каждый день принимают критически важные решения, ограниченные во времени. Клинические прогностические модели могут помочь врачам и администраторам принимать решения путем прогнозирования клинических и операционных событий. Существующие клинические прогностические модели на основе структурированных данных имеют ограниченное применение в повседневной практике из-за сложности обработки данных, а также разработки и внедрения моделей1,2,3. Здесь мы показываем, что неструктурированные клинические записи из электронной медицинской карты могут обеспечить обучение моделям клинического языка, которые можно использовать в качестве универсальных механизмов клинического прогнозирования с разработкой и внедрением с низким сопротивлением. Наш подход использует последние достижения в области обработки естественного языка4,5 для обучения большой языковой модели медицинского языка (NYUTron) и последующей точной настройки ее для широкого спектра клинических и операционных прогностических задач. Мы оценили наш подход в нашей системе здравоохранения для решения пяти таких задач: прогнозирование 30-дневной повторной госпитализации по всем причинам, прогноз внутрибольничной смертности, прогноз индекса сопутствующих заболеваний, прогноз продолжительности пребывания и прогноз отказа в страховании. Мы показываем, что NYUTron имеет площадь под кривой (AUC) 78,7–94,9% с улучшением AUC на 5,36–14,7% по сравнению с традиционными моделями. Мы дополнительно демонстрируем преимущества предварительного обучения с клиническим текстом, потенциал повышения возможности обобщения для различных учреждений за счет тонкой настройки и полного развертывания нашей системы в проспективном одиночном исследовании. Эти результаты показывают потенциал использования клинических языковых моделей в медицине для чтения вместе с врачами и предоставления рекомендаций на местах оказания медицинской помощи.

Врачи каждый день принимают трудные решения, требующие обработки огромного количества информации. Информация, необходимая для принятия этих медицинских решений, разбросана по различным записям, например, истории болезни пациента, отчетам лабораторных исследований и изображений. Однако когда врачи выполняют свою работу, вся эта информация в конечном итоге включается в записи, написанные врачами, для документирования и обобщения ухода за пациентами.

Клинические прогностические модели часто основаны на правилах, существовавших десятилетиями6,7,8,9, а также на методах машинного обучения10,11,12, причем большинство из них полагаются на структурированные данные, полученные из электронных медицинских карт (ЭМК) или непосредственно от врача. входы. Подобная зависимость от структурированных входных данных усложняет обработку данных, а также разработку и внедрение моделей, что отчасти является причиной того, что подавляющее большинство алгоритмов медицинского прогнозирования обучаются, тестируются и публикуются, но никогда не используются для оценки их влияния на реальные данные. мировая клиническая помощь. Это часто называют «проблемой последней мили» (ссылки 1,2,3).

Одной из наиболее интересных последних разработок в современных исследованиях искусственного интеллекта (ИИ) являются модели больших языков (LLM). Было показано, что эти массивные нейронные сети (с миллионами или даже миллиардами параметров) дают эффективные результаты в решении широкого круга задач, связанных с чтением и интерпретацией человеческого языка. За последние несколько лет было разработано несколько стилей LLM: от моделей кодеров (таких как BERT4) до моделей декодеров (таких как GPT3; ссылка 5). Мы предположили, что LLM потенциально могут решить проблему последней мили в медицинской прогнозной аналитике, просто читая заметки, написанные врачами, тем самым немедленно получая всестороннее описание состояния здоровья пациента, чтобы обеспечить поддержку принятия решений на месте оказания медицинской помощи по широкому кругу вопросов. клинические и оперативные задачи.

Здесь мы представляем наши результаты разработки, оценки, внедрения и перспективной оценки NYUTron, системы на базе LLM, которая может интегрироваться в режиме реального времени с клиническими рабочими процессами, сосредоточенными на написании заметок и размещении электронных заказов. Наш подход основан на том факте, что все клинически полезные данные и процессы принятия решений медицинскими работниками можно найти в виде структурированного или неструктурированного текста в ЭУЗ (например, в виде примечаний, результатов лабораторных исследований и отчетов об исследованиях). Наш подход использует последние достижения в области обработки естественного языка, которые предполагают, что достаточно масштабированные LLM с самоконтролем могут превзойти подходы со строгим контролем в немедицинских прогностических задачах4,5,13. Мы исследуем нашу гипотезу в системе здравоохранения Нью-Йоркского университета в Лангоне («NYU Langone»), крупной больничной системе, объединяющей несколько районов Нью-Йорка, с разнообразным контингентом пациентов, включающей 4 городских больницы и 350 амбулаторных учреждений. Мы оцениваем NYUTron по набору пяти задач, включая три клинические и две оперативные задачи (30-дневное прогнозирование повторной госпитализации по всем причинам, прогноз внутрибольничной смертности, прогноз индекса сопутствующих заболеваний, прогноз продолжительности пребывания (LOS) и прогноз отказа в страховании) и предоставить подробный анализ нашей 30-дневной задачи по повторной госпитализации, чтобы рассмотреть вопросы эффективности данных, возможности обобщения, возможности развертывания и потенциального клинического воздействия. Переосмысливая всю медицинскую прогностическую аналитику (см. предыдущие работы в разделе «Дополнительная информация» 1.1) как проблему обработки естественного языка, мы показываем, что можно использовать LLM в качестве универсальных механизмов прогнозирования для широкого спектра медицинских прогностических задач.

75% quantile). Figure 2c shows that, for LOS prediction, NYUTron had a median one-versus-rest (OVR) AUC of 78.7% ± 0.179%, with a 12.3% improvement from the structured baseline, which used an available subset of ‘Lisbon Portugal’ features18. The task of insurance claim denial prediction was to predict (at admission) whether the insurance claims submitted for an encounter would be accepted or initially denied. Figure 2c shows that, for insurance denial prediction, NYUTron had a median AUC of 87.2% ± 0.246%, with a 14.7% improvement from the structured baseline, which used an available subset of ‘claim form’ features19 such as age and insurance provider. NYUTron is also capable of predicting different types of denials from both admission notes and discharge notes with similar performance (Supplementary Information section 2.2)./p>1 billion parameters), generative models pretrained on large, non-specific datasets. Nonetheless, even relatively small LLMs, such as the ones used in this study, require a substantial amount of compute time for pretraining. Our pretraining used 24 NVIDIA A100 GPUs with 40 GB of VRAM for 3 weeks, and our fine-tuning used 8 A100 GPUs for 6 hours per run. This amount of computation is not commonly accessible to research groups, although we note that it is less than that in similar LLM projects routinely pursued by industry research groups and that our results indicate that massive pretraining may not be necessary to obtain highly performant models. Our results show that high-quality datasets for fine-tuning are more valuable than pretraining, and, on the basis of our experimental results, we recommend that users locally fine-tune an externally pretrained language model when computational ability is limited. Regarding the choice for the externally pretrained model, we further recommend using a model pretrained with a large amount of in-domain clinical text, although we note that large, out-of-domain models can be highly performant, particularly when combined with in-domain fine-tuning. Work with larger decoder-based architectures has also demonstrated a benefit with fine-tuning on medical data or prompt tuning with chain of thought, instructions and related techniques24,25, which further emphasizes the necessity of accounting for the domain shift from general to medical text for LLM work in the medical sciences. Although we have not compared these approaches directly (which would require more medical text or fusion with general-domain text for training a compute-optimal model26), we believe that this could be an interesting future direction for research and that, in the end, approaches combining these different approaches to language modelling may prove to be complementary depending on the use case./p>7 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>5 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>