Доказательства существования иерархии прогнозирующего кодирования в человеческом мозге, слушающем речь
Nature Human Behavior, том 7, страницы 430–441 (2023 г.) Процитировать эту статью
79 тысяч доступов
1170 Альтметрический
Подробности о метриках
Значительный прогресс в последнее время достигнут в обработке естественного языка: алгоритмы глубокого обучения все чаще способны генерировать, обобщать, переводить и классифицировать тексты. Тем не менее, эти языковые модели по-прежнему не соответствуют языковым способностям человека. Теория предиктивного кодирования предлагает предварительное объяснение этого несоответствия: хотя языковые модели оптимизированы для предсказания соседних слов, человеческий мозг постоянно предсказывает иерархию представлений, охватывающую несколько временных масштабов. Чтобы проверить эту гипотезу, мы проанализировали сигналы мозга функциональной магнитно-резонансной томографии 304 участников, слушавших короткие рассказы. Во-первых, мы подтвердили, что активации современных языковых моделей линейно связаны с реакциями мозга на речь. Во-вторых, мы показали, что усиление этих алгоритмов прогнозами, охватывающими несколько временных масштабов, улучшает картографирование мозга. Наконец, мы показали, что эти предсказания организованы иерархически: лобно-теменная кора предсказывает более высокие уровни, более дальние и более контекстуальные представления, чем височная кора. В целом, эти результаты усиливают роль иерархического прогнозирующего кодирования в обработке речи и иллюстрируют, как синергия нейробиологии и искусственного интеллекта может раскрыть вычислительные основы человеческого познания.
Менее чем за три года глубокое обучение добилось значительного прогресса в генерации, переводе и дополнении текста1,2,3,4 благодаря алгоритмам, обученным с простой целью: предсказывать слова на основе их ближайшего контекста. Примечательно, что активации этих моделей, как было показано, линейно отображаются на реакции человеческого мозга на речь и текст5,6,7,8,9,10,11,12. Кроме того, это отображение в первую очередь зависит от способности алгоритмов предсказывать будущие слова7,8, что позволяет предположить, что этой цели достаточно, чтобы заставить их сходиться к вычислениям, подобным мозговым.
Тем не менее, между людьми и этими алгоритмами сохраняется разрыв: несмотря на значительный объем обучающих данных, современные языковые модели сталкиваются с проблемой создания длинных историй, обобщения и последовательного диалога и поиска информации13,14,15,16,17; им не удается уловить некоторые синтаксические конструкции и семантические свойства18,19,20,21,22, а их лингвистическое понимание поверхностно19,21,22,23,24. Например, они склонны неправильно относить глагол к подлежащему во вложенных фразах типа «ключи, которые держит мужчина, НАХОДЯТСЯ здесь»20. Аналогичным образом, когда генерация текста оптимизирована только для предсказания следующего слова, модели глубокого языка генерируют бессвязные, бессвязные последовательности или застревают в повторяющихся циклах13.
Теория прогнозирующего кодирования25,26,27 предлагает потенциальное объяснение этих недостатков; хотя модели глубокого языка в основном настроены на предсказание следующего слова, эта концепция предполагает, что человеческий мозг делает прогнозы в различных временных масштабах и на разных уровнях репрезентации в кортикальной иерархии28,29 (рис. 1а).
Предыдущая работа уже подтвердила речевые прогнозы в мозге путем корреляции слова или фонетической неожиданности, то есть степени, в которой ожидается слово или телефон, с функциональной магнитно-резонансной томографией (фМРТ)30,31,32,33, электроэнцефалографией34,35, 36, магнитоэнцефалография37 и электрокортикография11,38. Однако такие неожиданные оценки основаны на моделях, обученных предсказывать следующее слово или фонему и сводить их результат к одному числу, то есть вероятности следующего токена. Следовательно, природа предсказанных представлений и их временные рамки в значительной степени неизвестны.
В этом исследовании мы решаем эти проблемы, анализируя сигналы мозга 304 человек, слушающих короткие истории, в то время как их мозговая активность записывается с помощью фМРТ39. Подтвердив, что алгоритмы глубокого языка линейно отображают активность мозга6,8,40, мы показываем, что усиление этих моделей с помощью долгосрочных и многоуровневых прогнозов улучшает такое картирование мозга. Критически и в соответствии с теорией предиктивного кодирования, наши результаты показывают иерархическую организацию языковых предсказаний в коре головного мозга, в которой самые высокие области предсказывают самые отдаленные представления и представления самого высокого уровня.