Доказательства существования иерархии прогнозирующего кодирования в человеческом мозге, слушающем речь

Nature Human Behavior, том 7, страницы 430–441 (2023 г.) Процитировать эту статью

79 тысяч доступов

1170 Альтметрический

Подробности о метриках

Значительный прогресс в последнее время достигнут в обработке естественного языка: алгоритмы глубокого обучения все чаще способны генерировать, обобщать, переводить и классифицировать тексты. Тем не менее, эти языковые модели по-прежнему не соответствуют языковым способностям человека. Теория предиктивного кодирования предлагает предварительное объяснение этого несоответствия: хотя языковые модели оптимизированы для предсказания соседних слов, человеческий мозг постоянно предсказывает иерархию представлений, охватывающую несколько временных масштабов. Чтобы проверить эту гипотезу, мы проанализировали сигналы мозга функциональной магнитно-резонансной томографии 304 участников, слушавших короткие рассказы. Во-первых, мы подтвердили, что активации современных языковых моделей линейно связаны с реакциями мозга на речь. Во-вторых, мы показали, что усиление этих алгоритмов прогнозами, охватывающими несколько временных масштабов, улучшает картографирование мозга. Наконец, мы показали, что эти предсказания организованы иерархически: лобно-теменная кора предсказывает более высокие уровни, более дальние и более контекстуальные представления, чем височная кора. В целом, эти результаты усиливают роль иерархического прогнозирующего кодирования в обработке речи и иллюстрируют, как синергия нейробиологии и искусственного интеллекта может раскрыть вычислительные основы человеческого познания.

Менее чем за три года глубокое обучение добилось значительного прогресса в генерации, переводе и дополнении текста1,2,3,4 благодаря алгоритмам, обученным с простой целью: предсказывать слова на основе их ближайшего контекста. Примечательно, что активации этих моделей, как было показано, линейно отображаются на реакции человеческого мозга на речь и текст5,6,7,8,9,10,11,12. Кроме того, это отображение в первую очередь зависит от способности алгоритмов предсказывать будущие слова7,8, что позволяет предположить, что этой цели достаточно, чтобы заставить их сходиться к вычислениям, подобным мозговым.

Тем не менее, между людьми и этими алгоритмами сохраняется разрыв: несмотря на значительный объем обучающих данных, современные языковые модели сталкиваются с проблемой создания длинных историй, обобщения и последовательного диалога и поиска информации13,14,15,16,17; им не удается уловить некоторые синтаксические конструкции и семантические свойства18,19,20,21,22, а их лингвистическое понимание поверхностно19,21,22,23,24. Например, они склонны неправильно относить глагол к подлежащему во вложенных фразах типа «ключи, которые держит мужчина, НАХОДЯТСЯ здесь»20. Аналогичным образом, когда генерация текста оптимизирована только для предсказания следующего слова, модели глубокого языка генерируют бессвязные, бессвязные последовательности или застревают в повторяющихся циклах13.

Теория прогнозирующего кодирования25,26,27 предлагает потенциальное объяснение этих недостатков; хотя модели глубокого языка в основном настроены на предсказание следующего слова, эта концепция предполагает, что человеческий мозг делает прогнозы в различных временных масштабах и на разных уровнях репрезентации в кортикальной иерархии28,29 (рис. 1а).

Предыдущая работа уже подтвердила речевые прогнозы в мозге путем корреляции слова или фонетической неожиданности, то есть степени, в которой ожидается слово или телефон, с функциональной магнитно-резонансной томографией (фМРТ)30,31,32,33, электроэнцефалографией34,35, 36, магнитоэнцефалография37 и электрокортикография11,38. Однако такие неожиданные оценки основаны на моделях, обученных предсказывать следующее слово или фонему и сводить их результат к одному числу, то есть вероятности следующего токена. Следовательно, природа предсказанных представлений и их временные рамки в значительной степени неизвестны.

В этом исследовании мы решаем эти проблемы, анализируя сигналы мозга 304 человек, слушающих короткие истории, в то время как их мозговая активность записывается с помощью фМРТ39. Подтвердив, что алгоритмы глубокого языка линейно отображают активность мозга6,8,40, мы показываем, что усиление этих моделей с помощью долгосрочных и многоуровневых прогнозов улучшает такое картирование мозга. Критически и в соответствии с теорией предиктивного кодирования, наши результаты показывают иерархическую организацию языковых предсказаний в коре головного мозга, в которой самые высокие области предсказывают самые отдаленные представления и представления самого высокого уровня.

1 would indicate that the model lacks brain-like forecast. The peak of \({{{{\mathcal{F}}}}}^{d}\) indicates how far off in the future the algorithm would need to forecast representations to be most similar to the brain./p> 6) than low-level language areas (for example, k* < 6 in Heschl's gyri/sulci, aSTS; Fig. 3a,b). The difference between regions, while small on average, was highly significant across individuals (for example, between the angular and Heschl's gyri: Δk* = 2.5 ± 0.3, P < 0.001) and observed in both the left and right hemispheres (Fig. 3b)./p>2% gain in the IFG and angular/supramarginal gyri on average, all P < 0.001). On the other hand, auditory areas and lower-level brain regions do not significantly benefit from such a high-level objective (Fig. 5 and Supplementary Fig. 7). These results further strengthen the role of frontoparietal areas in predicting long-range, contextual and high-level representations of language./p> 0.01)./p>