banner
Центр новостей
Грамотно и компетентно владеют своим опытом.

Изучение белкового языка протеома

Dec 03, 2023

Биология связи, том 6, Номер статьи: 73 (2023) Цитировать эту статью

5883 Доступа

10 Альтметрика

Подробности о метриках

Белково-белковые взаимодействия (PPI) управляют клеточными путями и процессами, существенно влияя на функциональную экспрессию белков. Поэтому точная идентификация сайтов связывания межбелковых взаимодействий стала ключевым шагом в функциональном анализе белков. Однако, поскольку большинство вычислительных методов разработаны на основе биологических особенностей, не существует доступных моделей белкового языка для прямого кодирования аминокислотных последовательностей в распределенные векторные представления для моделирования их характеристик для событий связывания белок-белок. Более того, число экспериментально обнаруженных сайтов взаимодействия белков намного меньше, чем количество сайтов белок-белковых взаимодействий или белковых сайтов в белковых комплексах, что приводит к несбалансированным наборам данных, которые оставляют возможности для улучшения их производительности. Для решения этих проблем мы разрабатываем метод идентификации сайта белок-белкового взаимодействия (PPI) на основе ансамблевой модели глубокого обучения (EDLM) (EDLMPPI). Результаты оценки показывают, что EDLMPPI превосходит современные методы, включая несколько моделей прогнозирования сайтов PPI, на трех широко используемых наборах эталонных данных, включая Dset_448, Dset_72 и Dset_164, что продемонстрировало, что EDLMPPI превосходит эти модели прогнозирования сайтов PPI почти в 10 раз. % в пересчете на среднюю точность. Кроме того, биологический и интерпретируемый анализы дают новое понимание механизмов идентификации и характеристики сайтов связывания белков с разных точек зрения. Веб-сервер EDLMPPI доступен по адресу http://www.edlmppi.top:5002/.

Белково-белковые взаимодействия (PPI) играют важную роль во всех основных клеточных процессах, которые помогают выяснить функцию белков, а также интерпретировать большую часть биологии клеток. В частности, ключевые белки в этих белковых взаимодействиях могут стать основой для разработки таргетных терапевтических препаратов для лечения родственных заболеваний, а также дать информацию о молекулярной основе заболеваний1. Несмотря на то, что существует множество баз данных, таких как BioLip2 и PDB3, доступных для запроса сайтов белок-белкового взаимодействия, они кажутся подавляющими из-за растущего числа белков, известных сейчас человеку4. Точно так же биологические эксперименты по обнаружению сайтов связывания, такие как двухгибридный анализ и аффинные системы, очень трудоемки и дороги5. Чтобы преодолеть этот разрыв, было разработано множество вычислительных методов для изучения взаимодействий белков и связанных с ними сайтов. В последние годы было предложено множество моделей идентификации сайтов взаимодействия белков на основе глубокого обучения, включающих мощные возможности глубокого обучения по извлечению признаков, что привело к качественному скачку в эффективности прогнозирования по сравнению с традиционным машинным обучением. Например, Цзэн и др.6 использовали TextCNN в качестве средства извлечения признаков для изучения признаков с использованием сверточных ядер разных размеров, что может улучшить производительность прогнозирования. Се и др.7 использовали простую CNN для изучения локальных особенностей между остатками. Ян и др.8 представили глубокую нейронную сеть с локальным распределением веса для прогнозирования мест взаимодействия аминокислот. Сан и др.9 разработали архитектуру глубокого обучения, основанную на остаточных нейронных сетях, для прогнозирования взаимодействующих аминокислот в трансмембранных белках. Чжан и др.10 использовали упрощенный LSTM для прогнозирования PPI, стремясь изучить контекстную информацию о функциях, используя способность LSTM улавливать глобальный контекст. Ли и др.11 интегрировали локальную контекстную информацию и долгосрочные зависимости путем включения CNN и RNN, что повышает производительность модели. К сожалению, большинство этих вычислительных методов очень нестабильны и плохо обобщаются, особенно для этих крайне несбалансированных наборов контрольных данных, что предполагает некоторые возможности для улучшения.

acts as a sequence splitter that carries the attention of all residues, which indicates that for ProtT5, the overall identity of a sequence is determined by all amino acids together. Furthermore, Fig. 5b(d) shows clearly the flow of target amino acids in the different attention heads, verifying our previous statement that higher attention is seen with closer proximity. Moreover, Fig. 5c visualizes the evolution of each attention head in the different layers, as the layers deepened, the attention pattern shifted from focusing on the association between different amino acids to transmitting the expression of the amino acid sequences. In summary, ProtT5 can explore the connection between the protein-level structure and its function from local to global, providing a reasonable interpretation that EDLMPPI effectively predicts protein–protein interaction binding sites./p>