Предсказание структуры белка: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
оформление
Строка 55: Строка 55:
Помимо [[Аминокислотная последовательность|последовательности белка]], образование [[Вторичная структура|вторичной структуры]] зависит от других факторов. Например, известно, что вторичная структура зависит также от локального окружения<ref>{{Статья|ссылка=https://www.pnas.org/content/89/10/4462|автор=L. Zhong, W. C. Johnson|заглавие=Environment affects amino acid preference for secondary structure.|год=1992-05-15|язык=en|издание=Proceedings of the National Academy of Sciences|том=89|выпуск=10|страницы=4462–4465|issn=0027-8424, 1091-6490|doi=10.1073/pnas.89.10.4462}}</ref>, доступности аминокислотных остатков для растворителя<ref>{{Статья|ссылка=https://onlinelibrary.wiley.com/doi/abs/10.1110/ps.420101|автор=J. Randy Macdonald, W. Curtis Johnson|заглавие=Environmental features are important in determining protein secondary structure|год=2001|язык=en|издание=Protein Science|том=10|выпуск=6|страницы=1172–1177|issn=1469-896X|doi=10.1110/ps.420101}}</ref>, структурного класса белка<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S0006291X06002543|автор=Susan Costantini, Giovanni Colonna, Angelo M. Facchiano|заглавие=Amino acid propensities for secondary structures are influenced by the protein structural class|год=2006-04-07|язык=en|издание=Biochemical and Biophysical Research Communications|том=342|выпуск=2|страницы=441–451|issn=0006-291X|doi=10.1016/j.bbrc.2006.01.159}}</ref>, и даже организма, из которого получен белок<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S0022519306003262|автор=Sayed-Amir Marashi, Reza Behrouzi, Hamid Pezeshk|заглавие=Adaptation of proteins to different environments: A comparison of proteome structural properties in Bacillus subtilis and Escherichia coli|год=2007-01-07|язык=en|издание=Journal of Theoretical Biology|том=244|выпуск=1|страницы=127–132|issn=0022-5193|doi=10.1016/j.jtbi.2006.07.021}}</ref>. Основываясь на этих наблюдениях, некоторые исследования показали, что прогноз вторичной структуры может быть улучшен путём добавления информации о структурном классе белка<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S1476927107001120|автор=Susan Costantini, Giovanni Colonna, Angelo M. Facchiano|заглавие=PreSSAPro: A software for the prediction of secondary structure by amino acid properties|год=2007-10-01|язык=en|издание=Computational Biology and Chemistry|том=31|выпуск=5|страницы=389–392|issn=1476-9271|doi=10.1016/j.compbiolchem.2007.08.010}}</ref> и доступной для растворителя площади остатков<ref>{{Статья|ссылка=https://doi.org/10.1186/1471-2105-9-357|автор=Amir Momen-Roknabadi, Mehdi Sadeghi, Hamid Pezeshk, Sayed-Amir Marashi|заглавие=Impact of residue accessible surface area on the prediction of protein secondary structures|год=2008-08-31|издание=BMC Bioinformatics|том=9|выпуск=1|страницы=357|issn=1471-2105|doi=10.1186/1471-2105-9-357}}</ref>.
Помимо [[Аминокислотная последовательность|последовательности белка]], образование [[Вторичная структура|вторичной структуры]] зависит от других факторов. Например, известно, что вторичная структура зависит также от локального окружения<ref>{{Статья|ссылка=https://www.pnas.org/content/89/10/4462|автор=L. Zhong, W. C. Johnson|заглавие=Environment affects amino acid preference for secondary structure.|год=1992-05-15|язык=en|издание=Proceedings of the National Academy of Sciences|том=89|выпуск=10|страницы=4462–4465|issn=0027-8424, 1091-6490|doi=10.1073/pnas.89.10.4462}}</ref>, доступности аминокислотных остатков для растворителя<ref>{{Статья|ссылка=https://onlinelibrary.wiley.com/doi/abs/10.1110/ps.420101|автор=J. Randy Macdonald, W. Curtis Johnson|заглавие=Environmental features are important in determining protein secondary structure|год=2001|язык=en|издание=Protein Science|том=10|выпуск=6|страницы=1172–1177|issn=1469-896X|doi=10.1110/ps.420101}}</ref>, структурного класса белка<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S0006291X06002543|автор=Susan Costantini, Giovanni Colonna, Angelo M. Facchiano|заглавие=Amino acid propensities for secondary structures are influenced by the protein structural class|год=2006-04-07|язык=en|издание=Biochemical and Biophysical Research Communications|том=342|выпуск=2|страницы=441–451|issn=0006-291X|doi=10.1016/j.bbrc.2006.01.159}}</ref>, и даже организма, из которого получен белок<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S0022519306003262|автор=Sayed-Amir Marashi, Reza Behrouzi, Hamid Pezeshk|заглавие=Adaptation of proteins to different environments: A comparison of proteome structural properties in Bacillus subtilis and Escherichia coli|год=2007-01-07|язык=en|издание=Journal of Theoretical Biology|том=244|выпуск=1|страницы=127–132|issn=0022-5193|doi=10.1016/j.jtbi.2006.07.021}}</ref>. Основываясь на этих наблюдениях, некоторые исследования показали, что прогноз вторичной структуры может быть улучшен путём добавления информации о структурном классе белка<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S1476927107001120|автор=Susan Costantini, Giovanni Colonna, Angelo M. Facchiano|заглавие=PreSSAPro: A software for the prediction of secondary structure by amino acid properties|год=2007-10-01|язык=en|издание=Computational Biology and Chemistry|том=31|выпуск=5|страницы=389–392|issn=1476-9271|doi=10.1016/j.compbiolchem.2007.08.010}}</ref> и доступной для растворителя площади остатков<ref>{{Статья|ссылка=https://doi.org/10.1186/1471-2105-9-357|автор=Amir Momen-Roknabadi, Mehdi Sadeghi, Hamid Pezeshk, Sayed-Amir Marashi|заглавие=Impact of residue accessible surface area on the prediction of protein secondary structures|год=2008-08-31|издание=BMC Bioinformatics|том=9|выпуск=1|страницы=357|issn=1471-2105|doi=10.1186/1471-2105-9-357}}</ref>.


== Третичная структура ==
==Третичная структура==
Практическая роль предсказания структуры белка теперь стала более важна, чем когда бы то ни было. Огромные объёмы данных о последовательности белков стали доступны в результате современных широкомасштабных работ по секвенированию ДНК, таких как проект «Геном человека». Несмотря на усилия всего сообщества в области структурной геномики, количество экспериментально определённых белковых структур — обычно с помощью трудоемкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии — значительно отстает от количества белковых последовательностей.
Практическая роль предсказания структуры белка теперь стала более важна, чем когда бы то ни было. Огромные объёмы данных о последовательности белков стали доступны в результате современных широкомасштабных работ по [[Секвенирование|секвенированию]] [[ДНК]], таких как [[проект «Геном человека»]]. Несмотря на усилия всего сообщества в области [[Структурная геномика|структурной геномики]], количество экспериментально определенных белковых структур - обычно с помощью трудоемкой и относительно дорогой [[Рентгеноструктурный анализ|рентгеновской кристаллографии]] или [[ЯМР-спектроскопия|ЯМР-спектроскопии]] - значительно отстает от количества белковых последовательностей.


Предсказание структуры белка остаётся чрезвычайно трудной и не до конца разрешённой задачей. Две основные проблемы - это расчет [[Свободная энергия Гиббса|свободной энергии]] и нахождение [[Экстремум|глобального минимума]] этой энергии. Метод предсказания структуры белка должен исследовать пространство всех возможных структур белка, которое является астрономически большим. Эти проблемы можно частично обойти с помощью [[:en:Homology_modeling|сравнительного (гомологического) моделирования]] и методах распознавания [[Фолдинг белка|укладки (фолда)]], в которых пространство поиска сокращается из-за предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы прогнозирования структуры белка [[ab initio]] должны явно разрешать эти проблемы, не опираясь на начальные предположения. Прогресс и проблемы прогнозирования структуры белка были рассмотрены в Zhang 2008<ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18436442|автор=Yang Zhang|заглавие=Progress and challenges in protein structure prediction|год=2008-06|издание=Current Opinion in Structural Biology|том=18|выпуск=3|страницы=342–348|issn=0959-440X|doi=10.1016/j.sbi.2008.02.004}}</ref>.

==='''До моделирования'''===
Предсказание структуры белка остаётся чрезвычайно трудной и не до конца разрешённой задачей. Две основные проблемы — это расчет свободной энергии и нахождение глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство всех возможных структур белка, которое является астрономически большим. Эти проблемы можно частично обойти с помощью сравнительного или гомологического моделирования и методах распознавания укладки (фолда), в которых пространство поиска сокращается из-за предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определённой структуре другого гомологичного белка. С другой стороны, методы прогнозирования структуры белка de novo или ab initio должны явно разрешать эти проблемы, не опираясь на начальные предположения. Прогресс и проблемы прогнозирования структуры белка были рассмотрены в Zhang 2008.
Большинство методов моделирования третичной структуры, таких как [[Rosetta@home|Rosetta]], оптимизированы для моделирования третичной структуры отдельных белковых доменов. Этап, называемый анализом домена или предсказанием границы домена, обычно выполняется первым, чтобы разделить белок на потенциальные [[структурные домены]]. Как и в случае с остальными этапами предсказания третичной структуры<ref>{{Cite web|url=https://pubmed.ncbi.nlm.nih.gov/26677056/|title=Improved De Novo Structure Prediction in CASP11 by Incorporating Coevolution Information Into Rosetta|author=Ovchinnikov S, Kim De, Wang Ry, Liu Y, DiMaio F, Baker D|date=2016-09|publisher=Proteins|lang=en|accessdate=2020-04-13}}</ref>, это можно сделать с помощью сравнения с известными структурами или [[ab initio]] только с помощью последовательности (обычно с помощью [[Машинное обучение|машинного обучения]], задействующующего [[Ковариация|ковариацию]]<ref>{{Статья|ссылка=https://academic.oup.com/bioinformatics/article/35/14/2411/5221017|автор=Seung Hwan Hong, Keehyoung Joo, Jooyoung Lee|заглавие=ConDo: protein domain boundary prediction using coevolutionary information|год=2019-07-15|язык=en|издание=Bioinformatics|том=35|выпуск=14|страницы=2411–2417|issn=1367-4803|doi=10.1093/bioinformatics/bty973}}</ref>). Структуры отдельных доменов объединяются в одну окончательную третичную структуру в процессе, называемом сборкой доменов.

==='''Методы, основанные на расчёте энергии'''===
=== До моделирования ===
Методы моделирования [[Ab initio|ab initio-]] стремятся создавать трехмерные белковые модели "с нуля", то есть они основаны на физических принципах, а не непосредственно на экспериментально полученных данных о структурах. Существует множество возможных подходов, которые либо пытаются имитировать [[Фолдинг белка|сворачивание белка]], либо применяют [[Случайный процесс|стохастические методы]] для поиска возможных решений (т. е. поиск [[Экстремум|глобального максимума]] некой энергетической функции). Эти подходы, как правило, требуют огромных вычислительных ресурсов и, таким образом, могут быть применены только для крошечных белков. Для прогнозирования структуры белка [[ab initio]] для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, представленные либо мощными [[Суперкомпьютер|суперкомпьютерами]] (такими как [[Blue Gene]] или [[MDGrape-3|MDGRAPE-3]]), либо [[Распределённые вычисления|распределенными вычислениями]] (такими как [[Folding@home]], [[Human Proteome Folding Project]] и [[Rosetta@home|Rosetta@Home]]).
Большинство методов моделирования третичной структуры, таких как Rosetta, оптимизированы для моделирования третичной структуры отдельных белковых доменов. Этап, называемый анализом домена или предсказанием границы домена, обычно выполняется первым, чтобы разделить белок на потенциальные структурные домены. Как и в случае с остальными этапами предсказания третичной структуры, это можно сделать с помощью сравнения с известными структурами или ab initio только с помощью последовательности (обычно с помощью машинного обучения, задействующующего ковариацию). Структуры отдельных доменов объединяются в одну окончательную третичную структуру в процессе, называемом сборкой доменов.

=== Моделирование ab initio ===
Main article: De novo protein structure prediction

=== Методы, основанные на расчёте энергии ===
Методы моделирования ab initio- или de novo стремятся создавать трехмерные белковые модели «с нуля», то есть основанные на физических принципах, а не непосредственно на экспериментально полученных данных о структурах. Существует множество возможных подходов, которые либо пытаются имитировать сворачивание белка, либо применяют стохастические методы для поиска возможных решений (то есть поиск глобального максимума некой энергетической функции). Эти подходы, как правило, требуют огромных вычислительных ресурсов и, таким образом, могут быть применены только для крошечных белков. Для прогнозирования структуры белка de novo для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, представленные либо мощными [[суперкомпьютер]]ами (такими как Blue Gene или MDGRAPE-3), либо распределенными вычислениями (такими как Folding @ home, Human Proteome Folding Project и Rosetta @ Home).
По состоянию на 2009 год белок из 50 остатков можно было смоделировать атом за атомом на суперкомпьютере в течение 1 миллисекунды. Начиная с 2012 года, сопоставимая задача может быть выполнена на стандартном ПК с новой графической картой с помощью более сложных алгоритмов.


=== Коэволюционирующие последовательности в предсказании контактов в 3D ===
==='''Коэволюционирующие последовательности в предсказании контактов в 3D'''===
Поскольку секвенирование стало более распространенным явлением в 1990-х годах, несколько групп исследователей использовали выравнивание белковых последовательностей для предсказания коррелированных мутаций, и была надежда, что эти совместно эволюционирующие остатки могут быть использованы для предсказания третичной структуры. Предполагается, что когда мутация одного остатка не является летальной, может возникнуть компенсаторная мутация для стабилизации взаимодействий между остатками. В ранних работах использовались так называемые локальные методы для расчета коррелированных мутаций белковых последовательностей, при этом из-за независимого рассмотрения каждой пары остатков возникали ложные корреляции.
Поскольку [[секвенирование]] стало более распространенным явлением в 1990-х годах, несколько групп исследователей использовали [[Выравнивание последовательностей|выравнивание белковых последовательностей]] для предсказания [[Корреляция|коррелированных]] мутаций, и была надежда, что эти совместно эволюционирующие остатки могут быть использованы для предсказания [[Третичная структура|третичной структуры]]. Предполагается, что когда [[мутация]] одного аминокислотного остатка не является летальной, может возникнуть компенсаторная мутация для стабилизации взаимодействий между остатками. В ранних работах использовались так называемые локальные методы для расчета коррелированных мутаций белковых последовательностей, при этом из-за независимого рассмотрения каждой пары остатков возникали ложные корреляции<ref>{{Статья|ссылка=https://onlinelibrary.wiley.com/doi/abs/10.1002/prot.340180402|автор=Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia|заглавие=Correlated mutations and residue contacts in proteins|год=1994|язык=en|издание=Proteins: Structure, Function, and Bioinformatics|том=18|выпуск=4|страницы=309–317|issn=1097-0134|doi=10.1002/prot.340180402}}</ref><ref>{{Статья|ссылка=https://academic.oup.com/peds/article/7/3/341/1469718|автор=William R. Taylor, Kerr Hatrick|заглавие=Compensating changes in protein multiple sequence alignments|год=1994-03-01|язык=en|издание=Protein Engineering, Design and Selection|том=7|выпуск=3|страницы=341–348|issn=1741-0126|doi=10.1093/protein/7.3.341}}</ref>.


В 2011 году другой статистический подход, продемонстрировал, что предсказанных коэволюционирующих остатков достаточно, чтобы предсказать трехмерную укладку белка, при условии, что имеется достаточно последовательностей (необходимо> 1000 гомологичных последовательностей). Метод EVfold не использует моделирование по гомологии и может быть запущен на стандартном персональном компьютере даже для белков, состоящих из сотен остатков. Точность предсказаний этого и связанных с ним подходов, была продемонстрирована на многих структурах и картах контактов.
В 2011 году другой статистический подход, продемонстрировал, что предсказанных коэволюционирующих остатков достаточно, чтобы предсказать трехмерную укладку белка, при условии, что имеется достаточно последовательностей (необходимо > 1000 гомологичных последовательностей)<ref>{{Статья|ссылка=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0028766|автор=Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani|заглавие=Protein 3D Structure Computed from Evolutionary Sequence Variation|год=2011-07-12|язык=en|издание=PLOS ONE|том=6|выпуск=12|страницы=e28766|issn=1932-6203|doi=10.1371/journal.pone.0028766}}</ref>. [[EVfold|Метод EVfold]] не использует моделирование по гомологии и может быть запущен на стандартном персональном компьютере даже для белков, состоящих из сотен остатков. Точность предсказаний этого и связанных с ним подходов, была продемонстрирована на многих структурах и картах контактов<ref>{{Статья|ссылка=https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000633|автор=Lukas Burger, Erik van Nimwegen|заглавие=Disentangling Direct from Indirect Co-Evolution of Residues in Protein Alignments|год=2010-01-01|язык=en|издание=PLOS Computational Biology|том=6|выпуск=1|страницы=e1000633|issn=1553-7358|doi=10.1371/journal.pcbi.1000633}}</ref><ref>{{Статья|ссылка=https://www.pnas.org/content/108/49/E1293|автор=Faruck Morcos, Andrea Pagnani, Bryan Lunt, Arianna Bertolino, Debora S. Marks|заглавие=Direct-coupling analysis of residue coevolution captures native contacts across many protein families|год=2011-12-06|язык=en|издание=Proceedings of the National Academy of Sciences|том=108|выпуск=49|страницы=E1293–E1301|issn=0027-8424, 1091-6490|doi=10.1073/pnas.1111471108}}</ref><ref>{{Статья|ссылка=https://www.pnas.org/content/109/24/E1540|автор=Timothy Nugent, David T. Jones|заглавие=Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis|год=2012-06-12|язык=en|издание=Proceedings of the National Academy of Sciences|том=109|выпуск=24|страницы=E1540–E1547|issn=0027-8424, 1091-6490|doi=10.1073/pnas.1120036109}}</ref>.


=== Сравнительное моделирование структуры белка ===
=== '''Сравнительное моделирование структуры белка''' ===
Сравнительное моделирование структуры белка использует структуры, полученные ранее с помощью экспериментальных методов в качестве отправных точек. Это эффективно, так как, судя по всему, хотя число существующих белков огромно, количество третичных структурных мотивов, к которым принадлежит большинство белков, ограничено. Предполагается, что в природе существует только около 2000 различных белковых укладок, при том, что существует много миллионов различных белков.
Сравнительное моделирование структуры белка использует структуры, полученные ранее с помощью экспериментальных методов в качестве отправных точек. Это эффективно, так как, судя по всему, хотя число существующих белков огромно, количество третичных [[Структурный мотив|структурных мотивов]], к которым принадлежит большинство белков, ограничено. Предполагается, что в природе существует только около 2000 различных белковых укладок, при том, что существует много миллионов различных белков.


Эти методы также можно разделить на две группы<ref>{{Статья|ссылка=http://www.sciencedirect.com/science/article/pii/S0959440X08000341|автор=Yang Zhang|заглавие=Progress and challenges in protein structure prediction|год=2008-06-01|язык=en|издание=Current Opinion in Structural Biology|том=18|выпуск=3|страницы=342–348|issn=0959-440X|doi=10.1016/j.sbi.2008.02.004}}</ref>:
=== Эти методы также можно разделить на две группы: ===
l. Моделирование по гомологии основано на предположении о том, что гомологичные белки обладают схожей структурой. Так как укладка белка более консервативна, чем его аминокислотная последовательность, структура изучаемого белка может быть предсказана с неплохой точностью даже в случае далёкого родства с белком, использующимся в качестве шаблона, при условии, что гомологию между шаблоном и целевым белком можно проследить посредством выравнивания последовательностей. Было высказано предположение, что основная слабость сравнительного моделирования состоит в неточности выравниваний, а не в ошибках в прогнозировании структуры при условии известного хорошего выравнивания. Неудивительно, что моделирование по гомологии достигает наилучших результатов, когда целевой белок и шаблон имеют схожие последовательности.


# '''''[[:en:Homology_modeling|Моделирование по гомологии]]''''' основано на предположении о том, что гомологичные белки обладают схожей структурой. Так как укладка белка более консервативна, чем его аминокислотная последовательность, структура изучаемого белка может быть предсказана с неплохой точностью даже в случае далёкого родства с белком, использующимся в качестве шаблона, при условии, что гомологию между шаблоном и целевым белком можно проследить посредством выравнивания последовательностей. Было высказано предположение, что основная слабость сравнительного моделирования состоит в неточности выравниваний, а не в ошибках в прогнозировании структуры при условии известного хорошего выравнивания<ref>{{Статья|ссылка=https://www.pnas.org/content/102/4/1029|автор=Yang Zhang, Jeffrey Skolnick|заглавие=The protein structure prediction problem could be solved using the current PDB library|год=2005-01-25|язык=en|издание=Proceedings of the National Academy of Sciences|том=102|выпуск=4|страницы=1029–1034|issn=0027-8424, 1091-6490|doi=10.1073/pnas.0407152101}}</ref>. Неудивительно, что моделирование по гомологии достигает наилучших результатов, когда целевой белок и шаблон имеют схожие последовательности.
2. Метод протягивания производит поиск аминокислотной последовательности, для которой неизвестна структура, в базе данных известных структур. В каждом случае используется score-функция для оценки совместимости последовательности со структурой, что позволяет получить набор возможных трёхмерных моделей. Этот тип методов также известен как 3D-1D распознавание укладки из-за анализа совместимости между трехмерными структурами и линейными белковыми последовательностями. Этот метод также привел к появлению методов, выполняющих обратный поиск для оценки совместимости данной структуры с большой базой данных последовательностей, таким образом прогнозируя, какие последовательности могли бы иметь заданную укладку.
# '''''[[:en:Threading_(protein_sequence)|Распознавание укладки]]'''''<ref>{{Статья|ссылка=https://science.sciencemag.org/content/253/5016/164|автор=J. U. Bowie, R. Luthy, D. Eisenberg|заглавие=A method to identify protein sequences that fold into a known three-dimensional structure|год=1991-07-12|язык=en|издание=Science|том=253|выпуск=5016|страницы=164–170|issn=0036-8075, 1095-9203|doi=10.1126/science.1853201}}</ref> производит поиск [[Первичная структура|аминокислотной последовательности]], для которой неизвестна структура, в базе данных известных структур. В каждом случае используется score-функция для оценки совместимости последовательности со структурой, что позволяет получить набор возможных трёхмерных моделей. Этот тип методов также известен как ''3D-1D распознавание укладки'' из-за анализа совместимости между трехмерными структурами и линейными белковыми последовательностями. Этот метод также привел к появлению методов, выполняющих обратный поиск для оценки совместимости данной структуры с большой базой данных последовательностей, таким образом прогнозируя, какие последовательности могли бы иметь заданную укладку.


== Предсказание геометрии боковых цепей ==
== Предсказание геометрии боковых цепей ==

Версия от 22:26, 13 апреля 2020

Предсказа́ние структу́ры белка́ (англ. protein structure prediction) — направление молекулярного моделирования, предсказание по аминокислотной последовательности трёхмерной структуры белка[1] (вторичной, третичной или четвертичной). Существенно отличается от проблемы дизайна белка (англ. protein design[англ.]). Предсказание структуры белка — одна из самых важных целей биоинформатики и теоретической химии. Оно применяется в медицине (например, в фармацевтике) и биотехнологии (например, при создании новых ферментов). Каждые два года результативность существующих методов предсказания оценивается в эксперименте CASP (англ. Critical Assessment of Techniques for Protein Structure Prediction — критическая оценка технологий предсказания структуры белка).


Структура белка

α-спираль

Альфа-спираль является наиболее распространенным типом вторичной структуры в белках. Спираль α имеет 3,6 аминокислоты за поворот, а Н-связь образуется между каждым четвёртым остатком; средняя длина составляет 10 аминокислот (3 витка) или 10 Å, но варьируется от 5 до 40 (от 1,5 до 11 витков). Выравнивание Н-связей создает дипольный момент для спирали с результирующим частичным положительным зарядом на амино-конце спирали. Потому что в этом регионе есть свободный NH 2 группы, поэтому он будет взаимодействовать с отрицательно заряженными группами, такими как фосфаты. Наиболее распространенное расположение α-спиралей находится на поверхности белков, где они обеспечивают взаимодействие с водной средой.

Внутренняя сторона спирали обычно содержит гидрофобные аминокислоты, а внешняя сторона гидрофильные аминокислоты. Таким образом, каждая третья из четырёх аминокислот в цепи будет гидрофобной, и поэтому эту аминокислоту можно легко обнаружить. В лейциновой молнии повторяющийся узор лейцинов на внешних сторонах двух соседних спиралей является, в значительной степени, характеризующем для данной структуры. Другие α-спирали, находящиеся в гидрофобном ядре белка или же в трансмембранных доменах белков, имеют более высокий процент гидрофобных аминокислот, которые равномернее распределены по цепи, что также служит хорошим маркером для данных частей белков. Качественное содержание аминокислот может быть хорошим маркером α-спиральной области. Регионы, имеющую большую концентрацию аланина (A), глутаминовой кислоты(E), лейцина (L) и метионина (M), а также более бедные по пролину (P), глицину (G), тирозину (Y) и серину (S), как правило, образуют спираль α.

β-лист

β-листы образованы Н-связями между в среднем 5-10 последовательными аминокислотами в одной части цепи и ещё 5-10 дальше по цепочке. Каждая цепь может проходить в одном и том же направлении, образуя параллельный лист, если цепи идут в разных направлениях, то образуется антипараллельный лист. Характер Н-связи различен в параллельной и антипараллельной конфигурации. Углы ψ и φ аминокислот в листах значительно варьируются в одной области карты Рамачандра . Предсказать местоположение β листов в структуре белка сложнее, чем α спиралей.

Петля(Loop)

Петли представляют собой области белковой цепи, которые между α спиралями и β листами, различной длины и трехмерной конфигурации и могут располагать, как на поверхности белка, так и ближе к ядру.

Петли шпилек, которые представляют собой полный оборот в полипептидной цепи, соединяющей две антипараллельные β-цепи, могут быть длиной до двух аминокислот. Петли могут взаимодействуют с окружающей средой(вода и другие растворители) и другими белками. Поскольку геометрия аминокислот в петлях не ограничена в пространством, как аминокислоты в области ядра, где очень плотная укладка цепи, и не так сильно влияют на правильную укладку белка, то там может происходить большее количество замен, вставок и делеций, которые не повлияют на функции белка. Таким образом, при выравнивании последовательностей, наличие этих мутаций(вставок, делеций, замен) может указывать на петлю. Позиции интронов в геномной ДНК иногда соответствуют местам петель в кодируемом белке, Петли также имеют тенденцию иметь заряженные и полярные аминокислоты и часто являются компонентом активных сайтов связывания.

Foldit

Фолдит — онлайн-головоломка о укладке белка. Игра является частью исследовательского проекта и разработана в Вашингтонском университете. Предмет игры — наилучшим образом свернуть структуру выбранных белков; лучшие пользовательские решения анализируются учёными, которые могут с их помощью найти решение реальных научных проблем, связанных с поиском вакцин и биологическими инновациями. Большинство из лучших игроков «Фолдита» не имеют биохимического образования.

Цель данной игры является в предсказании трёхмерной структуры определённого белка с самым низким уровнем свободной энергии. Каждое задание публикуется на сайте на определённый срок, в течение которого пользователи соревнуются между собой.

Во время игры игроки интерактивно манипулируют молекулой, меняя углы остова белка и также расположение радикалов аминокислот. Игроки способны устанавливать ограничения на определённых участках («rubber bands») или «замораживать» их. Также пользователям предоставляется панель инструментов для выполнения автоматизированных задач, например, команда «wiggle» позволяет локально минимизировать энергию.

Пользователь получает информацию о том, насколько хорошо ему удается сворачивать белок, в форме баллов, которые начисляются, в частности, за образование новых водородных связей, сокрытие гидрофобных остатков внутрь молекулы и т. д. Также программа даёт игрокам подсказки, например подсвечивает участки, в которых определённые группы перекрываются и их следует развести, открытые гидрофобные участки, которые следует скрыть от воздействия воды и т. д.. Сайт позволяет пользователям делиться друг с другом вариантами решений, обсуждать их.

CASP

CASP (англ. Critical Assessment of protein Structure Prediction, критическая оценка предсказания белковых структур) — масштабный эксперимент по предсказанию белковых структур. Проходит с 1994 года с периодичностью каждые два года.[1] CASP объективно тестирует методы предсказания белковых структур и предоставляет независимую оценку структурного моделирования. Основная цель CASP — помощь в улучшении методов определения трехмерной структуры белков из их аминокислотных последовательностей. Более 100 исследовательских групп принимают участие в проекте на постоянной основе. CASP считается всемирным соревнованием в науке структурного моделирования.

Один из главных принципов CASP — отсутствие у участников какой-либо предварительной информации о белке, кроме аминокислотной последовательности. По этой причине в CASP используется двойной слепой метод — ни организаторы, ни эксперты, ни участники не знают структуры тестируемых белков до окончания стадии предсказаний. Тестируемые белки — чаще всего ещё не разрешенные структуры, полученные методами рентгеноструктурного анализа и ЯМР.

Данное мероприятие помогает сравнить передовые методы предсказания структур белков и поиск «идеального» алгоритма, который лишь по аминокислотной последовательности сможет предсказывать третичную структуру блека.

На последнем CASP13 победила команда, которая использовала нейронную сеть AlphaFold. Так что, скорее всего, предсказание структур белков в будущем будут делать, используя именно нейронный сети.

Вторичная структура

Предсказание вторичной структуры это набор методов предсказания локальной вторичной структуры белков, основанных только на знании об их аминокислотной последовательности. Для белков предсказание состоит в соотнесении отдельных участков аминокислотных последовательностей с наиболее вероятными классами вторичных структур, таких, как альфа-спирали, бэта-тяжи или повороты. Успешность предсказания определяется с помощью сравнения его результатов с выдачей алгоритма DSSP[англ.] (или похожего алгоритма; к примеру, STRIDE?!), на вход которому подаётся структура молекулы кристаллизованного белка. Также были разработаны алгоритмы, специализирующиеся на распознавании некоторых хорошо различимых в белках структурных паттернов, таких как трансмембранные спирали и суперспирали (coiled coils[англ.])[2]. Наилучшие современные методы определения вторичной структуры белка достигают около 80 % точности[3]; такая высокая точность позволяет использовать полученные предсказания для последующего улучшения распознавания сворачивания и предсказания структуры белка ab initio, а также классификации структурных мотивов и выравнивания последовательностей. Точность ныне существующих методов предсказания вторичных структур оценивается такими еженедельно обновляющимися ресурсами, как LiveBench и EVA.

Текущее положение дел

Ранние методы предсказания вторичной структуры белков, появившиеся в 60-х и ранних 70-х годах прошлого века[4][5][6][7][8], были сосредоточены на определении вероятных альфа-спиралей и по большей части были основаны на моделях перехода петля-спираль (helix-coil transition models)[9]. В 1970-х появилась возможность также определять бэта-листы с помощью значительно более точных алгоритмов, основанных на статистических данных об известных структурах. При использовании этих алгоритмов на одиночных последовательностях точность обычно не превышает 60-65 %, и часто не все реально присутствующие в структуре бэта-листы предсказываются[10]. Консервативность вторичных структур позволяет одновременно соотнести фрагменты множества гомологичных последовательностей во множественном выравнивании с элементами вторичной структуры с помощью вычисления частоты возникновения определённой аминокислоты в колонках выравнивания. Современные методы машинного обучения, такие как нейронные сети и метод опорных векторов, в совокупности с ростом баз данных экспериментально полученных структур белков позволяют новым методам предсказания вторичных структур белков достичь до 80 % точности предсказания для глобулярных белков, при том, что теоретический лимит точности предсказания составляет около 90 %[11]. Теоретический лимит частично обусловлен невозможностью однозначно определить положение аминокислотных остатков рядом с конечными участками вторичных структур, где локальные конформации могут изменяться в нативном состоянии, но в кристалле присутствует лишь одна. Ограничения также связаны с невозможностью предсказания вторичной структуры с учётом третичной структуры; к примеру, участок последовательности, который был предсказан, как петля, может принять конформацию бэта-листа, если он находится внутри области белка, представленной бэта-листами, и его боковые цепи хорошо укладываются в структуру. Значительные конформационные изменения, связанные с функцией белка или его окружением также усложняют задачу предсказания.

История

На данный момент разработано более 20 разных методов предсказания вторичной структуры белка. Одним из первых алгоритмов был некорректный ISO-код «chou–fasman method», опирающийся в первую очередь на вероятностные параметры, определённые с помощью относительных частот возникновения каждой аминокислоты в каждом типе вторичных структур[12]. Использование алгоритма с изначальными параметрами, определёнными с помощью небольшой выборки известных структур, доступных в середине 1970-х, приводит к получению значительно худших результатов, по сравнению с современными методами, несмотря на то, что параметризация обновлялась со времени изначальной публикации. Точность метода Чоу-Фасмана составляет около 50-60 %[2].

Следующей примечательной программой был метод GOR[англ.], названный в честь трех учёных, которые его разработали — Garnier, Osguthorpe и Robson, — метод, основанный на теории информации. Он использует более мощный вероятностный метод байесовского вывода[13]. Метод GOR учитывает не только вероятность того, что аминокислота определённого типа включена в определённую вторичную структуру, но и условную вероятность того, что аминокислота включена в эту вторичную структуру с учётом вклада её соседей (при этом не предполагается, что соседи имеют такую же структуру). Этот подход является более чувствительным и более точным, чем в методе Чоу-Фасмана, потому что «склонность» определённой аминокислоты состоять в определённом типе вторичной структуры достаточно значительна только для небольшого числа аминокислот, таких как пролин и глицин. Небольшой вклад каждого из многих соседей суммарно может иметь большой эффект. Первоначальный метод GOR обладал точностью около 65 % и был значительно более успешен в предсказании альфа-спиралей, нежели чем бета-листов, которые он часто неверно предсказывал как петли или неорганизованные участки[2].

Ещё одним большим шагом вперёд стало использование методов машинного обучения: первые методы искусственных нейронных сетей были использованы в программах для предсказания вторичных структур белков. В качестве обучающих выборок они использовали последовательности белков с экспериментально полученными структурами для определения общих мотивов, связанных с определённым расположением вторичных структур. Эти методы более чем на 70 % точны в своих предсказаниях, хотя количество бета-тяжей так же часто занижается из-за отсутствия информации о трёхмерной структуре, которая позволила бы оценить паттерны водородных связей, которые могут способствовать формированию бета-листа[2]. PSIPRED и JPRED являются одними из самых известных программ для предсказания вторичной структуры белка, основанных на нейронных сетях. Позже метод опорных векторов оказался особенно полезным для предсказания поворотов, которые трудно идентифицировать статистическими методами.[14][15]

Расширения методов машинного обучения используются для предсказания более точных локальных свойств белков, таких как двугранные углы остова в областях с неклассифицированной структурой. И метод опорных векторов, и нейронные сети были использованы для решения этой проблемы[16][17][18]. Совсем недавно программа SPINE-X позволила точно прогнозировать реальные торсионные углы и успешно использовать эту информацию для прогнозирования структуры ab initio[19].

Другие улучшения

Помимо последовательности белка, образование вторичной структуры зависит от других факторов. Например, известно, что вторичная структура зависит также от локального окружения[20], доступности аминокислотных остатков для растворителя[21], структурного класса белка[22], и даже организма, из которого получен белок[23]. Основываясь на этих наблюдениях, некоторые исследования показали, что прогноз вторичной структуры может быть улучшен путём добавления информации о структурном классе белка[24] и доступной для растворителя площади остатков[25].

Третичная структура

Практическая роль предсказания структуры белка теперь стала более важна, чем когда бы то ни было. Огромные объёмы данных о последовательности белков стали доступны в результате современных широкомасштабных работ по секвенированию ДНК, таких как проект «Геном человека». Несмотря на усилия всего сообщества в области структурной геномики, количество экспериментально определенных белковых структур - обычно с помощью трудоемкой и относительно дорогой рентгеновской кристаллографии или ЯМР-спектроскопии - значительно отстает от количества белковых последовательностей.

Предсказание структуры белка остаётся чрезвычайно трудной и не до конца разрешённой задачей. Две основные проблемы - это расчет свободной энергии и нахождение глобального минимума этой энергии. Метод предсказания структуры белка должен исследовать пространство всех возможных структур белка, которое является астрономически большим. Эти проблемы можно частично обойти с помощью сравнительного (гомологического) моделирования и методах распознавания укладки (фолда), в которых пространство поиска сокращается из-за предположения, что рассматриваемый белок принимает структуру, близкую к экспериментально определенной структуре другого гомологичного белка. С другой стороны, методы прогнозирования структуры белка ab initio должны явно разрешать эти проблемы, не опираясь на начальные предположения. Прогресс и проблемы прогнозирования структуры белка были рассмотрены в Zhang 2008[26].

До моделирования

Большинство методов моделирования третичной структуры, таких как Rosetta, оптимизированы для моделирования третичной структуры отдельных белковых доменов. Этап, называемый анализом домена или предсказанием границы домена, обычно выполняется первым, чтобы разделить белок на потенциальные структурные домены. Как и в случае с остальными этапами предсказания третичной структуры[27], это можно сделать с помощью сравнения с известными структурами или ab initio только с помощью последовательности (обычно с помощью машинного обучения, задействующующего ковариацию[28]). Структуры отдельных доменов объединяются в одну окончательную третичную структуру в процессе, называемом сборкой доменов.

Методы, основанные на расчёте энергии

Методы моделирования ab initio- стремятся создавать трехмерные белковые модели "с нуля", то есть они основаны на физических принципах, а не непосредственно на экспериментально полученных данных о структурах. Существует множество возможных подходов, которые либо пытаются имитировать сворачивание белка, либо применяют стохастические методы для поиска возможных решений (т. е. поиск глобального максимума некой энергетической функции). Эти подходы, как правило, требуют огромных вычислительных ресурсов и, таким образом, могут быть применены только для крошечных белков. Для прогнозирования структуры белка ab initio для более крупных белков потребуются более совершенные алгоритмы и большие вычислительные ресурсы, представленные либо мощными суперкомпьютерами (такими как Blue Gene или MDGRAPE-3), либо распределенными вычислениями (такими как Folding@home, Human Proteome Folding Project и Rosetta@Home).


Коэволюционирующие последовательности в предсказании контактов в 3D

Поскольку секвенирование стало более распространенным явлением в 1990-х годах, несколько групп исследователей использовали выравнивание белковых последовательностей для предсказания коррелированных мутаций, и была надежда, что эти совместно эволюционирующие остатки могут быть использованы для предсказания третичной структуры. Предполагается, что когда мутация одного аминокислотного остатка не является летальной, может возникнуть компенсаторная мутация для стабилизации взаимодействий между остатками. В ранних работах использовались так называемые локальные методы для расчета коррелированных мутаций белковых последовательностей, при этом из-за независимого рассмотрения каждой пары остатков возникали ложные корреляции[29][30].

В 2011 году другой статистический подход, продемонстрировал, что предсказанных коэволюционирующих остатков достаточно, чтобы предсказать трехмерную укладку белка, при условии, что имеется достаточно последовательностей (необходимо > 1000 гомологичных последовательностей)[31]. Метод EVfold не использует моделирование по гомологии и может быть запущен на стандартном персональном компьютере даже для белков, состоящих из сотен остатков. Точность предсказаний этого и связанных с ним подходов, была продемонстрирована на многих структурах и картах контактов[32][33][34].

Сравнительное моделирование структуры белка

Сравнительное моделирование структуры белка использует структуры, полученные ранее с помощью экспериментальных методов в качестве отправных точек. Это эффективно, так как, судя по всему, хотя число существующих белков огромно, количество третичных структурных мотивов, к которым принадлежит большинство белков, ограничено. Предполагается, что в природе существует только около 2000 различных белковых укладок, при том, что существует много миллионов различных белков.

Эти методы также можно разделить на две группы[35]:

  1. Моделирование по гомологии основано на предположении о том, что гомологичные белки обладают схожей структурой. Так как укладка белка более консервативна, чем его аминокислотная последовательность, структура изучаемого белка может быть предсказана с неплохой точностью даже в случае далёкого родства с белком, использующимся в качестве шаблона, при условии, что гомологию между шаблоном и целевым белком можно проследить посредством выравнивания последовательностей. Было высказано предположение, что основная слабость сравнительного моделирования состоит в неточности выравниваний, а не в ошибках в прогнозировании структуры при условии известного хорошего выравнивания[36]. Неудивительно, что моделирование по гомологии достигает наилучших результатов, когда целевой белок и шаблон имеют схожие последовательности.
  2. Распознавание укладки[37] производит поиск аминокислотной последовательности, для которой неизвестна структура, в базе данных известных структур. В каждом случае используется score-функция для оценки совместимости последовательности со структурой, что позволяет получить набор возможных трёхмерных моделей. Этот тип методов также известен как 3D-1D распознавание укладки из-за анализа совместимости между трехмерными структурами и линейными белковыми последовательностями. Этот метод также привел к появлению методов, выполняющих обратный поиск для оценки совместимости данной структуры с большой базой данных последовательностей, таким образом прогнозируя, какие последовательности могли бы иметь заданную укладку.

Предсказание геометрии боковых цепей

Точное предсказание расположения аминокислотных боковых цепей в структуре представляет собой отдельную проблему в прогнозировании структуры белка. Методы, которые решают проблему прогнозирования геометрии боковых цепей, включают в себя устранение тупиков и методы самосогласованного поля. Конформации боковой цепи с низкой энергией обычно определяются на жестком полипептидном остове и используют набор дискретных конформаций боковой цепи, «ротамеров». Принцип работы таких методов заключается в поиске набора ротамеров, минимизирующего общую энергию модели.


Эти методы используют библиотеки ротамеров, которые представляют собой наборы благоприятных конформаций для каждого типа остатка в белке. Библиотеки ротамеров могут содержать информацию о конформации, её частоте и стандартных отклонениях относительно средних значений двугранных углов, которые могут быть использованы при отборе вариантов. Библиотеки ротамеров получают с помощью структурной биоинформатики или другого статистического анализа конформаций боковых цепей в известных по экспериментальным данным структурах белков.. Библиотеки ротамеров могут быть независимыми от остова, зависимыми от вторичной структуры или зависимыми от остова. Библиотеки ротамеров, не зависимые от остова, не используют информацию о конформации остова и рассчитываются по всем доступным боковым цепям определённого типа (например, первый пример библиотеки ротамеров, сделанный Пондером и Ричардсом в Йельском университете в 1987 году). Библиотеки, зависящие от вторичной структуры, представляют собой различные двугранные углы и / или частоты ротамеров для классов вторичных структур -спирали, -листа или coil. Зависящие от остова библиотеки ротамеров представляют собой конформации и / или их частоты, зависящие от локальной конформации основной цепи, которая определяется двугранными углами основной цепи и не зависит от вторичной структуры.


Современные версии этих библиотек, используемые в большинстве программ, представлены в виде многомерных распределений вероятности или частоты, где пики соответствуют конформациям двугранного угла, рассматриваемым как отдельные ротамеры. Некоторые версии основаны на очень тщательно отобранных данных и используются главным образом для проверки структуры, [48], в то время как другие используют относительные частоты из гораздо больших наборов данных и используются главным образом для предсказания структуры, к примеру, библиотека ротамеров Данбрэка.

См. также

Примечания

  1. Zaki, M. J., Bystroff, C. Protein structure prediction, Humana Press, 2008, 337 p. Фрагмент текста на Google Books
  2. 1 2 3 4 Mount, David W. Bioinformatics : sequence and genome analysis. — 2nd ed. — Cold Spring Harbor, N.Y.: Cold Spring Harbor Laboratory Press, 2004. — xii, 692 pages с. — ISBN 0-87969-687-7, 978-0-87969-687-0, 0-87969-712-1, 978-0-87969-712-9, 978-974-652-070-6, 974-652-070-9.
  3. Walter Pirovano, Jaap Heringa. Protein Secondary Structure Prediction // Data Mining Techniques for the Life Sciences / Oliviero Carugo, Frank Eisenhaber. — Totowa, NJ: Humana Press, 2010. — Т. 609. — С. 327–348. — ISBN 978-1-60327-240-7, 978-1-60327-241-4. — doi:10.1007/978-1-60327-241-4_19.
  4. A. V. Guzzo. The influence of amino-acid sequence on protein structure // Biophysical Journal. — 1965-11. — Т. 5, вып. 6. — С. 809–822. — ISSN 0006-3495. — doi:10.1016/S0006-3495(65)86753-4.
  5. J. W. Prothero. Correlation between the distribution of amino acids and alpha helices // Biophysical Journal. — 1966-05. — Т. 6, вып. 3. — С. 367–370. — ISSN 0006-3495. — doi:10.1016/S0006-3495(66)86662-6.
  6. Marianne Schiffer, Allen B. Edmundson. Use of Helical Wheels to Represent the Structures of Proteins and to Identify Segments with Helical Potential (англ.) // Biophysical Journal. — 1967-03. — Vol. 7, iss. 2. — P. 121–135. — doi:10.1016/S0006-3495(67)86579-2.
  7. D. Kotelchuck, H. A. Scheraga. THE INFLUENCE OF SHORT-RANGE INTERACTIONS ON PROTEIN CONFORMATION, II. A MODEL FOR PREDICTING THE -HELICAL REGIONS OF PROTEINS (англ.) // Proceedings of the National Academy of Sciences. — 1969-01-01. — Vol. 62, iss. 1. — P. 14–21. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.62.1.14.
  8. P. N. Lewis, N. G[unk]o, M. G[unk]o, D. Kotelchuck, H. A. Scheraga. Helix Probability Profiles of Denatured Proteins and Their Correlation with Native Structures (англ.) // Proceedings of the National Academy of Sciences. — 1970-04-01. — Vol. 65, iss. 4. — P. 810–815. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.65.4.810.
  9. M. Froimowitz, G. D. Fasman. Prediction of the secondary structure of proteins using the helix-coil transition theory // Macromolecules. — 1974-09. — Т. 7, вып. 5. — С. 583–589. — ISSN 0024-9297. — doi:10.1021/ma60041a009.
  10. Mount, David W. Bioinformatics : sequence and genome analysis. — 2nd ed. — Cold Spring Harbor, N.Y.: Cold Spring Harbor Laboratory Press, 2004. — xii, 692 pages с. — ISBN 0-87969-687-7, 978-0-87969-687-0, 0-87969-712-1, 978-0-87969-712-9, 978-974-652-070-6, 974-652-070-9.
  11. Ofer Dor, Yaoqi Zhou. Achieving 80% ten-fold cross-validated accuracy for secondary structure prediction by large-scale training (англ.) // Proteins: Structure, Function, and Bioinformatics. — 2006-12-18. — Vol. 66, iss. 4. — P. 838–845. — doi:10.1002/prot.21298.
  12. Peter Y. Chou, Gerald D. Fasman. Prediction of protein conformation (англ.) // Biochemistry. — 1974-01-15. — Vol. 13, iss. 2. — P. 222–245. — ISSN 1520-4995 0006-2960, 1520-4995. — doi:10.1021/bi00699a002.
  13. J. Garnier, D.J. Osguthorpe, B. Robson. Analysis of the accuracy and implications of simple methods for predicting the secondary structure of globular proteins (англ.) // Journal of Molecular Biology. — 1978-03. — Vol. 120, iss. 1. — P. 97–120. — doi:10.1016/0022-2836(78)90297-8.
  14. Tho Hoan Pham, Kenji Satou, Tu Bao Ho. SUPPORT VECTOR MACHINES FOR PREDICTION AND ANALYSIS OF BETA AND GAMMA-TURNS IN PROTEINS (англ.) // Journal of Bioinformatics and Computational Biology. — 2005-04. — Vol. 03, iss. 02. — P. 343–358. — ISSN 1757-6334 0219-7200, 1757-6334. — doi:10.1142/S0219720005001089.
  15. Q. Zhang, S. Yoon, W. J. Welsh. Improved method for predicting -turn using support vector machine (англ.) // Bioinformatics. — 2005-05-15. — Vol. 21, iss. 10. — P. 2370–2374. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/bti358.
  16. Tho Hoan Pham, Kenji Satou, Tu Bao Ho. SUPPORT VECTOR MACHINES FOR PREDICTION AND ANALYSIS OF BETA AND GAMMA-TURNS IN PROTEINS (англ.) // Journal of Bioinformatics and Computational Biology. — 2005-04. — Vol. 03, iss. 02. — P. 343–358. — ISSN 1757-6334 0219-7200, 1757-6334. — doi:10.1142/S0219720005001089.
  17. O. Zimmermann, U. H. E. Hansmann. Support vector machines for prediction of dihedral angle regions (англ.) // Bioinformatics. — 2006-12-15. — Vol. 22, iss. 24. — P. 3009–3015. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btl489.
  18. R. Kuang, C. S. Leslie, A.-S. Yang. Protein backbone angle prediction with machine learning approaches (англ.) // Bioinformatics. — 2004-07-01. — Vol. 20, iss. 10. — P. 1612–1621. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/bth136.
  19. Eshel Faraggi, Yuedong Yang, Shesheng Zhang, Yaoqi Zhou. Predicting Continuous Local Structure and the Effect of Its Substitution for Secondary Structure in Fragment-Free Protein Structure Prediction (англ.) // Structure. — 2009-11. — Vol. 17, iss. 11. — P. 1515–1527. — doi:10.1016/j.str.2009.09.006.
  20. L. Zhong, W. C. Johnson. Environment affects amino acid preference for secondary structure. (англ.) // Proceedings of the National Academy of Sciences. — 1992-05-15. — Vol. 89, iss. 10. — P. 4462–4465. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.89.10.4462.
  21. J. Randy Macdonald, W. Curtis Johnson. Environmental features are important in determining protein secondary structure (англ.) // Protein Science. — 2001. — Vol. 10, iss. 6. — P. 1172–1177. — ISSN 1469-896X. — doi:10.1110/ps.420101.
  22. Susan Costantini, Giovanni Colonna, Angelo M. Facchiano. Amino acid propensities for secondary structures are influenced by the protein structural class (англ.) // Biochemical and Biophysical Research Communications. — 2006-04-07. — Vol. 342, iss. 2. — P. 441–451. — ISSN 0006-291X. — doi:10.1016/j.bbrc.2006.01.159.
  23. Sayed-Amir Marashi, Reza Behrouzi, Hamid Pezeshk. Adaptation of proteins to different environments: A comparison of proteome structural properties in Bacillus subtilis and Escherichia coli (англ.) // Journal of Theoretical Biology. — 2007-01-07. — Vol. 244, iss. 1. — P. 127–132. — ISSN 0022-5193. — doi:10.1016/j.jtbi.2006.07.021.
  24. Susan Costantini, Giovanni Colonna, Angelo M. Facchiano. PreSSAPro: A software for the prediction of secondary structure by amino acid properties (англ.) // Computational Biology and Chemistry. — 2007-10-01. — Vol. 31, iss. 5. — P. 389–392. — ISSN 1476-9271. — doi:10.1016/j.compbiolchem.2007.08.010.
  25. Amir Momen-Roknabadi, Mehdi Sadeghi, Hamid Pezeshk, Sayed-Amir Marashi. Impact of residue accessible surface area on the prediction of protein secondary structures // BMC Bioinformatics. — 2008-08-31. — Т. 9, вып. 1. — С. 357. — ISSN 1471-2105. — doi:10.1186/1471-2105-9-357.
  26. Yang Zhang. Progress and challenges in protein structure prediction // Current Opinion in Structural Biology. — 2008-06. — Т. 18, вып. 3. — С. 342–348. — ISSN 0959-440X. — doi:10.1016/j.sbi.2008.02.004.
  27. Ovchinnikov S, Kim De, Wang Ry, Liu Y, DiMaio F, Baker D. Improved De Novo Structure Prediction in CASP11 by Incorporating Coevolution Information Into Rosetta (англ.). Proteins (сентябрь 2016). Дата обращения: 13 апреля 2020.
  28. Seung Hwan Hong, Keehyoung Joo, Jooyoung Lee. ConDo: protein domain boundary prediction using coevolutionary information (англ.) // Bioinformatics. — 2019-07-15. — Vol. 35, iss. 14. — P. 2411–2417. — ISSN 1367-4803. — doi:10.1093/bioinformatics/bty973.
  29. Ulrike Göbel, Chris Sander, Reinhard Schneider, Alfonso Valencia. Correlated mutations and residue contacts in proteins (англ.) // Proteins: Structure, Function, and Bioinformatics. — 1994. — Vol. 18, iss. 4. — P. 309–317. — ISSN 1097-0134. — doi:10.1002/prot.340180402.
  30. William R. Taylor, Kerr Hatrick. Compensating changes in protein multiple sequence alignments (англ.) // Protein Engineering, Design and Selection. — 1994-03-01. — Vol. 7, iss. 3. — P. 341–348. — ISSN 1741-0126. — doi:10.1093/protein/7.3.341.
  31. Debora S. Marks, Lucy J. Colwell, Robert Sheridan, Thomas A. Hopf, Andrea Pagnani. Protein 3D Structure Computed from Evolutionary Sequence Variation (англ.) // PLOS ONE. — 2011-07-12. — Vol. 6, iss. 12. — P. e28766. — ISSN 1932-6203. — doi:10.1371/journal.pone.0028766.
  32. Lukas Burger, Erik van Nimwegen. Disentangling Direct from Indirect Co-Evolution of Residues in Protein Alignments (англ.) // PLOS Computational Biology. — 2010-01-01. — Vol. 6, iss. 1. — P. e1000633. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1000633.
  33. Faruck Morcos, Andrea Pagnani, Bryan Lunt, Arianna Bertolino, Debora S. Marks. Direct-coupling analysis of residue coevolution captures native contacts across many protein families (англ.) // Proceedings of the National Academy of Sciences. — 2011-12-06. — Vol. 108, iss. 49. — P. E1293–E1301. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1111471108.
  34. Timothy Nugent, David T. Jones. Accurate de novo structure prediction of large transmembrane protein domains using fragment-assembly and correlated mutation analysis (англ.) // Proceedings of the National Academy of Sciences. — 2012-06-12. — Vol. 109, iss. 24. — P. E1540–E1547. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1120036109.
  35. Yang Zhang. Progress and challenges in protein structure prediction (англ.) // Current Opinion in Structural Biology. — 2008-06-01. — Vol. 18, iss. 3. — P. 342–348. — ISSN 0959-440X. — doi:10.1016/j.sbi.2008.02.004.
  36. Yang Zhang, Jeffrey Skolnick. The protein structure prediction problem could be solved using the current PDB library (англ.) // Proceedings of the National Academy of Sciences. — 2005-01-25. — Vol. 102, iss. 4. — P. 1029–1034. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0407152101.
  37. J. U. Bowie, R. Luthy, D. Eisenberg. A method to identify protein sequences that fold into a known three-dimensional structure (англ.) // Science. — 1991-07-12. — Vol. 253, iss. 5016. — P. 164–170. — ISSN 1095-9203 0036-8075, 1095-9203. — doi:10.1126/science.1853201.