Предсказание вторичной структуры РНК

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Предсказание вторичной структуры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.

Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стекинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность.[1] Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы.

Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у тРНК, рибосомальных РНК или сплайсосом. Происходит это отчасти потому, что дополнительный кислород в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.

Предсказание структуры единичной молекулы РНК[править | править вики-текст]

Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стекинг-взаимодействия пар оснований. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа (nearest-neighbor model). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований.[2] Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин-урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004[3], хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году.[4]

Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) N, где N- число нуклеотидов).[5]. Так для РНК длиной всего в 200 пар нуклеотидов существует более 1050 возможных структур со спаренными основаниями[1]

Алгоритмы на основе динамического программирования[править | править вики-текст]

Одним из подходов к предсказанию вторичной структуры РНК является алгоритм Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований.[6] Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стекинг-взаимодействий между соседними парами оснований в стеблях РНК.[1] Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей.[7]

Сворачивание РНК обусловлено физическими причинами, а не подсчетом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей свободной энергией (ΔG).[8] ΔG вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии стеблей энергия стекинга соответствует взаимодействию соседних пар оснований, а не самим парам.[1]

Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает рекурсивно. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности.[2]

Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» паттерны пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и Хугстиновские пары. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учета эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы.[9]

Субоптимальные структуры[править | править вики-текст]

Точность предсказания вторичной структуры единичной молекулы РНК путем минимизации свободной энергии ограничивается несколькими факторами:

  1. В модели ближайшего соседа величина свободной энергии не может принимать некоторые допустимые значения.
  2. Не все известные РНК укладки соответствуют термодинамическому минимуму.
  3. Некоторые последовательности РНК имеют более одной биологически активной конформации (так называемые, рибопереключатели)

По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры.[10]

Предсказание псевдоузлов[править | править вики-текст]

Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы.[4] Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов.[9] Однако, этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N3) (N -число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N6) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N4) операций.[11]

Другие подходы к предсказанию вторичной структуры РНК[править | править вики-текст]

Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью ансамбля Больцмана,[12][13] например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с распределением Больцмана. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке.[13]

Предсказание вторичной структуры семейств родственных РНК[править | править вики-текст]

Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют ковариацию отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга нуклеотидов указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является NP-полной задачей.[14]

Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур:[15]

  1. Укладка выравнивания
  2. Одновременное выравнивание последовательностей и укладка
  3. Выравнивание предсказанных структур

Выравнивание с последующей укладкой[править | править вики-текст]

Данный подход заключается в построении множественного выравнивания последовательностей РНК, нахождении консенсусной последовательности, а затем ее укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold.[16] Различные подходы используют программы Pfold и ILM. Программа Pfold реализует стохастические контекстно-свободные грамматики (СКСГ).[17] ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания.[18]

Синхронное выравнивание и укладка[править | править вики-текст]

Эволюция часто сохраняет функциональную структуру РНК лучше, чем ее последовательность.[16] Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %.[19]

Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff.[20] В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov,[6] который ищет максимальный участок спаривания с помощью динамического программирования.[21] Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O(n3m) и O(n2m) памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign,[22][23] Dynalign,[24][25] PMmulti/PMcomp,[21] Stemloc,[26] и Murlet.[27] В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.

Укладка с последующим выравниванием[править | править вики-текст]

Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев.[28] Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.

См. также[править | править вики-текст]

Примечания[править | править вики-текст]

  1. 1 2 3 4 Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических последовательностей.. — М.-Ижевск.: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований, 2006. — С. 347-402. — 480 с. — ISBN 5-93972-559-7.
  2. 1 2 Mathews, D.H. Revolutions in RNA secondary structure prediction" J. Mol. Biol 359, 526—532(2006).
  3. Mathews DH, Disney MD, Childs JL, Schroeder SJ, Zuker M, Turner DH (2004). «Incorporating chemical modification constraints into a dynamic programming algorithm for prediction of RNA secondary structure». Proceedings of the National Academy of Sciences USA 101: 7287–7292. DOI:10.1073/pnas.0401799101. PMID 15123812. Bibcode2004PNAS..101.7287M.
  4. 1 2 Mathews DH, Sabina J, Zuker M, Turner DH (1999). «Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure». J Mol Biol 288 (5): 911–40. DOI:10.1006/jmbi.1999.2700. PMID 10329189.
  5. Zuker M., Sankoff D. (1984). «RNA secondary structures and their prediction». Bull. Math. Biol. 46: 591–621.
  6. 1 2 Nussinov R, Piecznik G, Grigg JR and Kleitman DJ (1978) Algorithms for loop matchings. SIAM Journal on Applied Mathematics.
  7. Nussinov R, Jacobson AB (1980). «Fast algorithm for predicting the secondary structure of single-stranded RNA». Proc Natl Acad Sci U S A 77 (11): 6309–13. DOI:10.1073/pnas.77.11.6309. PMID 6161375. Bibcode1980PNAS...77.6309N.
  8. Zuker M, Stiegler P. (1981) Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acids Res. Jan 10;9(1) 133-48.
  9. 1 2 Rivas E, Eddy SR (1999). «A dynamic programming algorithm for RNA structure prediction including pseudoknots». J Mol Biol 285 (5): 2053–68. DOI:10.1006/jmbi.1998.2436. PMID 9925784.
  10. Zuker M (2003). «Mfold web server for nucleic acid folding and hybridization prediction». Nucleic Acids Research 31 (13): 3406–3415. DOI:10.1093/nar/gkg595. PMID 12824337.
  11. Reeder J., Giegerich R. (2004). «Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics». BMC Bioinformatics 5.
  12. McCaskill JS (1990). «The equilibrium partition function and base pair binding probabilities for RNA secondary structure». Biopolymers 29 (6-7): 1105–19. DOI:10.1002/bip.360290621. PMID 1695107.
  13. 1 2 Ding Y, Lawrence CE (2003). «A statistical sampling algorithm for RNA secondary structure prediction». Nucleic Acids Res. 31 (24): 7280–301. DOI:10.1093/nar/gkg938. PMID 14654704.
  14. Lyngsø RB, Pedersen CN. (2000). RNA pseudoknot prediction in energy-based models. J Comput Biol 7(3-4) 409—427.
  15. Gardner P.P., Giegerich (2004). «A comprehensive comparison of comparative RNA structure prediction approaches». BMC Bioinformatics 5. DOI:10.1186/1471-2105-5-140. PMID 15458580.
  16. 1 2 Hofacker IL, Fekete M, Stadler PF (2002). «Secondary structure prediction for aligned RNA sequences». J Mol Biol 319 (5): 1059–66. DOI:10.1016/S0022-2836(02)00308-X. PMID 12079347.
  17. Knudsen B, Hein J (2003). «Pfold: RNA secondary structure prediction using stochastic context-free grammars». Nucleic Acids Res. 31 (13): 3423–8. DOI:10.1093/nar/gkg614. PMID 12824339.
  18. Ruan, J., Stormo, G.D. & Zhang, W. (2004) ILM: a web server for predicting RNA secondary structures with pseudoknots. Nucleic Acids Research, 32(Web Server issue), W146-149.
  19. Bernhart SH, Hofacker IL (2009). «From consensus structure prediction to RNA gene finding.». Brief Funct Genomic Proteomic 8 (6): 461–71. DOI:10.1093/bfgp/elp043. PMID 19833701.
  20. Sankoff D (1985) Simultaneous solution of the RNA folding, alignment and protosequence problems. SIAM Journal on Applied Mathematics. 45:810-825.
  21. 1 2 Hofacker IL, Bernhart SH, Stadler PF (2004). «Alignment of RNA base pairing probability matrices». Bioinformatics 20 (14): 2222–7. DOI:10.1093/bioinformatics/bth229. PMID 15073017.
  22. Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J (2005). «Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%». Bioinformatics 21 (9): 1815–24. DOI:10.1093/bioinformatics/bti279. PMID 15657094.
  23. Torarinsson E, Havgaard JH, Gorodkin J. (2007) Multiple structural alignment and clustering of RNA sequences. Bioinformatics.
  24. Mathews DH, Turner DH (2002). «Dynalign: an algorithm for finding the secondary structure common to two RNA sequences». J Mol Biol 317 (2): 191–203. DOI:10.1006/jmbi.2001.5351. PMID 11902836.
  25. Harmanci AO, Sharma G, Mathews DH, (2007), Efficient Pairwise RNA Structure Prediction Using Probabilistic Alignment Constraints in Dynalign, BMC Bioinformatics, 8(130).
  26. Holmes I. (2005) Accelerated probabilistic inference of RNA structure evolution. BMC Bioinformatics. 2005 Mar 24;6:73.
  27. Kiryu H, Tabei Y, Kin T, Asai K (2007). «Murlet: A practical multiple alignment tool for structural RNA sequences». Bioinformatics 23 (13): 1588–1598. DOI:10.1093/bioinformatics/btm146. PMID 17459961.
  28. Shapiro BA and Zhang K (1990) Comparing Multiple RNA Secondary Structures Using Tree Comparisons Computer Applications in the Biosciences, vol. 6, no. 4, pp. 309—318.

Литература[править | править вики-текст]

  • Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических последовательностей.. — М.-Ижевск.: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований, 2006. — 480 с. — ISBN 5-93972-559-7.