Предсказание вторичной структуры РНК: различия между версиями

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Версия от 19:59, 8 мая 2016

Предсказа́ние втори́чной структу́ры РНК — метод определения вторичной структуры нуклеиновой кислоты по последовательности её нуклеотидов. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное выравнивание семейства родственных РНК.

Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стэкинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность^[1]. Многие способы предсказания вторичной структуры основаны на методе динамического программирования и не в состоянии эффективно выявлять псевдоузлы.

Несмотря на схожесть, существуют некоторые различия в методах предсказания структур ДНК и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у тРНК, рибосомальных РНК или сплайсосом. Происходит это отчасти потому, что дополнительный атом кислорода в составе рибозы увеличивает склонность к образованию водородной связи основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.

Предсказание структуры единичной молекулы РНК

Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг-взаимодействия пар оснований. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа (англ. nearest-neighbor model). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований^[2]. Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин-урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004 году^[3], хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году^[4].

Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) ^N, где N — число нуклеотидов)^[5]. Так для РНК длиной всего в 200 пар нуклеотидов существует более 10⁵⁰ возможных структур со спаренными основаниями^[1].

Алгоритмы на основе динамического программирования

Одним из подходов к предсказанию вторичной структуры РНК является алгоритм Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований^[6]. Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стэкинг-взаимодействий между соседними парами оснований в шпильках РНК^[1]. Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей^[7].

Сворачивание РНК обусловлено физическими причинами, а не подсчётом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей свободной энергией (ΔG)^[8]. ΔG вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии шпилек энергия стэкинга соответствует взаимодействию соседних пар оснований, а не самим парам^[1].

Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает рекурсивно. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности^[2].

Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» паттерны пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и Хугстиновские пары. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учета эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы^[9].

Субоптимальные структуры

Точность предсказания вторичной структуры единичной молекулы РНК путём минимизации свободной энергии ограничивается несколькими факторами:

В модели ближайшего соседа величина свободной энергии не может принимать некоторые допустимые значения.
Не все известные РНК укладки соответствуют термодинамическому минимуму.
Некоторые последовательности РНК имеют более одной биологически активной конформации (так называемые, рибопереключатели)

По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры^[10].

Предсказание псевдоузлов

Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы^[4]. Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов^[9]. Однако этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N³) (N — число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N⁶) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N⁴) операций^[11].

Другие подходы к предсказанию вторичной структуры РНК

Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью ансамбля Больцмана^[12]^[13], например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с распределением Больцмана. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке^[13].

Предсказание вторичной структуры семейств родственных РНК

Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют ковариацию отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга нуклеотидов указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является NP-полной задачей^[14]

Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур^[15]:

Укладка выравнивания;
Одновременное выравнивание последовательностей и укладка;
Выравнивание предсказанных структур.

Выравнивание с последующей укладкой

Данный подход заключается в построении множественного выравнивания последовательностей РНК, нахождении консенсусной последовательности^?!, а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold^[16]. Различные подходы используют программы Pfold и ILM. Программа Pfold реализует стохастические контекстно-свободные грамматики (СКСГ)^[17]. ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания^[18].

Синхронное выравнивание и укладка

Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность^[16]. Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но гомологичных последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %^[19].

Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff^[20]. В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov^[6], который ищет максимальный участок спаривания с помощью динамического программирования^[21]. Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O^(n3m) и O^(n2m) памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign^[22]^[23], Dynalign^[24]^[25], PMmulti/PMcomp^[21], Stemloc^[26] и Murlet^[27]. В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.

Укладка с последующим выравниванием

Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев^[28]. Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.

См. также

Примечания

↑ ¹ ² ³ ⁴ Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических последовательностей.. — М.-Ижевск.: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований, 2006. — С. 347-402. — 480 с. — ISBN 5-93972-559-7.
↑ ¹ ² Mathews D. H. Revolutions in RNA secondary structure prediction. (англ.) // Journal of molecular biology. — 2006. — Vol. 359, no. 3. — P. 526—532. — doi:10.1016/j.jmb.2006.01.067. — PMID 16500677. [исправить]
↑ Mathews D. H., Disney M. D., Childs J. L., Schroeder S. J., Zuker M., Turner D. H. Incorporating chemical modification constraints into a dynamic programming algorithm for prediction of RNA secondary structure. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 2004. — Vol. 101, no. 19. — P. 7287—7292. — doi:10.1073/pnas.0401799101. — PMID 15123812. [исправить]
↑ ¹ ² Mathews D. H., Sabina J., Zuker M., Turner D. H. Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure. (англ.) // Journal of molecular biology. — 1999. — Vol. 288, no. 5. — P. 911—940. — doi:10.1006/jmbi.1999.2700. — PMID 10329189. [исправить]
↑ Zuker M., Sankoff D. (1984). "RNA secondary structures and their prediction". Bull. Math. Biol. 46: 591—621.
↑ ¹ ² Nussinov R, Piecznik G, Grigg JR and Kleitman DJ. Algorithms for loop matchings // SIAM Journal on Applied Mathematics. — 1978. — Vol. 35, № 1. — P. 68—82.
↑ Nussinov R., Jacobson A. B. Fast algorithm for predicting the secondary structure of single-stranded RNA. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 1980. — Vol. 77, no. 11. — P. 6309—6313. — PMID 6161375. [исправить]
↑ Zuker M., Stiegler P. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. (англ.) // Nucleic acids research. — 1981. — Vol. 9, no. 1. — P. 133—148. — PMID 6163133. [исправить]
↑ ¹ ² Rivas E., Eddy S. R. A dynamic programming algorithm for RNA structure prediction including pseudoknots. (англ.) // Journal of molecular biology. — 1999. — Vol. 285, no. 5. — P. 2053—2068. — doi:10.1006/jmbi.1998.2436. — PMID 9925784. [исправить]
↑ Zuker M. Mfold web server for nucleic acid folding and hybridization prediction. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 13. — P. 3406—3415. — PMID 12824337. [исправить]
↑ Reeder J., Giegerich R. Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 104. — doi:10.1186/1471-2105-5-104. — PMID 15294028. [исправить]
↑ McCaskill J. S. The equilibrium partition function and base pair binding probabilities for RNA secondary structure. (англ.) // Biopolymers. — 1990. — Vol. 29, no. 6-7. — P. 1105—1119. — doi:10.1002/bip.360290621. — PMID 1695107. [исправить]
↑ ¹ ² Ding Y., Lawrence C. E. A statistical sampling algorithm for RNA secondary structure prediction. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 24. — P. 7280—7301. — PMID 14654704. [исправить]
↑ Lyngsø R. B., Pedersen C. N. RNA pseudoknot prediction in energy-based models. (англ.) // Journal of computational biology : a journal of computational molecular cell biology. — 2000. — Vol. 7, no. 3-4. — P. 409—427. — doi:10.1089/106652700750050862. — PMID 11108471. [исправить]
↑ Gardner P. P., Giegerich R. A comprehensive comparison of comparative RNA structure prediction approaches. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 140. — doi:10.1186/1471-2105-5-140. — PMID 15458580. [исправить]
↑ ¹ ² Hofacker I. L., Fekete M., Stadler P. F. Secondary structure prediction for aligned RNA sequences. (англ.) // Journal of molecular biology. — 2002. — Vol. 319, no. 5. — P. 1059—1066. — doi:10.1016/S0022-2836(02)00308-X. — PMID 12079347. [исправить]
↑ Knudsen B., Hein J. Pfold: RNA secondary structure prediction using stochastic context-free grammars. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 13. — P. 3423—3428. — PMID 12824339. [исправить]
↑ Ruan J., Stormo G. D., Zhang W. ILM: a web server for predicting RNA secondary structures with pseudoknots. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. 146—149. — doi:10.1093/nar/gkh444. — PMID 15215368. [исправить]
↑ Bernhart S. H., Hofacker I. L. From consensus structure prediction to RNA gene finding. (англ.) // Briefings in functional genomics & proteomics. — 2009. — Vol. 8, no. 6. — P. 461—471. — doi:10.1093/bfgp/elp043. — PMID 19833701. [исправить]
↑ Sankoff D. Simultaneous solution of the RNA folding, alignment and protosequence problems // SIAM Journal on Applied Mathematics. — 1985. — Vol. 45, № 5. — P. 810—825.
↑ ¹ ² Hofacker I. L., Bernhart S. H., Stadler P. F. Alignment of RNA base pairing probability matrices. (англ.) // Bioinformatics. — 2004. — Vol. 20, no. 14. — P. 2222—2227. — doi:10.1093/bioinformatics/bth229. — PMID 15073017. [исправить]
↑ Havgaard J. H., Lyngsø R. B., Stormo G. D., Gorodkin J. Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%. (англ.) // Bioinformatics. — 2005. — Vol. 21, no. 9. — P. 1815—1824. — doi:10.1093/bioinformatics/bti279. — PMID 15657094. [исправить]
↑ Torarinsson E., Havgaard J. H., Gorodkin J. Multiple structural alignment and clustering of RNA sequences. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 8. — P. 926—932. — doi:10.1093/bioinformatics/btm049. — PMID 17324941. [исправить]
↑ Mathews D. H., Turner D. H. Dynalign: an algorithm for finding the secondary structure common to two RNA sequences. (англ.) // Journal of molecular biology. — 2002. — Vol. 317, no. 2. — P. 191—203. — doi:10.1006/jmbi.2001.5351. — PMID 11902836. [исправить]
↑ Harmanci A. O., Sharma G., Mathews D. H. Efficient pairwise RNA structure prediction using probabilistic alignment constraints in Dynalign. (англ.) // BMC bioinformatics. — 2007. — Vol. 8. — P. 130. — doi:10.1186/1471-2105-8-130. — PMID 17445273. [исправить]
↑ Holmes I. Accelerated probabilistic inference of RNA structure evolution. (англ.) // BMC bioinformatics. — 2005. — Vol. 6. — P. 73. — doi:10.1186/1471-2105-6-73. — PMID 15790387. [исправить]
↑ Kiryu H., Tabei Y., Kin T., Asai K. Murlet: a practical multiple alignment tool for structural RNA sequences. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 13. — P. 1588—1598. — doi:10.1093/bioinformatics/btm146. — PMID 17459961. [исправить]
↑ Shapiro B. A., Zhang K. Z. Comparing multiple RNA secondary structures using tree comparisons. (англ.) // Computer applications in the biosciences : CABIOS. — 1990. — Vol. 6, no. 4. — P. 309—318. — PMID 1701685. [исправить]

Литература

Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических последовательностей.. — М.-Ижевск.: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований, 2006. — 480 с. — ISBN 5-93972-559-7.

[Durbin-1] ¹ ² ³ ⁴ Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон. Анализ биологических последовательностей.. — М.-Ижевск.: НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований, 2006. — С. 347-402. — 480 с. — ISBN 5-93972-559-7.

[Mathews06-2] ¹ ² Mathews D. H. Revolutions in RNA secondary structure prediction. (англ.) // Journal of molecular biology. — 2006. — Vol. 359, no. 3. — P. 526—532. — doi:10.1016/j.jmb.2006.01.067. — PMID 16500677. [исправить]

[Mathews04-3] Mathews D. H., Disney M. D., Childs J. L., Schroeder S. J., Zuker M., Turner D. H. Incorporating chemical modification constraints into a dynamic programming algorithm for prediction of RNA secondary structure. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 2004. — Vol. 101, no. 19. — P. 7287—7292. — doi:10.1073/pnas.0401799101. — PMID 15123812. [исправить]

[Mathews99-4] ¹ ² Mathews D. H., Sabina J., Zuker M., Turner D. H. Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure. (англ.) // Journal of molecular biology. — 1999. — Vol. 288, no. 5. — P. 911—940. — doi:10.1006/jmbi.1999.2700. — PMID 10329189. [исправить]

[Zuker84-5] Zuker M., Sankoff D. (1984). "RNA secondary structures and their prediction". Bull. Math. Biol. 46: 591—621.

[Nussinov78-6] ¹ ² Nussinov R, Piecznik G, Grigg JR and Kleitman DJ. Algorithms for loop matchings // SIAM Journal on Applied Mathematics. — 1978. — Vol. 35, № 1. — P. 68—82.

[Nussinov80-7] Nussinov R., Jacobson A. B. Fast algorithm for predicting the secondary structure of single-stranded RNA. (англ.) // Proceedings of the National Academy of Sciences of the United States of America. — 1980. — Vol. 77, no. 11. — P. 6309—6313. — PMID 6161375. [исправить]

[Zuker81-8] Zuker M., Stiegler P. Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. (англ.) // Nucleic acids research. — 1981. — Vol. 9, no. 1. — P. 133—148. — PMID 6163133. [исправить]

[Rivas99-9] ¹ ² Rivas E., Eddy S. R. A dynamic programming algorithm for RNA structure prediction including pseudoknots. (англ.) // Journal of molecular biology. — 1999. — Vol. 285, no. 5. — P. 2053—2068. — doi:10.1006/jmbi.1998.2436. — PMID 9925784. [исправить]

[Zuker03-10] Zuker M. Mfold web server for nucleic acid folding and hybridization prediction. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 13. — P. 3406—3415. — PMID 12824337. [исправить]

[Reeder04-11] Reeder J., Giegerich R. Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 104. — doi:10.1186/1471-2105-5-104. — PMID 15294028. [исправить]

[McCaskill90-12] McCaskill J. S. The equilibrium partition function and base pair binding probabilities for RNA secondary structure. (англ.) // Biopolymers. — 1990. — Vol. 29, no. 6-7. — P. 1105—1119. — doi:10.1002/bip.360290621. — PMID 1695107. [исправить]

[Ding03-13] ¹ ² Ding Y., Lawrence C. E. A statistical sampling algorithm for RNA secondary structure prediction. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 24. — P. 7280—7301. — PMID 14654704. [исправить]

[Lyngso00-14] Lyngsø R. B., Pedersen C. N. RNA pseudoknot prediction in energy-based models. (англ.) // Journal of computational biology : a journal of computational molecular cell biology. — 2000. — Vol. 7, no. 3-4. — P. 409—427. — doi:10.1089/106652700750050862. — PMID 11108471. [исправить]

[Gardner04-15] Gardner P. P., Giegerich R. A comprehensive comparison of comparative RNA structure prediction approaches. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 140. — doi:10.1186/1471-2105-5-140. — PMID 15458580. [исправить]

[Hofacker02-16] ¹ ² Hofacker I. L., Fekete M., Stadler P. F. Secondary structure prediction for aligned RNA sequences. (англ.) // Journal of molecular biology. — 2002. — Vol. 319, no. 5. — P. 1059—1066. — doi:10.1016/S0022-2836(02)00308-X. — PMID 12079347. [исправить]

[Knudsen03-17] Knudsen B., Hein J. Pfold: RNA secondary structure prediction using stochastic context-free grammars. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 13. — P. 3423—3428. — PMID 12824339. [исправить]

[Ruan04-18] Ruan J., Stormo G. D., Zhang W. ILM: a web server for predicting RNA secondary structures with pseudoknots. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. 146—149. — doi:10.1093/nar/gkh444. — PMID 15215368. [исправить]

[pmid19833701-19] Bernhart S. H., Hofacker I. L. From consensus structure prediction to RNA gene finding. (англ.) // Briefings in functional genomics & proteomics. — 2009. — Vol. 8, no. 6. — P. 461—471. — doi:10.1093/bfgp/elp043. — PMID 19833701. [исправить]

[Sankoff85-20] Sankoff D. Simultaneous solution of the RNA folding, alignment and protosequence problems // SIAM Journal on Applied Mathematics. — 1985. — Vol. 45, № 5. — P. 810—825.

[Hofacker04-21] ¹ ² Hofacker I. L., Bernhart S. H., Stadler P. F. Alignment of RNA base pairing probability matrices. (англ.) // Bioinformatics. — 2004. — Vol. 20, no. 14. — P. 2222—2227. — doi:10.1093/bioinformatics/bth229. — PMID 15073017. [исправить]

[Havgaard05-22] Havgaard J. H., Lyngsø R. B., Stormo G. D., Gorodkin J. Pairwise local structural alignment of RNA sequences with sequence similarity less than 40%. (англ.) // Bioinformatics. — 2005. — Vol. 21, no. 9. — P. 1815—1824. — doi:10.1093/bioinformatics/bti279. — PMID 15657094. [исправить]

[Torarinsson07-23] Torarinsson E., Havgaard J. H., Gorodkin J. Multiple structural alignment and clustering of RNA sequences. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 8. — P. 926—932. — doi:10.1093/bioinformatics/btm049. — PMID 17324941. [исправить]

[Mathews02-24] Mathews D. H., Turner D. H. Dynalign: an algorithm for finding the secondary structure common to two RNA sequences. (англ.) // Journal of molecular biology. — 2002. — Vol. 317, no. 2. — P. 191—203. — doi:10.1006/jmbi.2001.5351. — PMID 11902836. [исправить]

[Harmanci07-25] Harmanci A. O., Sharma G., Mathews D. H. Efficient pairwise RNA structure prediction using probabilistic alignment constraints in Dynalign. (англ.) // BMC bioinformatics. — 2007. — Vol. 8. — P. 130. — doi:10.1186/1471-2105-8-130. — PMID 17445273. [исправить]

[Holmes05-26] Holmes I. Accelerated probabilistic inference of RNA structure evolution. (англ.) // BMC bioinformatics. — 2005. — Vol. 6. — P. 73. — doi:10.1186/1471-2105-6-73. — PMID 15790387. [исправить]

[Kiryu07-27] Kiryu H., Tabei Y., Kin T., Asai K. Murlet: a practical multiple alignment tool for structural RNA sequences. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 13. — P. 1588—1598. — doi:10.1093/bioinformatics/btm146. — PMID 17459961. [исправить]

[Shapiro90-28] Shapiro B. A., Zhang K. Z. Comparing multiple RNA secondary structures using tree comparisons. (англ.) // Computer applications in the biosciences : CABIOS. — 1990. — Vol. 6, no. 4. — P. 309—318. — PMID 1701685. [исправить]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

@@ Строка 1: / Строка 1: @@
-'''Предсказание вторичной структуры РНК''' — метод определения [[Вторичная структура|вторичной структуры]] [[Нуклеиновая кислота|нуклеиновой кислоты]] по [[Нуклеотидная последовательность|последовательности её нуклеотидов]]. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное [[Выравнивание последовательностей|выравнивание]] семейства родственных [[РНК]].
+'''Предсказа́ние втори́чной структу́ры РНК''' — метод определения [[Вторичная структура|вторичной структуры]] [[Нуклеиновая кислота|нуклеиновой кислоты]] по [[Нуклеотидная последовательность|последовательности её нуклеотидов]]. Вторичную структуру можно предсказывать для единичной последовательности или анализировать множественное [[Выравнивание последовательностей|выравнивание]] семейства родственных [[РНК]].
-Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и стекинг-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе эволюции в большей степени, чем её первичная последовательность.<ref name="Durbin">{{книга|автор=Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон|заглавие=Анализ биологических последовательностей.|место=М.-Ижевск.|издательство=НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований|год=2006|страницы=347-402|страниц=480|isbn=5-93972-559-7}}</ref> Многие способы предсказания вторичной структуры основаны на методе [[Динамическое программирование|динамического программирования]] и не в состоянии эффективно выявлять [[Псевдоузел|псевдоузлы]].
+Вторичная структура нуклеиновой кислоты зависит, главным образом, от спаривания оснований друг с другом и [[стэкинг]]-взаимодействий. Однако во многих случаях вторичная структура РНК сохраняется в ходе [[Эволюция (биологическая)|эволюции]] в большей степени, чем её первичная последовательность<ref name="Durbin">{{книга|автор=Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон|заглавие=Анализ биологических последовательностей.|место=М.-Ижевск.|издательство=НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований|год=2006|страницы=347-402|страниц=480|isbn=5-93972-559-7}}</ref>. Многие способы предсказания вторичной структуры основаны на методе [[Динамическое программирование|динамического программирования]] и не в состоянии эффективно выявлять [[Псевдоузел|псевдоузлы]].
-Несмотря на схожесть, существуют некоторые различия в методах предсказания структур [[ДНК]] и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и третичные структуры, как, например, у [[тРНК]], [[РРНК|рибосомальных РНК]] или [[Сплайсосома|сплайсосом]]. Происходит это отчасти потому, что дополнительный кислород в составе [[Рибоза|рибозы]] увеличивает склонность к образованию [[Водородная связь|водородной связи]] основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.
+Несмотря на схожесть, существуют некоторые различия в методах предсказания структур [[ДНК]] и РНК. В естественных условиях ДНК чаще всего представляет собой полностью комплементарный дуплекс, в то время как РНК образует сложные вторичные и [[Третичная структура|третичные структуры]], как, например, у [[тРНК]], [[РРНК|рибосомальных РНК]] или [[Сплайсосома|сплайсосом]]. Происходит это отчасти потому, что дополнительный [[атом]] [[кислород]]а в составе [[Рибоза|рибозы]] увеличивает склонность к образованию [[Водородная связь|водородной связи]] основной цепью нуклеиновой кислоты. Отличаются и энергетические параметры двух этих нуклеиновых кислот.
 == Предсказание структуры единичной молекулы РНК ==
-Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стекинг-взаимодействия пар оснований. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа (nearest-neighbor model). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований.<ref name="Mathews06">Mathews, D.H. Revolutions in RNA secondary structure prediction" ''J. Mol. Biol'' 359, 526—532(2006).</ref> Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары гуанин-урацил и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004<ref name="Mathews04">{{cite journal | doi = 10.1073/pnas.0401799101 | author = Mathews DH, Disney MD, Childs JL, Schroeder SJ, Zuker M, Turner DH | year = 2004 | title = Incorporating chemical modification constraints into a dynamic programming algorithm for prediction of RNA secondary structure | journal = Proceedings of the National Academy of Sciences USA | volume = 101 | issue = | pages = 7287–7292 | pmid=15123812 | pmc=409911 | bibcode=2004PNAS..101.7287M}}</ref>, хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году.<ref name="Mathews99">{{cite journal | doi = 10.1006/jmbi.1999.2700 | author = Mathews DH, Sabina J, Zuker M, Turner DH | year = 1999 | title = Expanded sequence dependence of thermodynamic parameters improves prediction of RNA secondary structure | url = | journal = J Mol Biol | volume = 288 | issue = 5| pages = 911–40 | pmid = 10329189 }}</ref>
+Вторичная структура небольших молекул РНК в значительной степени определяется сильными локальными взаимодействиями, такими как водородные связи и стэкинг-взаимодействия [[Спаренные основания|пар оснований]]. Сумма свободных энергий таких взаимодействий должна обеспечивать стабильность данной структуры. Для предсказания свободной энергии укладки вторичной структуры используется модель ближайшего соседа ({{lang-en|nearest-neighbor model}}). В этой модели изменение свободной энергии для каждого мотива зависит от последовательности самого мотива и ближайших к нему пар оснований<ref name="Mathews06">{{cite pmid|16500677}}</ref>. Модель и параметры минимальной энергии для классических Уотсон-Криковских пар, пары [[гуанин]]-[[урацил]] и петли были получены эмпирическими калориметрическими экспериментами, самые современные параметры были опубликованы в 2004 году<ref name="Mathews04">{{cite pmid|15123812}}</ref>, хотя большинство программных пакетов до сих пор использует предыдущий набор, собранный в 1999 году<ref name="Mathews99">{{cite pmid|10329189 }}</ref>.
-Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) <sup>N</sup>, где N- число нуклеотидов).<ref name="Zuker84">{{cite journal | author = Zuker M., Sankoff D. | year = 1984 | title = RNA secondary structures and their prediction | url = | journal = Bull. Math. Biol. | volume = 46 | issue = | pages = 591–621 }}</ref>. Так для РНК длиной всего в 200 пар нуклеотидов существует более 10<sup>50</sup> возможных структур со спаренными основаниями<ref name="Durbin"/>
+Самый простой способ найти структуру с минимальной свободной энергией — это генерировать все возможные структуры и вычислить для них свободную энергию, но число возможных структур последовательности экспоненциально возрастает с увеличением длины РНК (Количество вторичных структур = (1,8) <sup>N</sup>, где N — число [[нуклеотид]]ов)<ref name="Zuker84">{{cite journal | author = Zuker M., Sankoff D. | year = 1984 | title = RNA secondary structures and their prediction | url = | journal = Bull. Math. Biol. | volume = 46 | issue = | pages = 591–621 }}</ref>. Так для РНК длиной всего в 200 пар нуклеотидов существует более 10<sup>50</sup> возможных структур со спаренными основаниями<ref name="Durbin"/>.
 === Алгоритмы на основе динамического программирования ===
-Одним из подходов к предсказанию вторичной структуры РНК является [[алгоритм]] Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований.<ref name="Nussinov78">Nussinov R, Piecznik G, Grigg JR and Kleitman DJ (1978) ''Algorithms for loop matchings''. SIAM Journal on Applied Mathematics.</ref> Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стекинг-взаимодействий между соседними парами оснований в стеблях РНК.<ref name="Durbin"/> Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей.<ref name="Nussinov80">{{cite journal | doi = 10.1073/pnas.77.11.6309 | author = Nussinov R, Jacobson AB | year = 1980 | title = Fast algorithm for predicting the secondary structure of single-stranded RNA | journal = Proc Natl Acad Sci U S A | volume = 77 | issue = 11| pages = 6309–13 | pmid = 6161375 | pmc = 350273 |bibcode = 1980PNAS...77.6309N }}</ref>
+Одним из подходов к предсказанию вторичной структуры РНК является [[алгоритм]] Нуссинов, основанный на динамическом программировании и заключающийся в нахождении структуры с наибольшим количеством пар оснований<ref name="Nussinov78">{{статья |автор=Nussinov R, Piecznik G, Grigg JR and Kleitman DJ |год=1978 |заглавие=Algorithms for loop matchings |издание=SIAM Journal on Applied Mathematics |volume=35 |номер=1|pages=68—82|ссылка=http://epubs.siam.org/doi/abs/10.1137/0135006}}</ref>. Однако этот алгоритм слишком прост и не учитывает важные структурные свойства, такие как предпочтения определенных длин петель или предпочтения определенных ближайших соседей по структуре, возникающие вследствие стэкинг-взаимодействий между соседними парами оснований в [[Шпилька (биология)|шпильках]] РНК<ref name="Durbin"/>. Кроме того, решение часто бывает не единственное. В 1980 году Нуссинов с коллегами опубликовали адаптацию их подхода, используя простую энергетическую модель ближайших соседей<ref name="Nussinov80">{{cite pmid|6161375}}</ref>.
-Сворачивание РНК обусловлено физическими причинами, а не подсчетом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей [[Свободная энергия Гиббса|свободной энергией]] (''ΔG'').<ref name="Zuker81">Zuker M, Stiegler P. (1981) Optimal computer folding of large RNA sequences using thermodynamics and auxiliary information. Nucleic Acids Res. Jan 10;9(1) 133-48.</ref> ''ΔG'' вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии стеблей энергия стекинга соответствует взаимодействию соседних пар оснований, а не самим парам.<ref name="Durbin"/>
+Сворачивание РНК обусловлено физическими причинами, а не подсчётом и максимизацией числа спаренных оснований. Метод, предложенный в 1981 году Майклом Цукером и Патриком Стейглером, предполагает, что правильная структура в равновесии обладает наименьшей [[Свободная энергия Гиббса|свободной энергией]] (''ΔG'')<ref name="Zuker81">{{cite pmid|6163133}}</ref>. ''ΔG'' вторичной структуры РНК оценивается как сумма свободных энергий петель, пар оснований и других элементов вторичной структуры. Важное отличие от более простого алгоритма Нуссинов заключается в том, что при вычислении энергии шпилек энергия стэкинга соответствует взаимодействию соседних пар оснований, а не самим парам<ref name="Durbin"/>.
-Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает [[Рекурсия|рекурсивно]]. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности.<ref name="Mathews06" />
+Динамическое программирование позволяет проверить все возможные варианты вторичных структур РНК без непосредственного их создания. Алгоритм работает [[Рекурсия|рекурсивно]]. Наилучшая структура с минимальной возможной энергией рассчитывается сперва для всевозможных маленьких подпоследовательностей, а затем — для всё больших и больших подпоследовательностей. Точное строение молекулы РНК определяется вычислением минимальной свободной энергии полной последовательности<ref name="Mathews06" />.
-Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» [[паттерн]]ы пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и [[Хугстиновские пары]]. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учета эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы.<ref name="Rivas99">{{cite journal | doi = 10.1006/jmbi.1998.2436 | author = Rivas E, Eddy SR | year = 1999 | title = A dynamic programming algorithm for RNA structure prediction including pseudoknots | url = | journal = J Mol Biol | volume = 285 | issue = 5| pages = 2053–68 | pmid = 9925784 }}</ref>
+Алгоритмы динамического программирования обычно используются, чтобы обнаружить «хорошо вложенные» [[паттерн]]ы пар оснований, то есть те, которые образуют водородные связи, не перекрывающиеся с другими участками последовательности. К таким структурам относятся двойные спирали, стеблевые петли и варианты «клеверного листа», встречающиеся, например, в транспортной РНК. Эти методы основаны на заданных расчетных параметрах, оценивающих свободную энергию спаривания определенных типов пар оснований, включая Уотсона-Криковские и [[Хугстиновские пары]]. В зависимости от сложности метода, одиночные пары оснований могут рассматриваться так же, как и короткие сегменты из двух-трех пар оснований для учета эффекта стекинг-взаимодействий. Без существенных алгоритмических модификаций, требующих чрезвычайно больших вычислительных затрат, эти методы не могут определить псевдоузлы<ref name="Rivas99">{{cite pmid|9925784}}</ref>.
 === Субоптимальные структуры ===
@@ Строка 24: / Строка 24: @@
 # Не все известные РНК укладки соответствуют термодинамическому минимуму.
 # Некоторые последовательности РНК имеют более одной биологически активной конформации (так называемые, рибопереключатели)
-По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры.<ref name="Zuker03">{{cite journal | doi = 10.1093/nar/gkg595 | author = Zuker M | year = 2003 | title = Mfold web server for nucleic acid folding and hybridization prediction | url = | journal = Nucleic Acids Research | volume = 31 | issue = 13| pages = 3406–3415 | pmid = 12824337 | pmc = 169194 }}</ref>
+По этой причине способ предсказания вторичных структур с похожим низким значением свободной энергии может дать существенную информацию. Такие структуры называются субоптимальными. MFOLD — одна из программ, генерирующих субоптимальные структуры<ref name="Zuker03">{{cite pmid|12824337}}</ref>.
 === Предсказание псевдоузлов ===
-Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы.<ref name="Mathews99"/> Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов.<ref name="Rivas99"/> Однако, этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N<sup>3</sup>) (N -число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N<sup>6</sup>) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N<sup>4</sup>) операций.<ref name="Reeder04">{{cite journal | author = Reeder J., Giegerich R. | year = 2004 | title = Design, implementation and evaluation of a practical pseudoknot folding algorithm based on thermodynamics | url = | journal = BMC Bioinformatics | volume = 5 | issue = | page = 104 }}</ref>
+Одной из проблем предсказания вторичной структуры РНК является то, что стандартные методы минимизации свободной энергии и статистические методы не могут выявить псевдоузлы<ref name="Mathews99"/>. Этот недостаток объясняется тем, что обычные алгоритмы динамического программирования рассматривают только взаимодействия между ближайшими нуклеотидами, в то время как псевдоузлы образуются в результате взаимодействия между удаленными нуклеотидами. Ривас и Эдди опубликовали алгоритм динамического программирования для прогнозирования псевдоузлов<ref name="Rivas99"/>. Однако этот алгоритм динамического программирования осуществляется очень медленно. Время работы стандартного алгоритма динамического программирования для минимизации свободной энергии составляет O (N<sup>3</sup>) (N — число нуклеотидов в последовательности), а алгоритм Риваса и Эдди требует O (N<sup>6</sup>) по времени. Это побудило исследователей к реализации версии алгоритма, которая ограничивает классы псевдоузлов, позволяя сэкономить время. Например, pknotsRG, включающий в себя только класс простых рекурсивных псевдоузлов, требует O (N<sup>4</sup>) операций<ref name="Reeder04">{{cite pmid|15294028}}</ref>.
 === Другие подходы к предсказанию вторичной структуры РНК ===
-Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью [[Статистический ансамбль|ансамбля]] [[Больцман, Людвиг|Больцмана]],<ref name="McCaskill90">{{cite journal | doi = 10.1002/bip.360290621 | author = McCaskill JS | year = 1990 | title = The equilibrium partition function and base pair binding probabilities for RNA secondary structure | url = | journal = Biopolymers | volume = 29 | issue = 6-7| pages = 1105–19 | pmid = 1695107 }}</ref><ref name="Ding03">{{cite journal | doi = 10.1093/nar/gkg938 | author = Ding Y, Lawrence CE | year = 2003 | title = A statistical sampling algorithm for RNA secondary structure prediction | url = | journal = Nucleic Acids Res. | volume = 31 | issue = 24| pages = 7280–301 | pmid = 14654704 | pmc = 297010 }}</ref> например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с [[Больцмана распределение|распределением Больцмана]]. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке.<ref name="Ding03"/>
+Другим подходом для предсказания вторичной структуры РНК является определение укладки с помощью [[Статистический ансамбль|ансамбля]] [[Больцман, Людвиг|Больцмана]]<ref name="McCaskill90">{{cite pmid|1695107}}</ref><ref name="Ding03">{{cite pmid|14654704}}</ref>, например, в программе SFOLD. Данная программа генерирует статистическую выборку всех возможных вторичных структур РНК. Алгоритм отбирает вторичные структуры в соответствии с [[Больцмана распределение|распределением Больцмана]]. Подобный метод отбора предлагает хорошее решение проблемы неопределенности в укладке<ref name="Ding03"/>.
 == Предсказание вторичной структуры семейств родственных РНК ==
-Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют [[Ковариация|ковариацию]] отдельных сайтов оснований в ходе [[Эволюция|эволюции]]; сохранение двух довольно удаленных друг от друга [[Нуклеотиды|нуклеотидов]] указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является [[NP-полная задача|NP-полной задачей]].<ref name="Lyngso00">Lyngsø RB, Pedersen CN. (2000). RNA pseudoknot prediction in energy-based models. J Comput Biol 7(3-4) 409—427.</ref>
+Ковариантные модели основаны на существовании семейств родственных РНК, имеющих не только общую вторичную структуру, но и некоторые общие мотивы в последовательностях. Эти методы анализируют [[Ковариация|ковариацию]] отдельных сайтов оснований в ходе эволюции; сохранение двух довольно удаленных друг от друга [[Нуклеотиды|нуклеотидов]] указывает на наличие структурно необходимой водородной связи между ними. Было показано, что проблема предсказания псевдоузлов является [[NP-полная задача|NP-полной задачей]]<ref name="Lyngso00">{{cite pmid|11108471}}</ref>
-Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур:<ref name="Gardner04">{{cite journal | doi = 10.1186/1471-2105-5-140 | author = Gardner P.P., Giegerich  | year = 2004 | last2 = Giegerich | first2 = Robert | title = A comprehensive comparison of comparative RNA structure prediction approaches | url = http://www.biomedcentral.com/1471-2105/5/140 | journal = BMC Bioinformatics | volume = 5 | issue = | page = 140 | pmid=15458580 | pmc=526219}}</ref>
+Проблема выравнивания и предсказания консенсусной структуры тесно связаны. Можно выделить три различных подхода к предсказанию консенсусных структур<ref name="Gardner04">{{cite pmid|15458580}}</ref>:
-# Укладка выравнивания
+# Укладка выравнивания;
-# Одновременное выравнивание последовательностей и укладка
+# Одновременное выравнивание последовательностей и укладка;
-# Выравнивание предсказанных структур
+# Выравнивание предсказанных структур.
 === Выравнивание с последующей укладкой ===
-Данный подход заключается в построении [[Множественное выравнивание последовательностей|множественного выравнивания последовательностей]] РНК, нахождении консенсусной последовательности, а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold.<ref name="Hofacker02">{{cite journal | doi = 10.1016/S0022-2836(02)00308-X | author = Hofacker IL, Fekete M, Stadler PF | year = 2002 | title = Secondary structure prediction for aligned RNA sequences | url = | journal = J Mol Biol | volume = 319 | issue = 5| pages = 1059–66 | pmid = 12079347 }}</ref> Различные подходы используют программы Pfold и ILM. Программа Pfold реализует [[Стохастическая контекстно-свободная грамматика|стохастические контекстно-свободные грамматики]] (СКСГ).<ref name="Knudsen03">{{cite journal | doi = 10.1093/nar/gkg614 | author = Knudsen B, Hein J | year = 2003 | title = Pfold: RNA secondary structure prediction using stochastic context-free grammars | url = http://nar.oxfordjournals.org/cgi/content/abstract/31/13/3423 | journal = Nucleic Acids Res. | volume = 31 | issue = 13| pages = 3423–8 | pmid = 12824339 | pmc = 169020 }}</ref> ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания.<ref name="Ruan04">Ruan, J., Stormo, G.D. & Zhang, W. (2004) ILM: a web server for predicting RNA secondary structures with pseudoknots. Nucleic Acids Research, 32(Web Server issue), W146-149.</ref>
+Данный подход заключается в построении [[Множественное выравнивание последовательностей|множественного выравнивания последовательностей]] РНК, нахождении {{нп5|Консенсусная последовательность|консенсусной последовательности|en|Consensus sequence}}, а затем её укладке. Качество выравнивания определяет точность консенсусной структурной модели. Консенсусная последовательность укладывается с использованием различных подходов, таких же, как и для предсказания вторичной структуры единичных молекул РНК. Подход, использующий термодинамическую укладку использует, например, программа RNAalifold<ref name="Hofacker02">{{cite pmid|12079347}}</ref>. Различные подходы используют программы Pfold и ILM. Программа Pfold реализует [[Стохастическая контекстно-свободная грамматика|стохастические контекстно-свободные грамматики]] (СКСГ)<ref name="Knudsen03">{{cite pmid|12824339}}</ref>. ILM (iterated loop matching), в отличие от других алгоритмов укладки выравнивания, может восстанавливать псевдоузлы. Он использует сочетание термодинамики и оценки соответствующего информационного содержания<ref name="Ruan04">{{cite pmid|15215368}}</ref>.
 === Синхронное выравнивание и укладка ===
-Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность.<ref name="Hofacker02"/> Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но [[Гомология (биология)|гомологичных]] последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %.<ref name="pmid19833701">{{cite journal |doi=10.1093/bfgp/elp043 |author=Bernhart SH, Hofacker IL |title=From consensus structure prediction to RNA gene finding. |journal=Brief Funct Genomic Proteomic |volume=8 |issue=6 |pages=461–71 |year=2009 |pmid=19833701}}</ref>
+Эволюция часто сохраняет функциональную структуру РНК лучше, чем её последовательность<ref name="Hofacker02"/>. Таким образом, задача заключается в создании общей структуры для двух или более высоко дивергентных, но [[Гомология (биология)|гомологичных]] последовательностей РНК. На практике выравнивания последовательностей становятся непригодными и не помогают повысить точность предсказания структуры, когда сходство двух последовательностей составляет менее 50 %<ref name="pmid19833701">{{cite pmid|19833701}}</ref>.
-Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff.<ref name="Sankoff85">Sankoff D (1985) Simultaneous solution of the RNA folding, alignment and protosequence problems. SIAM Journal on Applied Mathematics. 45:810-825.</ref> В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov,<ref name="Nussinov78"/> который ищет максимальный участок спаривания с помощью динамического программирования.<ref name="Hofacker04">{{cite journal | doi = 10.1093/bioinformatics/bth229 | author = Hofacker IL, Bernhart SH, Stadler PF | year = 2004 | title = Alignment of RNA base pairing probability matrices | url = http://bioinformatics.oxfordjournals.org/cgi/content/abstract/20/14/2222 | journal = Bioinformatics | volume = 20 | issue = 14| pages = 2222–7 | pmid = 15073017 }}</ref> Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O<sup>(n3m)</sup> и O<sup>(n2m)</sup> памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign,<ref name="Havgaard05">{{cite journal | doi = 10.1093/bioinformatics/bti279 | author = Havgaard JH, Lyngso RB, Stormo GD, Gorodkin J | year = 2005 | title = Pairwise local structural alignment of RNA sequences with sequence similarity less than 40% | url = http://bioinformatics.oxfordjournals.org/cgi/content/full/21/9/1815 | journal = Bioinformatics | volume = 21 | issue = 9| pages = 1815–24 | pmid = 15657094 }}</ref><ref name="Torarinsson07">Torarinsson E, Havgaard JH, Gorodkin J. (2007) Multiple structural alignment and clustering of RNA sequences. Bioinformatics.</ref> Dynalign,<ref name="Mathews02">{{cite journal | doi = 10.1006/jmbi.2001.5351 | author = Mathews DH, Turner DH | year = 2002 | title = Dynalign: an algorithm for finding the secondary structure common to two RNA sequences | url = | journal = J Mol Biol | volume = 317 | issue = 2| pages = 191–203 | pmid = 11902836 }}</ref><ref name="Harmanci07">Harmanci AO, Sharma G, Mathews DH, (2007), [http://www.biomedcentral.com/1471-2105/8/130 Efficient Pairwise RNA Structure Prediction Using Probabilistic Alignment Constraints in Dynalign], BMC Bioinformatics, 8(130).</ref> PMmulti/PMcomp,<ref name="Hofacker04"/> Stemloc,<ref name="Holmes05">Holmes I. (2005) [http://www.biomedcentral.com/1471-2105/6/73 Accelerated probabilistic inference of RNA structure evolution]. BMC Bioinformatics. 2005 Mar 24;6:73.</ref> и Murlet.<ref name="Kiryu07">{{cite journal | doi = 10.1093/bioinformatics/btm146 | author = Kiryu H, Tabei Y, Kin T, Asai K | year = 2007 | title = Murlet: A practical multiple alignment tool for structural RNA sequences | url = http://bioinformatics.oxfordjournals.org/cgi/content/abstract/23/13/1588 | journal = Bioinformatics | volume = 23 | issue = 13| pages = 1588–1598 | pmid = 17459961 }}</ref> В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.
+Программы на основе структурных выравниваний повышают производительность этих методов, большинство из которых являются вариантами алгоритма Sankoff<ref name="Sankoff85">{{статья |автор=Sankoff D |год=1985 |заглавие=Simultaneous solution of the RNA folding, alignment and protosequence problems |издание=SIAM Journal on Applied Mathematics |volume=45 |pages=810—825 |ссылка=https://www.techfak.uni-bielefeld.de/~jreeder/lehre/RNomics/papers/Sankoff85.pdf |номер=5}}</ref>. В принципе, алгоритм Sankoff представляет собой объединение алгоритмов выравнивания последовательностей и Nussinov<ref name="Nussinov78"/>, который ищет максимальный участок спаривания с помощью динамического программирования<ref name="Hofacker04">{{cite pmid|15073017 }}</ref>. Алгоритм Sankoff сам по себе является теоретическим, поскольку требует очень больших вычислительных ресурсов (время работы O<sup>(n3m)</sup> и O<sup>(n2m)</sup> памяти, где N — длина последовательности, m — число последовательностей). Однако существуют некоторые попытки реализации ограниченных версий алгоритма Sankoff. К ним относятся, например, Foldalign<ref name="Havgaard05">{{cite pmid|15657094 }}</ref><ref name="Torarinsson07">{{cite pmid|17324941}}</ref>, Dynalign<ref name="Mathews02">{{cite pmid|11902836}}</ref><ref name="Harmanci07">{{cite pmid|17445273}}</ref>, PMmulti/PMcomp<ref name="Hofacker04"/>, Stemloc<ref name="Holmes05">{{cite pmid|15790387}}</ref> и Murlet<ref name="Kiryu07">{{cite pmid|17459961}}</ref>. В этих реализациях ограничены максимальная длина выравнивания или количество возможных вариантов консенсусной структуры. Так, Foldalign строит локальные выравнивания и ограничивает возможную длину выравнивания последовательностей.
 === Укладка с последующим выравниванием ===
-Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием деревьев.<ref name="Shapiro90">Shapiro BA and Zhang K (1990) Comparing Multiple RNA Secondary Structures Using Tree Comparisons Computer Applications in the Biosciences, vol. 6, no. 4, pp. 309—318.</ref> Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.
+Выравнивание предсказанных структур применяется менее широко. Данный подход использует структуры, предсказанные для одиночных молекул РНК. Он выравнивает их с использованием [[Филогенетическое дерево|деревьев]]<ref name="Shapiro90">{{cite pmid|1701685}}</ref>. Основная слабость такого подхода заключается в том, что предсказания одной последовательности часто неточны, таким образом, нарушается точность всего дальнейшего анализа.
 == См. также ==
@@ Строка 56: / Строка 56: @@
 == Примечания ==
-{{примечания}}
+{{примечания|2}}
-{{Нуклеиновые кислоты}}
 == Литература ==
 * {{книга|автор=Р. Дурбин, Ш. Эдди, А. Крог, Г. Митчисон|заглавие=Анализ биологических последовательностей.|место=М.-Ижевск.|издательство=НИЦ "Регулярная и хаотическая динамика", Институт компьютерных исследований|год=2006|страниц=480|isbn=5-93972-559-7}}
+{{Нуклеиновые кислоты}}
 [[Категория:РНК]]

Предсказание вторичной структуры РНК: различия между версиями

Версия от 19:59, 8 мая 2016

Содержание

Предсказание структуры единичной молекулы РНК

Алгоритмы на основе динамического программирования

Субоптимальные структуры

Предсказание псевдоузлов

Другие подходы к предсказанию вторичной структуры РНК

Предсказание вторичной структуры семейств родственных РНК

Выравнивание с последующей укладкой

Синхронное выравнивание и укладка

Укладка с последующим выравниванием

См. также

Примечания

Литература

Навигация

Предсказание вторичной структуры РНК: различия между версиями

Версия от 19:59, 8 мая 2016

Предсказание структуры единичной молекулы РНК

Алгоритмы на основе динамического программирования

Субоптимальные структуры

Предсказание псевдоузлов

Другие подходы к предсказанию вторичной структуры РНК

Предсказание вторичной структуры семейств родственных РНК

Выравнивание с последующей укладкой

Синхронное выравнивание и укладка

Укладка с последующим выравниванием

См. также

Примечания

Литература

Навигация

Поиск