Предсказание генов

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Предсказание генов — это определение кодирующих и регулирующих последовательностей ДНК в геноме: белковых генов и генов функциональной РНК, промоторов, энхансеров и прочее.

Ранние методы поиска генов основывались на кропотливых экспериментах с живыми организмами и клетками, отнимал много сил и давали только грубый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования, предсказание генов стало рутинной задачей в биоинформатике.

Тем не менее стоит различать предсказание функциональных участков от предсказания функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе[1], хотя современной биоинформатике уже удаётся с высокой точностью угадывать функцию гена только по его последовательности.

Предсказание генов — один из ключевых этапов в аннотации генома вида, следующий за маскированием повторов и оценкой качества его сборки[2].

Эмпирический метод[править | править код]

При эмпирическом подходе гены ищутся на основании экспериментальных данных, таких как последовательности мРНК, белков, гомологичных последовательностей из других геномов. Имея на руках последовательность мРНК, легко можно восстановить кДНК, с которой она транскрибируется. Имея аминокислотную последовательность белка, можно создать набор потенциальных генов, поскольку каждая аминокислота кодируется ограниченным набором триплетов ДНК. Далее с помощью сравнительно простых алгоритмов можно найти полные или частичные совпадения между полученными последовательностями и анализируемым геномом. Если же однозначно известна последовательность гена, то для поиска таких совпадений применяются алгоритмы локального выравнивания (BLAST, FASTA, Смита-Ватермана).

Высокой степени соответствия между участком генома и последовательностью белка (или мРНК) достаточно, чтобы доказать существование гена. Но для такого доказательства необходимо проводить дорогие секвенирования мРНК и белков. В сложных организмах много ткане- и стадие-специфичных генов, что не позволяет из одной клеточной культуры извлечь данные о всех генах организма. Таким образом, для составления списка всех генов организма необходимо работать с сотнями типов клеток. Исследования некоторых клеток могут быть особенно затруднительны, как например в случае с клетками человеческого эмбриона или малочисленными, некультивируемыми или неразличимыми клетками.

Несмотря на эти трудности, существуют масштабные базы данных РНК и белков. Например, база данных RefSeq[en] содержит последовательности транскриптов и белков, полученные из человека и прочих модельных организмов, таких как мышь, дрозофила, дрожжи, а браузер Ensembl позволяет картировать их на полных геномах. Однако такие базы данных далеко не полные и содержат небольшие, но значительные количества ошибочных данных.

Новые высокопроизводительные методы секвенирования, как например RNA-Seq и ChIP-seq, дают дополнительную информацию для предсказания генов и выявления паттернов их экспреcсии, а также являются более точной и в целом превосходной альтернативой методам ДНК-микрочипов и EST[en].

Основные проблемы предсказания генов связаны с ошибками секвенирования в исходных данных, качеством сборки референсного генома, короткой длиной чтений, сдвигами рамок считывания, пересекающимися и неполными генами.

В прокариотах необходимо учитывать горизонтальный перенос генов при поиске участков гомологии в геноме. Также в современных инструментах поиска генов почти не используется свойство некоторых из них образовывать кластеры или опероны как в про-, так и в эукариотах. Большинство определителей генов рассматривают каждый ген отдельно и независимо от других, что не вполне точно.

Неэмпирические (Ab initio) методы[править | править код]

При неэмпирическом поиске генов используются не внешние доказательства существования гена, а некоторые внутренние свойства подпоследовательностей генома. Ab initio предсказание генов гораздо дешевле и проще эмпирического метода и основывается на поиске участков ДНК с характерными признаками кодирующих последовательностей. Эти признаки делятся на сигналы — особые сочетания нуклеотидов, свидетельствующие о наличии гена, и особые статистические параметры. Именно аb initio поиск стоит называть предсказанием генов, поскольку эмпирические методы обычно привлекаются только на стадии подтверждения функциональности потенциального гена.

У прокариот гены содержат характерные и хорошо изученные промоторные последовательности (сигналы), как например Прибнов-бокс и сайты связывания факторов транскрипции, которые легко обнаружить. К тому же белок-кодирующие гены состоит из одной непрерывной рамки считывания длиной от сотен до нескольких тысяч пар нуклеотидов, заканчивающихся стоп-кодоном[3]. В случайных последовательностях стоп-кодоны встречаются гораздо чаще (3 из 64 кодонов — стоп кодоны, то есть в среднем 1 стоп-кодон на 20-25 кодонов, или 60-75 нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие, системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью.

В эукариотах, в особенности в таких сложных организмах как человек, задача предсказания генов значительно трудней сразу по нескольким причинам. Во-первых, промоторы и прочие регуляторные сигналы эукариот гораздо сложней и хуже изучены, чем в прокариотах, и поэтому они хуже распознаются. Классические сигналы в эукариотических генах — CpG-островки[en] и сайты связывания polyA.

Во-вторых, из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга, кстати — ещё один сигнал для распознавания генов. Типичный белковый ген человека может быть разделён на десяток экзонов, длина каждого из которых обычно 100—200 нуклеотидов[4]. На таких коротких участках гораздо сложнее заметить отличия белок-кодирующей ДНК от случайной.

Программы для поиска генов как в про-, так и в эукариотах обычно используют скрытые марковские модели (НММ) и машинное обучение, чтобы объединить информацию от различных сигналов и выявленных закономерностей. GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнении с прокариотическими, неэмперический поиск генов эукариот достиг более скромных результатов. Выдающиеся программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основана на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка[5]. В других программах, как например mSplicer[6], CONTRAST[7], или mGene[8] применяется машинное обучение и метод опорных векторов. Они строят различающую модель[en] с применением методов НММ, SVM или CRF[en] для составления функции вероятности наличия гена.

Методы ab initio порой достигают 100 % чувствительности[2], но из-за высокой доли ложно-положительных предсказаний при этом страдает специфичность.

Иные сигналы[править | править код]

Для предсказания генов используются статистики k-меров[en], GC-состав/равномерность/энтропия участков ДНК, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование циферно закодированной ДНК и параметры Z-кривой[en][9].

Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов[10][11][12][13][14].

Нейронные сети[править | править код]

Нейронные сети — математические модели, используемые для машинного обучения и задач распознавания. Их необходимо настроить на обучающей выборке и проверить на контрольной выборке перед применением на экспериментальных данных. Нейронные сети при наличии достаточного объёме обучающей выборки позволяют получить приблизительные решения задач, для которых сложно составить точный алгоритм решения. Нейронные сети используются вместе с другими ab initio методами для предсказания биологических последовательностей[15].

Пример такой сети — нейронная сеть, определяющая положения сайтов сплайсинга в заданной последовательности ДНК. В этой сети применяется метод скользящего окна, при котором из общей последовательности извлекаются пересекающиеся подпоследовательности (окна) с некоторым шагом. Полученный от каждого окна сигнал сглаживается и фильтруется, после чего для каждого нуклеотида определяется вероятность того, что он входит в сайт сплайсинга. Больший размер окна позволяет повысить точность предсказания, но увеличивает время вычислений. В сеть не было заложено никаких априорных знаний, но в результате обучения на сайтах 16 965 генов специфичность и чувствительность распознавания превысили 80 %[16].

Совмещённый подход[править | править код]

Такие программы, как Maker, совмещают эмпирический и ab initio методы, картируя данные по белкам и EST на геном, чтобы подтвердить неэмпирические предсказания. Augustus может применяться совместно с Maker и также встраивает выравнивания EST и белков для повышения точности предсказаний.

Сравнительная геномика[править | править код]

Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики.

Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. Это позволяет детектировать гены как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST[7].

Множественные информанты[править | править код]

TWINSCAN для поиска ортологичных генов рассматривал только синтению человеческого и мышиного геномов. Такие программы, как N-SCAN и CONTRAST, позволяют совмещать данные из множества организмов. Использование множества информантов приводит к значительному улучшению точности.

CONTRAST состоит из двух частей. Первая — классификатор, опознающий сайты сплайсинга, старт- и стоп-кодоны. Вторая часть строит окончательную модель при помощи машинного обучения, принимая на вход данные от первого классификатора и множественных выравниваний с другими геномами. Разделение задачи надвое позволяет снизить объём обучающей выборки и размер окна. Использование уже готового классификатора значительно сокращает время работы программы. Создатели CONTRAST считают, что их метод (равно как и TWINSCAN) стоит называть de novo предсказанием генов с применением дополнительных геномов, подчёркивая, что он отличается от ab initio методов, где информация извлекается только из одного информанта. В то же время CONTRAST может интегрировать данные из EST-выравниваний для повышения точности результата.

Метод множественных информантов также применим для переноса высококачественных аннотаций с одного генома на другой. Примечательны примеры Projector, GeneWise и GeneMapper.

Предсказание псевдогенов[править | править код]

Псевдогены — близкие гомологи генов, утратившие способность к экспрессии белка. В геноме млекопитающих содержится 400020 000 псевдогенов, что сопоставимо с числом функциональных генов (~35 000)[17]. Число псевдогенов сильно зависит от выбранных критериев. Обычно псевдогенами называют последовательности ДНК, сохранившие >70 %-90 % кодирующей последовательности функциональных генов.

Сначала их считали побочными продуктами геномного секвенирования, но с пониманием их регуляторной роли псевдогены стали самостоятельными целями для предсказания[18]. Поиск псевдогенов основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров.

Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК[18][19].

Также применяется фильтрация ДНК по разнице в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков в псевдогенах. Некоторые искатели генов детектируют такие сигналы, как остутствие интронов и полиадениновых хвостов[17].

Для поиска псевдогенов в прокариотах применяется программа Psi-Fi (Ψ-Φ)[20].

Метагеномное предсказание генов[править | править код]

Метагеномика — изучение генетического материала разных видов, взятых из одной среды обитания.

Метагеномные программы также делятся на те, что используют принципы ab initio (GLIMMER-MG) или сравнительную геномику (MEGAN5).

GLIMMER-MG[21] — расширение GLIMMER, полагающееся в основном на ab initio подход и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед предсказанием. Кластеризация основана на техниках метагеномной филогенетической классификации. Примеры программ для кластеризации — Phym с интерполированными марковскими моделями и PhymmBL, пользующийся BLAST.

В основе MEGAN5[22] — методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функции генов.

FragGeneScan и MetaGeneAnnotator — широко распространённые программы для предсказания генов, основанные на НММ. Они учитывают ошибки секвенирования и работают при низкой длине ридов.

Ссылки[править | править код]

Примечания[править | править код]

  1. Sleator R. D. An overview of the current status of eukaryote gene prediction strategies. (англ.) // Gene. — 2010. — Vol. 461, no. 1-2. — P. 1—4. — DOI:10.1016/j.gene.2010.04.008. — PMID 20430068. [исправить]
  2. 1 2 Yandell M., Ence D. A beginner's guide to eukaryotic genome annotation. (англ.) // Nature reviews. Genetics. — 2012. — Vol. 13, no. 5. — P. 329—342. — DOI:10.1038/nrg3174. — PMID 22510764. [исправить]
  3. Rogozin I. B., Makarova K. S., Natale D. A., Spiridonov A. N., Tatusov R. L., Wolf Y. I., Yin J., Koonin E. V. Congruent evolution of different classes of non-coding DNA in prokaryotic genomes. (англ.) // Nucleic acids research. — 2002. — Vol. 30, no. 19. — P. 4264—4271. — PMID 12364605. [исправить]
  4. Stewart Scherer. A Short Guide to the Human Genome. — New York: Cold Spring Harbor, 2008. — P. 32.
  5. Korf I. Gene finding in novel genomes. (англ.) // BMC bioinformatics. — 2004. — Vol. 5. — P. 59. — DOI:10.1186/1471-2105-5-59. — PMID 15144565. [исправить]
  6. Rätsch G., Sonnenburg S., Srinivasan J., Witte H., Müller K. R., Sommer R. J., Schölkopf B. Improving the Caenorhabditis elegans genome annotation using machine learning. (англ.) // Public Library of Science for Computational Biology. — 2007. — Vol. 3, no. 2. — P. e20. — DOI:10.1371/journal.pcbi.0030020. — PMID 17319737. [исправить]
  7. 1 2 Gross S. S., Do C. B., Sirota M., Batzoglou S. CONTRAST: a discriminative, phylogeny-free approach to multiple informant de novo gene prediction. (англ.) // Genome biology. — 2007. — Vol. 8, no. 12. — P. 269. — DOI:10.1186/gb-2007-8-12-r269. — PMID 18096039. [исправить]
  8. Schweikert G., Behr J., Zien A., Zeller G., Ong C. S., Sonnenburg S., Rätsch G. mGene.web: a web service for accurate computational gene finding. (англ.) // Nucleic acids research. — 2009. — Vol. 37. — P. 312—316. — DOI:10.1093/nar/gkp479. — PMID 19494180. [исправить]
  9. Saeys Y., Rouzé P., Van de Peer Y. In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 4. — P. 414—420. — DOI:10.1093/bioinformatics/btl639. — PMID 17204465. [исправить]
  10. Hiller M., Pudimat R., Busch A., Backofen R. Using RNA secondary structures to guide sequence motif finding towards single-stranded regions. (англ.) // Nucleic acids research. — 2006. — Vol. 34, no. 17. — P. e117. — DOI:10.1093/nar/gkl544. — PMID 16987907. [исправить]
  11. Patterson D. J., Yasuhara K., Ruzzo W. L. Pre-mRNA secondary structure prediction aids splice site prediction. (англ.) // Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing. — 2002. — P. 223—234. — PMID 11928478. [исправить]
  12. Marashi S. A., Goodarzi H., Sadeghi M., Eslahchi C., Pezeshk H. Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks. (англ.) // Computational biology and chemistry. — 2006. — Vol. 30, no. 1. — P. 50—57. — DOI:10.1016/j.compbiolchem.2005.10.009. — PMID 16386465. [исправить]
  13. Marashi S. A., Eslahchi C., Pezeshk H., Sadeghi M. Impact of RNA structure on the prediction of donor and acceptor splice sites. (англ.) // BMC bioinformatics. — 2006. — Vol. 7. — P. 297. — DOI:10.1186/1471-2105-7-297. — PMID 16772025. [исправить]
  14. Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia. 
  15. Goel N., Singh S., Aseri T. C. A comparative analysis of soft computing techniques for gene prediction. (англ.) // Analytical biochemistry. — 2013. — Vol. 438, no. 1. — P. 14—21. — DOI:10.1016/j.ab.2013.03.015. — PMID 23529114. [исправить]
  16. (2009) «Splice Site Prediction Using Artificial Neural Networks». Computational Intelligence Methods for Bioinformatics and Biostatistics 5488: 102–113. DOI:10.1007/978-3-642-02504-4_9.
  17. 1 2 Zhang Z., Gerstein M. Large-scale analysis of pseudogenes in the human genome. (англ.) // Current opinion in genetics & development. — 2004. — Vol. 14, no. 4. — P. 328—335. — DOI:10.1016/j.gde.2004.06.003. — PMID 15261647. [исправить]
  18. 1 2 Alexander R. P., Fang G., Rozowsky J., Snyder M., Gerstein M. B. Annotating non-coding regions of the genome. (англ.) // Nature reviews. Genetics. — 2010. — Vol. 11, no. 8. — P. 559—571. — DOI:10.1038/nrg2814. — PMID 20628352. [исправить]
  19. Svensson O., Arvestad L., Lagergren J. Genome-wide survey for biologically functional pseudogenes. (англ.) // Public Library of Science for Computational Biology. — 2006. — Vol. 2, no. 5. — P. e46. — DOI:10.1371/journal.pcbi.0020046. — PMID 16680195. [исправить]
  20. Lerat E., Ochman H. Psi-Phi: exploring the outer limits of bacterial pseudogenes. (англ.) // Genome research. — 2004. — Vol. 14, no. 11. — P. 2273—2278. — DOI:10.1101/gr.2925604. — PMID 15479949. [исправить]
  21. Kelley D. R., Liu B., Delcher A. L., Pop M., Salzberg S. L. Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering. (англ.) // Nucleic acids research. — 2012. — Vol. 40, no. 1. — P. e9. — DOI:10.1093/nar/gkr1067. — PMID 22102569. [исправить]
  22. Huson D. H., Mitra S., Ruscheweyh H. J., Weber N., Schuster S. C. Integrative analysis of environmental sequences using MEGAN4. (англ.) // Genome research. — 2011. — Vol. 21, no. 9. — P. 1552—1560. — DOI:10.1101/gr.120618.111. — PMID 21690186. [исправить]