Предсказание генов: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Новая страница: «'''Предсказание генов''' — это определение кодирующих последовательностей [[ДНК]…»
(нет различий)

Версия от 20:04, 4 апреля 2016

Предсказание генов — это определение кодирующих последовательностей ДНК в геноме: генов РНК и белков. Иногда к предсказанию генов относят выявление регуляторных участков ДНК. Предсказание генов — первый и самый важный шаг в анализе генома вида.

На ранних этапах поиск генов основывался на кропотливых экспериментах с живыми организмами и клетками, отнимал много сил и давал только грубый результат. Статистический анализ частот кроссинговера между известными генами позволял узнать, как они расположены на хромосоме относительно друг друга, и в итоге составить генетическую карту. Сегодня же, благодаря развитию компьютерной техники и методов полногеномного секвенирования, предсказание генов стало рутинной задачей в биоинформатике.

Тем не менее стоит различать предсказание функциональных участков от предсказание функции или продукта гена. Строгое определение функции или доказательство существования какого-либо белка может основываться только на экспериментальной работе [1], хотя современной биоинформатике уже удаётся с высокой точностью угадывать функцию гена только по его последовательности.

Предсказание генов — один из ключевых этапов в аннотации геномов, следующий за его сборкой, отсеивания некодирующих участков и повторов [2].

Эмпирический метод

При эмпирическом подходе в геноме ищутся последовательности, согласующиеся со внешними свидетельствами существования гена: EST, мРНК, белки, гомологичные последовательности из других геномов. Имея на руках последовательность мРНК легко можно восстановить ДНК, с которого она транскрибируется. Имея аминокислотную последовательность белка, можно создать набор возможных генов, поскольку каждая аминокислота кодируется ограниченным набором триплетов ДНК. Далее с помощью сравнительно простых алгоритмов можно найти полные или частичные совпадения между полученными последовательностями и анализируемым геномом. Если же однозначно известна последовательность гена, то для поиска таких совпадений применяются алгоритмы локального выравнивания (BLAST, FASTA, Смита-Ватермана).

Высокой степени сходства между последовательностью генома и известного белка (или мРНК) достаточно, чтобы доказать существование гена в данном участке генома. Но для применения этого метода необходимо проводить дорогие секвенирования мРНК и белков. К тому же в сложных организмах много ткане- и стадие-специфичных генов, что не позволяет из одной клеточной культуры извлечь данные о всех генах организма. Таким образом, получение веских доказательств существования всех генов организма требует работы с сотнями типов клеток. Исследования некоторых клеток могут быть особенно затруднительны, как например в случае с клетками человеческого эмбриона или малочисленными и неразличимыми клетками.

Несмотря на эти трудности, существуют масштабные базы данных РНК и белков. Например, база данных RefSeq содержит последовательности транскриптов и белков, полученные из человека и прочих модельных организмов, таких как мышь, дрозофила, дрожжи, а браузер en:Ensembl позволяет картировать их на полных геномах. Однако такие базы данных далеко не полные и содержат небольшие, но значительные количества ошибочных данных.

Новые высокопроизводительные технологии секвенирования, как например RNA-Seq и ChIP-seq, дают дополнительную информацию для предсказания генов и выявления паттернов их экспреcсии, а также являются более точной и в целом превосходной альтернативой методам ДНК-микрочипов и EST.

Основные проблемы предсказания генов связаны с ошибками секвенирования в ДНК-данных, качеством сборки референсного генома, короткой длиной чтений, сдвигами рамок считывания, пересекающимися и неполными генами.

В прокариотах необходимо учитывать горизонтальный перенос генов при поиске участков гомологии в геноме. Также в современных инструментах поиска генов почти не используется свойство некоторых генов образовывать кластеры и опероны как в про-, так и в эукариотах. Большинство определителей генов рассматривают каждый ген отдельно и независимо от других, что не вполне точно.

Методы ab initio

При ab initio поиске генов используются не внешние доказательства существования гена, а некоторые внутренние свойства подпоследовательностей генома. Такое предсказание генов гораздо дешевле и проще эмпирического метода и основывается на поиске отличительных знаков белок-кодирующих последовательностей. Эти знаки можно разделить на сигналы — особые сочетания нуклеотидов, свидетельствующие о наличии гена, и статистические параметры, характерные для кодирующих участков ДНК. Именно ab initio поиск стоит называть предсказанием генов, поскольку эмпирические методы обычно привлекаются уже на стадии подтверждения функциональности потенциального гена.

В геномах прокариот гены содержат характерные и хорошо изученные промоторные последовательности (сигналы), как например Прибнов-бокс и сайты связывания факторов транскрипции, которые легко обнаружить. К тому же белок-кодирующая последовательность состоит из одной непрерывной рамки считывания длиной сотни и тысячи пар нуклеотидов. В случайных последовательностях стоп-кодоны встречаются сравнительно часто (3 из 64 кодонов — стоп кодоны, то есть в среднем 1 стоп-кодон на 20-25 кодоно, или 60-75 'нуклеотидов), поэтому наличие длинных рамок считывания — уже признак гена. Прочие статистические параметры белок-кодирующей ДНК также легко заметны на последовательностях такой длины. Как следствие системы предсказания прокариотических генов действуют весьма прямолинейно и обладают высокой точностью.

В эукариотах, в особенности в таких сложных организмах как человек, задача предсказания генов значительно трудней сразу по нескольким причинам. Во-первых, промоторы и прочие регуляторные сигналы эукариот гораздо сложней и хуже изучены, чем в прокариотах, и поэтому они хуже распознаются. Классические сигналы в эукариотических генах — CpG-островки и сайты связывания polyA.

Во-вторых, из-за сплайсинга белок-кодирующие последовательности ДНК (экзоны) прерываются некодирующими участками (интронами). Сайты сплайсинга, кстати — ещё один сигнал для распознавания генов. Типичный белковый ген человека может быть разделён на десяток экзонов, длина каждого из которых 20-200 нуклеотидов. На таких коротких участках гораздо сложнее заметить статистические признаки белок-кодирующей ДНК.

Программы для поиска генов как в про-, так и в эукариотах обычно используют такие вероятностные модели, как скрытые марковские модели (НММ), чтобы объединить информацию от различных сигналов и выявленных закономерностей. Cистема GLIMMER — широко используемая и высокоточная система поиска генов в прокариотах, GeneMark — ещё одна популярная система. В сравнениии с прокариотическими, ab initio поиск генов эукариот достиг более скромных результатов. Выдающииеся программы для эукариот — GENSCAN и geneid. SNAP, как и Genscan, основан на НММ и является попыткой создать универсальный искатель генов, который может работать на геноме, в котором ему не была дана обучающая выборка [3]. В нескольких иных программах, как например mSplicer,[4] CONTRAST,[5] или mGene[6] также применяется машинное обучение и метод опорных векторов. Они строят различающую модель с применением скрытого марковского автомата опорных векторов или случайные условные поля для определения вида функции, определяющей вероятность наличия гена.

Методы ab initio порой достигают 100% чувствительности [2], но при этом страдает точность из-за высокой доли ложно-положительных предсказаний.

Иные сигналы

В качестве сигналов для предсказания генов используются статистики к-меров, GC-состав/равномерность/энтропия участков, длина рамок считывания, наборы сайтов связывания рибосом, а также промоторных, экзонно-интронных сайтов и сайтов сплайсинга, фрактальная размерность, Фурье-преобразование циферно закодированной ДНК и параметры Z-кривой [7].

Качество предсказаний можно улучшить, применяя не только непосредственно детектируемые сигналы. Например, вторичная структура РНК может помочь с поиском сайтов сплайсинга и других регуляторных мотивов [8][9][10][11][12].

Нейронные сети

Нейронные сети — математические модели, используемые для машинного обучения и задач распознавания. Нейронные сети необходимо настроить на обучающей выборке и проверить на контрольной выборке перед применением на экспериментальных данных. Нейронные сети при наличии достаточного объёме обучающей выборки позволяют получить приблизительные решения задач, для которых сложно составить точный алгоритм решения. Нейронные сети можно использовать вместе с другими ab initio методами для предсказания биологических последовательностей [13]. Нейронные сети используют метод скользящего окна [14], при котором из общей последовательности извлекаются пересекающиеся подпоследовательности с некоторым шагом. Полученный от каждого окна сигнал сглаживается и отсеивается по произвольному порогу. В одной из таких сетей в каждой позиции окна в итоге выдаётся вероятность того, что в данном месте расположен сайт сплайсинга. Чем шире окно, тем точней результат, но тем и дольше вычисления.

Совмещённый подход

Такие программы, как Maker, совмещают эмпирический и ab initio методы, картируя данные по белкам и EST на геном, чтобы подтвердить ab initio предсказания. Augustus может применяться совместно с Maker и также встраивает выравнивания EST и белков для повышения точности предсказаний.

Сравнительная геномика

Благодаря секвенированию большого числа геномов различных организмов, стал возможен поиск генов путём сравнительной геномики.

Этот подход основан на том, что гены и регуляторные элементы мутируют медленней, чем прочие элементы генома, поскольку находятся под большим давлением естественного отбора. То есть гены можно детектировать как консервативные последовательности, сравнивая геномы близкородственных видов. Этот подход впервые был применён на человеческом и мышином геномах и реализован в программах SLAM, SGP, TWINSCAN/N-SCAN и CONTRAST [15].

Множественные информанты

TWINSCAN для поиска ортологичных геноврассматривал только синтению человеческого и мышиного геномов. В таких программах, как N-SCAN и CONTRAST позволяют совмещать данные из множества организмов, или как в случае N-SCAN — одного отличного от целевого организма. Использование множества информантов приводит к значительному улучшению точности [15].

CONTRAST состоит из двух частей. Первая — малый классификатор, опознающий донорные и акцепторные сайты сплайсинга, стар- и стоп-кодоны. Вторая часть строит завершённую модель при помощи машинниого обучения. Разделение задачи надвое означает, что классификаторы могут обучаться на меньших выборках и работать независимо и с меньшим размером окна. Конечная модель оптимизируется независимо, не тратя вычисления на переобозначение границ экзонов-интронов. Создатели CONTRAST считают, что их метод (равно как и TWINSCAN) стоит называть de novo сборкой генов с применением дополнительных геномов, подчёркивая, что он отличается от ab initio методов, где информация извлекается только из одного целевого генома [15].

Сравнительное предсказание генов также применимо для переноса высококачественных аннотаций с одного генома на другой. Примечательны примеры Projector, GeneWise и GeneMapper. Этот метод сегодня имеет большое значение при аннотации всех геномов.

Предсказание псевдогенов

Псевдогены — близкие гомологи генов, потерявшие экспрессию белкового продукта. В геноме млекопитающих содержится 20'000 псевдогенов, почти столько же, сколько и функциональных генов. Сначала их считали побочными продуктами секвенирования генов, но постепенно с пониманием их регуляторной роли псевдогены тали самостоятельными целями для предсказания [16]. Поиск псевдогенов основывается на существующих ab initio методах и методах сравнительной геномики с добавлением специальных фильтров, распознающих параметры псевдогенов.

Методы сравнительной геномики оптимизируются для поиска псевдогенов добавлением специальных фильтров. Пример такого фильтра — детектор потери функции, который ищет нонсенс мутации и сдвиги рамки считывания, нарушающие экспрессию функциональной последовательности ДНК [17][16].

Cенсоры содержания фильтруют ДНК по разницам в статистических параметрах между генами и псевдогенами, как например меньшее число CpG-островков или различный GC-состав псевдогенов и их окружения. Другие сенсоры детектируют такие сигналы, как остуствие интронов и полиадениновых хвостов [18].

Метагеномное предсказание генов

Метагеномика — изучение генетического материала разных видов, взятых из одной среды обитания. Предсказание генов может быть очень полезным для сравнительной геномики.

Метагеномные программы также делятся на те, что используют принципы ab initio (GLIMMER-MG) или сравнительную геномику (MEGAN5).

GLIMMER-MG [19] — расширение GLIMMER, полагающееся в основном на ab initio подход и использующее обучающую выборку из родственных организмов. Стратегия предсказания улучшена за счёт кластеризации генных данных по видам перед применением методов ab initio. Кластеризация основана на техниках метагеномной филогенетической классификации. Пример программы для подобных целей — Phym с интерполированными марковскими моделями и PhymmBL с интегрированным в процесс классификации BLAST.

В основе MEGAN5 [20] — методы сравнительной геномики. В этой программе применяется локальное выравнивание против базы данных известных последовательностей, но также и реализована классификация с использованием дополнительной информации о функциях генов. Так же как и в предсказании генов одного организма, точность результата при сравнительном подходе ограничена размером базы данных.

FragGeneScan и MetaGeneAnnotator — широко распространённые программы для предсказания генов, основанные на НММ. Они учитывают ошибки секвенирования, фрагментированные гены и работают при низкой длине ридов.

Примечания

  1. "An overview of the current status of eukaryote gene prediction strategies". Gene. 461: 1—4. 2010. doi:10.1016/j.gene.2010.04.008.
  2. 1 2 "A beginner's guide to eukaryotic genome annotation". Nature Reviews Genetics. 13: 329—342. May 2012. doi:10.1038/nrg3174.
  3. Korf I. (2004-05-14). "Gene finding in novel genomes". BMC Bioinformatics. 5: 59—67. doi:10.1186/1471-2105-5-59. PMC 421630. PMID 15144565.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  4. Rätsch, Gunnar; Sonnenburg, S; Srinivasan, J; Witte, H; Müller, KR; Sommer, RJ; Schölkopf, B (2007-02-23). "Improving the C. elegans genome annotation using machine learning". PLoS Computational Biology. 3 (2): e20. doi:10.1371/journal.pcbi.0030020. PMC 1808025. PMID 17319737.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  5. Gross, Samuel S; Do, CB; Sirota, M; Batzoglou, S (2007-12-20). "CONTRAST: A Discriminative, Phylogeny-free Approach to Multiple Informant De Novo Gene Prediction". Genome Biology. 8 (12): R269. doi:10.1186/gb-2007-8-12-r269. PMC 2246271. PMID 18096039.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  6. Schweikert G, Behr J, Zien A, et al. (July 2009). "mGene.web: a web service for accurate computational gene finding". Nucleic Acids Res. 37 (Web Server issue): W312—6. doi:10.1093/nar/gkp479. PMC 2703990. PMID 19494180.
  7. Saeys Y, Rouzé P, Van de Peer Y (2007). "In search of the small ones: improved prediction of short exons in vertebrates, plants, fungi and protists". Bioinformatics. 23 (4): 414—420. doi:10.1093/bioinformatics/btl639. PMID 17204465.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  8. Hiller M, Pudimat R, Busch A, Backofen R (2006). "Using RNA secondary structures to guide sequence motif finding towards single-stranded regions". Nucleic Acids Res. 34 (17): e117. doi:10.1093/nar/gkl544. PMC 1903381. PMID 16987907.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  9. Patterson DJ, Yasuhara K, Ruzzo WL (2002). "Pre-mRNA secondary structure prediction aids splice site prediction". Pac Symp Biocomput: 223—234. PMID 11928478.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  10. Marashi SA, Goodarzi H, Sadeghi M, Eslahchi C, Pezeshk H (2006). "Importance of RNA secondary structure information for yeast donor and acceptor splice site predictions by neural networks". Comput Biol Chem. 30 (1): 50—7. doi:10.1016/j.compbiolchem.2005.10.009. PMID 16386465.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  11. Marashi SA, Eslahchi C, Pezeshk H, Sadeghi M (2006). "Impact of RNA structure on the prediction of donor and acceptor splice sites". BMC Bioinformatics. 7: 297. doi:10.1186/1471-2105-7-297. PMC 1526458. PMID 16772025.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  12. Rogic, S (2006). The role of pre-mRNA secondary structure in gene splicing in Saccharomyces cerevisiae (PDF) (PhD thesis). University of British Columbia.
  13. Neelam Goel, Shailendra Singh, Trilok Chand Aseri (2013). "A comparative analysis of soft computing techniques for gene prediction". Analytical Biochemistry. 438: 14—21. doi:10.1016/j.ab.2013.03.015.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  14. "Splice Site Prediction Using Artificial Neural Networks". Computational Intelligence Methods for Bioinformatics and Biostatistics. Lec Not Comp Sci. 5488: 102—113. 2009. doi:10.1007/978-3-642-02504-4_9.
  15. 1 2 3 {doi=10.1186/gb-2007-8-12-r269}
  16. 1 2 Alexander, Roger P.; Fang, Gang; Rozowsky, Joel; Snyder, Michael; Gerstein, Mark B. (2010). "Annotating non-coding regions of the genome". Nature Reviews Genetics. 11 (8): 559—71. doi:10.1038/nrg2814. PMID 20628352.
  17. Svensson, Örjan; Arvestad, Lars; Lagergren, Jens (2006). "Genome-Wide Survey for Biologically Functional Pseudogenes". PLoS Computational Biology. 2 (5): e46. doi:10.1371/journal.pcbi.0020046. PMC 1456316. PMID 16680195.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  18. Zhang, Zhaolei; Gerstein, Mark (2004). "Large-scale analysis of pseudogenes in the human genome". Current Opinion in Genetics & Development. 14 (4): 328—35. doi:10.1016/j.gde.2004.06.003. PMID 15261647.
  19. Kelley, D. R.; Liu, B.; Delcher, A. L.; Pop, M.; Salzberg, S. L. (2011). "Gene prediction with Glimmer for metagenomic sequences augmented by classification and clustering". Nucleic Acids Research. 40 (1): e9. doi:10.1093/nar/gkr1067. PMC 3245904. PMID 22102569.
  20. Huson, D. H.; Mitra, S.; Ruscheweyh, H.-J.; Weber, N.; Schuster, S. C. (2011). "Integrative analysis of environmental sequences using MEGAN4". Genome Research. 21 (9): 1552—60. doi:10.1101/gr.120618.111. PMC 3166839. PMID 21690186.

Ссылки