Пангеном: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Строка 35: Строка 35:
Структура построенного пангенома напрямую зависит от точности разбиения генов на ортологические группы. В подавляющем большинстве случаев для нахождения ортологов используются подходы, основанные на построении графов <ref name=":2">{{Статья|автор=Arnold Kuzniar, Roeland C.H.J. van Ham, Sándor Pongor, Jack A.M. Leunissen|заглавие=The quest for orthologs: finding the corresponding gene across genomes|ссылка=http://linkinghub.elsevier.com/retrieve/pii/S0168952508002278|издание=Trends in Genetics|том=24|выпуск=11|страницы=539–551|doi=10.1016/j.tig.2008.08.009}}</ref>: последовательности объявляются вершинами, ребра графа взвешиваются согласно попарному сходству последовательностей. Для выявления мульти-видовых ортологических групп последовательности [[Кластерный анализ|кластеризуют]] <ref name=":2" />, оценивая вхождение гена в группу по выбранному порогу. После этого строится сам пангеном. Методы дальнейшего анализа могут включать в себя множественное выравнивание последовательностей универсального генома, реконструкцию филогении, различные визуализации <ref name=":3" />. Ниже приведены примеры программ и сервисов, реализующих данный подход:
Структура построенного пангенома напрямую зависит от точности разбиения генов на ортологические группы. В подавляющем большинстве случаев для нахождения ортологов используются подходы, основанные на построении графов <ref name=":2">{{Статья|автор=Arnold Kuzniar, Roeland C.H.J. van Ham, Sándor Pongor, Jack A.M. Leunissen|заглавие=The quest for orthologs: finding the corresponding gene across genomes|ссылка=http://linkinghub.elsevier.com/retrieve/pii/S0168952508002278|издание=Trends in Genetics|том=24|выпуск=11|страницы=539–551|doi=10.1016/j.tig.2008.08.009}}</ref>: последовательности объявляются вершинами, ребра графа взвешиваются согласно попарному сходству последовательностей. Для выявления мульти-видовых ортологических групп последовательности [[Кластерный анализ|кластеризуют]] <ref name=":2" />, оценивая вхождение гена в группу по выбранному порогу. После этого строится сам пангеном. Методы дальнейшего анализа могут включать в себя множественное выравнивание последовательностей универсального генома, реконструкцию филогении, различные визуализации <ref name=":3" />. Ниже приведены примеры программ и сервисов, реализующих данный подход:


* '''PGAT (The Prokaryotic-genome Analysis Tool)''' <ref>{{Статья|автор=M. J. Brittnacher, C. Fong, H. S. Hayden, M. A. Jacobs, Matthew Radey|заглавие=PGAT: a multistrain analysis resource for microbial genomes|ссылка=https://academic.oup.com/bioinformatics/article/27/17/2429/224993|язык=en|издание=Bioinformatics|год=2011-09-01|том=27|выпуск=17|страницы=2429–2430|issn=1367-4803|doi=10.1093/bioinformatics/btr418}}</ref> - веб-сервис, позволяющий построить базу данных.
* '''PGAT (The Prokaryotic-genome Analysis Tool)''' <ref>{{Статья|автор=M. J. Brittnacher, C. Fong, H. S. Hayden, M. A. Jacobs, Matthew Radey|заглавие=PGAT: a multistrain analysis resource for microbial genomes|ссылка=https://academic.oup.com/bioinformatics/article/27/17/2429/224993|язык=en|издание=Bioinformatics|год=2011-09-01|том=27|выпуск=17|страницы=2429–2430|issn=1367-4803|doi=10.1093/bioinformatics/btr418}}</ref> - веб-сервис, основанный на базе данных геномов различных прокариот. Позволяет идентифицировать идентифицировать гены, присутствующие или отсутствующие в выбранной группе организмов, получать информацию о [[Однонуклеотидный полиморфизм|SNP]] для каждого такого гена, строить множественные выравнивания, обращаться к базе метаболических путей [[KEGG]]. Функционал сервиса ограничен имеющимися в базе геномами, загружать свою информацию нельзя.
* '''PanCoreGen''' <ref>{{Статья|автор=Sandip Paul, Archana Bhardwaj, Sumit K. Bag, Evgeni V. Sokurenko, Sujay Chattopadhyay|заглавие=PanCoreGen — Profiling, detecting, annotating protein-coding genes in microbial genomes|ссылка=http://linkinghub.elsevier.com/retrieve/pii/S0888754315300355|издание=Genomics|том=106|выпуск=6|страницы=367–372|doi=10.1016/j.ygeno.2015.10.001}}</ref> - программа с [[Графический интерфейс пользователя|графическим интерфейсом]]. Процедура построения пангенома основана на итеративном использовании [[BLAST|BLASTN]]. Позволяет генерировать файлы со списками генов по типам в форматах [[FASTA]] и [[Microsoft Excel|Excel]], имеет доступ к базе [[Национальный центр биотехнологической информации|NCBI]].
* '''Pan-Tetris''' <ref>{{Статья|автор=André Hennig, Jörg Bernhardt, Kay Nieselt|заглавие=Pan-Tetris: an interactive visualisation for Pan-genomes|ссылка=https://doi.org/10.1186/1471-2105-16-S11-S3|издание=BMC Bioinformatics|год=2015-08-13|том=16|выпуск=11|страницы=S3|issn=1471-2105|doi=10.1186/1471-2105-16-S11-S3}}</ref> - программа для интерактивной визуализации пангеномов, которые находятся через построение локальных выравниваний ортологических групп генов с предварительно построенным "супергеномом". Интерактивное взаимодействие с результатом призвано помочь пользователям в нахождении ошибок аннотации.


=== Методы, основанные на последовательностях генов ===
=== Методы, основанные на последовательностях генов ===

Версия от 19:17, 6 апреля 2018

В молекулярной биологии пангеном — способ описания всей совокупности генов рассматриваемой группы организмов [1], для которой характерно большое генетическое разнообразие между близкородственными штаммами или экотипами. Иными словами, это объединение наборов генов всех штаммов, составляющих кладу (например, вид [1], род [2] или таксон более высокого порядка [3])[4]. Традиционно понятие пангенома применяется к видам бактерий и архей, но в последнее время пангеномы обширно применяются для исследования генетики растений [5][6][7].

Концепция пангенома

Впервые термин "пан-геном" был использован для описания базы данных, содержащей оценки изменений генома и транскриптома в главных типах опухолей, в тканях и экспериментальных моделей. В привычном понимании термин «пангеном» и его определение были введены в 2005 году Херве Теттелином [1]. К этому времени были расшифрованы геномы многих модельных организмов, таких как гемофильная палочка (Haemophilus influenzae) - первый отсеквенированный геном [8], кишечная палочка (Escherichia coli), резушка Таля (Arabidopsis thaliana). В 2001 году проект "Геном человека" (Human Genome Project) завершил расшифровку первого человеческого генома. Успехи этих исследований казались столь значительными, что расшифровка одного генома для каждого вида считалась учеными достаточной для понимания всех биологических процессов. Однако развитие технологий секвенирования позволило быстро и недорого определять последовательности ДНК, в результате чего для многих видов было получено более одного прочитанного генома.[9]

Сравнив геномы шести штаммов одного из видов стрептококка (Streptococcus agalactiae), Теттелин обнаружил значительное различие между геномами разных штаммов: каждый штамм отличался от остальных в среднем на 33 гена. Так было показано существование значительного генетического разнообразия внутри видов. Потребность в описании и изучении всех генетических и связанных с ними функциональных возможностей, присущих каждому отдельному виду, и привела к идее исследования пангеномов, то есть генов всех имеющихся штаммов вида в совокупности. [1]

Ввиду быстрых скоростей эволюции проблема внутривидового генетического разнообразия особенно остро стоит для бактерий и архей. Так, известно, что три первых отсеквенированных штамма кишечной палочки совпали по составу генов лишь на 39% [10].

Проблема референсного генома

Визуализация пангенома

Традиционно пангеном изображается в виде графика, показывающего зависимость между количеством штаммов и количеством групп генов, которые присутствуют ровно в этом числе штаммов. Такой график называется U-кривой.

Структурные элементы пангенома

Пангеном состоит из трех частей. Первая часть — универсальный геном — гены, присутствующие во всех штаммах исследуемого таксона. Также используют понятие «мягкого» универсального генома, включающего гены, которые присутствуют у 92 — 95 % штаммов. Такую поправку делают из расчета на ошибки сборки и аннотации[11]. Второй структурный элемент — уникальные гены, имеющиеся в единственном экземпляре лишь у одного из штаммов. Значительную долю уникальных генов опять же составляют ошибки аннотации генов, поэтому во многих исследованиях этот элемент исключается из рассмотрения. Третья часть расположена между первыми двумя — это геном периферии (вариабельный геном)[4][12][13]. Его составляют гены, которые экспрессируются не у всех штаммов рассматриваемого таксона[1][14].

Типы пангенома по размеру

Важным показателем генетического разнообразия внутри таксона является понятие открытого и закрытого пангеномов. Если при добавлении каждого нового штамма в рассмотрение общее количество генов в таксоне продолжает расти, то такой пангеном называют открытым. Наличие у вида открытого пангенома позволяет судить о значительном внутривидовом генетическом разнообразии вида. Это, как правило, связано с большим количеством событий горизонтального переноса генов, происходящих внутри данного вида. У большинства видов бактерий открытый пангеном, в частности, у кишечной палочки [15].

Если, начиная с некоторого количества штаммов, добавление новых штаммов не приводит к увеличению общего количества генов, то такой пангеном называется закрытым. У групп с закрытым пангеномом большая часть генов являются универсальными для всех рассматриваемых штаммов, поэтому и общее количество генов в закрытом пангеноме, как правило, меньше, чем в открытом. Примером вида бактерий с закрытым пангеномом является возбудитель сибирской язвы Bacillus anthracis. После рассмотрения четырех штаммов этого вида последующее добавление новых штаммов не приводит к увеличению размера пангенома. Это объясняется тем фактом, что этот вид возник сравнительно недавно, и его генетическое разнообразие заключено в основном на плазмиде, вызывающей инфекцию [16][17].

Размер пангенома может отражать взаимодействие рассматриваемой группы с факторами окружающей среды. Такое взаимодействие заключается в балансировании между процессами потери и приобретения генов. Например, значительное изменение экологической обстановки приводит к тому, что многие функции становятся ненужными, в результате чего происходит потеря этих генов. Утрата генов наблюдается у эндосимбионтов (организмов, живущих внутри чужих клеток) и других аллопатрических видов (живущих в изолированных географических нишах), для которых характерны небольшие закрытые пангеномы[18]. Наоборот, группы, обитающие в большом количестве разнообразных экологических ниш взаимодействуют со своими соседями, приобретая новые гены путем горизонтального переноса. Среди приобретенных участков генома значительную часть составляют «эгоистичные» мобильные элементы. Бактериофаги, интегразы, транспозазы и другие системы способствуют накоплению в геноме эгоистичных элементов. Вся их совокупность в геноме называется мобиломом. Чем больше количество видов-соседей, тем больше вероятность для вида приобрести паразитические мобильные элементы. В результате симпатричные виды бактерий, сосуществующие с большим количеством видов-соседей, имеют открытые пангеномы. [19]

Построение, анализ и хранение пангеномов

Создание и анализ пангеномов сопряжены с рядом трудностей, не в последнюю очередь связанных с объёмом используемых данных. Все методы для индексирования пангеномов и дальнейшего анализа можно разделить на две группы по принятому в них определению пангенома: основанные на аннотациях генов и основанные на последовательностях[20].

Методы, основанные на аннотациях генов

В данной группе методов за пангеном принимается совокупность генов как функциональных единиц, и работа проводится на наборе генных аннотаций для исследуемой группы организмов. В рабочем процессе в таком случае можно выделить три этапа:

  • построение ортологических рядов;
  • идентификация пангенома;
  • дальнейший анализ.

Структура построенного пангенома напрямую зависит от точности разбиения генов на ортологические группы. В подавляющем большинстве случаев для нахождения ортологов используются подходы, основанные на построении графов [21]: последовательности объявляются вершинами, ребра графа взвешиваются согласно попарному сходству последовательностей. Для выявления мульти-видовых ортологических групп последовательности кластеризуют [21], оценивая вхождение гена в группу по выбранному порогу. После этого строится сам пангеном. Методы дальнейшего анализа могут включать в себя множественное выравнивание последовательностей универсального генома, реконструкцию филогении, различные визуализации [20]. Ниже приведены примеры программ и сервисов, реализующих данный подход:

  • PGAT (The Prokaryotic-genome Analysis Tool) [22] - веб-сервис, основанный на базе данных геномов различных прокариот. Позволяет идентифицировать идентифицировать гены, присутствующие или отсутствующие в выбранной группе организмов, получать информацию о SNP для каждого такого гена, строить множественные выравнивания, обращаться к базе метаболических путей KEGG. Функционал сервиса ограничен имеющимися в базе геномами, загружать свою информацию нельзя.
  • PanCoreGen [23] - программа с графическим интерфейсом. Процедура построения пангенома основана на итеративном использовании BLASTN. Позволяет генерировать файлы со списками генов по типам в форматах FASTA и Excel, имеет доступ к базе NCBI.
  • Pan-Tetris [24] - программа для интерактивной визуализации пангеномов, которые находятся через построение локальных выравниваний ортологических групп генов с предварительно построенным "супергеномом". Интерактивное взаимодействие с результатом призвано помочь пользователям в нахождении ошибок аннотации.

Методы, основанные на последовательностях генов

Иногда пангеном также определяют как набор последовательностей из геномов исследуемой группы [25]. С ростом числа известных последовательностей представление такого пангенома в "наивной" форме - в виде набора проиндексированных строк - становится не только неимоверно расточительным с точки зрения занимаемой памяти (в таком случае последовательности из универсальной и вариабельной части генома войдут в набор не большое количество раз), но и с точки зрения времени анализа.

Программы для построения пангеномов

Пангеномы в эволюционных исследованиях

Построение пангеномов является популярным инструментом при изучении эволюции, так как анализ пангенома позволяет определить уровень генетического разнообразия в рассматриваемой группе организмов.

Пангеномы в медицине

Пангеномика в исследованиях растений

Литература

  1. 1 2 3 4 5 Hervé Tettelin, Vega Masignani, Michael J. Cieslewicz, Claudio Donati, Duccio Medini. Genome analysis of multiple pathogenic isolates of Streptococcus agalactiae: Implications for the microbial “pan-genome” // Proceedings of the National Academy of Sciences. — 2005-09-27. — Т. 102, вып. 39. — С. 13950–13955. — doi:10.1073/pnas.0506758102.
  2. Lars Snipen, David W. Ussery. Standard operating procedure for computing pangenome trees (англ.) // Standards in Genomic Sciences. — 2010/01. — Т. 2, вып. 1. — С. 135. — ISSN 1944-3277. — doi:10.4056/sigs.38923.
  3. Estimating the size of the bacterial pan-genome (англ.) // Trends in Genetics. — 2009-03-01. — Vol. 25, iss. 3. — P. 107–110. — ISSN 0168-9525. — doi:10.1016/j.tig.2008.12.004.
  4. 1 2 Duccio Medini, Claudio Donati, Hervé Tettelin, Vega Masignani, Rino Rappuoli. The microbial pan-genome // Current Opinion in Genetics & Development. — Т. 15, вып. 6. — С. 589–594. — doi:10.1016/j.gde.2005.09.006.
  5. Agnieszka A. Golicz, Philipp E. Bayer, Guy C. Barker, Patrick P. Edger, HyeRan Kim. The pangenome of an agronomically important crop plant Brassica oleracea (англ.) // Nature Communications. — 2016-11-11. — Т. 7. — ISSN 2041-1723. — doi:10.1038/ncomms13390.
  6. Qiang Zhao, Qi Feng, Hengyun Lu, Yan Li, Ahong Wang. Pan-genome analysis highlights the extent of genomic variation in cultivated and wild rice (англ.) // Nature Genetics. — 2018/02. — Т. 50, вып. 2. — С. 278–284. — ISSN 1546-1718. — doi:10.1038/s41588-018-0041-z.
  7. Bruno Contreras-Moreira, Carlos P. Cantalapiedra, María J. García-Pereira, Sean P. Gordon, John P. Vogel. Analysis of Plant Pan-Genomes and Transcriptomes with GET_HOMOLOGUES-EST, a Clustering Solution for Sequences of the Same Species // Frontiers in Plant Science. — 2017. — Т. 8. — С. 184. — ISSN 1664-462X. — doi:10.3389/fpls.2017.00184.
  8. R. D. Fleischmann, M. D. Adams, O. White, R. A. Clayton, E. F. Kirkness. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd (англ.) // Science. — 1995-07-28. — Vol. 269, iss. 5223. — P. 496–512. — ISSN 1095-9203 0036-8075, 1095-9203. — doi:10.1126/science.7542800.
  9. The Pangenome: Are Single Reference Genomes Dead? The Scientist. Дата обращения: 5 апреля 2018.
  10. R. A. Welch, V. Burland, G. Plunkett, P. Redford, P. Roesch. Extensive mosaic structure revealed by the complete genome sequence of uropathogenic Escherichia coli (англ.) // Proceedings of the National Academy of Sciences. — 2002-12-24. — Vol. 99, iss. 26. — P. 17020–17024. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.252529799.
  11. Rolf S. Kaas, Carsten Friis, David W. Ussery, Frank M. Aarestrup. Estimating variation within the genes and inferring the phylogeny of 186 sequenced diverse Escherichia coli genomes // BMC Genomics. — 2012-10-31. — Т. 13. — С. 577. — ISSN 1471-2164. — doi:10.1186/1471-2164-13-577.
  12. Yuri I. Wolf, Kira S. Makarova, Natalya Yutin, Eugene V. Koonin. Updated clusters of orthologous genes for Archaea: a complex ancestor of the Archaea and the byways of horizontal gene transfer // Biology Direct. — 2012-12-14. — Т. 7. — С. 46. — ISSN 1745-6150. — doi:10.1186/1745-6150-7-46.
  13. George Vernikos, Duccio Medini, David R Riley, Hervé Tettelin. Ten years of pan-genome analyses // Current Opinion in Microbiology. — Т. 23. — С. 148–154. — doi:10.1016/j.mib.2014.11.016.
  14. Duccio Medini, Davide Serruto, Julian Parkhill, David A. Relman, Claudio Donati. Microbiology in the post-genomic era (англ.) // Nature Reviews Microbiology. — 2008/06. — Т. 6, вып. 6. — ISSN 1740-1534. — doi:10.1038/nrmicro1901.
  15. David A. Rasko, M. J. Rosovitz, Garry S. A. Myers, Emmanuel F. Mongodin, W. Florian Fricke. The Pangenome Structure of Escherichia coli: Comparative Genomic Analysis of E. coli Commensal and Pathogenic Isolates (англ.) // Journal of Bacteriology. — 2008-10-15. — Vol. 190, iss. 20. — P. 6881–6893. — ISSN 1098-5530 0021-9193, 1098-5530. — doi:10.1128/JB.00619-08.
  16. P. Keim, L. B. Price, A. M. Klevytska, K. L. Smith, J. M. Schupp. Multiple-Locus Variable-Number Tandem Repeat Analysis Reveals Genetic Relationships within Bacillus anthracis (англ.) // Journal of Bacteriology. — 2000-05-15. — Vol. 182, iss. 10. — P. 2928–2936. — ISSN 1098-5530 0021-9193, 1098-5530. — doi:10.1128/JB.182.10.2928-2936.2000.
  17. Claudio T. Sacchi, Anne M. Whitney, Leonard W. Mayer, Roger Morey, Arnold Steigerwalt. Sequencing of 16S rRNA Gene: A Rapid Tool for Identification of Bacillus anthracis // Emerging Infectious Diseases. — 2002-10. — Т. 8, вып. 10. — С. 1117–1123. — ISSN 1080-6040. — doi:10.3201/eid0810.020391.
  18. Samuel K. Sheppard, Xavier Didelot, Keith A. Jolley, Aaron E. Darling, Ben Pascoe. Progressive genome-wide introgression in agriculturalCampylobacter coli (англ.) // Molecular Ecology. — 2013-02-01. — Vol. 22, iss. 4. — P. 1051–1064. — ISSN 1365-294X. — doi:10.1111/mec.12162.
  19. L. Rouli, V. Merhej, P.-E. Fournier, D. Raoult. The bacterial pangenome as a new tool for analysing pathogenic bacteria (англ.) // New Microbes and New Infections. — 2015-09-01. — Т. 7. — С. 72–85. — ISSN 2052-2975. — doi:10.1016/j.nmni.2015.06.005.
  20. 1 2 Tina Zekic, Guillaume Holley, Jens Stoye. Pan-Genome Storage and Analysis Techniques (англ.) // Comparative Genomics. — Humana Press, New York, NY, 2018. — P. 29–53. — ISBN 9781493974610, 9781493974634. — doi:10.1007/978-1-4939-7463-4_2.
  21. 1 2 Arnold Kuzniar, Roeland C.H.J. van Ham, Sándor Pongor, Jack A.M. Leunissen. The quest for orthologs: finding the corresponding gene across genomes // Trends in Genetics. — Т. 24, вып. 11. — С. 539–551. — doi:10.1016/j.tig.2008.08.009.
  22. M. J. Brittnacher, C. Fong, H. S. Hayden, M. A. Jacobs, Matthew Radey. PGAT: a multistrain analysis resource for microbial genomes (англ.) // Bioinformatics. — 2011-09-01. — Vol. 27, iss. 17. — P. 2429–2430. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btr418.
  23. Sandip Paul, Archana Bhardwaj, Sumit K. Bag, Evgeni V. Sokurenko, Sujay Chattopadhyay. PanCoreGen — Profiling, detecting, annotating protein-coding genes in microbial genomes // Genomics. — Т. 106, вып. 6. — С. 367–372. — doi:10.1016/j.ygeno.2015.10.001.
  24. André Hennig, Jörg Bernhardt, Kay Nieselt. Pan-Tetris: an interactive visualisation for Pan-genomes // BMC Bioinformatics. — 2015-08-13. — Т. 16, вып. 11. — С. S3. — ISSN 1471-2105. — doi:10.1186/1471-2105-16-S11-S3.
  25. Tobias Marschall, Manja Marz, Thomas Abeel, Louis Dijkstra, Bas E. Dutilh. Computational pan-genomics: status, promises and challenges (англ.) // Briefings in Bioinformatics. — 2018-01-01. — Vol. 19, iss. 1. — P. 118–135. — ISSN 1467-5463. — doi:10.1093/bib/bbw089.