Эта статья входит в число добротных статей

Метод дробовика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Shotgun2.svg

Метод дробовика (англ. Shotgun sequencing) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть восстановлена исходная последовательность ДНК[1].

Предпосылкой для возникновения метода дробовика являлся тот факт, что первые методы секвенирования были способны восстанавливать лишь небольшие последовательности ДНК порядка 1000 нуклеотидов[2], следовательно, для секвенирования более длинных последовательностей требовалось разработать новый подход. При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют любым доступным методом, например, методом секвенирования по Сэнгеру. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специального программного обеспечения в одну целую последовательность[1].

Метод дробовика использовался при получении первых полных геномов организмов[1].

Пример[править | править вики-текст]

Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:

Цепь Последовательность
Первоначальная AGCATGCTGCAGTCATGCTTAGGCTA
Первый фрагмент AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Второй фрагмент AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Восстановленная последовательность AGCATGCTGCAGTCATGCTTAGGCTA

Данный пример является крайне упрощенным. Однако он отражает одну из важнейших особенностей процесса секвенирования генома методом дробовика. А именно, ни один из четырёх ридов, представленных в таблице, не покрывает полностью всю исходную последовательность. Однако исходная последовательность может быть восстановлена основываясь на том факте, что риды, во-первых, перекрываются между собой, а, во-вторых, каждый нуклеотид из исходной последовательности встречается хотя бы в одном риде[1].

При секвенировании методом дробовика реальных молекул ДНК получаются миллионы ридов[3], некоторые из которых могут содержать ошибки, которые затем должны быть собраны в исходную последовательность. Разумеется, работа такого объёма не может быть проделана вручную, поэтому для сборки последовательности ДНК из ридов используется специальное программное обеспечение. Задача усложняется тем, что ДНК часто содержит повторяющие последовательности, а значит, похожие риды могут быть получены из удаленных друг от друга частей ДНК[4].

Для того, чтоб справиться с этой проблемой секвенирование обычно проводят таким образом, чтобы каждый нуклеотид исходной последовательности встречался не в одном, а сразу во многих ридах. Так, например, при секвенировании генома человека использовалось 12X покрытие, то есть каждый нуклеотид в среднем встречался в 12 ридах[5].

Секвенирование полного генома методом дробовика[править | править вики-текст]

История[править | править вики-текст]

Идея использования метода дробовика для секвенирования малых геномов (4000—7000 kb) была предложена в 1979 году[1]. А два года спустя — в 1981 году — метод дробовика был впервые применен на практике для секвенирования полного генома вируса мозаики цветной капусты[6][7].

Метод[править | править вики-текст]

Процесс секвенирования методом дробовика состоит из нескольких этапов. Сначала секвенируемая ДНК подвергается амплификации. Полученные копии ДНК разрезаются на фрагменты с помощью сайт-неспецифичных нуклеаз. Сайт-неспецифичность важна для того, чтобы получались перекрывающиеся фрагменты[8][9]. Из полученных фрагментов строится геномная библиотека путём встраивания фрагментов в некоторый вектор. Из полученной геномной библиотеки случайным образом выбирается некоторое подмножество фрагментов, каждый из которых секвенируется, например, методом Сэнгера. Затем с помощью специального программного обеспечения из полученных нуклеотидных последовательностей фрагментов, называемых ридами, собирается нуклеотидная последовательность исходной ДНК[1].

Сборка[править | править вики-текст]

В процессе сборки исходной последовательности ДНК перекрывающиеся риды собираются в более крупные последовательности, называемые контигами. Контиги представляют из себя непрерывные части восстанавливаемой последовательности ДНК. Контиги в свою очередь объединяются в ещё более крупные последовательности — скаффолды — которые уже не обязательно являются непрерывными частями исходной ДНК и могут содержать пропуски. Если секвенирование проводилось методом парных прочтений, то расстояние между контигами в скаффолде может быть выведено на основании информации о позиции спаренных ридов[10]. В зависимости от расстояния между контигами могут быть использованы различные методы для заполнения пропусков в скаффолдах. Если зазор мал (5—20 kb), то данная область амплифицируется с помощью ПЦР, а затем секвенируется. Если зазор большой (> 20kb), то пропущенный фрагмент клонируют в специальных векторах, таких как искусственная бактериальная хромосома, с последующим секвенированием вектора[11].

Секвенирование парных прочтений[править | править вики-текст]

По мере того, как стали секвенировать все более и более длинные последовательности ДНК, стало понятно, что полезно бывает секвенировать обе цепи ДНК. Во-первых, нередки случаи, когда из-за особенностей конформации ДНК определение нуклеотида на некоторой позиции на одной из цепей крайне затруднительно, тогда как на второй цепи нуклеотид в той же позиции может быть легко определён. Во-вторых, информация о взаимном расположении спаренных ридов может быть использована для определения расстояния между контигами в скаффолде. Модификация метода дробовика, при которой секвенируются обе цепи ДНК, называется методом секвенирования парных прочтений или «двуствольным» методом дробовика. Данный метод получил широкое распространение и использовался, в частности, при секвенировании генома человека[5].

При секвенировании парных прочтений ДНК разрезается на случайные фрагменты, которые затем группируются по весу (обычно 2, 10, 50 и 150 kb) и клонируются в векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности. Каждая последовательность называется конечным ридом или просто ридом, а две считанные последовательности с одного и того же клона — парными концевыми. Так как длина ридов при использовании метода обрыва цепи обычно не превышает 1000 пар оснований, то во всех, кроме самых маленьких клонов, парные концы будут перекрываться редко[12].

Первое опубликованное описание использования метода секвенирования парных концов датировано 1990 годом[13]. Эта работа была посвящена секвенированию человеческого гена гипоксантин-гуанинфосфорибозилтрансферазы, но парные концы в ней использовались лишь для устранения пропусков в последовательности после применения метода дробовика в его классической форме. В 1991 году было опубликовано первое теоретическое описание секвенирования парных концов в его полноценной форме[14], которое предполагало использование фрагментов постоянной длины. В то время считалось, что при секвенировании парных концов оптимально использовать фрагменты, длина которых втрое больше длины ридов. В 1995 году было показано[12], что при секвенировании парных концов возможно использовать фрагменты разных размеров, тем самым продемонстрировано, что данный подход может быть использован для секвенирования длинных последовательностей ДНК. Впоследствии данный подход активно использовался при секвенировании геномов различных организмов: генома гемофильной палочки в 1995 году[15], генома дрозофилы (плодовой мушки) в 2000 году[16] и наконец генома человека[5] в 2001 году.

Покрытие[править | править вики-текст]

Покрытие — это среднее число ридов, покрывающих одну позицию в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (), количества ридов (), и средней длины рида (), как: . Также иногда покрытием называется доля позиций генома, покрываемых ридами. Высокое покрытие в методе дробовика необходимо, поскольку оно позволяет избавиться от ошибок сборки, связанных с наличием в ДНК повторяющихся последовательностей[17].

Иерархическое секвенирование методом дробовика[править | править вики-текст]

Во время полногеномного секвенирования методом дробовика (верх) целый геном разрезается случайным образом на фрагменты, которые затем секвенируются и собираются в целую последовательность. Во время иерархического секвенирования методом дробовика (низ) геном сначала разбивается на крупные фрагменты. После упорядочивания этих фрагментов, они разбиваются на более мелкие части, которые уже могут быть подвергнуты секвенированию

Мотивация[править | править вики-текст]

Теоретически метод дробовика может быть применен к геномам любого размера, однако изначально возможность его реального применения для полногеномного секвенирования ставилась под сомнение и из-за технических сложностей, возникающих при обработке больших объёмов данных, и из-за дополнительных сложностей, возникающих в связи с наличием огромного количества повторяющихся участков в больших геномах[18]. Возникновение метода иерархического секвенирования сделало возможным применение метода дробовика к большим геномам на практике.

Метод[править | править вики-текст]

Амплифицированный геном сначала режут на крупные куски (50—200 kb) и клонируют в бактериальном хозяине с использованием искусственной бактериальной хромосомы. Поскольку несколько копий генома были разрезаны случайным образом, фрагменты, также именующиеся BAC-контигами, содержащиеся в этих клонах, имеют разные концы, а значит можно найти скаффолд, имеющий удовлетворительное покрытие и покрывающий весь геном целиком. Такой скаффолд называется покрывающим путем[19].

Набор BAC контигов, покрывающих всю рассматриваю область генома, составляют покрывающий путь

После того как покрывающий путь найден, BAC-контиги, формирующие этот путь, режутся случайным образом на более мелкие фрагменты, которые затем секвенируются с помощью метода дробовика. Хотя нуклеотидные последовательности BAC контигов неизвестны, можно определить их расположение друг относительно друга, а эту информацию впоследствии использовать для построения покрывающего пути[19].

Перекрывающиеся клоны могут быть идентифицированы несколькими способами. Один из способов — это использование небольшой радиоактивно или химически помеченной последовательности ДНК (STS). Такая последовательность гибридизируется на микрочипе, на котором воспроизводятся клоны[19]. Таким образом идентифицируются все клоны, содержащие помеченную последовательность. Конец одного из этих клонов секвенируется и используется как новая STS-последовательность. Такой итеративный процесс называется хромосомной ходьбой[20].

Другой способ идентификации пересекающихся клонов заключается в использовании ферментов рестрикции. Определённый участок генома обрабатывается набором нуклеаз рестрикции, после чего производится сравнение размеров полученных фрагментов ДНК. Это позволяет построить рестрикционную карту, на которой указано положение каждого сайта рестрикции относительно других участков[19]. Такой метод геномного отображения называется рестрикционным картированием, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне[21].

Необходимость построения обширной BAC-библиотеки и выбора покрывающего пути делает метод иерархического секвенирования значительно более медленным и трудоёмким в сравнении с полногеномным секвенированием методом дробовика. И теперь, когда технологии позволяют производить необходимые объёмы вычислений достаточно быстро, а данные стали достаточно достоверными, полногеномное секвенирование методом дробовика вытесняет иерархическое секвенирование, так как является более эффективным как из соображений скорости, так и из соображения издержек[18].

Метод дробовика и методы секвенирования нового поколения[править | править вики-текст]

Классический метод дробовика был основан на методе Сэнгера и являлся наиболее передовым методом секвенирования геномов приблизительно до 2005 года. Метод дробовика применяется и по сей день, однако на смену ему пришли новые технологии секвенирования, в отношении которых часто используется собирательное название технологии секвенирования нового поколения. Эти технологии производят более короткие риды (порядка 25—500 bp), но с очень высокой скоростью (порядка миллиона ридов в день)[3]. Как следствие, увеличивается покрытие, но процесс сборки генома из ридов становится более вычислительно трудоёмким. Итого методы секвенирования нового поколения в сравнении с методом дробовика требуют больших вычислительных ресурсов, однако позволяют получить последовательность полного генома за более короткий срок[22].

Примечания[править | править вики-текст]

  1. 1 2 3 4 5 6 Staden R. A strategy of DNA sequencing employing computer program (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7.
  2. Sanger F., Nicklen S., Coulson A. R. DNA sequencing with chain-terminating inhibitors (англ.) // PNAS. — 1977. — Vol. 74, no. 12. — P. 5463—5467.
  3. 1 2 Voelkerding K. V., Dames S. A., Durtschi J. D. Next Generation Sequencing: From Basic Research to Diagnostics (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41—47.
  4. Jason de Koning A. P., Gu W., Castoe T. A. et al. Repetitive Elements May Comprise Over Two-Thirds of the Human Genome (англ.) // PLoS Genetics. — 2011. — Vol. 7, no. 12.
  5. 1 2 3 Lander E. S., Linton L. M., Birren B. et al. Initial sequencing and analysis of the human genome (англ.) // Nature. — 2001. — Vol. 409, no. 6822. — P. 860—921.
  6. Gardner R. C., Howarth A. J., Hahn P., Brown-Luedi M., Shepherd R. J., Messing J. The complete nucleotide sequence of an infectious clone of cauliflower mosaic virus by M13mp7 shotgun sequencing (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 12. — P. 2871—2888.
  7. Doctrow B. Profile of Joachim Messing (англ.) // PNAS. — 2016. — Vol. 113, no. 29. — P. 7935—7937.
  8. Staden R. A strategy of DNA sequencing employing computer programs (англ.) // Nucleic Acids Research. — 1979. — Vol. 6, no. 7. — P. 2601—2610.
  9. Anderson S. Shotgun DNA sequencing using cloned DNase I-generated fragments (англ.) // Nucleic Acids Research. — 1981. — Vol. 9, no. 13. — P. 3015—3027.
  10. Fullwood M. J., Wei C. L., Liu E. T. et al. Next-generation DNA sequencing of paired-end tags (PET) for transcriptome and genome analyses (англ.) // Genome Research. — 2009. — Vol. 19, no. 4. — P. 521—532.
  11. Gregory S. Contig Assembly (англ.) // Encyclopedia of Life Sciences. — 2005.
  12. 1 2 Roach J. C., Boysen C., Wang K., Hood L. Pairwise end sequencing: a unified approach to genomic mapping and sequencing (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345—353.
  13. Edwards A., Caskey T. Closure strategies for random DNA sequencing (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41—47.
  14. Edwards A., Voss H., Rice P., Civitello A., Stegemann J., Schwager C., Zimmerman J., Erfle H., Caskey T., Ansorge W. Automated DNA sequencing of the human HPRT locus (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593—608.
  15. Fleischmann R. D. et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496—512.
  16. Adams M. D. et al. The genome sequence of Drosophila melanogaster (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185—2195.
  17. Meyerson M., Gabriel S., Getz G. Advances in understanding cancer genomes through second-generation sequencing. (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 10. — P. 685—696.
  18. 1 2 Venter J. C. Shotgunning the Human Genome: A Personal View (англ.) // Encyclopedia of Life Sciences. — 2006.
  19. 1 2 3 4 Dear P. H. Genome Mapping (англ.) // Encyclopedia of Life Sciences. — 2005.
  20. Chinault A. C., Carbon J. Overlap hybridization screening: Isolation and characterization of overlapping DNA fragments surrounding the leu2 gene on yeast chromosome III (англ.) // Gene. — 1979. — Vol. 5, no. 2. — P. 111—126.
  21. Gibson G., Muse S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
  22. Metzker M. L. Sequencing technologies - the next generation (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 1. — P. 31—46.

Ссылки[править | править вики-текст]