Метод дробовика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Метод дробовика (англ. Shotgun sequencing или шотган-секвенирование/клонирование) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть составлена его геномная библиотека.

Поскольку обычные методы секвенирования могут быть применимы только к коротким отрезкам ДНК (100-1000 пар оснований), более длинные последовательности можно разделить на фрагменты, а затем собрать заново, чтобы получить полную последовательность большого участка ДНК. Для этого используются два основных метода: хромосомная ходьба (англ. chromosome walking), который позволяет определить шаг за шагом последовательность большого участка ДНК, и данный метод, который намного быстрее, но и сложнее, так как используются случайные фрагменты ДНК, которые затем необходимо собрать вместе (с помощью специального программного обеспечения).

При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют обычными методами, например, методом Сэнгера. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специальных программ в одну целую большую последовательность, однако, при сборке некоторые затруднения представляют повторенные последовательности ДНК.

Метод дробовика применяли для получения первых полных геномов организмов.

Пример[править | править вики-текст]

Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:

Цепь Последовательность
Первоначальная AGCATGCTGCAGTCATGCTTAGGCTA
Первый фрагмент AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Второй фрагмент AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Восстановленная последовательность AGCATGCTGCAGTCATGCTTAGGCTA

Наиболее часто используемой программой для сборки полученных ДНК-фрагментов в единое целое является программа Phred.

Расшифровка полного генома методом дробовика[править | править вики-текст]

Полный геном метода дробовика для малых (4000- 7000-пар оснований) геномов уже используется с 1979 г. [1] Более широкое применение получил метод секвенирования от парного конца, известный как Двуствольный метод дробовика. Когда проекты, основанные на методе, начали принимать более и более сложные последовательности ДНК, несколько групп начали понимать, что полезная информация может быть получена путем секвенирования обоих концов фрагмента ДНК. Хотя секвенирование обоих концов одного и того же фрагмента и отслеживание парных данных было громоздким, чем секвенирование одного конца двух отдельных фрагментов, зная, что эти две последовательности были ориентированы в противоположных направлениях и были по длине фрагмента отдельно друг от друга, оно было ценно при восстановлении последовательности исходного целевого фрагмента. Первое опубликованное описание использования спаренных концов было в 1990 году [2] в качестве части последовательности человеческого локуса гипоксантин-гуанинфосфорибозилтрансферазы, хотя использование спаренных концов было ограничено закрытыми зазорами после применения традиционного подхода метода дробовика. Первое теоретическое описание чистой парной стратегии секвенирования конца предполагало использование фрагментов постоянной длины с 1991 года. [3] Так же был консенсус сообщества о том, что оптимальная длина фрагмента для парной конечной последовательности будет в три раза больше длины читаемой последовательности. В 1995 году Роучем и др. [4] было введено новшество с использованием фрагментов разных размеров, и показано, что чистая стратегия парного конца последовательности будет возможна лишь для больших целей. Стратегия была впоследствии принята Институтом геномных исследований (TIGR) исследовавших последовательность генома бактерии гемофильной инфекции в 1995 году [5] , а затем Celera Genomics секвенирование генома дрозофилы (плодовой мухи) в 2000 году [6] и впоследствии генома человека.

Стратегия заключается в следующем: срезаются случайные фрагменты ДНК-нити с высоким молекулярным весом, отобранных по размеру (обычно 2, 10, 50 и 150 Кб), и клонируются в соответствующих векторах. Клоны секвенируют с обоих концов с использованием метода терминации цепи, дающую две коротких последовательности. Каждая последовательность называется конечным ридом или ридом, а две операции чтения из того же клона называются парами спаривания. Так как метод терминации цепи обычно может производить чтение оснований длиной только от 500 до 1000, во всех, кроме самых маленьких клонов, спаренные пары редко будут перекрываться.

Исходная последовательность восстанавливается с помощью программного обеспечения последовательности сборки. Во-первых, перекрытые риды собираются в более сложных последовательностях, известные как контиги. Контиги могут быть связаны друг с другом в каркасах, следуя связи между парами сочленений. Расстояние между контигами может быть выведено из позиции соседних пар, если средняя длина фрагмента библиотеки известна и имеет узкое окно отклонения. В зависимости от размера зазора между контигами, могут быть использованы различные методы для поиска последовательностей в зазорах. Если зазор мал (5-20kb), то необходима область для амплификации с использованием ПЦР и последующее секвенирование. Если зазор большой (> 20kb), то большой фрагмент клонируют в специальных векторах, таких как БАК (бактериальный искусственные хромосомы) с последующим секвенированием вектора.

Сторонники этого подхода утверждают, что можно секвенировать весь геном сразу с помощью больших массивов, делающих весь процесс гораздо более эффективным, чем более традиционные подходы. Противники утверждают, что хотя техника для чтения последовательностей больших областей ДНК быстро развивается, способность правильно связать все части является сомнительной, особенно для геномов с повторяющимися частями. В дальнейшем программы стали все более изощренными и вычислительная мощность дешевле, что помогло преодолеть противоречия.

Покрытие[править | править вики-текст]

Покрытие (читаемая глубина или глубина) это среднее число ридов, представляющих данный нуклеотид в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (G), количества операций (N), и средней длина рида (L), как N* L / G. Например, гипотетический геном с 2000 пар оснований реконструированы из 8 ридов со средней длиной 500 нуклеотидов, будет иметь 2xкратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент от генома, охватываемого ридами (иногда называемые также покрытием). Высокий охват в методе дробовика необходим, поскольку он может преодолеть ошибки в базе вызова и сборки. Предметом теории секвенирования ДНК рассматриваются отношения таких величин.

Иногда имеется различие между охватом последовательности и физической базой. Охват последовательности является средним количеством базовых ридов (как описано выше). Физическое покрытие это среднее число считанных оснований или притянутых парных ридов. [7]

Иерархия метода дробовика[править | править вики-текст]

Теоретически метод дробовика может быть применен к геномам любого размера, но его непосредственное применение к последовательности больших геномов (например, генома человека) было ограничено до конца 1990-х годов, когда технологические достижения помогли совершить обработку огромных количествах сложных данных, участвующих в процессе. [8] Исторически сложилось, что полный геном метода дробовика, как полагают, ограничен огромными размерами больших геномов и сложностью благодаря высокому проценту повторяющихся ДНК (более 50% для геном человека) присутствующих в больших геномах.[9] Так же было признано, что метод дробовика для большой последовательности генома будет предоставлять достоверные данные. По этим причинам использовали другие методы для снижения вычислительной нагрузки последовательности сборки, перед проведением метода дробовика.[9] В иерархической последовательности, также известной как убывающее секвенирование, с низким разрешением физическая карта генома выполнена до фактического секвенирования. Из этой карты, минимальное количество фрагментов, которые охватывают всю хромосому, выбираются для секвенирования.[10] Таким образом, требуется минимальное количество высокой пропускной последовательности и сборки.

Амплифицированный геном сначала стригут в более крупные куски (50-200kb) и клонируют в бактериальном хозяине с использованием BACs или РАС. Поскольку несколько копий генома были стрижены в случайном порядке, фрагменты, содержащиеся в этих клонах имеют разные концы, и с достаточным покрытием (смотри раздел выше) находится платформа перекрытия BACа, который охватывает весь теоретически возможный геном. Эта платформа называется покрытая часть.

После того как покрытая часть была найдена, BACи, которые формируют эту часть, стригут случайным образом на более мелкие фрагменты и могут быть секвенированы с использованием метода дробовика в меньшем масштабе.

Несмотря на это, полные последовательности перекрытия ВАСа не известны, а ориентации относительно друг друга известны. Есть несколько способов выведения этой части и выбора ВАС, которые составляют покрытую часть. Общая стратегия включает в себя определение позиций клонов по отношению друг к другу, а затем выбрать наименьшее количество клонов, необходимых для формирования непрерывного пласта, который охватывает всю интересующую область. Порядок клонов выводится путем определения, каким образом они перекрывают друг друга.[11] Перекрытие клоны могут быть идентифицированы несколькими способами. Небольшой радиоактивно или химически помеченный зонд, содержащий участок последовательности с метками (STS) может быть гибридизирован на микрочипе, на которой напечатаны клоны.[11] Таким образом, все клоны, которые содержат определенную последовательность в геноме, идентифицированы. Конец одного из этих клонов может быть секвенирован с получением нового зонда, и процесс повторяется, и в методе называется хромосомной ходьбой.

В качестве альтернативы, библиотека BAC может быть ограниченно разделена. Два клона, которые перекрываются и имеют несколько фрагментов общего размера, выводятся, поскольку они содержат несколько сайтов рестрикции, аналогично разнесенных в общем.[11] Этот метод геномного отображения называется ограничением дактилоскопии, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне. После того, как перекрытие между клонами было обнаружено, и их порядок относительно генома известного, пласт минимального подмножества перекрытий, которое охватывает весь геном, является ружьем-секвенсором.[10]

Так как он включает в себя создание первого с низкой разрешающей способностью карту генома, иерархический метод дробовика медленнее, чем целая последовательность генома дробовика, но предполагает более меньшую и сильную на основе компьютерных алгоритмов, чем целый геном метода дробовика. Процесс создания обширной библиотеки ВАС и выбора покрытой части, однако, делает иерархический метод дробовика медленным и трудоемким. Теперь, когда эта технология доступна и она показала достоверность данных[9] , скорость и эффективность затрат на целый геном, метод дробовика стал основным методом секвенирования генома.

Метод дробовика и методы нового поколения[править | править вики-текст]

Классический метод дробовика был основан на методе Сэнгера: это был наиболее передовой метод для секвенирования геномов приблизительно 1995-2005. Метод дробовика все еще применяется сегодня, однако используются и другие технологии секвенирования, называемые следующего поколением. Эти технологии производят меньше ридов (где-то от 25-500bp), более сотни тысяч или миллионов просмотров в относительно короткий промежуток времени (порядка суток).[12] Это приводит к высокому уровню охвата, но процесс имеет намного более интенсивные вычисления. Эти технологии значительно превосходят метод Сэнгера из-за большого объема данных и относительно короткого времени, необходимого для определения последовательности целого генома.[13]

Ссылки[править | править вики-текст]



  1. Staden R. EM "A strategy of DNA sequencing employing computer program" (англ.). — 1979.
  2. Edwards, A; Caskey, T "Closure strategies for random DNA sequencing" (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41-47.
  3. Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. "Automated DNA sequencing of the human HPRT locus" (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593-608.
  4. Roach, JC; Boysen, C; Wang, K; Hood, L "Pairwise end sequencing: a unified approach to genomic mapping and sequencing" (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345-343.
  5. Fleischmann, RD; et al. "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd" (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496-512.
  6. Adams, MD; et al. "The genome sequence of Drosophila melanogaster" (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185–95.
  7. Meyerson, M.; Gabriel, S.; Getz, G. "Advances in understanding cancer genomes through second-generation sequencing". (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 10. — P. 685-696.
  8. Dunham, I. Genome Sequencing. (англ.) // Encyclopedia of Life Sciences. — 2005.
  9. 1 2 3 Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ (англ.) // Encyclopedia of Life Sciences. — 2006.
  10. 1 2 Gibson, G. and Muse, S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
  11. 1 2 3 Dear, P. H. Genome Mapping. (англ.) // Encyclopedia of Life Sciences. — 2005.
  12. Karl, V; et al. "Next Generation Sequencing: From Basic Research to Diagnostics" (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41-47.
  13. Metzker, Michael L. "Sequencing technologies - the next generation". (англ.) // Nat Rev Genet. — 2010. — Vol. 11, no. 1. — P. 31-46.