Метод дробовика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Shotgun2.svg

Метод дробовика (англ. Shotgun sequencing или шотган-секвенирование/клонирование) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть восстановлена исходная последовательность ДНК.

Предпосылкой для возникновения метода дробовика являлся тот факт, что первые методы секвенирования были способны восстанавливать лишь небольшие последовательности ДНК порядка 1000 нуклеотидов[1], а значит для секвенирования более длинных последовательностей требовалось разработать новый подход. При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют любым доступным методом, например, методом секвенирования по Сэнгеру. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специального программного обеспечения в одну целую последовательность.

Метод дробовика использовался при получении первых полных геномов организмов.[2]

Пример[править | править вики-текст]

Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:

Цепь Последовательность
Первоначальная AGCATGCTGCAGTCATGCTTAGGCTA
Первый фрагмент AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Второй фрагмент AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Восстановленная последовательность AGCATGCTGCAGTCATGCTTAGGCTA

Данный пример является крайне упрощенным. Однако он отражает одну из важнейших особенностей процесса секвенирования генома методом дробовика. А именно, ни один из четырех ридов, представленных в таблице, не покрывает полностью всю исходную последовательность. Однако исходная последовательность может быть восстановлена основываясь на том факте, что риды, во-первых, перекрываются между собой, а, во-вторых, каждый нуклеотид из исходной последовательности встречается хотя бы в одном риде.

При секвенировании методом дробовика реальных молекул ДНК получаются миллионы ридов,[3] некоторые из которых могут содержать ошибки, которые затем должны быть собраны в исходную последовательность. Разумеется, работа такого объема не может быть проделана вручную, поэтому для сборки последовательности ДНК из ридов используется специальное программное обеспечение. Задача усложняется тем, что ДНК часто содержит повторяющие последовательности, а значит похожие риды могут быть получены из удаленных друг от друга частей ДНК.

Для того, чтоб справиться с этой проблемой секвенирование обычно проводят таким образом, чтоб каждый нуклеотид исходной последовательности встречался не в одоном, а сразу во многих ридах. Так, например, при секвенировании генома человека использовалось 12X покрытие, то есть каждый нуклеотид в среднем встречался в 12 ридах.[4]

Расшифровка полного генома методом дробовика[править | править вики-текст]

Метод дробовика для малых геномов (4000- 7000-пар оснований) используется с 1979 г.[2] Более широкое применение получил метод при секвенировании парных концов,и стал известен как «двуствольный» метод дробовика. Несколько исследовательских групп, которые секвенировали более длинные последовательности ДНК методом дробовика, пришли к выводу, что полезная информация может быть получена при секвенировании парных концов фрагмента ДНК. Секвенирование с двух концов одного и того же фрагмента и отслеживание парных данных сложнее и объёмнее, чем секвенирование одного конца и получение двух отдельных фрагментов. Эти две последовательности ориентированы в противоположных направлениях и по длине фрагмента могут быть отдельны друг от друга, но, несмотря на это данные все равно являются ценными при восстановлении последовательности исходного целевого фрагмента. Первое опубликованное описание использования парных концов было в 1990 году[5] в качестве секвенируемой последовательности использовался локус гена человеческого гипоксантин-гуанинфосфорибозилтрансферазы. В 1991 году было опубликовано первое теоретическое описание секвенирования парных концов[6] , которое предполагало использование фрагментов постоянной длины. В то же время исследователи пришли к выводу о том, что оптимальная продолжительность чтения фрагмента последовательностей для парных концов должна читаться в три раза дольше, чем исходная последовательность. В 1995 году Роучем и др.[7] было введено новшество с использованием фрагментов разных размеров, и показано, что такой способ секвенирования подойдет лишь для больших генов. Этот замысел был впоследствии принят Институтом геномных исследований (TIGR), исследовавших последовательность генома бактерии гемофильной инфекции в 1995 году [8] , а затем Celera Genomics в секвенировании генома дрозофилы (плодовой мушки) в 2000 году[9] и впоследствии генома человека.

Этот способ заключается в следующем: режутся случайные фрагменты ДНК-нити с высоким молекулярным весом, отобранных по размеру (обычно 2, 10, 50 и 150 Кб) и клонируются в соответствующих векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности. Каждая последовательность называется конечным ридом или ридом, а две считанные последовательности с одного и того же клона – парными концевыми. Так как методом обрыва цепи обычно можно производить чтение оснований длиной только от 500 до 1000, то во всех, кроме самых маленьких клонов, парные концы будут перекрываться редко.

Исходная последовательность восстанавливается с помощью программного обеспечения сборки последовательностей. Изначально перекрытые риды собираются в более сложные последовательности, известные как контиги. Контиги могут быть связаны друг с другом в временные конструкции, между парными концами. Расстояние между контигами может быть выявлено из позиции соседних пар, если средняя длина фрагмента библиотеки известна и имеет небольшие отклонения. В зависимости от размера расстояния между контигами, могут быть использованы различные методы для поиска недостающей последовательности. Если зазор мал (5-20kb), то необходима область для амплификации с использованием ПЦР и последующим секвенированием. Если зазор большой (> 20kb), то больший фрагмент клонируют в специальных векторах, таких как искусственная бактериальная хромосома с последующим секвенированием вектора.

Сторонники этого подхода уверены, что можно секвенировать весь геном сразу с помощью больших массивов, которые гораздо эффективнее традиционных подходов. Противники же утверждают, что хоть техника для чтения ДНК-последовательностей больших областей быстро развивается, способность правильно связать все части генома является сомнительной, особенно для геномов с повторяющимися частями.

В будущем программы станут все более изобретательными, а вычислительная мощность дешевле, что поможет преодолеть противоречия.

Покрытие[править | править вики-текст]

Покрытие - это среднее число ридов, покрывающих одну позицию в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (), количества ридов (), и средней длины рида (), как: . Также иногда покрытием называется доля позиций генома, покрываемых ридами. Высокое покрытие в методе дробовика необходимо, поскольку оно позволяет избавиться от ошибок сборки, связанных с наличием в ДНК повторяющихся последовательностей.

Иерархическое секвенирование методом дробовика[править | править вики-текст]

Теоретически, метод дробовика можно применять к геномам любого размера. Но его непосредственное применение к большим геномам (например, генома человека) было ограничено до конца 1990-х годов, когда достижения в технологии еще не использовались в обработке огромных количеств сложных данных[10]. Так как полный геном ограничен огромными размерами больших генов и имеет сложности в секвенировании из-за высокого процента повторяющихся участков ДНК (более 50% для генома человека), присутствующих в больших геномах[11].

Признано, что метод дробовика для большой последовательности генома будет предоставлять достоверные данные. По этим причинам использовали другие методы для снижения вычислительной нагрузки последовательности сборки, перед проведением метода дробовика[11]. В иерархической последовательности, также известной как убывающее секвенирование с низким разрешением, физическая карта генома выполнена до фактического секвенирования. Из этой карты, минимальное количество фрагментов, которые охватывают всю хромосому, выбираются для секвенирования[12]. Таким образом, требуется минимальное количество высокой пропускной последовательности для сборки.

Амплифицированный геном сначала режут на крупные куски (50-200kb) и клонируют в бактериальном хозяине с использованием искусственной бактериальной хромосомы. Поскольку несколько копий генома были порезаны в случайном порядке, фрагменты, содержащиеся в этих клонах имеют разные концы, и платформа перекрытия искусственной бактериальной хромомсомы имеет достаточное покрытие, которое теоретически охватывает весь возможный геном. Эта платформа носит название - покрытая часть.

После того как покрытая часть найдена, последовательность которая формирует эту часть, режется случайным образом на более мелкие фрагменты, которые могут быть секвенированы с использованием метода дробовика в меньшем масштабе.

Несмотря на это, полные последовательности перекрытия бактериального искусственного генома не известны, в то время как известны их ориентации относительно друг друга. Есть несколько способов выведения этой части и выбора искусственного бактериального генома, которые составляют покрытую часть. Общая стратегия включает в себя следующие шаги:

1) Определение позиций клонов по отношению друг к другу;

2) Выбрать наименьшее количество клонов, необходимых для формирования непрерывного пласта, который охватывает всю интересующую область. Порядок клонов восстанавливается путем определения перекрытия относительно друг друга.[13]

Перекрытые клоны могут быть идентифицированы несколькими способами. Один из способов – это использование небольшой радиоактивно или химически помеченного зонда, содержащего участок последовательности с метками (STS). Он может быть гибридизирован на микрочипе, на котором напечатаны клоны[13]. Таким образом, все клоны, которые содержат определенную последовательность в геноме, идентифицированы. Конец одного из этих клонов может быть секвенирован с получением нового зонда, и процесс повторяется. Этот метод называется хромосомной ходьбой.

Другой способ идентифицирования клонов заключается в следующем. Производится  сравнение размеров фрагментов ДНК, полученных после обработки определенного участка генома набором рестрикцирующих нуклеаз позволяет построить рестрикционную карту, на которой указано положение каждого сайта рестрикции относительно других участков[13].

Этот метод геномного отображения называется рестрикционным картированием, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне[12].

Так как этот метод использует изначально создание карты генома с низкой разрешающей способностью, иерархический метод дробовика более трудоемкий, чем метод дробовика целого генома и в большей степени зависит от компьютерных алгоритмов. Процесс создания обширной библиотеки ВАС и выбора покрытой части, делает иерархический метод дробовика медленным и трудоемким. Однако когда эта технология стала доступной, она показала достоверность данных[11], высокую скорость секвенирования и оправданную стоимость для целого генома, благодаря чему метод дробовика стал основным методом секвенирования генома.

Метод дробовика и методы секвенирования нового поколения[править | править вики-текст]

Классический метод дробовика был основан на методе Сэнгера и являлся наиболее передовым методом секвенирования геномов приблизительно до 2005 года. Метод дробовика применяется и по сей день, однако на смену ему пришли новые технологии секвенирования, в отношении которых часто используется собирательное название - технологии секвенирования нового поколения. Эти технологии производят более короткие риды (порядка 25-500bp), но с очень высокой скоростью (порядка миллиона ридов в день).[3] Как следствие, увеличивается покрытие, но процесс сборки генома из ридов становится более вычислительно трудоёмким. Итого методы секвенирования нового поколения в сравнении с методом дробовика требуют больших вычислительных ресурсов, однако позволяют получить последовательность полного генома за более короткий срок.[14]

Примечания[править | править вики-текст]

  1. Sanger, F.; Nicklen, S.; Coulson, A.R. "DNA sequencing with chain-terminating inhibitors" (англ.) // Proc. Natl. Acad. Sci. USA. — 1977. — Vol. 74, no. 12. — P. 5463-5467.
  2. 1 2 Staden R. EM "A strategy of DNA sequencing employing computer program" (англ.). — 1979.
  3. 1 2 Karl, V; et al. "Next Generation Sequencing: From Basic Research to Diagnostics" (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41-47.
  4. Lander, E.S.; Linton, L.M; Birren, B.; et al "Initial sequencing and analysis of the human genome" (англ.) // Nature. — 2001. — Vol. 409, no. 6822. — P. 860-921.
  5. Edwards, A; Caskey, T "Closure strategies for random DNA sequencing" (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41-47.
  6. Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. "Automated DNA sequencing of the human HPRT locus" (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593-608.
  7. Roach, JC; Boysen, C; Wang, K; Hood, L "Pairwise end sequencing: a unified approach to genomic mapping and sequencing" (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345-343.
  8. Fleischmann, RD; et al. "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd" (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496-512.
  9. Adams, MD; et al. "The genome sequence of Drosophila melanogaster" (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185–95.
  10. Dunham, I. Genome Sequencing. (англ.) // Encyclopedia of Life Sciences. — 2005.
  11. 1 2 3 Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ (англ.) // Encyclopedia of Life Sciences. — 2006.
  12. 1 2 Gibson, G. and Muse, S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
  13. 1 2 3 Dear, P. H. Genome Mapping. (англ.) // Encyclopedia of Life Sciences. — 2005.
  14. Metzker, Michael L. "Sequencing technologies - the next generation". (англ.) // Nat Rev Genet. — 2010. — Vol. 11, no. 1. — P. 31-46.

Ссылки[править | править вики-текст]