Метод дробовика

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Метод дробовика (англ. Shotgun sequencing или шотган-секвенирование/клонирование) — метод, используемый для секвенирования длинных участков ДНК. Суть метода состоит в получении случайной массированной выборки клонированных фрагментов ДНК данного организма, на основе которых может быть составлена его геномная библиотека.

Поскольку обычные методы секвенирования могут быть применимы только к коротким отрезкам ДНК (100-1000 пар оснований), более длинные последовательности можно разделить на фрагменты, а затем собрать заново, чтобы получить полную последовательность большого участка ДНК. Для этого используются два основных метода: хромосомная ходьба (англ. chromosome walking), который позволяет определить шаг за шагом последовательность большого участка ДНК, и данный метод, который намного быстрее, но и сложнее, так как используются случайные фрагменты ДНК, которые затем необходимо собрать вместе (с помощью специального программного обеспечения).

При секвенировании методом дробовика ДНК случайным образом фрагментируется на мелкие участки, которые затем секвенируют обычными методами, например, методом секвенирования нового поколения. Полученные перекрывающиеся случайные фрагменты ДНК затем собирают с помощью специальных программ в одну целую большую последовательность, однако, при сборке некоторые затруднения представляют повторенные последовательности ДНК.

Метод дробовика применяли для получения первых полных геномов организмов.

Пример[править | править вики-текст]

Для примера, допустим, что имеются два случайных фрагмента, полученных методом дробовика:

Цепь Последовательность
Первоначальная AGCATGCTGCAGTCATGCTTAGGCTA
Первый фрагмент AGCATGCTGCAGTCATGCT-------
-------------------TAGGCTA
Второй фрагмент AGCATG--------------------
------CTGCAGTCATGCTTAGGCTA
Восстановленная последовательность AGCATGCTGCAGTCATGCTTAGGCTA

Наиболее часто используемыми программами для получения результатов в единое целое служат программы для сборки полученных ДНК-фрагментов

Расшифровка полного генома методом дробовика[править | править вики-текст]

Метод дробовика для малых геномов (4000- 7000-пар оснований) используется с 1979 г.[1] Более широкое применение получил метод при секвенировании парных концов,и стал известен как «двуствольный» метод дробовика. Несколько исследовательских групп, которые секвенировали более длинные последовательности ДНК методом дробовика, пришли к выводу, что полезная информация может быть получена при секвенировании парных концов фрагмента ДНК. Секвенирование с двух концов одного и того же фрагмента и отслеживание парных данных сложнее и объёмнее, чем секвенирование одного конца и получение двух отдельных фрагментов. Эти две последовательности ориентированы в противоположных направлениях и по длине фрагмента могут быть отдельны друг от друга, но, несмотря на это данные все равно являются ценными при восстановлении последовательности исходного целевого фрагмента. Первое опубликованное описание использования парных концов было в 1990 году[2] в качестве секвенируемой последовательности использовался локус гена человеческого гипоксантин-гуанинфосфорибозилтрансферазы. В 1991 году было опубликовано первое теоретическое описание секвенирования парных концов[3] , которое предполагало использование фрагментов постоянной длины. В то же время исследователи пришли к выводу о том, что оптимальная продолжительность чтения фрагмента последовательностей для парных концов должна читаться в три раза дольше, чем исходная последовательность. В 1995 году Роучем и др.[4] было введено новшество с использованием фрагментов разных размеров, и показано, что такой способ секвенирования подойдет лишь для больших генов. Этот замысел был впоследствии принят Институтом геномных исследований (TIGR), исследовавших последовательность генома бактерии гемофильной инфекции в 1995 году [5] , а затем Celera Genomics в секвенировании генома дрозофилы (плодовой мушки) в 2000 году[6] и впоследствии генома человека.

Этот способ заключается в следующем: режутся случайные фрагменты ДНК-нити с высоким молекулярным весом, отобранных по размеру (обычно 2, 10, 50 и 150 Кб) и клонируются в соответствующих векторах. Клоны секвенируют с обоих концов с использованием метода обрыва цепи, в результате которого образуются две коротких последовательности. Каждая последовательность называется конечным ридом или ридом, а две считанные последовательности с одного и того же клона – парными концевыми. Так как методом обрыва цепи обычно можно производить чтение оснований длиной только от 500 до 1000, то во всех, кроме самых маленьких клонов, парные концы будут перекрываться редко.

Исходная последовательность восстанавливается с помощью программного обеспечения сборки последовательностей. Изначально перекрытые риды собираются в более сложные последовательности, известные как контиги. Контиги могут быть связаны друг с другом в временные конструкции, между парными концами. Расстояние между контигами может быть выявлено из позиции соседних пар, если средняя длина фрагмента библиотеки известна и имеет небольшие отклонения. В зависимости от размера расстояния между контигами, могут быть использованы различные методы для поиска недостающей последовательности. Если зазор мал (5-20kb), то необходима область для амплификации с использованием ПЦР и последующим секвенированием. Если зазор большой (> 20kb), то больший фрагмент клонируют в специальных векторах, таких как искусственная бактериальная хромосома с последующим секвенированием вектора.

Сторонники этого подхода уверены, что можно секвенировать весь геном сразу с помощью больших массивов, которые гораздо эффективнее традиционных подходов. Противники же утверждают, что хоть техника для чтения ДНК-последовательностей больших областей быстро развивается, способность правильно связать все части генома является сомнительной, особенно для геномов с повторяющимися частями.

В будущем программы станут все более изобретательными, а вычислительная мощность дешевле, что поможет преодолеть противоречия.

Покрытие[править | править вики-текст]

Покрытие (читаемая глубина или глубина) это среднее число ридов, представляющих данный нуклеотид в реконструированной последовательности. Оно может быть рассчитано исходя из длины исходного генома (G), количества операций (N), и средней длины рида (L), как: N* L / G.

Например, гипотетический геном с 2000 п.о., реконструированный из 8 ридов со средней длиной 500 нуклеотидов, будет иметь двукратную избыточность. Этот параметр также позволяет оценить другие величины, такие как процент от генома, охватываемого ридами (иногда называемые также покрытием). Высокий охват в методе дробовика необходим, поскольку он может избавиться от ошибок в установлении оснований и сборки. В теории секвенирования ДНК рассматриваются отношения таких величин.

Иногда имеется различие между покрытой последовательностью и физической последовательностью. Покрытая последовательность является средним количеством основных ридов, в то время как физическое покрытие это средняя величина считанных оснований или расстояние парных ридов[7].

Иерархия метода дробовика[править | править вики-текст]

Теоретически, метод дробовика можно применять к геномам любого размера. Но его непосредственное применение к большим геномам (например, генома человека) было ограничено до конца 1990-х годов, когда достижения в технологии еще не использовались в обработке огромных количеств сложных данных[8]. Так как полный геном ограничен огромными размерами больших генов и имеет сложности в секвенировании из-за высокого процента повторяющихся участков ДНК (более 50% для генома человека), присутствующих в больших геномах[9].

Признано, что метод дробовика для большой последовательности генома будет предоставлять достоверные данные. По этим причинам использовали другие методы для снижения вычислительной нагрузки последовательности сборки, перед проведением метода дробовика[9]. В иерархической последовательности, также известной как убывающее секвенирование с низким разрешением, физическая карта генома выполнена до фактического секвенирования. Из этой карты, минимальное количество фрагментов, которые охватывают всю хромосому, выбираются для секвенирования[10]. Таким образом, требуется минимальное количество высокой пропускной последовательности для сборки.

Амплифицированный геном сначала режут на крупные куски (50-200kb) и клонируют в бактериальном хозяине с использованием искусственной бактериальной хромосомы. Поскольку несколько копий генома были порезаны в случайном порядке, фрагменты, содержащиеся в этих клонах имеют разные концы, и платформа перекрытия искусственной бактериальной хромомсомы имеет достаточное покрытие, которое теоретически охватывает весь возможный геном. Эта платформа носит название - покрытая часть.

После того как покрытая часть найдена, последовательность которая формирует эту часть, режется случайным образом на более мелкие фрагменты, которые могут быть секвенированы с использованием метода дробовика в меньшем масштабе.

Несмотря на это, полные последовательности перекрытия бактериального искусственного генома не известны, в то время как известны их ориентации относительно друг друга. Есть несколько способов выведения этой части и выбора искусственного бактериального генома, которые составляют покрытую часть. Общая стратегия включает в себя следующие шаги:

1) Определение позиций клонов по отношению друг к другу;

2) Выбрать наименьшее количество клонов, необходимых для формирования непрерывного пласта, который охватывает всю интересующую область. Порядок клонов восстанавливается путем определения перекрытия относительно друг друга.[11]

Перекрытые клоны могут быть идентифицированы несколькими способами. Один из способов – это использование небольшой радиоактивно или химически помеченного зонда, содержащего участок последовательности с метками (STS). Он может быть гибридизирован на микрочипе, на котором напечатаны клоны[11]. Таким образом, все клоны, которые содержат определенную последовательность в геноме, идентифицированы. Конец одного из этих клонов может быть секвенирован с получением нового зонда, и процесс повторяется. Этот метод называется хромосомной ходьбой.

Другой способ идентифицирования клонов заключается в следующем. Производится  сравнение размеров фрагментов ДНК, полученных после обработки определенного участка генома набором рестрикцирующих нуклеаз позволяет построить рестрикционную карту, на которой указано положение каждого сайта рестрикции относительно других участков[11].

Этот метод геномного отображения называется рестрикционным картированием, поскольку он идентифицирует набор сайтов рестрикции, содержащихся в каждом клоне[10].

Так как этот метод использует изначально создание карты генома с низкой разрешающей способностью, иерархический метод дробовика более трудоемкий, чем метод дробовика целого генома и в большей степени зависит от компьютерных алгоритмов. Процесс создания обширной библиотеки ВАС и выбора покрытой части, делает иерархический метод дробовика медленным и трудоемким. Однако когда эта технология стала доступной, она показала достоверность данных[9], высокую скорость секвенирования и оправданную стоимость для целого генома, благодаря чему метод дробовика стал основным методом секвенирования генома.

Метод дробовика и методы секвенирования нового поколения[править | править вики-текст]

Классический метод дробовика был основан на методе Сэнгера: это был наиболее передовой метод для секвенирования геномов приблизительно 1995-2005. Метод дробовика все еще применяется сегодня, однако используются и другие технологии секвенирования, называемые секвенирование нового поколения. Эти технологии производят меньше ридов (где-то от 25-500bp), более сотни тысяч или миллионов просмотров в относительно короткий промежуток времени (порядка суток).[12] Это приводит к высокому уровню охвата, но процесс имеет намного более интенсивные вычисления. Эти технологии значительно превосходят метод Сэнгера из-за большого объема данных и относительно короткого времени, необходимого для определения последовательности целого генома[13].

Примечания[править | править вики-текст]

  1. Staden R. EM "A strategy of DNA sequencing employing computer program" (англ.). — 1979.
  2. Edwards, A; Caskey, T "Closure strategies for random DNA sequencing" (англ.) // A Companion to Methods in Enzymology. — 1991. — Vol. 3, no. 1. — P. 41-47.
  3. Edwards, A; Voss, H.; Rice, P.; Civitello, A.; Stegemann, J.; Schwager, C.; Zimmerman, J.; Erfle, H.; Caskey, T.; Ansorge, W. "Automated DNA sequencing of the human HPRT locus" (англ.) // Genomics. — 1990. — Vol. 6, no. 4. — P. 593-608.
  4. Roach, JC; Boysen, C; Wang, K; Hood, L "Pairwise end sequencing: a unified approach to genomic mapping and sequencing" (англ.) // Genomics. — 1995. — Vol. 26, no. 2. — P. 345-343.
  5. Fleischmann, RD; et al. "Whole-genome random sequencing and assembly of Haemophilus influenzae Rd" (англ.) // Science. — 1995. — Vol. 269, no. 5223. — P. 496-512.
  6. Adams, MD; et al. "The genome sequence of Drosophila melanogaster" (англ.) // Science. — 2000. — Vol. 287, no. 5461. — P. 2185–95.
  7. Meyerson, M.; Gabriel, S.; Getz, G. "Advances in understanding cancer genomes through second-generation sequencing". (англ.) // Nature Reviews Genetics. — 2010. — Vol. 11, no. 10. — P. 685-696.
  8. Dunham, I. Genome Sequencing. (англ.) // Encyclopedia of Life Sciences. — 2005.
  9. 1 2 3 Venter, J. C. ‘’Shotgunning the Human Genome: A Personal View.’’ (англ.) // Encyclopedia of Life Sciences. — 2006.
  10. 1 2 Gibson, G. and Muse, S. V. A Primer of Genome Science. (англ.) // Encyclopedia of Life Sciences. — 2006. — Vol. 3rd, no. 84.
  11. 1 2 3 Dear, P. H. Genome Mapping. (англ.) // Encyclopedia of Life Sciences. — 2005.
  12. Karl, V; et al. "Next Generation Sequencing: From Basic Research to Diagnostics" (англ.) // Clinical Chemistry. — 2009. — Vol. 55, no. 4. — P. 41-47.
  13. Metzker, Michael L. "Sequencing technologies - the next generation". (англ.) // Nat Rev Genet. — 2010. — Vol. 11, no. 1. — P. 31-46.

Ссылки[править | править вики-текст]