Сборка транскриптома de novo

Материал из Википедии — свободной энциклопедии
(перенаправлено с «De novo сборка транскриптома»)
Перейти к навигации Перейти к поиску

Сборка транскриптома de novo — метод сборки последовательностей транскриптома, который осуществляется без картирования на референсный геном. Из коротких фрагментов (ридов или прочтений), полученных при секвенировании, воссоздаются отдельные последовательности РНК или транскрипты.

Введение[править | править код]

В период с 2008 по 2018 год в связи с разработкой новых технологий произошло значительное снижение стоимости секвенирования.[1] До технологического прорыва секвенирование транскриптомов производилось только для тех организмов, которые представляли большой интерес для научных исследований. Однако с развитием технологий секвенирования следующего поколения и методов RNA-seq стало возможно секвенировать транскриптомы сложных, полиплоидных немодельных организмов.[2] Создание сборок de novo для модельных организмов полезно для обнаружения новых изоформ существующих аннотированных генов, альтернативных событий сплайсинга и новых транскрибируемых генов в ответ на специфическое воздействие.[3]

Сборка транскриптома vs. сборка генома[править | править код]

Геномы большинства организмов сложны для сборки из-за большого размера, а также повсеместно встречающихся повторов. Транскриптомы же организмов, состоящие из последовательностей РНК, из которых в процессе сплайсинга вырезаются интроны, гораздо меньше по размеру и количеству повторов. Поэтому гораздо дешевле секвенировать транскриптом, чем геном. Последовательность генома — эта наиболее полная информация об организме, однако реализация генетической программы порой гораздо важнее и инетереснее, чем сама программа. Поэтому узнать о том, какие участки генома транскрибируются и какие продукты они дают, можно при помощи технологии секвенирования RNA-seq. Транскриптомные данные почти всегда необходимы для точной аннотации генома. Что касается технической стороны обработки данных, алгоритмы сборки геномов плохо работают в случае неравномерного покрытия ридами, а в случае транскриптома гены могут иметь очень разное покрытие из-за разницы в уровнях эксрессии.[4]

De novo cборка транскриптома vs. сборка транскриптома с использованием референсной последовательности[править | править код]

De novo сборка транскриптома не требует наличия референсного генома. Учитывая, что большинство организмов на данный момент еще не отсеквенированы, de novo сборка транскриптома таких организмов может быть использована как первый этап в их изучении. Например, для изучения и сравнения транскриптомов между организмами, а также для анализа дифференциальной экспрессии при различных воздействиях на организм. Иногда бывает полезно собирать транскриптом de novo даже при наличии референсного генома, так как при этом можно обнаружить транскрибируемые участки, последовательности которых отсутствуют в геномной сборке. Имея de novo сборку и референсный геном можно детектировать транскрипты экзогенного происхождения. Самое важное отличие de novo сборки в том, что при этом не требуется выравнивать последовательности и решать проблемы поиска или предсказания сайтов сплайсинга, помимо этого удается собирать транскрипты, полученные в результате транссплайсинга. Однако сборка de novo является алгоритмически сложным и вычислительно затратным процессом. Также данный подход отличается высокой чувствительностью к ошибкам.[4]

Этапы сборки транскриптома de novo[править | править код]

Экспериментальная часть[править | править код]

Для секвенирования транскриптома используются стандартные протоколы подготовки образцов, в ходе которых выделяют все возможные последовательности РНК (тотальная РНК), уменьшают количество рибосомной РНК, производят обратную транскрипцию, фрагментируют кДНК, лигируют адаптеры, амплифицируют и секвенируют короткие фрагменты кДНК.[5]

В случае de novo сборки транскриптома важно принимать во внимание некоторые особенности пробоподготовки. Во-первых, в одном организме транскриптом клеток может значительно различаться в зависимости от ткани, времени взятия образца, а также наличия того или иного стресса. Для сборки транскриптома de novo неизвестного организма необходимо иметь информацию о всех экспрессирующихся генах. Для этого необходимо секвенировать как можно больше органов и тканей в условиях различных стрессов. Во-вторых, так как гены различаются по уровню экспрессии, то в составе тотальной РНК одних транскриптов будет больше, а других меньше. Соответственно больше всего ридов будет получено от высокоэкспрессирующихся генов, в то время как низкоэкспрессирующиеся гены могут быть неотсеквенированы. Из этого вытекает еще одна особенность сборки транскриптома de novo: глубина секвенирования должна быть довольно высока, чтобы детектировать даже низкоэкспрессирующиеся гены. Существует экспериментальная процедура нормализации библиотеки кДНК, которая позволяет увеличить среднее покрытие. Этот метод основан на действии дуплекс-специфической нуклеазы.[6] При этом молекулы кДНК, полученные в ходе обратной транскрипции, нагревают, чтобы они денатурировали. При ренатурации одноцепочечные молекулы кДНК высокоэкспрессированных транскриптов быстрее образуют дуплексы, которые затем расщепляются специальной нуклеазой. Так уменьшается количество кДНК высокоэкспрессируемых генов и увеличивается вероятность, что при данной глубине секвенирования получится увеличить покрытие низкоэкспрессируемых генов.[6]

Предобработка данных секвенирования[править | править код]

Оценка качества и триммирование ридов[править | править код]

В процессе секвенирования могут возникать ошибки при прочтении.

Качество секвенирования оценивается с помощью метрики Phred quality score (Q score). Она рассчитывается для каждого нуклеотида по формуле , где P — это вероятность ошибки. При Q > 20 можно говорить о хорошем качестве прочтения нуклеотида, то есть вероятность того, что он неверно отсеквенирован составляет 1 %. Первичный анализ данных секвенирования (QC report) проводится в программе FastQC.[7] Далее по порогу Q score можно отсекать нуклеотиды с низким качеством с концов прочтения (там качество заметно ниже), а также удалять последовательности адаптеров. Эта процедура называется триммированием.[8]

«Цифровая» нормализация[править | править код]

Проблема перепредставленности некоторых транскриптов и, соответственно, проблема неравномерности покрытия решается не только с помощью экспериментальной процедуры, но и методом цифровой нормализации (digital normalization)[9]. При этом создается хеш-таблица : последовательность k-мера и его представленность (количество во всех ридах). Далее на основании этой таблицы для каждого рида рассчитывается медианное значение покрытия по k-мерам, из которых он состоит. Устанавливается порог по покрытию, по которому прочтения с медианным значением выше данного отбрасываются. Таким образом удаляются риды с очень большим покрытием.[9]

Алгоритмы сборки транскриптома[править | править код]

Алгоритмы сборки транскриптома de novo очень схожи с таковыми для сборки генома. Их можно разделить на две группы:

  1. overlap-layout-consensus (OLC) алгоритмы. Они чаще применяются для длинных фрагментов.
  2. алгоритмы, основанные на графах де Брёйна или De Bruijn graph (DBG). Они чаще применяются для коротких фрагментов.

В отличие от сборки генома, при сборке транскриптома возникает задача восстановить множество нуклеотидных последовательностей, имеющих различную длину, а не одну исходную последовательность.

Overlap-layout-consensus(OLC)-алгоритмы[править | править код]

Алгоритмы OLC работают непосредственно с ридами и производят с ними следующие операции[10]:

  • Первый шаг: поиск пересекающихся (overlapping) ридов
  • Второй шаг: построение графа, в вершинах которого находятся сами прочтения, а ребра отражают перекрытия.
  • Третий шаг: поиск контигов — неразветвленных путей в построенном графе перекрытий. Этот шаг подразумевает поиск Гамильтова пути — пути, содержащего каждую вершину графа ровно один раз, что является NP-сложной задачей и не позволяет работать на больших графах.
  • Четвертый шаг: построение множественного выравнивания по попарным выравниваниям фрагментов и определение консенсусной последовательности.

OLC подходы были разработаны для сборки длинных прочтений, созданных по методике Сэнгера, и были широко распространены до появления секвенирования следующего поколения. Сейчас однако есть популярные пакеты, использующие данные алгоритмы для сборки транскриптомных и геномных последовательностей.[10]

Алгоритмы на графах де Брёйна (DBG)[править | править код]

С развитием технологий секвенирования следующего поколения, получение фрагментов (ридов) стало на порядок дешевле, но размер фрагментов стал меньше. Для сборки из коротких прочтений было предложено использовать графы де Брёйна. Вершинами графа де Брёйна являются возможные k-меры (строки длины k), выделенные из исходных прочтений. Два k-мера, соединяются в графе ребром, если они являются префиксом и суффиксом k+1-мера, также представленного в исходных прочтениях. Ребром является k+1-мер.[10]

Оптимальное значение k для сборки зависит от длины прочтения, глубины секвенирования, частоты ошибок и сложности транскриптома конкретного вида.[11] Для низкоэкспрессируемых генов с маленьким покрытием, для которых риды слабо перекрываются для улучшения качества сборки подходит уменьшенное значение k. В то время как большие значения k позволяют разрешать повторы и участки с ошибками. Оптимальные значения k лежат в пределе от 21 до 50.[11]

Далее производятся четыре типа упрощений графа: сжатие путей, удаление ошибок, раздвоение вершин, из которых выходит несколько ребер и, если доступны парные чтения, разрешение небольших повторов. После этого риды накладываются на граф де Брёйна и происходит восстановление последовательностей контигов: при этом последовательно обходят все ребра графа.[12]

Разрешение повторов[править | править код]

Пример повтора в графе де Брейна. A,B,C,D — уникальные последовательности транскриптов. R — последовательность повтора. r1,2,3,4,5,6 — последовательности прочтений секвенирования

После построения графа требуется провести дополнительные процедуры по разрешению повторов. Повтор в транскриптоме изменяет граф де Брёйна, склеивая участки графа, соответствующие различным транскриптам[13]. Разрешение повторов — это этап, на котором происходит попытка определить, какой путь в графе на самом деле содержит повтор. Затем происходит разделение повтора, при котором создаётся по копии повтора для каждого истинного пути.[13]

Рассмотрим пример повтора в графе де Брёйна, представленном на Рисунке 1. Сборщик использует информацию об имеющихся ридах, чтобы оценить возможность существования каждого из четырёх вариантов. Длинный рид r1 позволяет однозначно определить, что повтор имеется в последовательностях ARB и CRD, а не в ARD и CRB. Об этом же свидетельствуют риды r5 и r6. Короткие риды r2, r3, r4 не позволили бы однозначно разрешить повтор. Чем длиннее риды, тем больше повторов мы сможем разрешить. Однако при секвенировании следующего поколения получаются короткие риды. Возможность разрешить повторы появляется при использовании парных ридов.[13]

Альтернативный сплайсинг[править | править код]

События альтернативного сплайсинга существенно усложняют процесс сборки, причем как de novo, так и при наличии референсной последовательности. Процедура определения истинных изоформ осуществляется уже после сборки контигов. Как и в случае повторов парные чтения дают ключевую информацию о возможных изоформах. Эту информацию удобно представлять в виде сплайс-графов, в вершинах которых находятся экзоны, а ребра отображают возможные соединения между ними.[14]

Сравнение OLC и DBG[править | править код]

Алгортимы, основанные на перекрывании ридов, менее чувствительны к ошибкам, однако для построения графа требуется больше вычислительной мощности. На время построения графа чтений негативно влияет число, а не длина ридов. Ключевой параметр данных алгоритмов — длина перекрытия.[15]

Алгоритмы, основанные на графах де Брейна, очень чувствительны к повторам и ошибкам в чтениях. Одна ошибка в чтении создает k ошибочных узлов. Использование этих алгоритмов позволяет экономить память (большинство k-меров встречается во многих ридах). Также упрощается работа с повторяющимися участками. Помимо этого есть возможность отсеивать ошибки уже на начальной стадии обработки данных. Ключевой параметр данных алгоритмов — k, длина k-мера.[15]

Оценка качества сборки[править | править код]

После того, как сборка последовательностей была создана, необходимо оценить ее качество. При оценки результатов сборки используются не один параметр, а принимаются во внимание сразу несколько показателей. Программы-сборщики для оценки качества сборки производят следующий анализ[16]:

  1. Для начала выравнивают прочтения секвенирования на полученную сборку. Этот процесс называется обратным картированием. Таким способом можно оценить, насколько хорошо были собраны последовательности (если картируется >70 %, то сборку можно считать хорошей);
  2. Также можно посчитать число контигов. Контиг — участок транскриптома, покрытый прочтениями без пробелов. Каждый контиг в de novo сборке — это отдельный транскрипт. Если известна информация о том, сколько примерно генов транскрибируется в организме с учетом альтернативного сплайсинга, то можно сравнить число контигов и известное число транскриптов. Таким образом можно оценить, достаточно ли информативна сборка;
  3. Другой важной характеристикой сборки является среднее покрытие контигов. Чем оно больше, тем достовернее данные сборки;
  4. Самой распространенной метрикой при оценке сборки является N50. Это длина контига, который, вместе со всеми контигами большей длины, присутствующими в сборке, покрывает 50 % транскриптома или более;
  5. Также оценивают число контигов > 1000 пар нуклеотидов;
  6. Далее проводят картирование контигов с помощью Blast на базу белков или транскриптома близкого организма (чтобы понять, какая часть транскриптома была собрана) и оценивают число найденных совпадений в белковой/транскриптомной базе. Это процедура называется прямой аннотацией.
  7. Также производят обратную аннотацию, то есть картируют референсные белки на контиги сборки и также фиксируют число совпадений.

Метрики для оценки качества можно разделить на две группы — статистические показатели и метрики, основанные на аннотации. Первая группа была разработана раньше и используется для оценки сборки генома. К ней относят процент картировавшихся прочтений (то есть использующихся при сборке), число контигов, N50, среднее покрытие контигов, число контигов > 1000 пар нуклеотидов. Однако для использования таких метрик, как N50 и число контигов необходимо иметь оценки размера исследуемого транскриптома. Метрики, основанные на аннотации, включают в себя число находок при прямой и обратной аннотации, а также еще несколько дополнительных показателей. Ortholog hit ratio (OHR) или отношение длины участка контига, картировавшегося на последовательность из референсной базы, к длине всей этой последовательности позволяет оценить полноту сборки. Данная метрика используется при прямой аннотации. Чем она больше, тем более полная сборка в итоге была создана.[16] При обратной же рассчитывается Collapse Factor(CF), который может быть полезен при сборке полиплоидных организмов или организмов с большим числом паралогов. При сборке несколько одинаковых контигов, которые на самом деле соответствуют паралогам, они могут быть расценены как ошибка секвенирования и «сколлапсироваться» в один единственный контиг. Эту ошибку можно зафиксировать, если при обратной аннотации (при этом референсная база белков должна быть из относительно близкого организма) одному контигу соответствует несколько белков. Collapse Factor(CF) как раз и оценивает, сколько находок соответствует контигу. Чем больше эта величина, тем хуже качество сборки из-за ее пересобранности.[16]

Следует аккуратно выбирать метрику, а также и данные, на которых эта метрика рассчитывается. Для расчета процента картирующихся на сборку ридов, N50, среднего покрытия, среднего OHR используют полный набор результатов работы сборщика (то есть контиги, а также и риды, которые в сборку не попали — синглетоны). Только контиги используют для подсчета совпадений с референсными базами при прямой и обратной аннотации, а также при подсчете Collapse Factor(CF).[16]

Ассемблеры[править | править код]

SeqMan NGen

SeqMan NGen, входящий в состав программного обеспечения DNASTAR’s, включает сборщик транскриптома de novo для различных по размеру наборов данных транскриптома. В основе SeqMan NGen алгоритм, который использует RefSeq для идентификации и слияния транскриптов и автоматически аннотирует собранные транскрипты с использованием собственного инструментария аннотации DNASTAR для идентификации и выделения уже известных и новых генов[17].

SOAPdenovo-Trans

SOAPdenovo-Trans является сборщиком транскриптома de novo, созданным на основе другого сборщика — SOAPdenovo2, предназначенного для сборки транскриптома с альтернативным сплайсингом и разным уровнем экспрессии. SOAPdenovo-Trans обеспечивает более полный способ построения полноразмерных наборов транскриптов по сравнению с SOAPdenovo2[18].

Velvet/Oases

Velvet выделяет для каждого чтения k-меры (все возможные последовательности длины k), после чего осуществляет сборку контигов на основе построения ориентированного графа де Брёйна. Данный алгоритм хорош для очень коротких (20-50 пн) парно-концевых чтений. Для таких ридов Velvet способен создавать контиги с N50 до 50 кб, используя данные прокариот, и до 3 кб в случае искусственных бактериальных хромосом. Для данных Solexa без парных прочтений Velvet создает контиги с N50 всего 8 кб для прокариот и 2 кб для искусственных бактериальных хромосом[19].

Oases — пакет программ, который предназначен для эвристической сборки транскриптов в отсутствии референсного транскриптома. Использует хеш-таблицу, динамическую фильтрацию шума (удаление «островных контигов», то есть не имеющих соседних контигов в графе де Брёйна и длиной менее 150 нуклеотидов), учитывает события альтернативного сплайсинга и осуществляет эффективное слияние нескольких сборок. Может использовать парно-концевые чтения, а также длинные последовательности для построения изоформ транскриптов[20].

Trans-ABySS

ABySS — ещё один сборщик, использующий парно-концевые чтения. Trans-ABySS — пакет программ, реализованных на Python и Perl, для сборки данных РНК-секвенирования. Может применяется к сборкам, сгенерированным в широком диапазоне k-значений. Сначала Trans-ABySS сводит набор данных к более мелким наборам контигов, находит события альтернативного сплайсинга, включая пропуски экзонов, образование новых экзонов, сохранение интронов, формирование новых интронов и альтернативное сращивание экзонов, после чего объединяет полученные сборки. Также способен оценивать уровень экспрессии генов, идентифицировать потенциальные сайты полиаденилирования и возможные химерные гены, образованные в результате слияния нескольких генов[21].

Trinity

Этот метод сборки транскриптома делит данные РНК-секвенирования на множество независимых графов де Брёйна (один граф соответствует одному экспрессируемому гену), после чего с помощью параллельных вычислений строит транскрипты из таких графов, включая альтернативные сплайсоформы. Может использовать как парно-концевые чтения, так и одиночные. Отличается понятным интерфейсом, который почти не требует никакой настройки параметров. Trinity состоит из трех независимых программных модулей, которые используются последовательно для создания транскриптов[22]:

Inchworm

Inchworm осуществляет сборку данных РНК-секвенирования в последовательности транскриптов. Часто генерирует полноразмерные транскрипты для преобладающих изоформ, а для альтернативно сплайсированных вариантов транскриптов выдает только уникальные участки[23].

Сhrysalis

Сhrysalis кластеризует контиги, полученные с помощью модуля Ichworm, и строит полные графы де Брёйна для каждого кластера[23].

Batterfly

Batterfly анализирует графы де Брёйна, после чего выводит все возможные последовательности транскриптов. Сначала объединяет вершины в однозначных путях в графе для получения вершин, соответствующим более длинным последовательностям, и удаляет ребра, поддерживаемые небольим числом чтений. Затем отслеживает пути ридов в полученном графе и выдает последовательности транскриптов[23].

Multiple-k

Данный метод обладает двумя алгоритмами сборки контигов:

Первый алгоритм, «исключающий», собирает контиги при большом значении k. В этому случае гены с высоким уровнем экспрессии соберутся наилучшим образом. Использованные риды удаляются и сборка повторяется, но уже с меньшим значением k. Это приводит к сборке генов с меньшим уровнем экспрессии. Такая процедура проводится несколько раз. Конечная сборка формируется при объединении контигов, полученных при разных сборках[2].

Второй алгоритм, «смешивающий», не удаляет чтения на каждом этапе (для различных k используется весь набор чтений). В таких условиях одинаковые контиги могут образоваться несколько раз. Для устранения такой избыточности контиги выравниваются сами на себя, и короткие и изюыточные контиги удаляются[2].

Cufflinks

На вход алгоритму подается фрагменты выровненных на геном последовательностей кДНК. Первый шаг в сборке фрагментов — идентификация пар несовместимых фрагментов, образованных из различных изоформ мРНК, полученных в результате сплайсинга. Неперекрывающиеся фрагменты являются совместимыми. Перекрывающиеся фрагменты принимаются за совместимые, если их перекрывания содержат полностью идентичные интроны. Строится граф перекрытий, в котором вершины соответствуют фрагменту, а ребра между двумя вершинами указывают на то, что они совместимы и имеют перекрывания. Затем граф сокращается в результате чего происходит частичное упорядочивание фрагментов. Далее алгоритм находит минимальное множество путей такое, чтобы любая вершина входила по крайней мере в один путь. По теореме Дилуорса[24] такое множество может быть построено, если найти максимально число фрагментов, каждый из которых не совместим с остальными из этого множества, то есть построить антицепь. Достроив каждый фрагмент антицепи до пути получим искомое покрытие. После чего фрагменты с помощью метода максимального правдоподобия распределяются по найденным транскриптам[25].

Примечания[править | править код]

  1. DNA Sequencing Costs: Data (англ.). National Human Genome Research Institute (NHGRI). Дата обращения: 12 апреля 2018. Архивировано 13 апреля 2018 года.
  2. 1 2 3 Yann Surget-Groba, Juan I. Montoya-Burgos. Optimization of de novo transcriptome assembly from next-generation sequencing data // Genome Research. — October 2010. — Т. 20, вып. 10. — С. 1432—1440. — ISSN 1549-5469. — doi:10.1101/gr.103846.109. Архивировано 23 июля 2018 года.
  3. Matthew Geniza, Pankaj Jaiswal. Tools for building de novo transcriptome assembly // Current Plant Biology. — 2017-09. — Т. 11—12. — С. 41—45. — ISSN 2214-6628. — doi:10.1016/j.cpb.2017.12.004.
  4. 1 2 Jeffrey A. Martin, Zhong Wang. Next-generation transcriptome assembly (англ.) // Nature Reviews Genetics. — 2011-09-07. — Т. 12, вып. 10. — С. 671—682. — ISSN 1471-0064 1471-0056, 1471-0064. — doi:10.1038/nrg3068. Архивировано 8 августа 2019 года.
  5. Sven Schuierer, Walter Carbone, Judith Knehr, Virginie Petitjean, Anita Fernandez. A comprehensive assessment of RNA-seq protocols for degraded and low-quantity samples // BMC Genomics. — 2017-06-05. — Т. 18. — С. 442. — ISSN 1471-2164. — doi:10.1186/s12864-017-3827-y.
  6. 1 2 P. A. Zhulidov, E. A. Bogdanova, A. S. Shcheglov, I. A. Shagina, L. L. Vagner. [A method for the preparation of normalized cDNA libraries enriched with full-length sequences] // Bioorganicheskaia Khimiia. — 2005-3. — Т. 31, вып. 2. — С. 186—194. — ISSN 0132-3423. Архивировано 16 апреля 2018 года.
  7. FastQC. Дата обращения: 2 мая 2018. Архивировано 3 мая 2018 года.
  8. Anthony M. Bolger, Marc Lohse, Bjoern Usadel. Trimmomatic: a flexible trimmer for Illumina sequence data (англ.) // Bioinformatics. — 2014-08-01. — Vol. 30, iss. 15. — P. 2114—2120. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btu170. Архивировано 20 мая 2018 года.
  9. 1 2 Brian J Haas, Alexie Papanicolaou, Moran Yassour, Manfred Grabherr, Philip D Blood. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis (англ.) // Nature Protocols. — 2013-07-11. — Т. 8, вып. 8. — С. 1494—1512. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2013.084.
  10. 1 2 3 Jason R. Miller, Sergey Koren, Granger Sutton. Assembly algorithms for next-generation sequencing data // Genomics. — 2010-06. — Т. 95, вып. 6. — С. 315—327. — ISSN 0888-7543. — doi:10.1016/j.ygeno.2010.03.001. Архивировано 3 мая 2018 года.
  11. 1 2 Rayan Chikhi, Paul Medvedev. Informed and automated k-mer size selection for genome assembly (англ.) // Bioinformatics. — 2014-01-01. — Vol. 30, iss. 1. — P. 31—37. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btt310. Архивировано 15 апреля 2018 года.
  12. Evangelos Georganas, Aydin Buluc, Jarrod Chapman, Leonid Oliker, Daniel Rokhsar. Parallel De Bruijn Graph Construction and Traversal for De Novo Genome Assembly (англ.) // SC14: International Conference for High Performance Computing, Networking, Storage and Analysis. — IEEE, 2014-11. — ISBN 9781479955008, 9781479954995. — doi:10.1109/sc.2014.41. Архивировано 11 июня 2018 года.
  13. 1 2 3 Niranjan Nagarajan, Mihai Pop. Sequence assembly demystified (англ.) // Nature Reviews Genetics. — 2013-01-29. — Т. 14, вып. 3. — С. 157—167. — ISSN 1471-0064 1471-0056, 1471-0064. — doi:10.1038/nrg3367. Архивировано 26 апреля 2019 года.
  14. Drosophila melanogaster Exon Database (DEDB). proline.bic.nus.edu.sg. Дата обращения: 20 мая 2018. Архивировано из оригинала 3 ноября 2018 года.
  15. 1 2 Zhenyu Li, Yanxiang Chen, Desheng Mu, Jianying Yuan, Yujian Shi. Comparison of the two major classes of assembly algorithms: overlap–layout–consensus and de-bruijn-graph (англ.) // Briefings in Functional Genomics. — 2012-01-01. — Vol. 11, iss. 1. — P. 25—37. — ISSN 2041-2649. — doi:10.1093/bfgp/elr035. Архивировано 15 апреля 2018 года.
  16. 1 2 3 4 Shawn T. O’Neil, Scott J. Emrich. Assessing De Novo transcriptome assembly metrics for consistency and utility // BMC Genomics. — 2013-07-09. — Т. 14. — С. 465. — ISSN 1471-2164. — doi:10.1186/1471-2164-14-465.
  17. DNASTAR- De Novo Transcriptome Assembly Software | DNASTAR. www.dnastar.com. Дата обращения: 13 апреля 2018. Архивировано 13 апреля 2018 года.
  18. BGI,Bioinformatics Center,SOAP Team,GentleYang. SOAP :: Short Oligonucleotide Analysis Package. soap.genomics.org.cn. Дата обращения: 13 апреля 2018. Архивировано из оригинала 22 апреля 2018 года.
  19. Velvet assembler (англ.) // Wikipedia. — 2017-07-06.
  20. Marcel H. Schulz, Daniel R. Zerbino, Martin Vingron, Ewan Birney. Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels // Bioinformatics. — 2012-04-15. — Т. 28, вып. 8. — С. 1086—1092. — ISSN 1367-4803. — doi:10.1093/bioinformatics/bts094. Архивировано 25 мая 2016 года.
  21. Gordon Robertson, Jacqueline Schein, Readman Chiu, Richard Corbett, Matthew Field. De novo assembly and analysis of RNA-seq data (англ.) // Nature Methods. — 2010/11. — Т. 7, вып. 11. — С. 909—912. — ISSN 1548-7105. — doi:10.1038/nmeth.1517. Архивировано 6 апреля 2019 года.
  22. Manfred G. Grabherr, Brian J. Haas, Moran Yassour, Joshua Z. Levin, Dawn A. Thompson. Full-length transcriptome assembly from RNA-Seq data without a reference genome // Nature Biotechnology. — 2011-05-15. — Т. 29, вып. 7. — С. 644—652. — ISSN 1546-1696. — doi:10.1038/nbt.1883. Архивировано 23 июля 2018 года.
  23. 1 2 3 trinityrnaseq/trinityrnaseq (англ.). GitHub. Дата обращения: 24 апреля 2018. Архивировано 18 мая 2017 года.
  24. R. P. Dilworth. A Decomposition Theorem for Partially Ordered Sets // The Annals of Mathematics. — 1950-01. — Т. 51, вып. 1. — С. 161. — ISSN 0003-486X. — doi:10.2307/1969503.
  25. Cole Trapnell, Brian A. Williams, Geo Pertea, Ali Mortazavi, Gordon Kwan. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation // Nature Biotechnology. — May 2010. — Т. 28, вып. 5. — С. 511—515. — ISSN 1546-1696. — doi:10.1038/nbt.1621. Архивировано 6 мая 2020 года.