TopHat: различия между версиями

TopHat
TopHat
Тип	Биоинформатика
Автор	Cole Trapnell
Разработчики	Daehwan Kim, Steven Salzberg, Cole Trapnell
Написана на	C++, Python
Операционные системы	Linux, OS X
Первый выпуск	27 октбря 2008
Последняя версия	2.1.1 (23 февраля 2016)
Состояние	неактуальное, с 23 февраля 2016 мало поддерживается
Лицензия	Boost Software License
Сайт	ccb.jhu.edu/software/top…

Интерактивная навигация по истории

[непроверенная версия]

← Предыдущая правка Следующая правка →

Содержимое удалено Содержимое добавлено

ВизуальныйВики-текст

Линейный

Версия от 10:40, 20 апреля 2017

TopHat — это программа, выравнивающая прочтения, полученные при помощи методов секвенирования РНК, и определяющая границы экзонов. Она основана на алгоритме Bowtie, который картирует короткие прочтения. Программа может определить не только известные соединения экзонов, но и идентифицировать новые^[1].

C выпуском последней версии TopHat 23 февраля 2016 разработчики прекратили активно поддерживать проект и предлагают как альтернативу HISAT2 с тем же коровым функционалом, но более эффективную и точную^[1].

Принцип работы

TopHat находит границы сплайсированных экзонов и не нуждается в аннотациях генов, то есть выполняет выравнивания ab initio. Однако, если аннотация генома существует, TopHat использует ее: строит базу возможных границ экзонов и выравнивает прочтения соответственно этой информации.

В результате секвенирования получаются прочтения длиной 25-50 п.н. или больше. Но экзоны обычно короче, поэтому TopHat делит прочтения на небольшие сегменты, которые выравниваются независимо друг от друга. Эти выравнивания сегментов объединяются на заключительном шаге программы, чтобы получить «настоящие» выравнивания^[2].

Если аннотация генома отсутствует, то TopHat сначала определяет целые экзоны (находящиеся в пределах одного прочтения), используя алгоритм Bowtie. Bowtie индексирует референсный геном и определяет позиции прочтений в референсном геноме, используя технику сжатия данных — преобразование Барроуза — Уилера^[3].

Этапы работы алгоритма

Картирование прочтений на референсный геном (Bowtie) и определение «начально некартированных» (ННК) прочтений;
Определение возможных сайтов сплайсинга;
Картирование ННК прочтений по возможным границам экзонов (seed and extend).

Картирование прочтений, попадающих в границы экзонов

Сначала осуществляется картирование всех прочтений на референсный геном при помощи Bowtie. Выравниваются прочтения, не покрывающие границы экзонов. Такие прочтения, которые не удалось картировать, обозначаются как «начально некартированные» прочтения («initially unmapped reads», IUM или ННК), и они остаются в стороне.

Затем TopHat делает сборку картированных ридов, используя модуль сборки программного обеспечения Maq. Таким образом формируются «островки» — области генома с расшифрованной по картированным ридам консенсусной последовательностью. TopHat считает координаты этих островков координатами «истинных» экзонов.

Если «островок» имеет низкое покрытие, то при сборке предсказание последовательности в нем может быть ошибочным и выдавать неверные основания. Поэтому TopHat использует референсный геном при предсказании нуклеотидов в таких участках, заменяя спорные основания на соответствующие основания из референса. Последовательности таких «островков» являются псевдоконсенсусами. В ридах на краях «островка» могут находиться сайты склейки экзонов после сплайсинга. На концах псевдоконсенсусов отсутствуют кусочки последовательностей из-за покрытия малым числом прочтений. Чтобы восстановить эти последовательности вместе с донорными и акцепторными сайтами фланкирующих интронов, TopHat добавляет к концам псевдоконсенсуса каждого «островка» последовательности из референсного генома (по 45 оснований по умолчанию).

Если ген характеризуется низкой экспрессией, то соответствующий такому гену «островок» тоже имеет низкое покрытие. В его последовательности возникают гэпы и один экзон дробится на несколько. Поэтому если расстояние между экзонами меньше чем 70 пар оснований, TopHat объединяет эти экзоны в один^[2].

Поиск сайтов сплайсинга

TopHat идентифицирует все канонические сайты доноров и акцепторов (динуклеотиды «GT-AG», «GC-AG» и «AT-AC») внутри «островков» или фланкирующие «островок» динуклеотиды (и в обратных цепях тоже). Затем алгоритм рассматривает те пары сайтов донор-акцептор соседних островков, между которыми можно найти последовательности канонических интронов. Далее TopHat ищет среди ННК прочтений те, которые охватывают места стыка экзона и интрона, и картирует их по принципу seed-and-extend. По умолчанию программа рассматривает потенциальные интроны длиной от 70 до 20000 нуклеотидов^[2].

Оптимизация алгоритма

Для того чтобы уменьшить время работы алгоритма часто снижают максимальную длину интрона. Чтобы увеличить чувствительность и уменьшить число ложноположительных результатов, программа исключает пары донорных и акцепторных сайтов, находящиеся внутри одного «островка». Но бывают такие случаи, что в пределах одного «островка» происходит соединение двух экзонов. Например, в случае гена, которые имеет два альтернативных транскрипта, причем один из них содержит интрон, наложенный на 5'-нетранслируемую область другого транскрипта. Оба транскрипта присутствуют в образце для секвенирования, и TopHat отмечает их как единый «островок». Чтобы детектировать такие границы экзонов без снижения времени работы и специфичности, TopHat ищет интроны в пределах «островков», то есть внутри экзонов.

В ходе алгоритма для каждого «островка» TopHat рассчитывает статистику:

$D_{ij}={\frac {\sum _{m=i}^{j}d_{m}}{j-i}}\cdot {\frac {1}{\sum _{m=0}^{n}d_{m}}}$

где $d_{m}$ — это глубина покрытия прочтениями в координате $m$ в карте программы Bowtie, $n$ — длина референсного генома.

Если значение D >= 300 (по умолчанию), TopHat ищет в этом «островке» границы экзонов. Чем выше это значение, тем быстрее работает программа^[2].

Картирование ННК прочтений по принципу seed-and-extend

Стратегия seed and extend алгоритма TopHat. Подробное описание к тексте.

Дальше программа ищет среди ННК множества прочтения, которые покрывают границы экзонов при помощи стратегии seed-and-extend. Алгоритм индексирует ННК прочтения. TopHat находит любые ННК прочтения, покрывающие границы экзонов, и берет k позиций с каждой стороны от границы экзона (5, по умолчанию). Этот фрагмент прочтения длиной 10 нуклеотидов называется «зерно» («seed»), на рисунке показан темно-серым прямоугольником. Этот фрагмент выравнивается со всеми НКК прочтениями. Если в НКК прочтении находится «зерно», TopHat выравнивает дальше вправо влево от «зерна» на наличие экзонов. Серым на рисунке обозначены области, в которых TopHat может позволять определенное пользователем число несовпадений.

Алгоритм выводит все выравнивания, которые у него получаются, и строит на их основе набор сайтов сплайсинга. Но, при этом, учитывается, что существует множество минорных альтернативных вариантов сплайсинга, поэтому часть предположительных границ экзонов просто не выводится алгоритмом во избежание ложноположительных результатов. Это достигается за счет различной оценки числа прочтений, покрывающих правую и левую границу экзонов: если покрытие хотя бы одной границы прочтениями < 15 %, то такое соединение не выводится^[2].

Модификации программы

TopHat-Fusion

TopHat-Fusion — это алгоритм, разработанный для определения транскриптов, которые получаются в результате слияния генов при разрыве или объединении двух различных хромосом, или при перестройках внутри одной хромосомы. Эта программа является усовершенствованной TopHat и не зависит от аннотаций генов, поэтому TopHat-Fusion может обнаружить транскрипты, полученные при объединении известных генов, неизвестных генов и неаннотированных вариантов сплайсинга известных генов. TopHat-Fusion является бесплатным сервисом и доступен на сайте TopHat-Fusion - CCB.

В алгоритм TopHat-Fusion были внесены некоторые изменения, чтобы поиск транскриптов слитных генов стал возможен: после картирования всех прочтений и отделения «начально некартированных», программа делит каждое прочтение на части по 25 пар оснований или длиннее. Например, прочтение длиной 80 пар оснований алгоритм разделит на фрагменты длиной 25, 25 и 30. После чего происходит картирование фрагментов длиной 25 пар оснований относительно генома при помощи Bowtie. Если транскрипт нормальный, это значит, что выровненные с геномом сегменты могут быть разделены интроном установленной пользователем длины и находиться в одной ориентации на хромосоме. В случае же транскриптов слитных генов TopHat-Fusion снимает эти ограничения, позволяя детектировать объединения генов на разных хромосомах.

На следующем этапе происходит отбор прочтений, являющихся кандидатами на случай слияния генов, но при этом выровненных во многих местах генома. Делается предположение, что такие множественные случаи выравнивания прочтения с геномом являются артефактами. Но есть и случаи нескольких копий слитных генов в геноме, поэтому устанавливается параметр М (2, по умолчанию), согласно которому происходит отбор прочтений: если M > 2, прочтения алгоритмом отбрасываются.

Дополнительно вносится требование: необходимо иметь участок длиной как минимум 13 совпадающих пар оснований с обеих сторон от точки слияния генов, содержащий не более двух несовпадений. Причем участки с разных сторон от точки слияния генов должны: 1) принадлежать различным хромосомам, 2) принадлежать одной хромосоме, но находиться на расстоянии не менее 100000 пар оснований — минимальное расстояние при хромосомных перестройках. Благодаря этим условиям, алгоритмом отбрасывается большинство прочтений.

Как было сказано выше, TopHat делит ННК прочтения на сегменты, причем крайние могут быть картированы на различных хромосомах. Далее алгоритм использует сегменты для нахождения точки слияния. После нахождения примерной позиции, происходит повторное выравнивание сегментов от границ справа и слева на начальной ДНК по направлению к точке слияния. Алгоритм получает участки длиной 22 пары оснований (с обеих сторон — 44), фланкирующие точку слияния генов, и индексирует при помощи Bowtie, что впоследствии выравнивается с сегментами всех ННК прочтений. Выбирается лучшее выравнивание для каждого прочтения с использованием эвристической функции взвешивания, которая предусматривает штрафы за продление интронов (-2), делеций или вставок (-4) или слияний (-4). Если в итоге, с учетом штрафов, получается больше одного выравнивания с одинаковым минимальным весом, выбирается выравнивание с меньшим числом несовпадений^[4].

TopHat2

TopHat2 — улучшенная версия TopHat, позволяющая выравнивать прочтения различной длины и разрешающая вставки и делеции различной длины в соответствии с референсным геномом. Программа может выравнивать прочтения при разрыве гена, вызванного геномными транслокациями. Алгоритм совмещает способность определять новые сайты сплайсинга со способностью картировать прочтения относительно известных транскриптов. TopHat2 доступен на сайте TopHat - CCB.

Одной из задач при улучшении алгоритма являлось то обстоятельство, что если прочтение покрывает целый экзон и часть следующего экзона, то TopHat мог определить эту часть экзона как целый.

Вторая проблема заключается в том, что помимо функциональных мРНК секвенируются мРНК неактивных псевдогенов, прочтения которых зачастую покрывают несколько экзонов и так же могут быть неверно картированы алгоритмом, потому что отлично выравниваются с функциональными генами.

В случае, если есть известный транскриптом, TopHat2 картирует прочтения на нем, что повышает чувствительность и в общем улучшает картирование. Это также значительно снижает время работы алгоритма, так как размер транскриптома значительно меньше размера генома. Некартированные прочтения, для которых нет аннотации или которые имеют плохие выравнивания, TopHat2 выравнивает с геномом. Все прочтения, совпадающие с экзонами будут картированы.

При помощи ННК прочтений алгоритм находит новые канонические сайты сплайсинга. TopHat2 может повторно картировать прочтения. Чтобы это стало возможным, некартированные прочтения разделяются на сегменты (аналогичным TopHat-Fusion способом) и выравниваются с геномом. Таким образом детектируются случаи слияния генов и наличие интронов, после чего TopHat2 повторно выравнивает, но уже целую последовательность прочтения, с участками генома, чтобы найти сайты сплайсинга. Используя похожий подход, в прочтениях детектируются вставки и делеции.

На конечном этапе алгоритм разделяет прочтения на 2 группы: 1) имеющие единичное выравнивание, 2) имеющие несколько выравниваний. Во втором случае, TopHat2 собирает статистическую информацию о местах соединений экзонов, вставках, делециях, которая позволяет пересчитать вес выравнивания для каждого прочтения. Основываясь на таких улучшенных весах, TopHat2 выводит только лучшие выравнивания при нескольких находках для одного прочтения в геноме^[5].

Примечания

↑ ¹ ² TopHat :: Center for Bioinformatics and Computational Biology
↑ ¹ ² ³ ⁴ ⁵ Trapnell C., Pachter L., Salzberg S. L. TopHat: discovering splice junctions with RNA-Seq. (англ.) // Bioinformatics. — 2009. — Vol. 25, no. 9. — P. 1105—1111. — doi:10.1093/bioinformatics/btp120. — PMID 19289445. [исправить]
↑ Langmead B., Trapnell C., Pop M., Salzberg S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. (англ.) // Genome biology. — 2009. — Vol. 10, no. 3. — P. 25. — doi:10.1186/gb-2009-10-3-r25. — PMID 19261174. [исправить]
↑ Kim D., Salzberg S. L. TopHat-Fusion: an algorithm for discovery of novel fusion transcripts. (англ.) // Genome biology. — 2011. — Vol. 12, no. 8. — P. 72. — doi:10.1186/gb-2011-12-8-r72. — PMID 21835007. [исправить]
↑ Kim D., Pertea G., Trapnell C., Pimentel H., Kelley R., Salzberg S. L. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. (англ.) // Genome biology. — 2013. — Vol. 14, no. 4. — P. 36. — doi:10.1186/gb-2013-14-4-r36. — PMID 23618408. [исправить]

[tophat-web-1] ¹ ² TopHat :: Center for Bioinformatics and Computational Biology

[TopHat-2] ¹ ² ³ ⁴ ⁵ Trapnell C., Pachter L., Salzberg S. L. TopHat: discovering splice junctions with RNA-Seq. (англ.) // Bioinformatics. — 2009. — Vol. 25, no. 9. — P. 1105—1111. — doi:10.1093/bioinformatics/btp120. — PMID 19289445. [исправить]

[3] Langmead B., Trapnell C., Pop M., Salzberg S. L. Ultrafast and memory-efficient alignment of short DNA sequences to the human genome. (англ.) // Genome biology. — 2009. — Vol. 10, no. 3. — P. 25. — doi:10.1186/gb-2009-10-3-r25. — PMID 19261174. [исправить]

[4] Kim D., Salzberg S. L. TopHat-Fusion: an algorithm for discovery of novel fusion transcripts. (англ.) // Genome biology. — 2011. — Vol. 12, no. 8. — P. 72. — doi:10.1186/gb-2011-12-8-r72. — PMID 21835007. [исправить]

[5] Kim D., Pertea G., Trapnell C., Pimentel H., Kelley R., Salzberg S. L. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. (англ.) // Genome biology. — 2013. — Vol. 14, no. 4. — P. 36. — doi:10.1186/gb-2013-14-4-r36. — PMID 23618408. [исправить]

[1]

[2]

[3]

[4]

[5]

@@ Строка 66: / Строка 66: @@
 ==== TopHat-Fusion ====
-TopHat-Fusion — это алгоритм, разработанный для определения [[Транскрипт (биология)|транскриптов]], которые получаются в результате слияния генов при разрыве или объединении двух различных [[Хромосома|хромосом]], или при перестройках внутри одной хромосомы. Эта программа является усовершенствованной TopHat и не зависит от аннотаций генов, поэтому TopHat-Fusion может обнаружить транскрипты, полученные при объединении известных генов, неизвестных генов и неаннотированных вариантов сплайсинга известных генов. TopHat-Fusion является бесплатным сервисом и доступен на сайте:
+TopHat-Fusion — это алгоритм, разработанный для определения [[Транскрипт (биология)|транскриптов]], которые получаются в результате слияния генов при разрыве или объединении двух различных [[Хромосома|хромосом]], или при перестройках внутри одной хромосомы. Эта программа является усовершенствованной TopHat и не зависит от аннотаций генов, поэтому TopHat-Fusion может обнаружить транскрипты, полученные при объединении известных генов, неизвестных генов и неаннотированных вариантов сплайсинга известных генов. TopHat-Fusion является бесплатным сервисом и доступен на сайте [http://ccb.jhu.edu/software/tophat/fusion_index.shtml TopHat-Fusion - CCB].
- {{cite web |url=http://ccb.jhu.edu/software/tophat/fusion_index.shtml |title=TopHat-Fusion - CCB}}.
 В алгоритм TopHat-Fusion были внесены некоторые изменения, чтобы поиск транскриптов слитных генов стал возможен: после картирования всех прочтений и отделения «начально некартированных», программа делит каждое прочтение на части по 25 пар оснований или длиннее. Например, прочтение длиной 80 пар оснований алгоритм разделит на фрагменты длиной 25, 25 и 30. После чего происходит картирование фрагментов длиной 25 пар оснований относительно генома при помощи Bowtie. Если транскрипт нормальный, это значит, что выровненные с геномом сегменты могут быть разделены интроном установленной пользователем длины и находиться в одной ориентации на хромосоме. В случае же транскриптов слитных генов TopHat-Fusion снимает эти ограничения, позволяя детектировать объединения генов на разных хромосомах.
@@ Строка 78: / Строка 77: @@
 ==== TopHat2 ====
-TopHat2 — улучшенная версия TopHat, позволяющая выравнивать прочтения различной длины и разрешающая вставки и делеции различной длины в соответствии с референсным геномом. Программа может выравнивать прочтения при разрыве гена, вызванного геномными [[транслокация]]ми. Алгоритм совмещает способность определять новые сайты сплайсинга со способностью картировать прочтения относительно известных транскриптов. TopHat2 доступен на сайте: https://ccb.jhu.edu/software/tophat/index.shtml.
+TopHat2 — улучшенная версия TopHat, позволяющая выравнивать прочтения различной длины и разрешающая вставки и делеции различной длины в соответствии с референсным геномом. Программа может выравнивать прочтения при разрыве гена, вызванного геномными [[транслокация]]ми. Алгоритм совмещает способность определять новые сайты сплайсинга со способностью картировать прочтения относительно известных транскриптов. TopHat2 доступен на сайте [https://ccb.jhu.edu/software/tophat/index.shtml TopHat - CCB].
 Одной из задач при улучшении алгоритма являлось то обстоятельство, что если прочтение покрывает целый экзон и часть следующего экзона, то TopHat мог определить эту часть экзона как целый.
@@ Строка 88: / Строка 87: @@
 При помощи ННК прочтений алгоритм находит новые канонические сайты сплайсинга. TopHat2 может повторно картировать прочтения. Чтобы это стало возможным, некартированные прочтения разделяются на сегменты (аналогичным TopHat-Fusion способом) и выравниваются с геномом. Таким образом детектируются случаи слияния генов и наличие интронов, после чего TopHat2 повторно выравнивает, но уже целую последовательность прочтения, с участками генома, чтобы найти сайты сплайсинга. Используя похожий подход, в прочтениях детектируются вставки и делеции.
-На конечном этапе алгоритм разделяет прочтения на 2 группы: 1) имеющие единичное выравнивание, 2) имеющие несколько выравниваний. Во втором случае, TopHat2 собирает статистическую информацию о местах соединений экзонов, вставках, делециях, которая позволяет пересчитать вес выравнивания для каждого прочтения. Основываясь на таких улучшенных весах, TopHat2 выводит только лучшие выравнивания при нескольких находках для одного прочтения в геноме<ref>Kim D, Pertea G, Trapnell C, Pimentel H, Kelley R, Salzberg SL. TopHat2: accurate alignment of transcriptomes in the presence of insertions, deletions and gene fusions. . Genome Biology 2011, 14:R36.</ref>.
+На конечном этапе алгоритм разделяет прочтения на 2 группы: 1) имеющие единичное выравнивание, 2) имеющие несколько выравниваний. Во втором случае, TopHat2 собирает статистическую информацию о местах соединений экзонов, вставках, делециях, которая позволяет пересчитать вес выравнивания для каждого прочтения. Основываясь на таких улучшенных весах, TopHat2 выводит только лучшие выравнивания при нескольких находках для одного прочтения в геноме<ref>{{Cite pmid|23618408}}</ref>.
 == Примечания ==