Поиск пиков в данных ChiP-Seq: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
мНет описания правки
Строка 33: Строка 33:
• Немодифицированных нуклеосом
• Немодифицированных нуклеосом


Размер гэпа может быть скорректирован в зависимости от природы модификации хроматина. Статистический вес острова высчитывается, основываясь на степени обогащения ридами на всем идентифицированном участке, а не на степени обогащения ридами каждого отдельного пика [2].
Размер гэпа может быть скорректирован в зависимости от природы модификации хроматина. Статистический вес острова высчитывается, основываясь на степени обогащения ридами на всем идентифицированном участке, а не на степени обогащения ридами каждого отдельного пика <ref>{{Статья|автор=Joel Rozowsky, Ghia Euskirchen, Raymond K. Auerbach, Zhengdong D. Zhang, Theodore Gibson|заглавие=PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls|ссылка=http://www.nature.com/nbt/journal/v27/n1/full/nbt.1518.html|язык=en|издание=Nature Biotechnology|год=2009-01-01|том=27|выпуск=1|страницы=66–75|issn=1087-0156|doi=10.1038/nbt.1518}}</ref>.


На вход программе подается библиотека выровненных ридов из данных ChIP-Seq экперимента, выбирается размер окна, эффективная длина генома (наибольшая длина генома, покрытая выровненными ридами) и размер гэпа. Размер гэпа должен быть кратным выбранному размеру окна. Как правильно, чем большую протяженность имеют домены, тем большого размера следует выбирать гэп. Для точной оценки размера гэпа можно представить суммарный статистический вес всех значимых островов как функцию от размера гэпа. Таким образом, лучшим размером гэпа будет тот, который соответствует наибольшему весу островов. На рис. 3 рассмотрен пример такого графика, в данном случае размер гэпа следуют выбирать равным шести окнам.
На вход программе подается библиотека выровненных ридов из данных ChIP-Seq экперимента, выбирается размер окна, эффективная длина генома (наибольшая длина генома, покрытая выровненными ридами) и размер гэпа. Размер гэпа должен быть кратным выбранному размеру окна. Как правильно, чем большую протяженность имеют домены, тем большого размера следует выбирать гэп. Для точной оценки размера гэпа можно представить суммарный статистический вес всех значимых островов как функцию от размера гэпа. Таким образом, лучшим размером гэпа будет тот, который соответствует наибольшему весу островов. На рис. 3 рассмотрен пример такого графика, в данном случае размер гэпа следуют выбирать равным шести окнам.


При наличии контрольной библиотеки идентифицированный набор островов проверяется на способность кластеризоваться с мягким порогом Е-value (основан на предварительном анализе обогащения ридами относительно фона в контрольной библиотеке). Далее SICER вычисляет p-value и q-value для каждого идентифицированного острова с использованием распределения Пуассона и FDR уже с учетом удаления артефактов. При отсутствии контрольной библиотеки тоже можно получить статистически значимые острова, используя различные пороги E-value [4]. На выходе программы получается набор островов, высоко обогащенных выровненными ридами (рис. 2).
При наличии контрольной библиотеки идентифицированный набор островов проверяется на способность кластеризоваться с мягким порогом Е-value (основан на предварительном анализе обогащения ридами относительно фона в контрольной библиотеке). Далее SICER вычисляет p-value и q-value для каждого идентифицированного острова с использованием распределения Пуассона и FDR уже с учетом удаления артефактов. При отсутствии контрольной библиотеки тоже можно получить статистически значимые острова, используя различные пороги E-value. На выходе программы получается набор островов, высоко обогащенных выровненными ридами <ref>{{Статья|автор=Shiliyang Xu, Sean Grullon, Kai Ge, Weiqun Peng|заглавие=Spatial Clustering for Identification of ChIP-Enriched Regions (SICER) to Map Regions of Histone Methylation Patterns in Embryonic Stem Cells|ссылка=http://dx.doi.org/10.1007/978-1-4939-0512-6_5|язык=English|ответственный=Benjamin L. Kidder|издание=Stem Cell Transcriptional Networks|издательство=Springer New York|год=2014-01-01|страницы=97–111|isbn=9781493905119|doi=10.1007/978-1-4939-0512-6_5}}</ref>(рис. 2).


Особенность данной программы состоит в том, что для ее алгоритма локальная степень обогащения сильно зависима от контекста. Иными словами, если окно является обогащенным, этого еще недостаточно, чтобы оно стало статистически значимым. Однако в присутствии соседних обогащенных окон оно (наряду с другими членами кластера) становится таковым. Это и отличает SICER от подходов, основанных на локальной статистике, которые бы идентифицировали бы его как незначимый в обоих случаях [1].
Особенность данной программы состоит в том, что для ее алгоритма локальная степень обогащения сильно зависима от контекста. Иными словами, если окно является обогащенным, этого еще недостаточно, чтобы оно стало статистически значимым. Однако в присутствии соседних обогащенных окон оно (наряду с другими членами кластера) становится таковым. Это и отличает SICER от подходов, основанных на локальной статистике, которые бы идентифицировали бы его как незначимый в обоих случаях. Данный метод, благодаря нивелированию общего шума, подходит для таких задач, как статистический анализ данных ChIP-Seq экспериментов, нормализация данных и масштабный анализ больших последовательностей с диффузным обогащением <ref>{{Статья|автор=Chongzhi Zang, Dustin E. Schones, Chen Zeng, Kairong Cui, Keji Zhao|заглавие=A clustering approach for identification of enriched domains from histone modification ChIP-Seq data|ссылка=http://bioinformatics.oxfordjournals.org/content/25/15/1952|язык=en|издание=Bioinformatics|год=2009-08-01|том=25|выпуск=15|страницы=1952–1958|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/btp340}}</ref>.

Данный метод, благодаря нивелированию общего шума, подходит для таких задач, как статистический анализ данных ChIP-Seq экспериментов, нормализация данных и масштабный анализ больших последовательностей с диффузным обогащением.





Версия от 21:56, 6 мая 2016

Вызов пиков (Peak calling) - это компьютерный метод поиска областей генома, обогащенных выровненными ридами из данных ChiP-Seq эксперимента. Определенные таким образом регионы считаются местами связывания белка, с которым проводился опыт. Если речь идет о транскрипционном факторе, то обогащенные области по сути являются сайтами связывания транскрипционного фактора. Определение областей пиков является важным шагом любого Chip-Seq эксперимента, поскольку именно на этом этапе происходит интерпретация данных — нужно отличить шумы от сигнала[1].

Обобщенный алгоритм

Операция вызова пиков содержит в себе несколько этапов, необходимых для получения итогового списка пиков[2]:

  1. Смещение ридов (важно в случае секвенирования с одного конца — single-end sequencing). Каждый рид, полученные после секвенирования имеют длину 50-300 нуклеотидов и маркируют только один из концов фрагмента ДНК, очищенного иммунопреципитацией. Соответственно, он может не содержать в себе сайта связывания белка, если длина ДНК фрагментов больше длины рида, а белок был связан с центром фрагмента. На начальном этапе поиска идентифицируют области, обогащенные ридами. После этого находят отдельно максимумы обогащения для «+» и «-» цепей. Расстояние между максимумами считают средней длиной фрагментов ДНК. После этого все риды смещают на половину такой длины в сторону центра пика (то есть в сторону их 3’-конца), и определяют истинную область связывания. В случае секвенирования парных ридов (с обоих концов каждого фрагмента), эта операция не требуется, поскольку пара ридов точно маркирует каждый фрагмент, а значит сайт связывания заведомо находится между ними.
  2. Оценка уровня шума. Чаще всего для оценки уровня шума проводят контрольные Chip-Seq эксперименты, в которых стадия иммунопреципитации пропущены или используются неспецифические антитела (IgG-контроли). Однако существуют программы, способные оценить шум по данным одного эксперимента.
  3. Идентификация пиков. Чаще всего используется скользящее окно, которое сканирует геном и определяет регионы, в которых покрытие ридами превышает некий заданный порог, или отношение покрытия условного пика превышает окружающий его шум в заданное число раз.
  4. Оценка качества определенных пиков. Многие программы подсчитывают P-value для каждого пика, его высоту и обогащения ридами относительно фона. Исходя из статистической значимости пиков можно сделать оценку уровня ложных предсказаний (FDR).
  5. Удаление артефактов. В данных Chip-Seq встречаются артефакты ПЦР, возникающие при пробоподготовке библиотек для секвенирования. При фильтрации пиков на предмет артефактов, удаляются такие из них, которые содержат только дуплицированные (то есть идентичные) риды, поскольку считается, что такие пики возникли из-за ПЦР. Также критически относятся к ситуациям, когда риды картированы резко ассиметрично (только на 3’ или 5’ цепь).

Параметры, влияющие на качество определения пиков

На качество определения пиков влияет множество параметров, начиная от способа картирования ридов на геном. Так, количество разрешенных при картировании несовпадений влияет на долю ридов, которые будут успешно картированы, а значит и на профиль покрытия генома. А операции по удалению ридов, способных выравниваться с несколькими местами в геноме, могут привести к потере пиков, расположенных в областях с повторами. Кроме того, в каждом из пяти перечисленных пунктов обобщенного алгоритма вызова пиков существуют свои переменные, аккуратный подбор которых позволяет добиться максимальной селективности и специфичности[3][4].

Программы для вызова пиков

К настоящему времени существуют десятки программ для вызова пиков, отличающиеся по своей применимости и используемым алгоритмам. В данной статье будет разобрана самая популярная программа — MACS, которая хорошо подходит для поиска относительно узких пиков, характерных для сайтов связывания транскрипционных факторов. Также будет рассмотрена программа SICER, целью которой является поиск слабых и диффузных сигналов (то есть широких и слабых пиков), характерных для распределения модификаций гистонов или отражающих работающие полимеразы[5].

SICER

SICER (spatial identification of ChIP-enriched regions) - это компьютерный метод, разработанный для идентификации кластеров, обогащенных выровненными ридами на основании данных ChiP-Seq эксперимента с учетом оценки уровня шума. Хотя данный метод создан для анализа слабых и диффузных сигналов, характерных для модификаций гистонов, при правильном выборе параметров он может быть применен для поиска узких пиков, соответствующих сайтам связывания, например, транскрипционных факторов.

Программа представляет собой пакет, использующий в качестве интерфейса командную строку, подходит для операционных систем Unix/Linux, язык программирования: Python.

Главной особенностью метода является объединение сигналов от соседних нуклеосом, несущих одинаковую модификацию и расположенных близко друг к другу. Данный подход улучшает отношение сигнал-шум и особенно полезен при диффузных модификациях хроматина, которые могут иметь большую (килобазы или даже мегабазы) протяженность в геноме. C помощью математического подхода идентифицируются статистически значимые области генома, обогащенные выровненными ридами. Далее проводится оценка уровня шума с использованием контрольной библиотеки (создается на основе контрольных ChIP-Seq экспериментов на тотальной клеточной ДНК без стадии иммунопреципитации) [6].

На основании полученных данных идентифицируется набор пиков, для которых отношения покрытия ридами превышает фоновый шум в определенное пороговое число раз. Геном делится на неперекрывающиеся участки фиксированной длинны – «окна», статистически значимые области генома называются «острова». Cтатистически значимыми областями генома принято считать кластеры окон, для которых отношение их покрытия ридами к фоновому покрытию превышает некий заданный порог. Окна внутри островов, для которых велик фоновый шум или маленькое покрытие ридами – «гэпы».

Острова, как и отдельные окна фиксированной длины представляют особый интерес. Гэпы разрешены в островах для учета:

• Неточности ридов и неоднозначности данных секвенирования

• Повторяющихся геномных участков и дуплицированных ридов

• Немодифицированных нуклеосом

Размер гэпа может быть скорректирован в зависимости от природы модификации хроматина. Статистический вес острова высчитывается, основываясь на степени обогащения ридами на всем идентифицированном участке, а не на степени обогащения ридами каждого отдельного пика [7].

На вход программе подается библиотека выровненных ридов из данных ChIP-Seq экперимента, выбирается размер окна, эффективная длина генома (наибольшая длина генома, покрытая выровненными ридами) и размер гэпа. Размер гэпа должен быть кратным выбранному размеру окна. Как правильно, чем большую протяженность имеют домены, тем большого размера следует выбирать гэп. Для точной оценки размера гэпа можно представить суммарный статистический вес всех значимых островов как функцию от размера гэпа. Таким образом, лучшим размером гэпа будет тот, который соответствует наибольшему весу островов. На рис. 3 рассмотрен пример такого графика, в данном случае размер гэпа следуют выбирать равным шести окнам.

При наличии контрольной библиотеки идентифицированный набор островов проверяется на способность кластеризоваться с мягким порогом Е-value (основан на предварительном анализе обогащения ридами относительно фона в контрольной библиотеке). Далее SICER вычисляет p-value и q-value для каждого идентифицированного острова с использованием распределения Пуассона и FDR уже с учетом удаления артефактов. При отсутствии контрольной библиотеки тоже можно получить статистически значимые острова, используя различные пороги E-value. На выходе программы получается набор островов, высоко обогащенных выровненными ридами [8](рис. 2).

Особенность данной программы состоит в том, что для ее алгоритма локальная степень обогащения сильно зависима от контекста. Иными словами, если окно является обогащенным, этого еще недостаточно, чтобы оно стало статистически значимым. Однако в присутствии соседних обогащенных окон оно (наряду с другими членами кластера) становится таковым. Это и отличает SICER от подходов, основанных на локальной статистике, которые бы идентифицировали бы его как незначимый в обоих случаях. Данный метод, благодаря нивелированию общего шума, подходит для таких задач, как статистический анализ данных ChIP-Seq экспериментов, нормализация данных и масштабный анализ больших последовательностей с диффузным обогащением [9].


Примечания

  1. Valouev A; et al. (September 2008). "Genome-wide analysis of transcription factor binding sites based on ChIP-seq data". Nature Methods. 6 (5): 829—834. doi:10.1038/nmeth.1246. PMC 2917543. PMID 19160518. {{cite journal}}: Явное указание et al. в: |author= (справка)
  2. Guide: Peak Calling for ChIP-Seq
  3. Koohy Hashem, Down Thomas A., Spivakov Mikhail, Hubbard Tim. A Comparison of Peak Callers Used for DNase-Seq Data // PLoS ONE. — 2014. — 8 мая (т. 9, № 5). — С. e96303. — ISSN 1932-6203. — doi:10.1371/journal.pone.0096303. [исправить]
  4. Allhoff Manuel, Seré Kristin, Chauvistré Heike, Lin Qiong, Zenke Martin, Costa Ivan G. Detecting differential peaks in ChIP-seq signals with ODIN // Bioinformatics. — 2014. — 3 ноября (т. 30, № 24). — С. 3467—3475. — ISSN 1460-2059. — doi:10.1093/bioinformatics/btu722. [исправить]
  5. Feng Jianxing, Liu Tao, Qin Bo, Zhang Yong, Liu Xiaole Shirley (29 August 2012). "Identifying ChIP-seq enrichment using MACS". Nature Protocols. 7 (9): 1728—1740. doi:10.1038/nprot.2012.101.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  6. Chongzhi Zang, Dustin E. Schones, Chen Zeng, Kairong Cui, Keji Zhao. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data (англ.) // Bioinformatics. — 2009-08-01. — Vol. 25, iss. 15. — P. 1952–1958. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btp340.
  7. Joel Rozowsky, Ghia Euskirchen, Raymond K. Auerbach, Zhengdong D. Zhang, Theodore Gibson. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls (англ.) // Nature Biotechnology. — 2009-01-01. — Vol. 27, iss. 1. — P. 66–75. — ISSN 1087-0156. — doi:10.1038/nbt.1518.
  8. Shiliyang Xu, Sean Grullon, Kai Ge, Weiqun Peng. Spatial Clustering for Identification of ChIP-Enriched Regions (SICER) to Map Regions of Histone Methylation Patterns in Embryonic Stem Cells (англ.) // Stem Cell Transcriptional Networks / Benjamin L. Kidder. — Springer New York, 2014-01-01. — С. 97–111. — ISBN 9781493905119. — doi:10.1007/978-1-4939-0512-6_5.
  9. Chongzhi Zang, Dustin E. Schones, Chen Zeng, Kairong Cui, Keji Zhao. A clustering approach for identification of enriched domains from histone modification ChIP-Seq data (англ.) // Bioinformatics. — 2009-08-01. — Vol. 25, iss. 15. — P. 1952–1958. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btp340.