Эта статья входит в число добротных статей

ChIP-seq

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному[1][2], а также поиска мест связывания транскрипционных факторов[3]. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip[en], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4].

Использование[править | править вики-текст]

Основным вариантом использования ChIP-seq является изучение влияния транскрипционных факторов и других ДНК-связывающих белков на фенотип[5]. Определение того, как именно белки взаимодействуют с ДНК для регуляции экспрессии генов, необходимо для детального понимания многих биологических процессов. Эта эпигенетическая информация дополняет генотип и данные по экспрессии генов.

Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме[5].

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования ChIP-seq является определение участков связывания факторов транскрипции, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина[5]. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Методика[править | править вики-текст]

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)[править | править вики-текст]

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках[6]. Типичная методика включает в себя следующие стадии:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к бусинам
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате удается специфически выделить те фрагменты ДНК, с которыми был связан исследуемый белок.

У данной методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Ряд методов был разработан для преодоления данного ограничения, например Nano-ChIP-seq[7].

Также существуют вариации метода, направленные на повышение специфичности (ChIP-exo [8]). Так, длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным.

Секвенирование[править | править вики-текст]

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения[9]. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов).

Биоинформатический анализ[править | править вики-текст]

Биоинформатический анализ данных секвенирования включает в себя следующие стадии:

  • Фильтрация чтений с низким качеством
Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit[10]. Определение качества чтений базируется на Phred quality score (на англ.) — весе, который присваивается каждому нуклеотиду при его прочтении.
Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы Trimmomatic[11].
  • Картирование чтений на геном
Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном можно использовать следующие программные пакеты:BWA, Bowtie, GSNAP[5].
  • Фильтрация артефактов и чтений, которые картировались сразу в несколько мест на геноме
Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100 − 200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например LINE (на англ.) и SINE (на англ.) — повторы, составляющие соответственно 17% и 11% от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах.
Для фильтрации можно воспользоваться программным пакетом SAMTools[12][5].
  • Определение качества картирования
После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был)[5].
Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования (количества чтений на нуклеотид), неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.). Для определения всего вышеперечисленного можно использовать программный пакет CHANCE[10].
  • Выявление сайтов связывания
Для выявления сайтов (участков) связывания сначала смотрится уровень покрытия (количество чтений, картированных на данный нуклеотид). Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью[10].
Программные пакеты, которые могут быть использованы для решения этих задач: SPP, MACS и UGENE[5].
  • Аннотация сайтов связывания
Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный промежуток и т. п[5].
Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров (на англ.), или можно получить текстовый файл с аннотацией с помощью CEAS или ChIPpeakAnno[10].
В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME или Гиббс семплер[10]. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Сравнение Chip-seq и Chip-on-chip[править | править вики-текст]

Chip-seq и Chip-on-chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq[4]:

Показатель Chip-seq Chip-on-chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа

Чувствительность метода[править | править вики-текст]

Чувствительность технологии зависит от глубины секвенирования (количества чтений, картированных в данном конкретном месте генома), длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений[5]. Для белков с большим числом сайтов связывания (РНК-полимераза III[en]) потребуется до 60 миллионов чтений[5]. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений[5]. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.

Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам[13].

Исследования[править | править вики-текст]

Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и понимания, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE[14]. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq[en] и RIP-seq[en], позволяющих выявить РНК-белковые взаимодействия.

Типы данных в энциклопедии ДНК элементов (ENCODE)

В качестве примера успешного использования Chip-seq можно привести сследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию[15].

Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды C. elegans. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции[16].

Перспективы развития[править | править вики-текст]

Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов[5].

Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию[17].

Базы данных[править | править вики-текст]

На данный момент существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека[18].
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans[19].
  • Factorbook — база данных, сгенерированная на основе ENCODE[20].
  • ChIPBase — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans[21].
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген[22].
  • CTCFBSDB — база данных участков связывания инсулятора CTCF[23].
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши[24].
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека[25].
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот[26].
  • SwissRegulon — база данных аннотированных регуляторных сайтов[27].
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши[28].
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши[29].

Примечания[править | править вики-текст]

  1. Mikkelsen T. S., Ku M., Jaffe D. B., Issac B., Lieberman E., Giannoukos G., Alvarez P., Brockman W., Kim T. K., Koche R. P., Lee W., Mendenhall E., O'Donovan A., Presser A., Russ C., Xie X., Meissner A., Wernig M., Jaenisch R., Nusbaum C., Lander E. S., Bernstein B. E. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells. (англ.) // Nature. — 2007. — Vol. 448, no. 7153. — P. 553—560. — DOI:10.1038/nature06008. — PMID 17603471.
  2. Barski A., Cuddapah S., Cui K., Roh T. Y., Schones D. E., Wang Z., Wei G., Chepelev I., Zhao K. High-resolution profiling of histone methylations in the human genome. (англ.) // Cell. — 2007. — Vol. 129, no. 4. — P. 823—837. — DOI:10.1016/j.cell.2007.05.009. — PMID 17512414.
  3. Johnson D. S., Mortazavi A., Myers R. M., Wold B. Genome-wide mapping of in vivo protein-DNA interactions. (англ.) // Science (New York, N.Y.). — 2007. — Vol. 316, no. 5830. — P. 1497—1502. — DOI:10.1126/science.1141319. — PMID 17540862.
  4. 1 2 Park P. J. ChIP-seq: advantages and challenges of a maturing technology. (англ.) // Nature reviews. Genetics. — 2009. — Vol. 10, no. 10. — P. 669—680. — DOI:10.1038/nrg2641. — PMID 19736561.
  5. 1 2 3 4 5 6 7 8 9 10 11 12 Terrence S. Furey ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions (англ.) // Nature Reviews. Genetics. — 2012-12-01. — Vol. 13, iss. 12. — P. 840–852. — ISSN 1471-0064. — DOI:10.1038/nrg3306.
  6. Barbara Kaboord, Maria Perr Isolation of proteins and protein complexes by immunoprecipitation (англ.) // Methods in Molecular Biology (Clifton, N.J.). — 2008-01-01. — Vol. 424. — P. 349–364. — ISSN 1064-3745. — DOI:10.1007/978-1-60327-064-9_27.
  7. Mazhar Adli, Bradley E. Bernstein Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq (англ.) // Nature Protocols. — 2011-09-29. — Vol. 6, iss. 10. — P. 1656–1668. — ISSN 1750-2799. — DOI:10.1038/nprot.2011.402.
  8. Ho Sung Rhee, B. Franklin Pugh Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution (англ.) // Cell. — 2011-12-09. — Vol. 147, iss. 6. — P. 1408–1419. — ISSN 1097-4172. — DOI:10.1016/j.cell.2011.11.013.
  9. Terrence S. Furey ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions (англ.) // Nature Reviews. Genetics. — 2012-12-01. — Vol. 13, iss. 12. — P. 840–852. — ISSN 1471-0064. — DOI:10.1038/nrg3306.
  10. 1 2 3 4 5 Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li Practical guidelines for the comprehensive analysis of ChIP-seq data (англ.) // PLoS computational biology. — 2013-01-01. — Vol. 9, iss. 11. — P. e1003326. — ISSN 1553-7358. — DOI:10.1371/journal.pcbi.1003326.
  11. Anthony M. Bolger, Marc Lohse, Bjoern Usadel Trimmomatic: a flexible trimmer for Illumina sequence data (англ.) // Bioinformatics. — 2014-08-01. — Vol. 30, iss. 15. — P. 2114–2120. — ISSN 1367-4803. — DOI:10.1093/bioinformatics/btu170.
  12. Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan The Sequence Alignment/Map format and SAMtools (англ.) // Bioinformatics. — 2009-08-15. — Vol. 25, iss. 16. — P. 2078–2079. — ISSN 1367-4803. — DOI:10.1093/bioinformatics/btp352.
  13. Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis (англ.) // BMC genomics. — 2011-02-28. — Vol. 12. — P. 134. — ISSN 1471-2164. — DOI:10.1186/1471-2164-12-134.
  14. Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff Unlocking the secrets of the genome (англ.) // Nature. — 2009-06-18. — Vol. 459, iss. 7249. — P. 927–930. — ISSN 1476-4687. — DOI:10.1038/459927a.
  15. Christoph D. Schmid, Philipp Bucher ChIP-Seq data reveal nucleosome architecture of human promoters (англ.) // Cell. — 2007-11-30. — Vol. 131, iss. 5. — P. 831–832; author reply 832–833. — ISSN 0092-8674. — DOI:10.1016/j.cell.2007.11.017.
  16. Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans (англ.) // Genome Research. — 2011-02-01. — Vol. 21, iss. 2. — P. 245–254. — ISSN 1549-5469. — DOI:10.1101/gr.114587.110.
  17. Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis (англ.) // BMC genomics. — 2011-02-28. — Vol. 12. — P. 134. — ISSN 1471-2164. — DOI:10.1186/1471-2164-12-134.
  18. Hongzhu Qu, Xiangdong Fang A brief review on the Human Encyclopedia of DNA Elements (ENCODE) project (англ.) // Genomics, Proteomics & Bioinformatics. — 2013-06-01. — Vol. 11, iss. 3. — P. 135–141. — ISSN 2210-3244. — DOI:10.1016/j.gpb.2013.05.001.
  19. modENCODE Consortium, Sushmita Roy, Jason Ernst, Peter V. Kharchenko, Pouya Kheradpour Identification of functional elements and regulatory circuits by Drosophila modENCODE (англ.) // Science (New York, N.Y.). — 2010-12-24. — Vol. 330, iss. 6012. — P. 1787–1797. — ISSN 1095-9203. — DOI:10.1126/science.1198374.
  20. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin-Ying Lin, Melissa C. Greven Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D171–176. — ISSN 1362-4962. — DOI:10.1093/nar/gks1221.
  21. Jian-Hua Yang, Jun-Hao Li, Shan Jiang, Hui Zhou, Liang-Hu Qu ChIPBase: a database for decoding the transcriptional regulation of long non-coding RNA and microRNA genes from ChIP-Seq data (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D177–187. — ISSN 1362-4962. — DOI:10.1093/nar/gks1060.
  22. Alexander Lachmann, Huilei Xu, Jayanth Krishnan, Seth I. Berger, Amin R. Mazloom ChEA: transcription factor regulation inferred from integrating genome-wide ChIP-X experiments (англ.) // Bioinformatics (Oxford, England). — 2010-10-01. — Vol. 26, iss. 19. — P. 2438–2444. — ISSN 1367-4811. — DOI:10.1093/bioinformatics/btq466.
  23. Jesse D. Ziebarth, Anindya Bhattacharya, Yan Cui CTCFBSDB 2.0: a database for CTCF-binding sites and genome organization (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D188–194. — ISSN 1362-4962. — DOI:10.1093/nar/gks1165.
  24. Li Chen, George Wu, Hongkai Ji hmChIP: a database and web server for exploring publicly available human and mouse ChIP-seq and ChIP-chip data (англ.) // Bioinformatics (Oxford, England). — 2011-05-15. — Vol. 27, iss. 10. — P. 1447–1448. — ISSN 1367-4811. — DOI:10.1093/bioinformatics/btr156.
  25. Ivan V. Kulakovskiy, Ilya E. Vorontsov, Ivan S. Yevshin, Anastasiia V. Soboleva, Artem S. Kasianov HOCOMOCO: expansion and enhancement of the collection of transcription factor binding sites models (англ.) // Nucleic Acids Research. — 2016-01-04. — Vol. 44, iss. D1. — P. D116–125. — ISSN 1362-4962. — DOI:10.1093/nar/gkv1249.
  26. Albin Sandelin, Wynand Alkema, Pär Engström, Wyeth W. Wasserman, Boris Lenhard JASPAR: an open-access database for eukaryotic transcription factor binding profiles (англ.) // Nucleic Acids Research. — 2004-01-01. — Vol. 32, iss. Database issue. — P. D91–94. — ISSN 1362-4962. — DOI:10.1093/nar/gkh012.
  27. Mikhail Pachkov, Piotr J. Balwierz, Phil Arnold, Evgeniy Ozonov, Erik van Nimwegen SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D214–220. — ISSN 1362-4962. — DOI:10.1093/nar/gks1145.
  28. Bo Qin, Meng Zhou, Ying Ge, Len Taing, Tao Liu CistromeMap: a knowledgebase and web server for ChIP-Seq and DNase-Seq studies in mouse and human (англ.) // Bioinformatics (Oxford, England). — 2012-05-15. — Vol. 28, iss. 10. — P. 1411–1412. — ISSN 1367-4811. — DOI:10.1093/bioinformatics/bts157.
  29. Qixuan Wang, Jinyan Huang, Hanfei Sun, Jing Liu, Juan Wang CR Cistrome: a ChIP-Seq database for chromatin regulators and histone modification linkages in human and mouse (англ.) // Nucleic Acids Research. — 2014-01-01. — Vol. 42, iss. Database issue. — P. D450–458. — ISSN 1362-4962. — DOI:10.1093/nar/gkt1151.