ChIP-seq

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

ChIP-seq — это метод, используемый для анализа ДНК-белковых взаимодействий. ChIP-seq сочетает иммунопреципитацию хроматина (ChIP) и высокоэффективное секвенирование ДНК для определения участков связывания ДНК и белков. Данный метод может быть использован для определения места связывания любого изучаемого белка по всему геному. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip (на англ.), сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах.

Использование[править | править вики-текст]

Основным вариантом использования ChIP-seq является изучение влияния транскрипционных факторов и других ДНК-связывающих белков на фенотип. Определение того, как именно белки взаимодействуют с ДНК для регуляции экспрессии генов, необходимо для детального понимания многих биологических процессов. Эта эпигенетическая информация дополняет генотип и данные по экспрессии генов.

Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме.

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования ChIP-seq является определение участков связывания факторов транскрипции, ДНК-полимеразы, структурных белков, а также модификаций гистонов и ДНК. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Методика[править | править вики-текст]

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)[править | править вики-текст]

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках. Типичная методика включает в себя следующие стадии:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонкулеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к бусинам
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате удается специфически выделить те фрагменты ДНК, с которыми был связан исследуемый белок.

У данной методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Ряд методов был разработан для преодоления данного ограничения, например Nano-ChIP-seq.[1]

Также существуют вариации метода, направленные на повышение специфичности (ChIP-exo [2]). Так, длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным.

Секвенирование[править | править вики-текст]

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов).

Биоинформатический анализ[править | править вики-текст]

Биоинформатический анализ данных секвенирования включает в себя следующие стадии: [3][4]

  • фильтрация чтений с низким качеством

Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit. Определение качества чтений базируется на Phred quality score (на англ.) — весе, который присваивается каждому нуклеотиду при его прочтении. Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы sickle.

  • картирование чтений на геном

Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном можно использовать следующие программные пакеты:BWA, Bowtie, GSNAP

  • фильтрация артефактов и чтений, которые картировались сразу в несколько мест на геноме

Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100 − 200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например LINE (на англ.) и SINE (на англ.) — повторы, составляющие соответственно 17% и 11% от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах. Программные пакеты для фильтрации: SAMTools, Picard Tools.

  • определение качества картирования

После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был). Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования (количества чтений на нуклеотид), неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.). Для определения всего вышеперечисленного можно использовать программный пакет CHANCE.

  • выявление сайтов связывания

Для выявления сайтов (участков) связывания сначала смотрится уровень покрытия (количество чтений, картированных на данный нуклеотид). Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью. Программные пакеты, которые могут быть использованы для решения этих задач: SPP, MACS и UGENE.

  • аннотация сайтов связывания

Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный промежуток и т. п. Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров (на англ.), или можно получить текстовый файл с аннотацией с помощью CEAS или ChIPpeakAnno.

В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME или Гиббс семплер. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Сравнение Chip-seq и Chip-on-chip[править | править вики-текст]

Chip-seq и Chip-on-chip - два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК − белок in vivo. Однако при более детальном сравнении этих методов удается показать значительные преимущества Chip-seq:

Показатель Chip-seq Chip-on-chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа

Illumina Whole-Genome Chromatin IP Sequencing (ChIP-Seq) Datasheet.

Чувствительность метода[править | править вики-текст]

Чувствительность технологии зависит от глубины секвенирования (количества чтений, картированных в данном конкретном месте генома), длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений. Для белков с большим числом сайтов связывания (РНК-полимераза III) потребуется до 60 миллионов чтений. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.

Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам.[5]

Исследования[править | править вики-текст]

  • Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и понимания, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE.[6] Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq и RIP-seq, позволяющих выявить РНК-белковые взаимодействия.
Типы данных в энциклопедии ДНК элементов (ENCODE)
  • Исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию.[7]
  • Полногеномный ChIP-seq. Данный метод был успешно применён для поиска сайтов связывания 22х транскрипционных факторов в геноме нематоды C. elegans. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции.[8]

Перспективы развития[править | править вики-текст]

Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов.

Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию.[5]

Базы данных[править | править вики-текст]

На данный момент существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека.
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans.
  • Factorbook — база данных, сгенерированная на основе ENCODE.
  • ChIPBase — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans.
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген.
  • CTCFBSDB — база данных участков связывания инсулятора CTCF.
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши.
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека.
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот.
  • SwissRegulon — база данных аннотированных регуляторных сайтов.
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши.
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши.

Примечания[править | править вики-текст]

  1. Adli M, Bernstein BE (October 2011). «Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq». Nat Protoc 6 (10): 1656–68. DOI:10.1038/nprot.2011.402. PMID 21959244.
  2. Rhee HS, Pugh BF (December 2011). «Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution». Cell 147 (6): 1408–19. DOI:10.1016/j.cell.2011.11.013. PMID 22153082.
  3. Furey TS (December 2012). «ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions». Nat. Rev. Genet. 13 (12): 840–52. DOI:10.1038/nrg3306. PMID 23090257.
  4. Bailey T, Krajewski P, Ladunga I, et al. (November 2013). «Practical guidelines for the comprehensive analysis of ChIP-seq data». PLoS Comput. Biol. 9 (11): e1003326. DOI:10.1371/journal.pcbi.1003326. PMID 24244136.
  5. 1 2 Ho J. W., Bishop E., Karchenko P. V., Nègre N., White K. P., Park P. J. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis. (англ.) // BMC genomics. — 2011. — Vol. 12. — P. 134. — DOI:10.1186/1471-2164-12-134 — PMID 21356108. исправить
  6. Celniker SE, Dillon LA, Gerstein MB, et al. (June 2009). «Unlocking the secrets of the genome». Nature 459 (7249): 927–30. DOI:10.1038/459927a. PMID 19536255.
  7. Schmid CD, Bucher P (November 2007). «ChIP-Seq data reveal nucleosome architecture of human promoters». Cell 131 (5): 831–2; author reply 832–3. DOI:10.1016/j.cell.2007.11.017. PMID 18045524.
  8. Niu W, Lu ZJ, Zhong M, et al. (February 2011). «Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans». Genome Res. 21 (2): 245–54. DOI:10.1101/gr.114587.110. PMID 21177963.