Эта статья является кандидатом в добротные статьи

ChIP-seq: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Замена ненумерованного списка на связный текст в разделе "Исследования"
Приведение ссылок к одному формату.
Строка 23: Строка 23:


У данной методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом.
У данной методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом.
Ряд методов был разработан для преодоления данного ограничения, например Nano-ChIP-seq<ref>{{cite journal |author=Adli M, Bernstein BE |title=Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq |journal=Nat Protoc |volume=6 |issue=10 |pages=1656–68 |year=2011 |month=October |pmid=21959244 |doi=10.1038/nprot.2011.402 |url=}}</ref>.
Ряд методов был разработан для преодоления данного ограничения, например Nano-ChIP-seq<ref>{{Статья|автор=Mazhar Adli, Bradley E. Bernstein|заглавие=Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21959244|издание=Nature Protocols|год=2011-09-29|том=6|выпуск=10|страницы=1656–1668|issn=1750-2799|doi=10.1038/nprot.2011.402}}</ref>.


Также существуют вариации метода, направленные на повышение специфичности (ChIP-exo <ref>{{cite journal |author=Rhee HS, Pugh BF |title=Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution |journal=Cell |volume=147 |issue=6 |pages=1408–19 |year=2011 |month=December |pmid=22153082 |pmc=3243364 |doi=10.1016/j.cell.2011.11.013 |url=}}</ref>). Так, длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным.
Также существуют вариации метода, направленные на повышение специфичности (ChIP-exo <ref>{{Статья|автор=Ho Sung Rhee, B. Franklin Pugh|заглавие=Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/22153082|издание=Cell|год=2011-12-09|том=147|выпуск=6|страницы=1408–1419|issn=1097-4172|doi=10.1016/j.cell.2011.11.013}}</ref>). Так, длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным.


===Секвенирование===
===Секвенирование===
Строка 36: Строка 36:
* '''Фильтрация чтений с низким качеством'''
* '''Фильтрация чтений с низким качеством'''


:Для фильтрации полученных ридов можно использовать программные пакеты [http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ FastQС] и [http://hannonlab.cshl.edu/fastx_toolkit/ FastX ToolKit]<ref name=":2">{{cite journal|author=Bailey T, Krajewski P, Ladunga I, ''et al.''|year=2013|month=November|url=|title=Practical guidelines for the comprehensive analysis of ChIP-seq data|journal=PLoS Comput. Biol.|volume=9|issue=11|pages=e1003326|doi=10.1371/journal.pcbi.1003326|pmid=24244136|pmc=3828144}}</ref>. Определение качества чтений базируется на [[Phred quality score]] ([[:en: Phred quality score|на англ.]]) — весе, который присваивается каждому [[нуклеотид]]у при его прочтении.
:Для фильтрации полученных ридов можно использовать программные пакеты [http://www.bioinformatics.babraham.ac.uk/projects/fastqc/ FastQС] и [http://hannonlab.cshl.edu/fastx_toolkit/ FastX ToolKit]<ref>{{Статья|автор=Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li|заглавие=Practical guidelines for the comprehensive analysis of ChIP-seq data|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/24244136|издание=PLoS computational biology|год=2013-01-01|том=9|выпуск=11|страницы=e1003326|issn=1553-7358|doi=10.1371/journal.pcbi.1003326}}</ref>. Определение качества чтений базируется на [[Phred quality score]] ([[:en: Phred quality score|на англ.]]) — весе, который присваивается каждому [[нуклеотид]]у при его прочтении.


:Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы [https://github.com/najoshi/sickle sickle].
:Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы [https://github.com/najoshi/sickle sickle].
Строка 56: Строка 56:
:После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был).
:После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был).


:Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования (количества чтений на нуклеотид), неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.). Для определения всего вышеперечисленного можно использовать программный пакет [http://song.igb.illinois.edu/chance.html CHANCE]<ref name=":2" />.
:Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования (количества чтений на нуклеотид), неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.). Для определения всего вышеперечисленного можно использовать программный пакет [http://song.igb.illinois.edu/chance.html CHANCE]<ref>{{Статья|автор=Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li|заглавие=Practical guidelines for the comprehensive analysis of ChIP-seq data|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/24244136|издание=PLoS computational biology|год=2013-01-01|том=9|выпуск=11|страницы=e1003326|issn=1553-7358|doi=10.1371/journal.pcbi.1003326}}</ref>.


* '''Выявление сайтов связывания'''
* '''Выявление сайтов связывания'''
Строка 68: Строка 68:
:Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть [[промотор]], участок начала [[Транскрипция (биология)|транскрипции]], межгенный промежуток и т. п.
:Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть [[промотор]], участок начала [[Транскрипция (биология)|транскрипции]], межгенный промежуток и т. п.


:Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из [[Геномные браузеры|геномных браузеров]] ([[:en: Genome browser|на англ.]]), или можно получить текстовый файл с аннотацией с помощью [http://liulab.dfci.harvard.edu/CEAS/ CEAS] или [http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnno.html ChIPpeakAnno]<ref name=":2" />.
:Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из [[Геномные браузеры|геномных браузеров]] ([[:en: Genome browser|на англ.]]), или можно получить текстовый файл с аннотацией с помощью [http://liulab.dfci.harvard.edu/CEAS/ CEAS] или [http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnno.html ChIPpeakAnno]<ref>{{Статья|автор=Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li|заглавие=Practical guidelines for the comprehensive analysis of ChIP-seq data|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/24244136|издание=PLoS computational biology|год=2013-01-01|том=9|выпуск=11|страницы=e1003326|issn=1553-7358|doi=10.1371/journal.pcbi.1003326}}</ref>.


* '''Выявление [[Консервативные мотивы|мотивов]]'''
* '''Выявление [[Консервативные мотивы|мотивов]]'''


:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]] или [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref name=":2" />. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.
:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]] или [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref>{{Статья|автор=Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li|заглавие=Practical guidelines for the comprehensive analysis of ChIP-seq data|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/24244136|издание=PLoS computational biology|год=2013-01-01|том=9|выпуск=11|страницы=e1003326|issn=1553-7358|doi=10.1371/journal.pcbi.1003326}}</ref>. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.


==Сравнение Chip-seq и Chip-on-chip==
==Сравнение Chip-seq и Chip-on-chip==
Строка 102: Строка 102:
|-
|-
|}
|}

==Чувствительность метода==
==Чувствительность метода==
Чувствительность технологии зависит от глубины секвенирования (количества чтений, картированных в данном конкретном месте генома), длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений<ref name=":0" />. Для белков с большим числом сайтов связывания ([[РНК-полимераза III]]) потребуется до 60 миллионов чтений<ref name=":0" />. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений<ref name=":0" />.
Чувствительность технологии зависит от глубины секвенирования (количества чтений, картированных в данном конкретном месте генома), длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений<ref name=":0" />. Для белков с большим числом сайтов связывания ([[РНК-полимераза III]]) потребуется до 60 миллионов чтений<ref name=":0" />. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений<ref name=":0" />.
Строка 108: Строка 109:
Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.
Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.


Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам<ref name=autogenerated1>{{Cite pmid|21356108}}</ref>.
Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам<ref>{{Статья|автор=Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White|заглавие=ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21356108|издание=BMC genomics|год=2011-02-28|том=12|страницы=134|issn=1471-2164|doi=10.1186/1471-2164-12-134}}</ref>.


==Исследования==
==Исследования==
Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и понимания, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE<ref>{{cite journal |author=Celniker SE, Dillon LA, Gerstein MB, ''et al.'' |title=Unlocking the secrets of the genome |journal=Nature |volume=459 |issue=7249 |pages=927–30 |year=2009 |month=June |pmid=19536255 |pmc=2843545 |doi=10.1038/459927a |url=}}</ref>. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: [[Определение конформации хромосом#Метод фиксации конформации хромосом «под копирку» (Carbon-Copy Chromosome Conformation Capture, 5С)|5С]] и [[ChIA-PET]], позволяющих определить конформацию хромосом; [[DNase-seq]] и [[FAIRE-Seq]], позволяющих определить свободные от нуклеосом участки; [[бисульфитное секвенирование|бисульфитного секвенирования]] и [http://www.illumina.com/technology/infinium_methylation_assay.ilmn Infinium Methylation Assay], позволяющих определить наличие метилцитозинов в ДНК, [[RT-PCR]] и [[секвенирование РНК|секвенирования РНК]], позволяющих определить уровень экспрессии генов, а также [[CLIP-seq]] и [[RIP-seq]], позволяющих выявить [[РНК]]-белковые взаимодействия.[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]В качестве примера успешного использования ChIP-seq можно привести исследование нуклеосомной архитектуры промоторов. Удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию<ref>{{cite journal |author=Schmid CD, Bucher P |title=ChIP-Seq data reveal nucleosome architecture of human promoters |journal=Cell |volume=131 |issue=5 |pages=831–2; author reply 832–3 |year=2007 |month=November |pmid=18045524 |doi=10.1016/j.cell.2007.11.017 |url=}}</ref>.
*Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и понимания, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE<ref>{{Статья|автор=Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff|заглавие=Unlocking the secrets of the genome|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/19536255|издание=Nature|год=2009-06-18|том=459|выпуск=7249|страницы=927–930|issn=1476-4687|doi=10.1038/459927a}}</ref>. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: [[Определение конформации хромосом#Метод фиксации конформации хромосом «под копирку» (Carbon-Copy Chromosome Conformation Capture, 5С)|5С]] и [[ChIA-PET]], позволяющих определить конформацию хромосом; [[DNase-seq]] и [[FAIRE-Seq]], позволяющих определить свободные от нуклеосом участки; [[бисульфитное секвенирование|бисульфитного секвенирования]] и [http://www.illumina.com/technology/infinium_methylation_assay.ilmn Infinium Methylation Assay], позволяющих определить наличие метилцитозинов в ДНК, [[RT-PCR]] и [[секвенирование РНК|секвенирования РНК]], позволяющих определить уровень экспрессии генов, а также [[CLIP-seq]] и [[RIP-seq]], позволяющих выявить [[РНК]]-белковые взаимодействия.
[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]
*Исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию<ref>{{Статья|автор=Christoph D. Schmid, Philipp Bucher|заглавие=ChIP-Seq data reveal nucleosome architecture of human promoters|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18045524|издание=Cell|год=2007-11-30|том=131|выпуск=5|страницы=831–832; author reply 832–833|issn=0092-8674|doi=10.1016/j.cell.2007.11.017}}</ref>.


ChIP-seq также применяли для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|C. elegans]]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции<ref>{{cite journal |author=Niu W, Lu ZJ, Zhong M, ''et al.'' |title=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans |journal=Genome Res. |volume=21 |issue=2 |pages=245–54 |year=2011 |month=February |pmid=21177963 |pmc=3032928 |doi=10.1101/gr.114587.110 |url=}}</ref>.
*Полногеномный ChIP-seq. Данный метод был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|C. elegans]]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции<ref>{{Статья|автор=Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray|заглавие=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21177963|издание=Genome Research|год=2011-02-01|том=21|выпуск=2|страницы=245–254|issn=1549-5469|doi=10.1101/gr.114587.110}}</ref>.


== Перспективы развития ==
== Перспективы развития ==
Строка 119: Строка 124:
Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов<ref name=":0" />.
Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов<ref name=":0" />.


Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию<ref name=autogenerated1 />.
Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию<ref>{{Статья|автор=Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White|заглавие=ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21356108|издание=BMC genomics|год=2011-02-28|том=12|страницы=134|issn=1471-2164|doi=10.1186/1471-2164-12-134}}</ref>.


==Базы данных==
==Базы данных==

Версия от 13:14, 23 апреля 2017

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному[1][2], а также поиска мест связывания транскрипционных факторов[3]. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip[en], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4].

Использование

Основным вариантом использования ChIP-seq является изучение влияния транскрипционных факторов и других ДНК-связывающих белков на фенотип[5]. Определение того, как именно белки взаимодействуют с ДНК для регуляции экспрессии генов, необходимо для детального понимания многих биологических процессов. Эта эпигенетическая информация дополняет генотип и данные по экспрессии генов.

Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме[5].

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования ChIP-seq является определение участков связывания факторов транскрипции, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина[5]. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Методика

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках[6]. Типичная методика включает в себя следующие стадии:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к бусинам
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате удается специфически выделить те фрагменты ДНК, с которыми был связан исследуемый белок.

У данной методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Ряд методов был разработан для преодоления данного ограничения, например Nano-ChIP-seq[7].

Также существуют вариации метода, направленные на повышение специфичности (ChIP-exo [8]). Так, длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным.

Секвенирование

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов).

Биоинформатический анализ

Биоинформатический анализ данных секвенирования включает в себя следующие стадии:

  • Фильтрация чтений с низким качеством
Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit[9]. Определение качества чтений базируется на Phred quality score (на англ.) — весе, который присваивается каждому нуклеотиду при его прочтении.
Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы sickle.
  • Картирование чтений на геном
Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном можно использовать следующие программные пакеты:BWA, Bowtie, GSNAP[5].
  • Фильтрация артефактов и чтений, которые картировались сразу в несколько мест на геноме
Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100 − 200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например LINE (на англ.) и SINE (на англ.) — повторы, составляющие соответственно 17% и 11% от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах.
Программные пакеты для фильтрации: SAMTools, Picard Tools.
  • Определение качества картирования
После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был).
Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования (количества чтений на нуклеотид), неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.). Для определения всего вышеперечисленного можно использовать программный пакет CHANCE[10].
  • Выявление сайтов связывания
Для выявления сайтов (участков) связывания сначала смотрится уровень покрытия (количество чтений, картированных на данный нуклеотид). Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью.
Программные пакеты, которые могут быть использованы для решения этих задач: SPP, MACS и UGENE[5].
  • Аннотация сайтов связывания
Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный промежуток и т. п.
Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров (на англ.), или можно получить текстовый файл с аннотацией с помощью CEAS или ChIPpeakAnno[11].
В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME или Гиббс семплер[12]. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Сравнение Chip-seq и Chip-on-chip

Chip-seq и Chip-on-chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq[4]:

Показатель Chip-seq Chip-on-chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа

Чувствительность метода

Чувствительность технологии зависит от глубины секвенирования (количества чтений, картированных в данном конкретном месте генома), длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений[5]. Для белков с большим числом сайтов связывания (РНК-полимераза III) потребуется до 60 миллионов чтений[5]. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений[5]. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.

Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам[13].

Исследования

  • Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и понимания, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE[14]. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq и RIP-seq, позволяющих выявить РНК-белковые взаимодействия.
Типы данных в энциклопедии ДНК элементов (ENCODE)
  • Исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию[15].
  • Полногеномный ChIP-seq. Данный метод был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды C. elegans. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции[16].

Перспективы развития

Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов[5].

Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию[17].

Базы данных

На данный момент существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека.
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans.
  • Factorbook — база данных, сгенерированная на основе ENCODE.
  • ChIPBase — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans.
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген.
  • CTCFBSDB — база данных участков связывания инсулятора CTCF.
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши.
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека.
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот.
  • SwissRegulon — база данных аннотированных регуляторных сайтов.
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши.
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши.

Примечания

  1. Mikkelsen T. S., Ku M., Jaffe D. B., Issac B., Lieberman E., Giannoukos G., Alvarez P., Brockman W., Kim T. K., Koche R. P., Lee W., Mendenhall E., O'Donovan A., Presser A., Russ C., Xie X., Meissner A., Wernig M., Jaenisch R., Nusbaum C., Lander E. S., Bernstein B. E. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells. (англ.) // Nature. — 2007. — Vol. 448, no. 7153. — P. 553—560. — doi:10.1038/nature06008. — PMID 17603471.
  2. Barski A., Cuddapah S., Cui K., Roh T. Y., Schones D. E., Wang Z., Wei G., Chepelev I., Zhao K. High-resolution profiling of histone methylations in the human genome. (англ.) // Cell. — 2007. — Vol. 129, no. 4. — P. 823—837. — doi:10.1016/j.cell.2007.05.009. — PMID 17512414.
  3. Johnson D. S., Mortazavi A., Myers R. M., Wold B. Genome-wide mapping of in vivo protein-DNA interactions. (англ.) // Science (New York, N.Y.). — 2007. — Vol. 316, no. 5830. — P. 1497—1502. — doi:10.1126/science.1141319. — PMID 17540862.
  4. 1 2 Park P. J. ChIP-seq: advantages and challenges of a maturing technology. (англ.) // Nature reviews. Genetics. — 2009. — Vol. 10, no. 10. — P. 669—680. — doi:10.1038/nrg2641. — PMID 19736561.
  5. 1 2 3 4 5 6 7 8 9 Terrence S. Furey. ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions // Nature Reviews. Genetics. — 2012-12-01. — Т. 13, вып. 12. — С. 840–852. — ISSN 1471-0064. — doi:10.1038/nrg3306.
  6. Barbara Kaboord, Maria Perr. Isolation of proteins and protein complexes by immunoprecipitation // Methods in Molecular Biology (Clifton, N.J.). — 2008-01-01. — Т. 424. — С. 349–364. — ISSN 1064-3745. — doi:10.1007/978-1-60327-064-9_27.
  7. Mazhar Adli, Bradley E. Bernstein. Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq // Nature Protocols. — 2011-09-29. — Т. 6, вып. 10. — С. 1656–1668. — ISSN 1750-2799. — doi:10.1038/nprot.2011.402.
  8. Ho Sung Rhee, B. Franklin Pugh. Comprehensive genome-wide protein-DNA interactions detected at single-nucleotide resolution // Cell. — 2011-12-09. — Т. 147, вып. 6. — С. 1408–1419. — ISSN 1097-4172. — doi:10.1016/j.cell.2011.11.013.
  9. Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data // PLoS computational biology. — 2013-01-01. — Т. 9, вып. 11. — С. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  10. Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data // PLoS computational biology. — 2013-01-01. — Т. 9, вып. 11. — С. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  11. Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data // PLoS computational biology. — 2013-01-01. — Т. 9, вып. 11. — С. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  12. Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data // PLoS computational biology. — 2013-01-01. — Т. 9, вып. 11. — С. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  13. Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis // BMC genomics. — 2011-02-28. — Т. 12. — С. 134. — ISSN 1471-2164. — doi:10.1186/1471-2164-12-134.
  14. Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff. Unlocking the secrets of the genome // Nature. — 2009-06-18. — Т. 459, вып. 7249. — С. 927–930. — ISSN 1476-4687. — doi:10.1038/459927a.
  15. Christoph D. Schmid, Philipp Bucher. ChIP-Seq data reveal nucleosome architecture of human promoters // Cell. — 2007-11-30. — Т. 131, вып. 5. — С. 831–832; author reply 832–833. — ISSN 0092-8674. — doi:10.1016/j.cell.2007.11.017.
  16. Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray. Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans // Genome Research. — 2011-02-01. — Т. 21, вып. 2. — С. 245–254. — ISSN 1549-5469. — doi:10.1101/gr.114587.110.
  17. Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis // BMC genomics. — 2011-02-28. — Т. 12. — С. 134. — ISSN 1471-2164. — doi:10.1186/1471-2164-12-134.