Эта статья входит в число добротных статей

ChIP-seq: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Нет описания правки
Строка 1: Строка 1:
'''ChIP-seq''' — метод анализа [[ДНК]]-[[Белок|белковых]] взаимодействий, основанный на [[иммунопреципитация#Иммунопреципитация хроматина|иммунопреципитации хроматина (ChIP)]] и [[высокоэффективное секвенирование|высокоэффективном]] [[секвенирование|секвенировании]] ДНК. Метод был разработан для изучения модификаций [[Гистоны|гистонов]] по всему [[геном]]у<ref>{{Cite pmid|17603471|noedit}}</ref><ref>{{Cite pmid|17512414|noedit}}</ref>, а также поиска мест связывания [[транскрипционный фактор|транскрипционных факторов]]<ref>{{Cite pmid|17540862|noedit}}</ref>. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был {{Нп5|ChIP-on-chip}}, сочетающий иммунопреципитацию [[Хроматин|хроматина]] с гибридизацией на [[ДНК-микрочип]]ах<ref name=":1">{{Cite pmid|19736561|noedit}}</ref>.
'''ChIP-seq''' — метод анализа [[ДНК]]-[[Белок|белковых]] взаимодействий, основанный на [[иммунопреципитация#Иммунопреципитация хроматина|иммунопреципитации хроматина (ChIP)]] и [[высокоэффективное секвенирование|высокоэффективном]] [[секвенирование|секвенировании]] ДНК. Метод был разработан для изучения модификаций [[Гистоны|гистонов]] по всему [[геном]]у<ref>{{Cite pmid|17603471|noedit}}</ref><ref>{{Cite pmid|17512414|noedit}}</ref>, а также поиска мест связывания [[транскрипционный фактор|транскрипционных факторов]]<ref>{{Cite pmid|17540862|noedit}}</ref>. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был {{Нп5|ChIP-on-chip}}, сочетающий иммунопреципитацию [[Хроматин|хроматина]] с гибридизацией на [[ДНК-микрочип]]ах<ref name=":1">{{Cite pmid|19736561|noedit}}</ref>. Chip-seq и ChIP-on-Chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq<ref name=":1" />:
{| class="wikitable sortable" width="80%"
! Показатель
! Chip-seq
! ChIP-on-Chip
|-
|Количество исходной ДНК
|менее 10 нг
|4 мкг
|-
|Гибкость метода
|да: полногеномный анализ любого отсеквенированного организма
|есть ограничения: доступность ДНК-микрочипов
|-
|Точность определения позиции участка связывания
| +/- 50 пн
| +/- 500 − 1000 пн
|-
|Чувствительность
|вариабельная: увеличивая количество чтений, можно увеличить чувствительность
|слабая: зависит от качества гибридизации
|-
|Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен)
|исключена: каждая молекула ДНК секвенируется отдельно
|может быть значительной, что сильно снижает точность анализа
|-
|}


<br />
==Использование==

Основным вариантом использования ChIP-seq является изучение влияния [[фактор транскрипции|транскрипционных факторов]] и других ДНК-связывающих белков на [[фенотип]]<ref name=":0">{{Статья|автор=Terrence S. Furey|заглавие=ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23090257|язык=en|издание=Nature Reviews. Genetics|тип=|год=2012-12-01|месяц=|число=|том=13|выпуск=12|номер=|страницы=840–852|issn=1471-0064|doi=10.1038/nrg3306}}</ref>. Определение того, как именно белки взаимодействуют с ДНК для регуляции [[Экспрессия генов|экспрессии генов]], необходимо для детального понимания многих биологических процессов. Эта [[эпигенетика|эпигенетическая]] информация дополняет [[генотип]] и данные по экспрессии генов.

Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме<ref name=":0" />.

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина.
Типичным примером использования ChIP-seq является определение участков связывания факторов транскрипции, [[ДНК-полимераза|ДНК-полимеразы]], структурных белков, а также модификаций гистонов и структуры хроматина<ref name=":0" />. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов ([[DNase-seq|DNase-Seq]] и [[FAIRE-Seq|FAIRE-Seq]]) для определения свободных от [[нуклеосома|нуклеосом]] участков ДНК.


==Методика==
==Методика==
Строка 16: Строка 35:
Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках<ref>{{Статья|автор=Barbara Kaboord, Maria Perr|заглавие=Isolation of proteins and protein complexes by immunoprecipitation|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18369874|язык=en|издание=Methods in Molecular Biology (Clifton, N.J.)|тип=|год=2008-01-01|месяц=|число=|том=424|номер=|страницы=349–364|issn=1064-3745|doi=10.1007/978-1-60327-064-9_27}}</ref>.
Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках<ref>{{Статья|автор=Barbara Kaboord, Maria Perr|заглавие=Isolation of proteins and protein complexes by immunoprecipitation|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18369874|язык=en|издание=Methods in Molecular Biology (Clifton, N.J.)|тип=|год=2008-01-01|месяц=|число=|том=424|номер=|страницы=349–364|issn=1064-3745|doi=10.1007/978-1-60327-064-9_27}}</ref>.
Типичная методика включает в себя следующие стадии:
Типичная методика включает в себя следующие стадии:
* образование обратимых сшивок между ДНК и взаимодействующими с ней белками
* образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
* выделение ДНК и расщепление на фрагменты ультразвуком или [[эндонуклеазы|эндонуклеазами]]
* выделение ДНК и расщепление на фрагменты ультразвуком или [[эндонуклеазы|эндонуклеазами]]
* осаждение специфическими к исследуемому белку [[антитела]]ми, пришитыми к бусинам
* осаждение специфическими к исследуемому белку [[антитела]]ми, пришитыми к бусинам
* разрушение сшивок между белком и ДНК, очистка ДНК
* разрушение сшивок между белком и ДНК, очистка ДНК

В результате удается специфически выделить те фрагменты ДНК, с которыми был связан исследуемый белок.
В результате выделяется вся ДНК, обогащенная фрагментами, с которыми был связан исследуемый белок.


===Секвенирование===
===Секвенирование===
{{main|Методы секвенирования нового поколения}}
{{main|Методы секвенирования нового поколения}}
Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения<ref name=":0" />. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды 36–100 п.н<ref name=":2">{{Статья|автор=Ryuichiro Nakato, Katsuhiko Shirahige|год=2016-03-15|doi=10.1093/bib/bbw023|issn=1467-5463, 1477-4054|язык=en|страницы=bbw023|издание=Briefings in Bioinformatics|заглавие=Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation|ссылка=https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbw023}}</ref>.
Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения<ref name=":0">{{Статья|автор=Terrence S. Furey|заглавие=ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23090257|язык=en|издание=Nature Reviews. Genetics|тип=|год=2012-12-01|месяц=|число=|том=13|выпуск=12|номер=|страницы=840–852|issn=1471-0064|doi=10.1038/nrg3306}}</ref>. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды чаще всего имеют длину 50 п.н<ref name=":2">{{Статья|автор=Ryuichiro Nakato, Katsuhiko Shirahige|год=2016-03-15|doi=10.1093/bib/bbw023|issn=1467-5463, 1477-4054|язык=en|страницы=bbw023|издание=Briefings in Bioinformatics|заглавие=Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation|ссылка=https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbw023}}</ref>.


В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)<ref name=":2" />.
В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)<ref name=":2" />.
Строка 64: Строка 84:
:Некоторые из программных пакетов, которые можно использовать для решения этой задачи: [https://sites.google.com/a/brown.edu/bioinformatics-in-biomed/spp-r-from-chip-seq SPP], [http://liulab.dfci.harvard.edu/MACS/ MACS] и [[UGENE]]<ref name=":0" />.
:Некоторые из программных пакетов, которые можно использовать для решения этой задачи: [https://sites.google.com/a/brown.edu/bioinformatics-in-biomed/spp-r-from-chip-seq SPP], [http://liulab.dfci.harvard.edu/MACS/ MACS] и [[UGENE]]<ref name=":0" />.
* '''Аннотация сайтов связывания'''
* '''Аннотация сайтов связывания'''
:Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть [[промотор]], участок начала [[Транскрипция (биология)|транскрипции]], межгенный промежуток и т. п<ref name=":0" />.
:Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть [[промотор]], участок начала [[Транскрипция (биология)|транскрипции]], межгенный участок и т. п<ref name=":0" />.


:Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из [[Геномные браузеры|геномных браузеров]] ([[:en: Genome browser|на англ.]]), или можно получить текстовый файл с аннотацией с помощью [http://liulab.dfci.harvard.edu/CEAS/ CEAS] или [http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnno.html ChIPpeakAnno]<ref name=":3" />.
:Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из [[Геномные браузеры|геномных браузеров]] ([[:en: Genome browser|на англ.]]), или можно получить текстовый файл с аннотацией с помощью [http://liulab.dfci.harvard.edu/CEAS/ CEAS] или [http://www.bioconductor.org/packages/release/bioc/html/ChIPpeakAnno.html ChIPpeakAnno]<ref name=":3" />.
Строка 72: Строка 92:
:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]] или [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref name=":3" />. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.
:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]] или [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref name=":3" />. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.


==Характеристики метода==
==Сравнение Chip-seq и Chip-on-chip==
Chip-seq и Chip-on-chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq<ref name=":1" />:
{| class="wikitable sortable" width="80%"
! Показатель
! Chip-seq
! Chip-on-chip
|-
|Количество исходной ДНК
|менее 10 нг
|4 мкг
|-
|Гибкость метода
|да: полногеномный анализ любого отсеквенированного организма
|есть ограничения: доступность ДНК-микрочипов
|-
|Точность определения позиции участка связывания
| +/- 50 пн
| +/- 500 − 1000 пн
|-
|Чувствительность
|вариабельная: увеличивая количество чтений, можно увеличить чувствительность
|слабая: зависит от качества гибридизации
|-
|Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен)
|исключена: каждая молекула ДНК секвенируется отдельно
|может быть значительной, что сильно снижает точность анализа
|-
|}

== Характеристики метода ==

=== Отношение сигнал/шум ===
=== Отношение сигнал/шум ===
'''[[Отношение сигнал/шум]]''' (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов <ref name=":2" />. Для определения этого показателя ENCODE предлагает две метрики:
'''[[Отношение сигнал/шум]]''' (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов <ref name=":2" />. Для определения этого показателя ENCODE предлагает две метрики:
Строка 110: Строка 100:


=== Глубина секвенирования ===
=== Глубина секвенирования ===
'''Глубина секвенирования''' (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растет с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование <ref name=":2" />.
'''Глубина секвенирования''' (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растет с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым <ref>{{Статья|автор=The ENCODE Project Consortium|ответственный=Peter B. Becker|год=2011-04-19|doi=10.1371/journal.pbio.1001046|issn=1545-7885|выпуск=4|язык=en|страницы=e1001046|издание=PLoS Biology|заглавие=A User's Guide to the Encyclopedia of DNA Elements (ENCODE)|ссылка=https://dx.plos.org/10.1371/journal.pbio.1001046|том=9}}</ref>. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование <ref name=":2" />.


Значение '''достаточного''' уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задается эмпирически <ref name=":2" />.
Значение '''достаточного''' уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задается эмпирически <ref name=":2" />.


=== Сложность библиотеки ===
=== Сложность библиотеки ===
'''Сложность библиотеки''' (NRF) определяется как отношения числа необогащенных ридов N<sub>nonred</sub> к общему числу откартированных ридов N<sub>all</sub>. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задается в качестве параметра). Обогащенные риды (риды, не вошедшие в N<sub>nonred</sub>) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно <<1. Для маленьких геномов глубина секвенирования может быть >1, поэтому стоит взять T >1 <ref name=":2" />.
'''Сложность библиотеки''' (NRF) определяется как отношения числа необогащенных ридов N<sub>nonred</sub> к общему числу откартированных ридов N<sub>all</sub>. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задается в качестве параметра). Обогащенные риды (риды, не вошедшие в N<sub>nonred</sub>) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно <<1. Для маленьких геномов глубина секвенирования может быть >1, поэтому стоит взять T >1 <ref name=":2" />. При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов <ref name=":2" />.


Показатель NRF уменьшается с увеличением глубины секвенирования библиотеки. При это в конечном итоге достигается точка, в которой сложность будет максимальна, и будет происходить секвенирование одних и тех же фрагментов ДНК, амплифицированных с помощью ПЦР. Низкая сложность библиотеки может возникнуть, например, если в процессе иммунопреципитации выделяется очень небольшое количество ДНК <ref name=":8">{{Статья|автор=S. G. Landt, G. K. Marinov, A. Kundaje, P. Kheradpour, F. Pauli|год=2012-09-01|doi=10.1101/gr.136184.111|issn=1088-9051|выпуск=9|язык=en|страницы=1813–1831|издание=Genome Research|заглавие=ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia|ссылка=http://genome.cshlp.org/cgi/doi/10.1101/gr.136184.111|том=22}}</ref>.
При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов <ref name=":2" />.


===Чувствительность ===
===Чувствительность ===
Строка 123: Строка 113:
<!--Чтобы избежать пересеквенирования и оценить оптимальную глубину секвенирования, важно принимать во внимание сложность [[Библиотека_генов|библиотеки]]. Под сложностью библиотеки понимается избыточное количество ридов с заданной глубиной секвенирования.
<!--Чтобы избежать пересеквенирования и оценить оптимальную глубину секвенирования, важно принимать во внимание сложность [[Библиотека_генов|библиотеки]]. Под сложностью библиотеки понимается избыточное количество ридов с заданной глубиной секвенирования.
-->
-->
Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-chip, в котором чувствительность не связана со стоимостью анализа.
Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-Chip, в котором чувствительность не связана со стоимостью анализа.


Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам<ref name="автоссылка1">{{Статья|автор=Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White|заглавие=ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21356108|язык=en|издание=BMC genomics|тип=|год=2011-02-28|месяц=|число=|том=12|номер=|страницы=134|issn=1471-2164|doi=10.1186/1471-2164-12-134}}</ref>.
Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-Chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам<ref name="автоссылка1">{{Статья|автор=Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White|заглавие=ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21356108|язык=en|издание=BMC genomics|тип=|год=2011-02-28|месяц=|число=|том=12|номер=|страницы=134|issn=1471-2164|doi=10.1186/1471-2164-12-134}}</ref>.


== Недостатки и ограничения метода ==
== Недостатки и ограничения метода ==
Строка 133: Строка 123:
Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител и на данный момент существует единственная опубликованная работа, в которой Single-cell ChIP-seq осуществлен успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность<ref>{{Статья|автор=Assaf Rotem, Oren Ram, Noam Shoresh, Ralph A. Sperling, Alon Goren|год=2015-11|doi=10.1038/nbt.3383|issn=1087-0156|выпуск=11|страницы=1165–1172|издание=Nature biotechnology|заглавие=Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4636926/|том=33}}</ref>.
Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител и на данный момент существует единственная опубликованная работа, в которой Single-cell ChIP-seq осуществлен успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность<ref>{{Статья|автор=Assaf Rotem, Oren Ram, Noam Shoresh, Ralph A. Sperling, Alon Goren|год=2015-11|doi=10.1038/nbt.3383|issn=1087-0156|выпуск=11|страницы=1165–1172|издание=Nature biotechnology|заглавие=Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4636926/|том=33}}</ref>.


=== Недостаточная точность ===
=== Недостаточные точность и специфичность ===
Длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo).
Длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo). Качество эксперимента ChIP-seq также прямо зависит от специфичности антител и степени обогащения образца на стадии иммунопреципитации. Главными проблемами могут быть низкая реактивность антитела против нужного белка и/или кросс-реактивность по отношению к другим белкам. Консорциум ENCODE предлагает несколько методик для оценки специфичности антител <ref name=":8" />.


Для осуществления иммунопреципитации также можно пришить к исследуемому белку эпитоп. Такой способ решает обе проблемы, возникающие при иммунопреципитации антителами, однако в этом случае пришиваемый тэг может влиять на исследуемый белок (например, изменять уровень его экспрессии или способность связывания) <ref name=":8" />.
Кроме того, доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее и соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и будут менее представлены в образце, что может привести к ложно-отрицательному результату <ref name=":2" />. Об этом ограничении необходимо помнить при анализе полученных результатов.

=== Неравномерная фрагментация ===
Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее и соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и будут менее представлены в образце, что может привести к ложно-отрицательному результату <ref name=":2" />. Об этом ограничении необходимо помнить при анализе полученных результатов.


== Применение ==
== Применение ==


ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина.
=== Анализ мотивов ===
Типичным примером использования ChIP-seq является определение участков связывания трансприкционных факторов, [[ДНК-полимераза|ДНК-полимеразы]], структурных белков, а также модификаций гистонов и структуры хроматина<ref name=":0" />. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов ([[DNase-seq|DNase-Seq]] и [[FAIRE-Seq]]) для определения свободных от [[нуклеосома|нуклеосом]] участков ДНК.[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]
Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм [[MEME]] (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведен даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже<ref name=":6">{{Cite web|url=https://epigenie.com/guide-getting-started-with-chip-seq/|title=ChIP Sequencing Overview|publisher=epigenie.com|accessdate=2019-04-22}}</ref>.  


=== Базы данных ===
=== Исследование состояния хроматина ===
Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE<ref>{{Статья|автор=Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff|заглавие=Unlocking the secrets of the genome|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/19536255|язык=en|издание=Nature|тип=|год=2009-06-18|месяц=|число=|том=459|выпуск=7249|номер=|страницы=927–930|issn=1476-4687|doi=10.1038/459927a}}</ref>. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: [[Определение конформации хромосом#Метод фиксации конформации хромосом «под копирку» (Carbon-Copy Chromosome Conformation Capture, 5С)|5С]] и [[ChIA-PET]], позволяющих определить конформацию хромосом; [[DNase-seq]] и [[FAIRE-Seq]], позволяющих определить свободные от нуклеосом участки; [[бисульфитное секвенирование|бисульфитного секвенирования]] и [https://web.archive.org/web/20140102212820/http://www.illumina.com/technology/infinium_methylation_assay.ilmn Infinium Methylation Assay], позволяющих определить наличие метилцитозинов в ДНК, [[RT-PCR]] и [[секвенирование РНК|секвенирования РНК]], позволяющих определить уровень экспрессии генов, а также {{нп5|CLIP-seq||en|HITS-CLIP}} и {{нп5|RIP-seq||en|CLIP}}, позволяющих выявить [[РНК]]-белковые взаимодействия.
Метилирование ДНК и [[Гистоны|модификации гистонов]] претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Модификации гистонов, такие как ацетилирование, например, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина ([[Эухроматин|эухроматином]]), в то время как метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина ([[Гетерохроматин|гетерохроматином]]). Например, моно- и три-метилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) ассоциируется с открытым хроматином. Но каждая из этих меток представляет особую категорию открытого хроматина — H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Напротив, триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет [[Гомеобокс|гомеобоксные]] транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы ([[:en:Zinc_finger_transcription_factor|zinc finger transcription factors]])<ref>{{Статья|автор=Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham|год=2011|doi=10.1007/978-1-61779-316-5_20|issn=1064-3745|страницы=265–286|издание=Methods in molecular biology (Clifton, N.J.)|заглавие=Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4151291/|том=791}}</ref>. Однако также становится понятно, что различные комбинации гистоновых меток могут обеспечить еще более подробную информацию. Например, присутствие сразу двух меток H3K4me3 — метки эухроматина, и H3K9me3 — метки гетерохроматина, на промоторе может быть идентификатором [[Геномный импринтинг|импринтируемых генов]] <ref>{{Статья|автор=Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman|год=2007-08-02|doi=10.1038/nature06008|issn=0028-0836|выпуск=7153|страницы=553–560|издание=Nature|заглавие=Genome-wide maps of chromatin state in pluripotent and lineage-committed cells|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2921165/|том=448}}</ref>.


===Анализ мотивов===
Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных<ref name=":6" /> <ref>{{Статья|автор=Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic|год=2010-10|doi=10.1038/nbt1010-1045|issn=1087-0156|выпуск=10|страницы=1045–1048|издание=Nature biotechnology|заглавие=The NIH Roadmap Epigenomics Mapping Consortium|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3607281/|том=28}}</ref>.
Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком ''in vivo''. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме<ref name=":0" />. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм [[MEME]] (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведен даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже<ref name=":6">{{Cite web|url=https://epigenie.com/guide-getting-started-with-chip-seq/|title=ChIP Sequencing Overview|publisher=epigenie.com|accessdate=2019-04-22}}</ref>.  

=== Исследование состояния хроматина ===
Метилирование ДНК и [[Гистоны|модификации гистонов]] претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных<ref name=":6" /> <ref>{{Статья|автор=Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic|год=2010-10|doi=10.1038/nbt1010-1045|issn=1087-0156|выпуск=10|страницы=1045–1048|издание=Nature biotechnology|заглавие=The NIH Roadmap Epigenomics Mapping Consortium|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3607281/|том=28}}</ref>.


== Модификации и похожие методы ==
== Модификации и похожие методы ==
Строка 154: Строка 151:


=== Nano-ChIP-seq ===
=== Nano-ChIP-seq ===
Метод '''nano-ChIP-seq''' основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется на Illumina<ref>{{Статья|автор=Mazhar Adli, Bradley E Bernstein|год=2011-10|doi=10.1038/nprot.2011.402|issn=1754-2189, 1750-2799|выпуск=10|язык=en|страницы=1656–1668|издание=Nature Protocols|заглавие=Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq|ссылка=http://www.nature.com/articles/nprot.2011.402|том=6}}</ref>. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащенность образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тыс. клеток.
Метод '''nano-ChIP-seq''' основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется<ref>{{Статья|автор=Mazhar Adli, Bradley E Bernstein|год=2011-10|doi=10.1038/nprot.2011.402|issn=1754-2189, 1750-2799|выпуск=10|язык=en|страницы=1656–1668|издание=Nature Protocols|заглавие=Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq|ссылка=http://www.nature.com/articles/nprot.2011.402|том=6}}</ref>. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащенность образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тыс. клеток.


=== ChIP-exo и '''ChIP-nexus''' ===
=== ChIP-exo и '''ChIP-nexus'''===
Метод '''ChIP-exo''' является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка<ref name=":7">{{Статья|автор=Ho Sung Rhee, B. Franklin Pugh|год=2011-12|doi=10.1016/j.cell.2011.11.013|выпуск=6|язык=en|страницы=1408–1419|издание=Cell|заглавие=Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution|ссылка=https://linkinghub.elsevier.com/retrieve/pii/S0092867411013511|том=147}}</ref>. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и Chip-on-chip<ref name=":7" />.
Метод '''ChIP-exo''' является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка<ref name=":7">{{Статья|автор=Ho Sung Rhee, B. Franklin Pugh|год=2011-12|doi=10.1016/j.cell.2011.11.013|выпуск=6|язык=en|страницы=1408–1419|издание=Cell|заглавие=Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution|ссылка=https://linkinghub.elsevier.com/retrieve/pii/S0092867411013511|том=147}}</ref>. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip <ref name=":7" />.


Модификацией протокола ChIP-exo является протокол '''ChIP-nexus'''<ref>{{Статья|автор=Qiye He, Jeff Johnston, Julia Zeitlinger|год=2015-4|doi=10.1038/nbt.3121|issn=1087-0156|выпуск=4|страницы=395–401|издание=Nature biotechnology|заглавие=ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390430/|том=33}}</ref> (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.
Модификацией протокола ChIP-exo является протокол '''ChIP-nexus'''<ref>{{Статья|автор=Qiye He, Jeff Johnston, Julia Zeitlinger|год=2015-4|doi=10.1038/nbt.3121|issn=1087-0156|выпуск=4|страницы=395–401|издание=Nature biotechnology|заглавие=ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390430/|том=33}}</ref> (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.
Строка 174: Строка 171:


==Исследования==
==Исследования==
Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE<ref>{{Статья|автор=Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff|заглавие=Unlocking the secrets of the genome|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/19536255|язык=en|издание=Nature|тип=|год=2009-06-18|месяц=|число=|том=459|выпуск=7249|номер=|страницы=927–930|issn=1476-4687|doi=10.1038/459927a}}</ref>. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: [[Определение конформации хромосом#Метод фиксации конформации хромосом «под копирку» (Carbon-Copy Chromosome Conformation Capture, 5С)|5С]] и [[ChIA-PET]], позволяющих определить конформацию хромосом; [[DNase-seq]] и [[FAIRE-Seq]], позволяющих определить свободные от нуклеосом участки; [[бисульфитное секвенирование|бисульфитного секвенирования]] и [https://web.archive.org/web/20140102212820/http://www.illumina.com/technology/infinium_methylation_assay.ilmn Infinium Methylation Assay], позволяющих определить наличие метилцитозинов в ДНК, [[RT-PCR]] и [[секвенирование РНК|секвенирования РНК]], позволяющих определить уровень экспрессии генов, а также {{нп5|CLIP-seq||en|HITS-CLIP}} и {{нп5|RIP-seq||en|CLIP}}, позволяющих выявить [[РНК]]-белковые взаимодействия.[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]В качестве примера успешного использования Chip-seq можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что, возможно, у дрожжей имеются области промоторов длиной примерно 150 нуклеотидов, свободные от нуклеосом, с которых РНК-полимераза может инициировать транскрипцию<ref>{{Статья|автор=Christoph D. Schmid, Philipp Bucher|заглавие=ChIP-Seq data reveal nucleosome architecture of human promoters|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18045524|язык=en|издание=Cell|тип=|год=2007-11-30|месяц=|число=|том=131|выпуск=5|номер=|страницы=831–832; author reply 832–833|issn=0092-8674|doi=10.1016/j.cell.2007.11.017}}</ref>.


=== Эукариоты ===
Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|C. elegans]]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции<ref>{{Статья|автор=Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray|заглавие=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21177963|язык=en|издание=Genome Research|тип=|год=2011-02-01|месяц=|число=|том=21|выпуск=2|номер=|страницы=245–254|issn=1549-5469|doi=10.1101/gr.114587.110}}</ref>.
В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н.), с которых РНК-полимераза может инициировать транскрипцию <ref>{{Статья|автор=Christoph D. Schmid, Philipp Bucher|заглавие=ChIP-Seq data reveal nucleosome architecture of human promoters|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18045524|язык=en|издание=Cell|тип=|год=2007-11-30|месяц=|число=|том=131|выпуск=5|номер=|страницы=831–832; author reply 832–833|issn=0092-8674|doi=10.1016/j.cell.2007.11.017}}</ref>. Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|''C. elegans'']]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции <ref>{{Статья|автор=Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray|заглавие=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21177963|язык=en|издание=Genome Research|тип=|год=2011-02-01|месяц=|число=|том=21|выпуск=2|номер=|страницы=245–254|issn=1549-5469|doi=10.1101/gr.114587.110}}</ref>.

Также ChIP-seq широко используется для изучения модификаций гистонов. На данный момент известно, что модификации гистонов, такие как ацетилирование, например, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина ([[Эухроматин|эухроматином]]). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина ([[Гетерохроматин|гетерохроматином]]). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причем каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) напротив ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет [[Гомеобокс|гомеобоксные]] транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы ([[:en:Zinc_finger_transcription_factor|zinc finger transcription factors]])<ref>{{Статья|автор=Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham|год=2011|doi=10.1007/978-1-61779-316-5_20|issn=1064-3745|страницы=265–286|издание=Methods in molecular biology (Clifton, N.J.)|заглавие=Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4151291/|том=791}}</ref>. Различные комбинации гистоновых меток могут обеспечить еще более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором [[Геномный импринтинг|импринтируемых генов]] <ref>{{Статья|автор=Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman|год=2007-08-02|doi=10.1038/nature06008|issn=0028-0836|выпуск=7153|страницы=553–560|издание=Nature|заглавие=Genome-wide maps of chromatin state in pluripotent and lineage-committed cells|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2921165/|том=448}}</ref>.

=== Прокариоты ===
У бактерий регуляция экспрессии генов на уровне транскрипции осуществляется с помощью транскрипционных факторов<ref>{{Статья|автор=Douglas F. Browning, Stephen J. W. Busby|год=2004-01|doi=10.1038/nrmicro787|issn=1740-1526, 1740-1534|выпуск=1|страницы=57–65|издание=Nature Reviews Microbiology|заглавие=The regulation of bacterial transcription initiation|ссылка=http://dx.doi.org/10.1038/nrmicro787|том=2}}</ref>. Метод ChIP-seq может быть использован для определения участков связывания бактериальных транскрипционных факторов. Некоторые бактериальные транскрипционные факторы имеют несколько сайтов связывания внутри промотора (т.е. сайтов, расположенных на расстоянии менее 100 п.н.) <ref>{{Статья|автор=Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley|год=2013-10-17|doi=10.1371/journal.pcbi.1003246|issn=1553-7358|выпуск=10|страницы=e1003246|издание=PLoS Computational Biology|заглавие=dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data|ссылка=http://dx.doi.org/10.1371/journal.pcbi.1003246|том=9}}</ref>. Большинство алгоритмов поиска пиков определяют такие близко расположенные сайты как один. Для решения этой проблемы используются так называемые алгоритмы деконволюции пиков, например, CSDeconv <ref>{{Статья|автор=Antonio L.C. Gomes, Thomas Abeel, Matthew Peterson, Elham Azizi, Anna Lyubetskaya|год=2014-10|doi=10.1101/gr.161711.113|issn=1088-9051, 1549-5469|выпуск=10|язык=en|страницы=1686–1697|издание=Genome Research|заглавие=Decoding ChIP-seq with a double-binding signal refines binding peaks to single-nucleotides and predicts cooperative interaction|ссылка=http://genome.cshlp.org/lookup/doi/10.1101/gr.161711.113|том=24}}</ref>, GEM <ref>{{Статья|автор=Yuchun Guo, Shaun Mahony, David K. Gifford|ответственный=Stein Aerts|год=2012-08-09|doi=10.1371/journal.pcbi.1002638|issn=1553-7358|выпуск=8|язык=en|страницы=e1002638|издание=PLoS Computational Biology|заглавие=High Resolution Genome Wide Binding Event Finding and Motif Discovery Reveals Transcription Factor Spatial Binding Constraints|ссылка=http://dx.plos.org/10.1371/journal.pcbi.1002638|том=8}}</ref>, PICS <ref>{{Статья|автор=Xuekui Zhang, Gordon Robertson, Martin Krzywinski, Kaida Ning, Arnaud Droit|год=2011-3|doi=10.1111/j.1541-0420.2010.01441.x|выпуск=1|язык=en|страницы=151–163|издание=Biometrics|заглавие=PICS: Probabilistic Inference for ChIP-seq|ссылка=http://doi.wiley.com/10.1111/j.1541-0420.2010.01441.x|том=67}}</ref>, dPeak <ref>{{Статья|автор=Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley|ответственный=Roderic Guigo|год=2013-10-17|doi=10.1371/journal.pcbi.1003246|issn=1553-7358|выпуск=10|язык=en|страницы=e1003246|издание=PLoS Computational Biology|заглавие=dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data|ссылка=https://dx.plos.org/10.1371/journal.pcbi.1003246|том=9}}</ref>.

Следующим шагом после определения сайтов связывания является определение регулируемых генов. Обычно ассоциация найденных пиков с генами выполняется алгоритмически с помощью поиска близлежащих сайтов старта транскрипции (transcription start site, TSS). Однако в случае бактерий (в том числе ''E. coli'') TSS могут быть не определены для многих генов, поэтому вместо TSS можно искать близлежащие сайты старта трансляции, вручную исследовать геномное окружение пика или использовать данные экспрессии генов (например, сравнивать экспрессию регулонов в диком типе и при делеции исследуемого транскрипционного фактора на основании данных RNA-seq) <ref>{{Статья|автор=Kevin S. Myers, Dan M. Park, Nicole A. Beauchene, Patricia J. Kiley|год=2015-9|doi=10.1016/j.ymeth.2015.05.022|язык=en|страницы=80–88|издание=Methods|заглавие=Defining bacterial regulons using ChIP-seq|ссылка=https://linkinghub.elsevier.com/retrieve/pii/S1046202315002285|том=86}}</ref>.


== Перспективы развития ==
== Перспективы развития ==


Текущие успехи ChIP-Seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения [[Мутация|мутаций]] в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов<ref name=":0" />.
Текущие успехи ChIP-seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения [[Мутация|мутаций]] в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов<ref name=":0" />.


Однако становится очевидным, что проблемы ChIP-Seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-Seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию<ref name="автоссылка1" />.
Однако становится очевидным, что проблемы ChIP-seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию<ref name="автоссылка1" />.


==Базы данных==
==Базы данных==

Версия от 09:01, 2 мая 2019

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному[1][2], а также поиска мест связывания транскрипционных факторов[3]. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip[англ.], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4]. Chip-seq и ChIP-on-Chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq[4]:

Показатель Chip-seq ChIP-on-Chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа


Методика

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках[5]. Типичная методика включает в себя следующие стадии:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к бусинам
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате выделяется вся ДНК, обогащенная фрагментами, с которыми был связан исследуемый белок.

Секвенирование

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения[6]. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды чаще всего имеют длину 50 п.н[7].

В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)[7].

Биоинформатический анализ

Биоинформатический анализ данных секвенирования включает в себя следующие стадии:

  • Фильтрация чтений с низким качеством
Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit[8]. Определение качества чтений базируется на Phred quality score (на англ.) — весе, который присваивается каждому нуклеотиду при его прочтении.
Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы Trimmomatic[9].
  • Картирование чтений на геном
Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном можно использовать следующие программные пакеты:BWA, Bowtie, GSNAP[6].
  • Фильтрация артефактов и чтений, которые картировались сразу в несколько мест на геноме
Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100 − 200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например LINE (на англ.) и SINE (на англ.) — повторы, составляющие соответственно 17% и 11% от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах. Обычно для анализа (например, транскрипционных факторов) достаточно уникально откартированных ридов, однако в некоторых случаях в анализ включают и риды, картированные на несколько участков [7]. В качестве альтернативы для поправки на потерянный в плохо картируемых областях сигнал можно использовать картируемость — показатель, зависящий различных параметров эксперимента и анализа, в том числе от длины ридов и программ, используеммых для обработки данных [10].
Для фильтрации можно воспользоваться программным пакетом SAMTools[11][6].
  • Определение качества картирования
После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был)[6]
Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования, неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.).
Для определения всего вышеперечисленного можно использовать программный пакет CHANCE[8].
  • Выявление сайтов связывания
Для выявления сайтов (участков) связывания сначала смотрится уровень покрытия . Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью[8]. Разработка программ для вызова пиков — одна из основных задач ChIP-seq анализа. Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения, поэтому затруднительно сравнивать результаты их работы. Ситуация осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли [7].
Некоторые из программных пакетов, которые можно использовать для решения этой задачи: SPP, MACS и UGENE[6].
  • Аннотация сайтов связывания
Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный участок и т. п[6].
Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров (на англ.), или можно получить текстовый файл с аннотацией с помощью CEAS или ChIPpeakAnno[8].
В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME или Гиббс семплер[8]. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Характеристики метода

Отношение сигнал/шум

Отношение сигнал/шум (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов [7]. Для определения этого показателя ENCODE предлагает две метрики:

  • доля ридов в пиках (fraction of reads in peaks, FRiP) положительно коррелирует с числом и интенсивностью пиков и определяется как FRiP = ¼ Npeak/Nnonred, где Npeak — число ридов, откартированных в районы пиков. К минусам этого показателя относится тот факт, что он зависит от глубины секвенирования и параметров поиска пиков;
  • кросс-корреляционные профили (cross-correlation profiles, CCPs) используют кластеризацию ридов на основании кросс-корреляции Пирсона без предварительного поиска пиков, что отличает этот метод от FRiP.

Глубина секвенирования

Глубина секвенирования (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растет с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым [12]. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование [7].

Значение достаточного уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задается эмпирически [7].

Сложность библиотеки

Сложность библиотеки (NRF) определяется как отношения числа необогащенных ридов Nnonred к общему числу откартированных ридов Nall. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задается в качестве параметра). Обогащенные риды (риды, не вошедшие в Nnonred) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно <<1. Для маленьких геномов глубина секвенирования может быть >1, поэтому стоит взять T >1 [7]. При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов [7].

Показатель NRF уменьшается с увеличением глубины секвенирования библиотеки. При это в конечном итоге достигается точка, в которой сложность будет максимальна, и будет происходить секвенирование одних и тех же фрагментов ДНК, амплифицированных с помощью ПЦР. Низкая сложность библиотеки может возникнуть, например, если в процессе иммунопреципитации выделяется очень небольшое количество ДНК [13].

Чувствительность

Чувствительность технологии зависит от глубины секвенирования, длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений[6]. Для белков с большим числом сайтов связывания (РНК-полимераза III?!) потребуется до 60 миллионов чтений[6]. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений[6]. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-Chip, в котором чувствительность не связана со стоимостью анализа.

Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-Chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам[14].

Недостатки и ограничения метода

Большое количество клеток

У классической методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител и на данный момент существует единственная опубликованная работа, в которой Single-cell ChIP-seq осуществлен успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность[15].

Недостаточные точность и специфичность

Длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo). Качество эксперимента ChIP-seq также прямо зависит от специфичности антител и степени обогащения образца на стадии иммунопреципитации. Главными проблемами могут быть низкая реактивность антитела против нужного белка и/или кросс-реактивность по отношению к другим белкам. Консорциум ENCODE предлагает несколько методик для оценки специфичности антител [13].

Для осуществления иммунопреципитации также можно пришить к исследуемому белку эпитоп. Такой способ решает обе проблемы, возникающие при иммунопреципитации антителами, однако в этом случае пришиваемый тэг может влиять на исследуемый белок (например, изменять уровень его экспрессии или способность связывания) [13].

Неравномерная фрагментация

Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее и соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и будут менее представлены в образце, что может привести к ложно-отрицательному результату [7]. Об этом ограничении необходимо помнить при анализе полученных результатов.

Применение

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина.

Типичным примером использования ChIP-seq является определение участков связывания трансприкционных факторов, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина[6]. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Типы данных в энциклопедии ДНК элементов (ENCODE)

Базы данных

Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE[16]. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq[англ.] и RIP-seq[англ.], позволяющих выявить РНК-белковые взаимодействия.

Анализ мотивов

Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме[6]. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм MEME (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведен даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже[17].  

Исследование состояния хроматина

Метилирование ДНК и модификации гистонов претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных[17] [18].

Модификации и похожие методы

PLAC-seq

Существует множество методов исследования дальних взаимодействий хроматина, но они требуют большое количество клеток для анализа. Для преодоления этого ограничения был разработан метод PLAC-seq (Proximity Ligation-Assisted ChIP-seq), в котором сшивка сближенных участков осуществляется в ядре до фрагментации хроматина и иммунопреципитации. PLAC-seq демонстрирует лучшую точность, эффективность и воспроизводимость по сравнению с ChIA-PET при определении дальних контактов в клетках млекопитающих [19].

Nano-ChIP-seq

Метод nano-ChIP-seq основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется[20]. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащенность образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тыс. клеток.

ChIP-exo и ChIP-nexus

Метод ChIP-exo является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка[21]. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip [21].

Модификацией протокола ChIP-exo является протокол ChIP-nexus[22] (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.

Competition-ChIP

Competition-ChIP — модификация протокола ChIP-seq, использующаяся для измерения относительной динамики связывания транскрипционных факторов с ДНК [23].

CLIP-seq

CLIP-Seq (также известный как HITS-CLIP — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК in vivo [24].

DRIP-seq и DRIVE-seq

R-петли — трехцепочечные структуры, образованные вытесненной одноцепочечной ДНК (оцДНК) и дуплексом РНК-оцДНК. In vivo на их долю приходится примерно 5%–8% генома. Через регуляцию связывания различных белков R-петли участвуют во многих клеточных процессах, таких как, например, дифференциация эмбриональных стволовых клеток [25]. Для исследования R-петель был разработан метод DRIP-seq (DNA:RNA ImmunoPrecipitation and sequencing), который по сути очень похож на ChIP-Seq, но основан на использовании специфичных к R-петлям антител [26]. Альтернативой для исследования R-петель является метод DRIVE-seq (DNA:RNA In Vitro Enrichment and sequencing), в котором вместо антител используется инактивированная эндонуклеаза MBP-RNASEH1 [26]. DRIVE-seq может быть использован для уточнения предсказаний, полученных с помощью DRIP-seq. Оба метода позволяют точно и практически количественно оценить число R-петель. Впервые DRIP-seq был использован для изучения R-петель в геноме человека: было показано, что большое их количество содержится в CpG островках промоторов [26].

CETCh-seq

Создан для того, чтобы при изучении ДНК-белковых взаимодействий преодолеть такую техническую проблему, как доступность подходящих для ChIP-seq экспериментов антител. С помощью геномного редактирования с использованием CRISPR/Cas9 к интересующим белкам, например, транскрипционным факторам, присоединяется эпитоп для дальнейшего распознавания подходящими антителами[27].

Исследования

Эукариоты

В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н.), с которых РНК-полимераза может инициировать транскрипцию [28]. Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды C. elegans. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции [29].

Также ChIP-seq широко используется для изучения модификаций гистонов. На данный момент известно, что модификации гистонов, такие как ацетилирование, например, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина (эухроматином). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина (гетерохроматином). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причем каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) напротив ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет гомеобоксные транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы (zinc finger transcription factors)[30]. Различные комбинации гистоновых меток могут обеспечить еще более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором импринтируемых генов [31].

Прокариоты

У бактерий регуляция экспрессии генов на уровне транскрипции осуществляется с помощью транскрипционных факторов[32]. Метод ChIP-seq может быть использован для определения участков связывания бактериальных транскрипционных факторов. Некоторые бактериальные транскрипционные факторы имеют несколько сайтов связывания внутри промотора (т.е. сайтов, расположенных на расстоянии менее 100 п.н.) [33]. Большинство алгоритмов поиска пиков определяют такие близко расположенные сайты как один. Для решения этой проблемы используются так называемые алгоритмы деконволюции пиков, например, CSDeconv [34], GEM [35], PICS [36], dPeak [37].

Следующим шагом после определения сайтов связывания является определение регулируемых генов. Обычно ассоциация найденных пиков с генами выполняется алгоритмически с помощью поиска близлежащих сайтов старта транскрипции (transcription start site, TSS). Однако в случае бактерий (в том числе E. coli) TSS могут быть не определены для многих генов, поэтому вместо TSS можно искать близлежащие сайты старта трансляции, вручную исследовать геномное окружение пика или использовать данные экспрессии генов (например, сравнивать экспрессию регулонов в диком типе и при делеции исследуемого транскрипционного фактора на основании данных RNA-seq) [38].

Перспективы развития

Текущие успехи ChIP-seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов[6].

Однако становится очевидным, что проблемы ChIP-seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию[14].

Базы данных

На данный момент существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека[39].
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans[40].
  • Factorbook — база данных, сгенерированная на основе ENCODE[41].
  • ChIPBase (недоступная ссылка) — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans[42].
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген[43].
  • CTCFBSDB — база данных участков связывания инсулятора CTCF[44].
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши[45].
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека[46].
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот[47].
  • SwissRegulon — база данных аннотированных регуляторных сайтов[48].
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши[49].
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши[50].

Примечания

  1. Mikkelsen T. S., Ku M., Jaffe D. B., Issac B., Lieberman E., Giannoukos G., Alvarez P., Brockman W., Kim T. K., Koche R. P., Lee W., Mendenhall E., O'Donovan A., Presser A., Russ C., Xie X., Meissner A., Wernig M., Jaenisch R., Nusbaum C., Lander E. S., Bernstein B. E. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells. (англ.) // Nature. — 2007. — Vol. 448, no. 7153. — P. 553—560. — doi:10.1038/nature06008. — PMID 17603471.
  2. Barski A., Cuddapah S., Cui K., Roh T. Y., Schones D. E., Wang Z., Wei G., Chepelev I., Zhao K. High-resolution profiling of histone methylations in the human genome. (англ.) // Cell. — 2007. — Vol. 129, no. 4. — P. 823—837. — doi:10.1016/j.cell.2007.05.009. — PMID 17512414.
  3. Johnson D. S., Mortazavi A., Myers R. M., Wold B. Genome-wide mapping of in vivo protein-DNA interactions. (англ.) // Science (New York, N.Y.). — 2007. — Vol. 316, no. 5830. — P. 1497—1502. — doi:10.1126/science.1141319. — PMID 17540862.
  4. 1 2 Park P. J. ChIP-seq: advantages and challenges of a maturing technology. (англ.) // Nature reviews. Genetics. — 2009. — Vol. 10, no. 10. — P. 669—680. — doi:10.1038/nrg2641. — PMID 19736561.
  5. Barbara Kaboord, Maria Perr. Isolation of proteins and protein complexes by immunoprecipitation (англ.) // Methods in Molecular Biology (Clifton, N.J.). — 2008-01-01. — Vol. 424. — P. 349–364. — ISSN 1064-3745. — doi:10.1007/978-1-60327-064-9_27.
  6. 1 2 3 4 5 6 7 8 9 10 11 12 Terrence S. Furey. ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions (англ.) // Nature Reviews. Genetics. — 2012-12-01. — Vol. 13, iss. 12. — P. 840–852. — ISSN 1471-0064. — doi:10.1038/nrg3306.
  7. 1 2 3 4 5 6 7 8 9 10 Ryuichiro Nakato, Katsuhiko Shirahige. Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation (англ.) // Briefings in Bioinformatics. — 2016-03-15. — P. bbw023. — ISSN 1477-4054 1467-5463, 1477-4054. — doi:10.1093/bib/bbw023.
  8. 1 2 3 4 5 Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data (англ.) // PLoS computational biology. — 2013-01-01. — Vol. 9, iss. 11. — P. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  9. Anthony M. Bolger, Marc Lohse, Bjoern Usadel. Trimmomatic: a flexible trimmer for Illumina sequence data (англ.) // Bioinformatics. — 2014-08-01. — Vol. 30, iss. 15. — P. 2114–2120. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btu170.
  10. Joel Rozowsky, Ghia Euskirchen, Raymond K Auerbach, Zhengdong D Zhang, Theodore Gibson. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls (англ.) // Nature Biotechnology. — 2009-1. — Vol. 27, iss. 1. — P. 66–75. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt.1518.
  11. Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan. The Sequence Alignment/Map format and SAMtools (англ.) // Bioinformatics. — 2009-08-15. — Vol. 25, iss. 16. — P. 2078–2079. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btp352.
  12. The ENCODE Project Consortium. A User's Guide to the Encyclopedia of DNA Elements (ENCODE) (англ.) // PLoS Biology / Peter B. Becker. — 2011-04-19. — Vol. 9, iss. 4. — P. e1001046. — ISSN 1545-7885. — doi:10.1371/journal.pbio.1001046.
  13. 1 2 3 S. G. Landt, G. K. Marinov, A. Kundaje, P. Kheradpour, F. Pauli. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia (англ.) // Genome Research. — 2012-09-01. — Vol. 22, iss. 9. — P. 1813–1831. — ISSN 1088-9051. — doi:10.1101/gr.136184.111.
  14. 1 2 Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis (англ.) // BMC genomics. — 2011-02-28. — Vol. 12. — P. 134. — ISSN 1471-2164. — doi:10.1186/1471-2164-12-134.
  15. Assaf Rotem, Oren Ram, Noam Shoresh, Ralph A. Sperling, Alon Goren. Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state // Nature biotechnology. — 2015-11. — Т. 33, вып. 11. — С. 1165–1172. — ISSN 1087-0156. — doi:10.1038/nbt.3383.
  16. Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff. Unlocking the secrets of the genome (англ.) // Nature. — 2009-06-18. — Vol. 459, iss. 7249. — P. 927–930. — ISSN 1476-4687. — doi:10.1038/459927a.
  17. 1 2 ChIP Sequencing Overview. epigenie.com. Дата обращения: 22 апреля 2019.
  18. Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic. The NIH Roadmap Epigenomics Mapping Consortium // Nature biotechnology. — 2010-10. — Т. 28, вып. 10. — С. 1045–1048. — ISSN 1087-0156. — doi:10.1038/nbt1010-1045.
  19. Rongxin Fang, Miao Yu, Guoqiang Li, Sora Chee, Tristin Liu. Mapping of long-range chromatin interactions by proximity ligation-assisted ChIP-seq (англ.) // Cell Research. — 2016-12. — Vol. 26, iss. 12. — P. 1345–1348. — ISSN 1748-7838 1001-0602, 1748-7838. — doi:10.1038/cr.2016.137.
  20. Mazhar Adli, Bradley E Bernstein. Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq (англ.) // Nature Protocols. — 2011-10. — Vol. 6, iss. 10. — P. 1656–1668. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2011.402.
  21. 1 2 Ho Sung Rhee, B. Franklin Pugh. Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution (англ.) // Cell. — 2011-12. — Vol. 147, iss. 6. — P. 1408–1419. — doi:10.1016/j.cell.2011.11.013.
  22. Qiye He, Jeff Johnston, Julia Zeitlinger. ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints // Nature biotechnology. — 2015-4. — Т. 33, вып. 4. — С. 395–401. — ISSN 1087-0156. — doi:10.1038/nbt.3121.
  23. Colin R Lickwar, Florian Mueller, Jason D Lieb. Genome-wide measurement of protein-DNA binding dynamics using competition ChIP (англ.) // Nature Protocols. — 2013-7. — Vol. 8, iss. 7. — P. 1337–1353. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2013.077.
  24. Robert B. Darnell. HITS‐CLIP: panoramic views of protein–RNA regulation in living cells (англ.) // Wiley Interdisciplinary Reviews: RNA. — 2010-9. — Vol. 1, iss. 2. — P. 266–286. — ISSN 1757-7012 1757-7004, 1757-7012. — doi:10.1002/wrna.31.
  25. László Halász, Zsolt Karányi, Beáta Boros-Oláh, Tímea Kuik-Rózsa, Éva Sipos. RNA-DNA hybrid (R-loop) immunoprecipitation mapping: an analytical workflow to evaluate inherent biases (англ.) // Genome Research. — 2017-6. — Vol. 27, iss. 6. — P. 1063–1073. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.219394.116.
  26. 1 2 3 Paul A. Ginno, Paul L. Lott, Holly C. Christensen, Ian Korf, Frédéric Chédin. R-Loop Formation Is a Distinctive Characteristic of Unmethylated Human CpG Island Promoters (англ.) // Molecular Cell. — 2012-3. — Vol. 45, iss. 6. — P. 814–825. — doi:10.1016/j.molcel.2012.01.017.
  27. Daniel Savic, E. Christopher Partridge, Kimberly M. Newberry, Sophia B. Smith, Sarah K. Meadows. CETCh-seq: CRISPR epitope tagging ChIP-seq of DNA-binding proteins (англ.) // Genome Research. — 2015-10. — Vol. 25, iss. 10. — P. 1581–1589. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.193540.115.
  28. Christoph D. Schmid, Philipp Bucher. ChIP-Seq data reveal nucleosome architecture of human promoters (англ.) // Cell. — 2007-11-30. — Vol. 131, iss. 5. — P. 831–832; author reply 832–833. — ISSN 0092-8674. — doi:10.1016/j.cell.2007.11.017.
  29. Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray. Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans (англ.) // Genome Research. — 2011-02-01. — Vol. 21, iss. 2. — P. 245–254. — ISSN 1549-5469. — doi:10.1101/gr.114587.110.
  30. Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham. Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications // Methods in molecular biology (Clifton, N.J.). — 2011. — Т. 791. — С. 265–286. — ISSN 1064-3745. — doi:10.1007/978-1-61779-316-5_20.
  31. Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells // Nature. — 2007-08-02. — Т. 448, вып. 7153. — С. 553–560. — ISSN 0028-0836. — doi:10.1038/nature06008.
  32. Douglas F. Browning, Stephen J. W. Busby. The regulation of bacterial transcription initiation // Nature Reviews Microbiology. — 2004-01. — Т. 2, вып. 1. — С. 57–65. — ISSN 1740-1534 1740-1526, 1740-1534. — doi:10.1038/nrmicro787.
  33. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data // PLoS Computational Biology. — 2013-10-17. — Т. 9, вып. 10. — С. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  34. Antonio L.C. Gomes, Thomas Abeel, Matthew Peterson, Elham Azizi, Anna Lyubetskaya. Decoding ChIP-seq with a double-binding signal refines binding peaks to single-nucleotides and predicts cooperative interaction (англ.) // Genome Research. — 2014-10. — Vol. 24, iss. 10. — P. 1686–1697. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.161711.113.
  35. Yuchun Guo, Shaun Mahony, David K. Gifford. High Resolution Genome Wide Binding Event Finding and Motif Discovery Reveals Transcription Factor Spatial Binding Constraints (англ.) // PLoS Computational Biology / Stein Aerts. — 2012-08-09. — Vol. 8, iss. 8. — P. e1002638. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1002638.
  36. Xuekui Zhang, Gordon Robertson, Martin Krzywinski, Kaida Ning, Arnaud Droit. PICS: Probabilistic Inference for ChIP-seq (англ.) // Biometrics. — 2011-3. — Vol. 67, iss. 1. — P. 151–163. — doi:10.1111/j.1541-0420.2010.01441.x.
  37. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data (англ.) // PLoS Computational Biology / Roderic Guigo. — 2013-10-17. — Vol. 9, iss. 10. — P. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  38. Kevin S. Myers, Dan M. Park, Nicole A. Beauchene, Patricia J. Kiley. Defining bacterial regulons using ChIP-seq (англ.) // Methods. — 2015-9. — Vol. 86. — P. 80–88. — doi:10.1016/j.ymeth.2015.05.022.
  39. Hongzhu Qu, Xiangdong Fang. A brief review on the Human Encyclopedia of DNA Elements (ENCODE) project (англ.) // Genomics, Proteomics & Bioinformatics. — 2013-06-01. — Vol. 11, iss. 3. — P. 135–141. — ISSN 2210-3244. — doi:10.1016/j.gpb.2013.05.001.
  40. modENCODE Consortium, Sushmita Roy, Jason Ernst, Peter V. Kharchenko, Pouya Kheradpour. Identification of functional elements and regulatory circuits by Drosophila modENCODE (англ.) // Science (New York, N.Y.). — 2010-12-24. — Vol. 330, iss. 6012. — P. 1787–1797. — ISSN 1095-9203. — doi:10.1126/science.1198374.
  41. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin-Ying Lin, Melissa C. Greven. Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D171–176. — ISSN 1362-4962. — doi:10.1093/nar/gks1221.
  42. Jian-Hua Yang, Jun-Hao Li, Shan Jiang, Hui Zhou, Liang-Hu Qu. ChIPBase: a database for decoding the transcriptional regulation of long non-coding RNA and microRNA genes from ChIP-Seq data (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D177–187. — ISSN 1362-4962. — doi:10.1093/nar/gks1060.
  43. Alexander Lachmann, Huilei Xu, Jayanth Krishnan, Seth I. Berger, Amin R. Mazloom. ChEA: transcription factor regulation inferred from integrating genome-wide ChIP-X experiments (англ.) // Bioinformatics (Oxford, England). — 2010-10-01. — Vol. 26, iss. 19. — P. 2438–2444. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btq466.
  44. Jesse D. Ziebarth, Anindya Bhattacharya, Yan Cui. CTCFBSDB 2.0: a database for CTCF-binding sites and genome organization (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D188–194. — ISSN 1362-4962. — doi:10.1093/nar/gks1165.
  45. Li Chen, George Wu, Hongkai Ji. hmChIP: a database and web server for exploring publicly available human and mouse ChIP-seq and ChIP-chip data (англ.) // Bioinformatics (Oxford, England). — 2011-05-15. — Vol. 27, iss. 10. — P. 1447–1448. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btr156.
  46. Ivan V. Kulakovskiy, Ilya E. Vorontsov, Ivan S. Yevshin, Anastasiia V. Soboleva, Artem S. Kasianov. HOCOMOCO: expansion and enhancement of the collection of transcription factor binding sites models (англ.) // Nucleic Acids Research. — 2016-01-04. — Vol. 44, iss. D1. — P. D116–125. — ISSN 1362-4962. — doi:10.1093/nar/gkv1249.
  47. Albin Sandelin, Wynand Alkema, Pär Engström, Wyeth W. Wasserman, Boris Lenhard. JASPAR: an open-access database for eukaryotic transcription factor binding profiles (англ.) // Nucleic Acids Research. — 2004-01-01. — Vol. 32, iss. Database issue. — P. D91–94. — ISSN 1362-4962. — doi:10.1093/nar/gkh012.
  48. Mikhail Pachkov, Piotr J. Balwierz, Phil Arnold, Evgeniy Ozonov, Erik van Nimwegen. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D214–220. — ISSN 1362-4962. — doi:10.1093/nar/gks1145.
  49. Bo Qin, Meng Zhou, Ying Ge, Len Taing, Tao Liu. CistromeMap: a knowledgebase and web server for ChIP-Seq and DNase-Seq studies in mouse and human (англ.) // Bioinformatics (Oxford, England). — 2012-05-15. — Vol. 28, iss. 10. — P. 1411–1412. — ISSN 1367-4811. — doi:10.1093/bioinformatics/bts157.
  50. Qixuan Wang, Jinyan Huang, Hanfei Sun, Jing Liu, Juan Wang. CR Cistrome: a ChIP-Seq database for chromatin regulators and histone modification linkages in human and mouse (англ.) // Nucleic Acids Research. — 2014-01-01. — Vol. 42, iss. Database issue. — P. D450–458. — ISSN 1362-4962. — doi:10.1093/nar/gkt1151.