Эта статья входит в число добротных статей

ChIP-seq: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Нет описания правки
Нет описания правки
Строка 37: Строка 37:
* образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
* образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
* выделение ДНК и расщепление на фрагменты ультразвуком или [[эндонуклеазы|эндонуклеазами]]
* выделение ДНК и расщепление на фрагменты ультразвуком или [[эндонуклеазы|эндонуклеазами]]
* осаждение специфическими к исследуемому белку [[антитела]]ми, пришитыми к бусинам
* осаждение специфическими к исследуемому белку [[антитела]]ми, пришитыми к белкам A/G на поверхности магнитных [https://www.thermofisher.com/order/catalog/product/88802 бусин]
* разрушение сшивок между белком и ДНК, очистка ДНК
* разрушение сшивок между белком и ДНК, очистка ДНК


В результате выделяется вся ДНК, обогащенная фрагментами, с которыми был связан исследуемый белок.
В результате выделится вся ДНК, но образец будет обогащен фрагментами, с которыми был связан исследуемый белок.


===Секвенирование===
===Секвенирование===
{{main|Методы секвенирования нового поколения}}
{{main|Методы секвенирования нового поколения}}
Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения<ref name=":0">{{Статья|автор=Terrence S. Furey|заглавие=ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23090257|язык=en|издание=Nature Reviews. Genetics|тип=|год=2012-12-01|месяц=|число=|том=13|выпуск=12|номер=|страницы=840–852|issn=1471-0064|doi=10.1038/nrg3306}}</ref>. В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)<ref name=":2" />. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды чаще всего имеют длину 50 п.н <ref name=":2">{{Статья|автор=Ryuichiro Nakato, Katsuhiko Shirahige|год=2016-03-15|doi=10.1093/bib/bbw023|issn=1467-5463, 1477-4054|язык=en|страницы=bbw023|издание=Briefings in Bioinformatics|заглавие=Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation|ссылка=https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbw023}}</ref>. Для учета неравномерности фрагментации используются разные виды контролей (см. ниже).
Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения<ref name=":0">{{Статья|автор=Terrence S. Furey|заглавие=ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/23090257|язык=en|издание=Nature Reviews. Genetics|тип=|год=2012-12-01|месяц=|число=|том=13|выпуск=12|номер=|страницы=840–852|issn=1471-0064|doi=10.1038/nrg3306}}</ref>. В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)<ref name=":2" />. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды чаще всего имеют длину 50 п.н <ref name=":2">{{Статья|автор=Ryuichiro Nakato, Katsuhiko Shirahige|год=2016-03-15|doi=10.1093/bib/bbw023|issn=1467-5463, 1477-4054|язык=en|страницы=bbw023|издание=Briefings in Bioinformatics|заглавие=Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation|ссылка=https://academic.oup.com/bib/article-lookup/doi/10.1093/bib/bbw023}}</ref>.


==Биоинформатический анализ==
==Биоинформатический анализ==
Строка 76: Строка 76:


:После картирования ридов на геном для выявления сайтов (участков) связывания сначала смотрится уровень покрытия. Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью<ref name=":3" />. Разработка программ для вызова пиков — одна из основных задач ChIP-seq анализа.
:После картирования ридов на геном для выявления сайтов (участков) связывания сначала смотрится уровень покрытия. Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью<ref name=":3" />. Разработка программ для вызова пиков — одна из основных задач ChIP-seq анализа.
:Некоторые из программных пакетов, которые можно использовать для решения этой задачи: [https://sites.google.com/a/brown.edu/bioinformatics-in-biomed/spp-r-from-chip-seq SPP], PeakSeq<ref name=":9" />, [http://liulab.dfci.harvard.edu/MACS/ MACS] и [[UGENE]]<ref name=":0" />. Результатом работы этих программ является список участков, отранжированный либо по величине абсолютного сигнала (т.е. числу ридов), либо по значимости обогащения (например, по p-value или [[:en:False_discovery_rate|FDR]]). Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения для вычисления p-value и FDR, поэтому затруднительно сравнивать результаты их работы. Ситуация осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли <ref name=":2" />.
:Некоторые из программных пакетов, которые можно использовать для решения этой задачи: [https://sites.google.com/a/brown.edu/bioinformatics-in-biomed/spp-r-from-chip-seq SPP], PeakSeq<ref name=":9" />, [http://liulab.dfci.harvard.edu/MACS/ MACS], [[UGENE]]<ref name=":0" />. Результатом работы этих программ является список участков, отранжированный либо по величине абсолютного сигнала (т.е. числу ридов), либо по значимости обогащения (например, по p-value или [[:en:False_discovery_rate|FDR]]). Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения для вычисления p-value и FDR. Например, SPP и исходная версия MACS использует только данные эксперимента ChIP-Seq и контроля (при его наличии), в то время как MOSAiCS учитывает показатель картируемости и GC-состав. Поэтому сравнивать результаты работы разных алгоритмов вызова пиков достаточно затруднительно. Многие работы по сопоставлению алгоритмов используют валидацию числа найденных пиков с помощью данных экспериментов ChIP-on-Chip, qPCR и т.д. <ref>{{Статья|автор=Hashem Koohy, Thomas A. Down, Mikhail Spivakov, Tim Hubbard|год=2014-05-08|doi=10.1371/journal.pone.0096303|issn=1932-6203|выпуск=5|страницы=e96303|издание=PLoS ONE|заглавие=A Comparison of Peak Callers Used for DNase-Seq Data|ссылка=http://dx.doi.org/10.1371/journal.pone.0096303|том=9}}</ref><ref>{{Статья|автор=Elizabeth G. Wilbanks, Marc T. Facciotti|год=2010-07-08|doi=10.1371/journal.pone.0011471|issn=1932-6203|выпуск=7|страницы=e11471|издание=PLoS ONE|заглавие=Evaluation of Algorithm Performance in ChIP-Seq Peak Detection|ссылка=http://dx.doi.org/10.1371/journal.pone.0011471|том=5}}</ref><ref>{{Статья|автор=Teemu D Laajala, Sunil Raghav, Soile Tuomela, Riitta Lahesmaa, Tero Aittokallio|год=2009|doi=10.1186/1471-2164-10-618|issn=1471-2164|выпуск=1|страницы=618|издание=BMC Genomics|заглавие=A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments|ссылка=http://dx.doi.org/10.1186/1471-2164-10-618|том=10}}</ref>. Ситуация также осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли <ref name=":2" />.


* '''Аннотация сайтов связывания'''
* '''Аннотация сайтов связывания'''
Строка 84: Строка 84:
* '''Выявление [[Консервативные мотивы|мотивов]]'''
* '''Выявление [[Консервативные мотивы|мотивов]]'''


:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]] или [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref name=":3" />. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.
:В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм [[MEME]], [http://ccmbweb.ccv.brown.edu/gibbs/gibbs.html Гиббс семплер]<ref name=":3" />, [http://autosome.ru/chipmunk/ ChIPMunk]. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.


==Характеристики метода==
==Характеристики метода==
Строка 92: Строка 92:
Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее, поэтому соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и, следовательно, будут менее представлены в образце, что может привести к ложно-отрицательному результату <ref name=":2" />. Об этом ограничении необходимо помнить при анализе полученных результатов.
Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее, поэтому соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и, следовательно, будут менее представлены в образце, что может привести к ложно-отрицательному результату <ref name=":2" />. Об этом ограничении необходимо помнить при анализе полученных результатов.


Из-за неравномерной фрагментации важно выбрать правильный контроль. Консорциум ENCODE описывает два основных типа контролей <ref name=":8" />. В первом в качестве контроля используется ДНК, выделенная из клеток в тех же условиях без преципитации (так называемый контроль входной ("input") ДНК). Во втором типе проводится еще один эксперимент ChIP с использованием антител, которые связывают незначимые внеядерные антигены (так называемый "IgG контроль"). В обоих случаях глубина секвенирования должна быть не меньше глубины эксперимента ChIP-seq.
Из-за неравномерной фрагментации и других факторов важно использовать правильный контроль. Консорциум ENCODE описывает два основных типа контролей <ref name=":8" />. В первом варианте в качестве контроля используется ДНК, выделенная из клеток в тех же условиях, но без преципитации (так называемый контроль входной ("input") ДНК). Во втором типе проводится еще один эксперимент ChIP с использованием антител, которые связывают незначимые внеядерные антигены (так называемый "IgG контроль"). В обоих случаях глубина секвенирования должна быть не меньше глубины эксперимента ChIP-seq.


=== Количество клеток ===
=== Количество клеток ===
Строка 127: Строка 127:


== Модификации и похожие методы ==
== Модификации и похожие методы ==
Со времени изобретения ChIP-Seq было придумано множество модификаций метода, направленных на улучшение эффективности иммунопреципитации, уменьшение фонового шума и уменьшение необходимого числа клеток.


=== PLAC-seq ===
=== PLAC-seq ===
Строка 137: Строка 138:
Метод '''ChIP-exo''' является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка<ref name=":7">{{Статья|автор=Ho Sung Rhee, B. Franklin Pugh|год=2011-12|doi=10.1016/j.cell.2011.11.013|выпуск=6|язык=en|страницы=1408–1419|издание=Cell|заглавие=Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution|ссылка=https://linkinghub.elsevier.com/retrieve/pii/S0092867411013511|том=147}}</ref>. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip <ref name=":7" />.
Метод '''ChIP-exo''' является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка<ref name=":7">{{Статья|автор=Ho Sung Rhee, B. Franklin Pugh|год=2011-12|doi=10.1016/j.cell.2011.11.013|выпуск=6|язык=en|страницы=1408–1419|издание=Cell|заглавие=Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution|ссылка=https://linkinghub.elsevier.com/retrieve/pii/S0092867411013511|том=147}}</ref>. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip <ref name=":7" />.


Модификацией протокола ChIP-exo является протокол '''ChIP-nexus'''<ref>{{Статья|автор=Qiye He, Jeff Johnston, Julia Zeitlinger|год=2015-4|doi=10.1038/nbt.3121|issn=1087-0156|выпуск=4|страницы=395–401|издание=Nature biotechnology|заглавие=ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390430/|том=33}}</ref> (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.
Модификацией протокола ChIP-exo является протокол '''ChIP-nexus'''<ref name=":11">{{Статья|автор=Qiye He, Jeff Johnston, Julia Zeitlinger|год=2015-4|doi=10.1038/nbt.3121|issn=1087-0156|выпуск=4|страницы=395–401|издание=Nature biotechnology|заглавие=ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4390430/|том=33}}</ref> (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI <ref name=":11" />. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.


=== Competition-ChIP ===
=== Competition-ChIP ===
Строка 143: Строка 144:


=== CLIP-seq ===
=== CLIP-seq ===
'''CLIP-Seq''' (также известный как '''HITS-CLIP''' — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК ''in vivo'' <ref>{{Статья|автор=Robert B. Darnell|год=2010-9|doi=10.1002/wrna.31|issn=1757-7004, 1757-7012|выпуск=2|язык=en|страницы=266–286|издание=Wiley Interdisciplinary Reviews: RNA|заглавие=HITS‐CLIP: panoramic views of protein–RNA regulation in living cells|ссылка=https://onlinelibrary.wiley.com/doi/abs/10.1002/wrna.31|том=1}}</ref>''.''
'''CLIP-Seq''' (также известный как '''HITS-CLIP''' — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК ''in vivo'' <ref>{{Статья|автор=Robert B. Darnell|год=2010-9|doi=10.1002/wrna.31|issn=1757-7004, 1757-7012|выпуск=2|язык=en|страницы=266–286|издание=Wiley Interdisciplinary Reviews: RNA|заглавие=HITS‐CLIP: panoramic views of protein–RNA regulation in living cells|ссылка=https://onlinelibrary.wiley.com/doi/abs/10.1002/wrna.31|том=1}}</ref>.


=== DRIP-seq и DRIVE-seq ===
=== DRIP-seq и DRIVE-seq ===
Строка 159: Строка 160:


=== Поиск участков с биологической функцией ===
=== Поиск участков с биологической функцией ===
Данные экспериментов ChIP-seq часто используются для определения регуляторных участков для интересующего локуса <ref name=":8" />. В частности, ChIP-seq широко используется для изучения бактериальных регулонов <ref name=":10" />.
Данные экспериментов ChIP-seq часто используются для определения регуляторных участков для интересующего локуса <ref name=":8" />. В частности, ChIP-seq широко используется для изучения бактериальных регулонов <ref name=":10" />. Для этого после нахождения участков связывания производится поиск предполагаемых регулируемых генов.

=== Дифференциальный анализ ===
Определение различий между профилями ChIP-Seq при разных условиях производится после вызова пиков. Пики, полученные в разных экспериментах, сливаются затем в один список. Для дальнейшего определения участков-кандидатов часто используются программы для анализа дифференциальной экспрессии генов, например, DESeq2<ref>{{Статья|автор=Michael I Love, Wolfgang Huber, Simon Anders|год=2014-12|doi=10.1186/s13059-014-0550-8|issn=1474-760X|выпуск=12|издание=Genome Biology|заглавие=Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2|ссылка=http://dx.doi.org/10.1186/s13059-014-0550-8|том=15}}</ref> и edgeR<ref>{{Статья|автор=M. D. Robinson, D. J. McCarthy, G. K. Smyth|год=2009-11-11|doi=10.1093/bioinformatics/btp616|issn=1367-4803, 1460-2059|выпуск=1|страницы=139–140|издание=Bioinformatics|заглавие=edgeR: a Bioconductor package for differential expression analysis of digital gene expression data|ссылка=http://dx.doi.org/10.1093/bioinformatics/btp616|том=26}}</ref>. Эти программы способны проводить дифференциальный анализ, обрабатывая списки полученных пиков как списки "генов". Существуют также программы, разработанные специально для дифференциального анализа данных ChIP-Seq (например, DiffBind<ref>{{Статья|автор=Anaïs Bardet|год=2018-10-26|isbn=9780429487590|страницы=41–52|заглавие=Peak Calling|ссылка=http://dx.doi.org/10.1201/9780429487590-6|издательство=CRC Press|издание=Practical Guide to ChIP-seq Data Analysis}}</ref>, ChIPComp<ref>{{Статья|автор=Li Chen, Chi Wang, Zhaohui S. Qin, Hao Wu|год=2015-02-13|doi=10.1093/bioinformatics/btv094|issn=1367-4803, 1460-2059|выпуск=12|страницы=1889–1896|издание=Bioinformatics|заглавие=A novel statistical method for quantitative comparison of multiple ChIP-seq datasets|ссылка=http://dx.doi.org/10.1093/bioinformatics/btv094|том=31}}</ref>, DBChIP<ref>{{Статья|автор=Kun Liang, Sündüz Keleş|год=2011-11-03|doi=10.1093/bioinformatics/btr605|issn=1460-2059, 1367-4803|выпуск=1|страницы=121–122|издание=Bioinformatics|заглавие=Detecting differential binding of transcription factors with ChIP-seq|ссылка=http://dx.doi.org/10.1093/bioinformatics/btr605|том=28}}</ref>), которые работают по схожему принципу. Многие другие программы (например, PePr<ref>{{Статья|автор=Yanxiao Zhang, Yu-Hsuan Lin, Timothy D. Johnson, Laura S. Rozek, Maureen A. Sartor|год=2014-06-03|doi=10.1093/bioinformatics/btu372|issn=1460-2059, 1367-4803|выпуск=18|страницы=2568–2575|издание=Bioinformatics|заглавие=PePr: a peak-calling prioritization pipeline to identify consistent or differential peaks from replicated ChIP-Seq data|ссылка=http://dx.doi.org/10.1093/bioinformatics/btu372|том=30}}</ref>) используют иные модели, не требующие предварительного вызова пиков.


=== Исследование состояния хроматина ===
=== Исследование состояния хроматина ===
Метилирование ДНК и [[Гистоны|модификации гистонов]] претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных<ref name=":6" /> <ref>{{Статья|автор=Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic|год=2010-10|doi=10.1038/nbt1010-1045|issn=1087-0156|выпуск=10|страницы=1045–1048|издание=Nature biotechnology|заглавие=The NIH Roadmap Epigenomics Mapping Consortium|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3607281/|том=28}}</ref>.[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]
Метилирование ДНК и [[Гистоны|модификации гистонов]] претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных<ref name=":6" /> <ref>{{Статья|автор=Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic|год=2010-10|doi=10.1038/nbt1010-1045|issn=1087-0156|выпуск=10|страницы=1045–1048|издание=Nature biotechnology|заглавие=The NIH Roadmap Epigenomics Mapping Consortium|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3607281/|том=28}}</ref>.

=== Анализ аллельного дисбаланса ===
Все больший интерес развивается к анализу данных ChIP-Seq со внутренним контролем по другому аллелю для выявления аллельного дисбаланса<ref name=":12">{{Статья|автор=Qi Zhang, Sündüz Keleş|год=2017-11-03|doi=10.1093/biostatistics/kxx060|issn=1465-4644, 1468-4357|выпуск=4|страницы=546–561|издание=Biostatistics|заглавие=An empirical Bayes test for allelic-imbalance detection in ChIP-seq|ссылка=http://dx.doi.org/10.1093/biostatistics/kxx060|том=19}}</ref>. При этом данные, полученные из эксперимента ChIP-Seq, используются для поиска связи биологических сигналов с [[SNP|однонуклеотидными полиморфизмами]] (SNP)<ref name=":12" />. Данный анализ включает три стадии<ref>{{Статья|автор=Qi Zhang|год=2019|doi=10.1016/b978-0-12-814513-5.00005-2|isbn=9780128145135|язык=en|страницы=67–77|заглавие=Data Analysis of ChIP-Seq Experiments|ссылка=https://linkinghub.elsevier.com/retrieve/pii/B9780128145135000052|издательство=Elsevier|издание=Computational Epigenetics and Diseases}}</ref>:

# выравнивание ридов, т.е. определение позиции в геноме и аллеля для каждого рида,
# подсчет числа достоверно откартированных ридов для каждого SNP для каждого аллеля,
# ранжирование возможных SNP и статистическая оценка аллельного дисбаланса.

Для первых двух этапов важна правильная стратегия картирования ридов на референсный геном, так как необходимо отличать ошибки секвенирования от реально существующих аллелей. Для третьего этапа разработано несколько программ, использующих разные статистические тесты, например, AlleleDB<ref>{{Cite web|url=http://dx.doi.org/10.3410/f.726293297.793520660|title=Faculty of 1000 evaluation for A uniform survey of allele-specific binding and expression over 1000-Genomes-Project individuals.|author=Christopher Gregg|date=2016-07-11|publisher=F1000 - Post-publication peer review of the biomedical literature|accessdate=2019-05-05}}</ref>, NPBin<ref>{{Статья|автор=Qi Zhang, Sündüz Keleş|год=2017-11-03|doi=10.1093/biostatistics/kxx060|issn=1465-4644, 1468-4357|выпуск=4|страницы=546–561|издание=Biostatistics|заглавие=An empirical Bayes test for allelic-imbalance detection in ChIP-seq|ссылка=http://dx.doi.org/10.1093/biostatistics/kxx060|том=19}}</ref>, WASP<ref>{{Статья|автор=Bryce van de Geijn, Graham McVicker, Yoav Gilad, Jonathan K Pritchard|год=2015-09-14|doi=10.1038/nmeth.3582|issn=1548-7091, 1548-7105|выпуск=11|страницы=1061–1063|издание=Nature Methods|заглавие=WASP: allele-specific software for robust molecular quantitative trait locus discovery|ссылка=http://dx.doi.org/10.1038/nmeth.3582|том=12}}</ref>.[[File:EncodeDatatypes2013 rus.png|thumb|Типы данных в энциклопедии ДНК элементов (ENCODE)]]


=== Базы данных ===
=== Базы данных ===
Строка 187: Строка 200:
В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н.), с которых РНК-полимераза может инициировать транскрипцию <ref>{{Статья|автор=Christoph D. Schmid, Philipp Bucher|заглавие=ChIP-Seq data reveal nucleosome architecture of human promoters|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18045524|язык=en|издание=Cell|тип=|год=2007-11-30|месяц=|число=|том=131|выпуск=5|номер=|страницы=831–832; author reply 832–833|issn=0092-8674|doi=10.1016/j.cell.2007.11.017}}</ref>. Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|''C. elegans'']]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции <ref>{{Статья|автор=Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray|заглавие=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21177963|язык=en|издание=Genome Research|тип=|год=2011-02-01|месяц=|число=|том=21|выпуск=2|номер=|страницы=245–254|issn=1549-5469|doi=10.1101/gr.114587.110}}</ref>.
В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н.), с которых РНК-полимераза может инициировать транскрипцию <ref>{{Статья|автор=Christoph D. Schmid, Philipp Bucher|заглавие=ChIP-Seq data reveal nucleosome architecture of human promoters|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/18045524|язык=en|издание=Cell|тип=|год=2007-11-30|месяц=|число=|том=131|выпуск=5|номер=|страницы=831–832; author reply 832–833|issn=0092-8674|doi=10.1016/j.cell.2007.11.017}}</ref>. Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды [[Caenorhabditis elegans|''C. elegans'']]. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции <ref>{{Статья|автор=Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray|заглавие=Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/21177963|язык=en|издание=Genome Research|тип=|год=2011-02-01|месяц=|число=|том=21|выпуск=2|номер=|страницы=245–254|issn=1549-5469|doi=10.1101/gr.114587.110}}</ref>.


Также ChIP-seq широко используется для изучения модификаций гистонов. На данный момент известно, что модификации гистонов, такие как ацетилирование, например, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина ([[Эухроматин|эухроматином]]). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина ([[Гетерохроматин|гетерохроматином]]). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причем каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) напротив ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет [[Гомеобокс|гомеобоксные]] транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы ([[:en:Zinc_finger_transcription_factor|zinc finger transcription factors]])<ref>{{Статья|автор=Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham|год=2011|doi=10.1007/978-1-61779-316-5_20|issn=1064-3745|страницы=265–286|издание=Methods in molecular biology (Clifton, N.J.)|заглавие=Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4151291/|том=791}}</ref>. Различные комбинации гистоновых меток могут обеспечить еще более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором [[Геномный импринтинг|импринтируемых генов]] <ref>{{Статья|автор=Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman|год=2007-08-02|doi=10.1038/nature06008|issn=0028-0836|выпуск=7153|страницы=553–560|издание=Nature|заглавие=Genome-wide maps of chromatin state in pluripotent and lineage-committed cells|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2921165/|том=448}}</ref>.
Также ChIP-seq широко используется для изучения модификаций гистонов. На данный момент известно более 100 модификаций гистонов<ref>{{Статья|автор=Xiong Ji, Daniel B. Dadon, Brian J. Abraham, Tong Ihn Lee, Rudolf Jaenisch|год=2015-03-09|doi=10.1073/pnas.1502971112|issn=0027-8424, 1091-6490|страницы=201502971|издание=Proceedings of the National Academy of Sciences|заглавие=Chromatin proteomic profiling reveals novel proteins associated with histone-marked genomic regions|ссылка=http://dx.doi.org/10.1073/pnas.1502971112}}</ref><ref>{{Статья|автор=Huihuang Yan, Shulan Tian, Susan L Slager, Zhifu Sun|год=2016-9|doi=10.2217/epi-2016-0053|issn=1750-1911, 1750-192X|выпуск=9|язык=en|страницы=1239–1258|издание=Epigenomics|заглавие=ChIP-seq in studying epigenetic mechanisms of disease and promoting precision medicine: progresses and future directions|ссылка=https://www.futuremedicine.com/doi/10.2217/epi-2016-0053|том=8}}</ref>. Наример, известно, что ацетилирование, в частности, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина ([[Эухроматин|эухроматином]]). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина ([[Гетерохроматин|гетерохроматином]]). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причем каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) напротив ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет [[Гомеобокс|гомеобоксные]] транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы ([[:en:Zinc_finger_transcription_factor|zinc finger transcription factors]])<ref>{{Статья|автор=Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham|год=2011|doi=10.1007/978-1-61779-316-5_20|issn=1064-3745|страницы=265–286|издание=Methods in molecular biology (Clifton, N.J.)|заглавие=Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4151291/|том=791}}</ref>. Различные комбинации гистоновых меток могут обеспечить еще более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором [[Геномный импринтинг|импринтируемых генов]] <ref>{{Статья|автор=Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman|год=2007-08-02|doi=10.1038/nature06008|issn=0028-0836|выпуск=7153|страницы=553–560|издание=Nature|заглавие=Genome-wide maps of chromatin state in pluripotent and lineage-committed cells|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2921165/|том=448}}</ref>.


=== Прокариоты ===
=== Прокариоты ===

Версия от 11:51, 5 мая 2019

ChIP-seq — метод анализа ДНК-белковых взаимодействий, основанный на иммунопреципитации хроматина (ChIP) и высокоэффективном секвенировании ДНК. Метод был разработан для изучения модификаций гистонов по всему геному[1][2], а также поиска мест связывания транскрипционных факторов[3]. Ранее самым популярным методом для установления ДНК-белковых взаимодействий был ChIP-on-chip[англ.], сочетающий иммунопреципитацию хроматина с гибридизацией на ДНК-микрочипах[4]. Chip-seq и ChIP-on-Chip — два наиболее широко распространённых подхода в полногеномных исследованиях взаимодействий ДНК — белок in vivo. Однако при более детальном сравнении этих методов удаётся показать значительные преимущества Chip-seq[4]:

Показатель ChIP-seq ChIP-on-Chip
Количество исходной ДНК менее 10 нг 4 мкг
Гибкость метода да: полногеномный анализ любого отсеквенированного организма есть ограничения: доступность ДНК-микрочипов
Точность определения позиции участка связывания +/- 50 пн +/- 500 − 1000 пн
Чувствительность вариабельная: увеличивая количество чтений, можно увеличить чувствительность слабая: зависит от качества гибридизации
Кросс-гибридизация (гибридизация одноцепочечной ДНК с зондом, который ей частично комплементарен) исключена: каждая молекула ДНК секвенируется отдельно может быть значительной, что сильно снижает точность анализа


Методика

Диаграмма, иллюстрирующая ChIP-seq

Иммунопреципитация хроматина (ChIP)

Иммунопреципитация хроматина — метод, используемый для специфического накопления коротких последовательностей ДНК, связанных с исследуемым белком в живых клетках[5]. Типичная методика включает в себя следующие стадии:

  • образование обратимых сшивок между ДНК и взаимодействующими с ней белками (обычно с помощью обработки формальдегидом)
  • выделение ДНК и расщепление на фрагменты ультразвуком или эндонуклеазами
  • осаждение специфическими к исследуемому белку антителами, пришитыми к белкам A/G на поверхности магнитных бусин
  • разрушение сшивок между белком и ДНК, очистка ДНК

В результате выделится вся ДНК, но образец будет обогащен фрагментами, с которыми был связан исследуемый белок.

Секвенирование

Данная стадия включает в себя определение первичной последовательности полученных после иммунопреципитации фрагментов ДНК любым доступным способом. В отличие от ChIP-on-Chip, в ChIP-seq для определения последовательности ДНК используется секвенирование нового поколения[6]. В ChIP-seq чаще используются одноконцевое секвенирование, однако использование парноконцевого секвенирования повышает точность картирования (что особенно важно для картирования повторов)[7]. В результате получается набор коротких перекрывающихся последовательностей (чтений, или ридов). Обычно исходные фрагменты ДНК имеют длину 150–500 п.н., а полученные риды чаще всего имеют длину 50 п.н [7].

Биоинформатический анализ

Включает в себя следующие стадии:

  • Фильтрация чтений с низким качеством
Для фильтрации полученных ридов можно использовать программные пакеты FastQС и FastX ToolKit[8]. Определение качества чтений базируется на Phred quality score (на англ.) — весе, который присваивается каждому нуклеотиду при его прочтении.
Также для улучшения качества чтений может быть полезным сделать «тримминг» — обрезать концы чтений с низким качеством, получающиеся из-за рассогласованности (особенность секвенирования нового поколения). Тримминг можно сделать с помощью программы Trimmomatic[9].
  • Картирование чтений на геном
Картирование представляет собой определение того, какой именно участок и какой хромосомы был прочитан данным конкретным чтением. Для картирования чтений на геном можно использовать следующие программные пакеты:BWA, Bowtie, GSNAP[6].
  • Фильтрация артефактов и чтений, откартированных в несколько мест
Чтения, получаемые в результате массивного параллельного секвенирования, обычно имеют небольшую длину (100 − 200 нуклеотидов), тогда как в средней эукариотической хромосоме порядка 100 миллионов нуклеотидов. Картирование чтений на геном не всегда представляет собой тривиальную задачу из-за наличия в геноме эукариот большого числа повторов (например LINE (на англ.) и SINE (на англ.) — повторы, составляющие соответственно 17% и 11% от последовательности ДНК человека), и, таким образом, чтения повторов могут картироваться сразу в нескольких местах. Обычно для анализа (например, транскрипционных факторов) достаточно уникально откартированных ридов, однако в некоторых случаях в анализ включают и риды, картированные на несколько участков [7]. В качестве альтернативы для поправки на потерянный в плохо картируемых областях сигнал можно использовать картируемость — показатель, зависящий различных параметров эксперимента и анализа, в том числе от длины ридов и программ, используеммых для обработки данных [10].
Для фильтрации можно воспользоваться программным пакетом SAMTools[11][6].
  • Определение качества картирования
После картирования становится возможным определить участки связывания исследуемого белка в геноме по количеству картированных на данный участок чтений (если много — белок там был)[6].
Набор полученных в результате иммунопреципитации чтений может оказаться неудачным для дальнейшего анализа из-за недостаточной глубины секвенирования, неудачного выбора размера фрагментов, на которые расщеплялась ДНК при иммунопреципитации, или же недостаточной представленности связанных с исследуемым белком фрагментов в полученной после иммунопреципитации смеси (плохие антитела и т. п.).
Для определения всего вышеперечисленного можно использовать программный пакет CHANCE[8].
  • Выявление сайтов связывания
После картирования ридов на геном для выявления сайтов (участков) связывания сначала смотрится уровень покрытия. Далее, выявляются пики (участки с большим покрытием, где, вероятно, был связан исследуемый белок), отделяется шум и определяются границы пиков. При этом важно соблюдать баланс между чувствительностью и специфичностью[8]. Разработка программ для вызова пиков — одна из основных задач ChIP-seq анализа.
Некоторые из программных пакетов, которые можно использовать для решения этой задачи: SPP, PeakSeq[10], MACS, UGENE[6]. Результатом работы этих программ является список участков, отранжированный либо по величине абсолютного сигнала (т.е. числу ридов), либо по значимости обогащения (например, по p-value или FDR). Выбор подходящего метода зависит от изучаемого вида и белка и условий эксперимента. Разные программы используют разные предположения и допущения для вычисления p-value и FDR. Например, SPP и исходная версия MACS использует только данные эксперимента ChIP-Seq и контроля (при его наличии), в то время как MOSAiCS учитывает показатель картируемости и GC-состав. Поэтому сравнивать результаты работы разных алгоритмов вызова пиков достаточно затруднительно. Многие работы по сопоставлению алгоритмов используют валидацию числа найденных пиков с помощью данных экспериментов ChIP-on-Chip, qPCR и т.д. [12][13][14]. Ситуация также осложняется плохой аннотированностью истинных сайтов связывания, поэтому при поиске пиков для белка с неизвестным сайтом связывания необходимо использовать отрицательные контроли [7].
  • Аннотация сайтов связывания
Целью аннотации является установление связи между сайтом связывания и функциональным участком ДНК, на который попал сайт связывания. Таким функциональным участком может быть промотор, участок начала транскрипции, межгенный участок и т. п[6].
Пересечение предсказанных участков связывания с функциональными элементами ДНК может быть визуально проанализировано в одном из геномных браузеров (на англ.), или можно получить текстовый файл с аннотацией с помощью CEAS или ChIPpeakAnno[8].
В полученных пиках (длина порядка сотен нуклеотидов) иногда можно выявить характерные последовательности, по которым происходит связывание белка — мотивы (длина обычно около 20 нуклеотидов). Для поиска мотивов можно использовать алгоритм MEME, Гиббс семплер[8], ChIPMunk. Если же для исследуемого белка уже известен мотив, по которому происходит связывание, то его наличие в пиках может служить хорошим индикатором качества ChIP-seq.

Характеристики метода

При дизайне эксперимента ChIP-seq и дальнейшем биоинформатическом анализе необходимо учитывать некоторые факторы и ограничения методики:

Неравномерная фрагментация и контроль

Доступность хроматина при фрагментации не одинакова в разных частях генома: в активно транскрибируемых областях он доступнее, поэтому соответствующие фрагменты ДНК будет преобладать в образце, что может привести к ложно-положительному результату. Плотно упакованные участки, напротив, могут хуже подвергаться фрагментации и, следовательно, будут менее представлены в образце, что может привести к ложно-отрицательному результату [7]. Об этом ограничении необходимо помнить при анализе полученных результатов.

Из-за неравномерной фрагментации и других факторов важно использовать правильный контроль. Консорциум ENCODE описывает два основных типа контролей [15]. В первом варианте в качестве контроля используется ДНК, выделенная из клеток в тех же условиях, но без преципитации (так называемый контроль входной ("input") ДНК). Во втором типе проводится еще один эксперимент ChIP с использованием антител, которые связывают незначимые внеядерные антигены (так называемый "IgG контроль"). В обоих случаях глубина секвенирования должна быть не меньше глубины эксперимента ChIP-seq.

Количество клеток

У классической методики существует ряд ограничений. Так, обычно для ChIP необходимо значительное количество клеток (около 10 миллионов), что затрудняет применение данного метода на маленьких модельных организмах, а также ограничивает количество экспериментов, которые можно провести с ценным образцом. Для преодоления данного ограничения был разработан ряд методов, основанных на амплификации ДНК после ChIP-seq (например, nano-ChIP-seq). ChIP-seq отдельных клеток (Single-cell ChIP-seq) очень сложен из-за фонового шума, вызванного неспецифическим связыванием антител и на данный момент существует единственная опубликованная работа, в которой Single-cell ChIP-seq осуществлен успешно. В этом исследовании использовали капельную микрофлюидику, и из-за низкого покрытия потребовалось отсеквенировать тысячи клеток, чтобы выявить клеточную гетерогенность [16].

Отношение сигнал/шум

Отношение сигнал/шум (S/N) определяется числом и мощностью пиков, полученных для каждого образца, и может быть использовано для оценки уровня шума. Высокое значение S/N не гарантирует правильность определения сайтов связывания, а всего лишь отражает наличие большого количества участков генома, на которые откартировалось много ридов [7]. Для определения этого показателя ENCODE предлагает две метрики [15]:

  • доля ридов в пиках (fraction of reads in peaks, FRiP) положительно коррелирует с числом и интенсивностью пиков и определяется как FRiP = ¼ Npeak/Nnonred, где Npeak — число ридов, откартированных в районы пиков. К минусам этого показателя относится тот факт, что он зависит от глубины секвенирования и параметров поиска пиков, но в целом он положительно коррелирует с числом найденных пиков;
  • кросс-корреляционные профили (cross-correlation profiles, CCPs) используют кластеризацию ридов на основании кросс-корреляции Пирсона без предварительного поиска пиков, что отличает этот метод от FRiP.

Глубина секвенирования

Глубина секвенирования (покрытие) — число уникальных ридов, откартированных на данный участок референсного генома. Глубина секвенирования влияет на выявление пиков: их число растет с увеличением глубины секвенирования, так как с ростом числа ридов большее количество сайтов становится статистически значимым [17]. Поэтому для распознавания всех функциональных сайтов необходимо глубокое секвенирование [7].

Значение достаточного уровня покрытия зависит от отношения сигнал/шум антитела и может быть определено как глубина секвенирования, при которой отношение числа пиков из случайно взятой подвыборки ридов к числу пиков из полной выборки ридов выходит на плато. Такое насыщение может быть достигнуто не всегда (например, его нет для гистонов), и в таких случаях эта величина задается эмпирически [7].

Сложность библиотеки

Сложность библиотеки (NRF) определяется как отношения числа необогащенных ридов Nnonred к общему числу откартированных ридов Nall. Необогащенные риды определяются как риды, откартированные на один и тот же участок генома T раз и меньше (значение T задается в качестве параметра). Обогащенные риды (риды, не вошедшие в Nnonred) не рассматриваются в дальнейшем анализе. Для человека параметр T обычно берут равным 1, так как ожидаемая глубина секвенирования в этом случае обычно <<1. Для маленьких геномов глубина секвенирования может быть >1, поэтому стоит взять T >1 [7]. При сравнении показателя NRF для разных образцов, стоит помнить, что он зависит от общего количества откартированных ридов [7].

Показатель NRF уменьшается с увеличением глубины секвенирования библиотеки. При это в конечном итоге достигается точка, в которой сложность будет максимальна, и будет происходить секвенирование одних и тех же фрагментов ДНК, амплифицированных с помощью ПЦР. Низкая сложность библиотеки может возникнуть, например, если в процессе иммунопреципитации выделяется очень небольшое количество ДНК [15].

Чувствительность

Чувствительность технологии зависит от глубины секвенирования, длины генома и других факторов. Для транскрипционных факторов млекопитающих и энхансер-ассоциированных модификаций хроматина, которые обычно локализованы в специфических узких сайтах и имеют порядка тысячи сайтов связывания, будет достаточно около 20 миллионов чтений[6]. Для белков с большим числом сайтов связывания (РНК-полимераза III?!) потребуется до 60 миллионов чтений[6]. В случае транскрипционных факторов червей или мушек необходимо примерно 4 миллиона чтений[6]. Цена секвенирования полученных после иммунопреципитации фрагментов непосредственно коррелирует с глубиной секвенирования. Если требуется отобразить с высокой чувствительностью участки связывания белков, часто встречающиеся в большом геноме, потребуются высокие затраты, так как необходимо будет большое число чтений. Это отличает данный метод от ChIP-on-Chip, в котором чувствительность не связана со стоимостью анализа.

Также, в отличие от ChIP-методов, основанных на ДНК-микрочипах, точность ChIP-seq не ограничивается расстоянием между заданными зондами. Путём интеграции большого количества коротких чтений может быть получена локализация сайтов связывания с высокой точностью. В сравнении с методами ChIP-on-Chip, ChIP-seq данные могут быть использованы для локализации фактического сайта связывания белка с точностью до десятков нуклеотидов. Плотность чтений на участках связывания является хорошим индикатором силы связи белок-ДНК, что позволяет легче количественно оценивать и сравнивать сродство белка к разным участкам[18].

Точность и специфичность

Длина типичного участка связывания белка составляет 6 − 20 нуклеотидов, а длина полученных фрагментов после ChIP — около 200, что делает определение места связывания не слишком точным. Кроме того, полученные библиотеки часто могут содержать участки ДНК, не связанной с исследуемым белком, что приводит к ошибкам в результатах. Существуют различные модификации метода, направленные на повышение точности (например, ChIP-exo). Качество эксперимента ChIP-seq также прямо зависит от специфичности антител и степени обогащения образца на стадии иммунопреципитации. Главными проблемами могут быть низкая реактивность антитела против нужного белка и/или кросс-реактивность по отношению к другим белкам. Консорциум ENCODE предлагает несколько методик для оценки специфичности антител [15].

Для осуществления иммунопреципитации также можно пришить к исследуемому белку эпитоп. Такой способ решает обе проблемы, возникающие при иммунопреципитации антителами, однако в этом случае пришиваемый тэг может влиять на исследуемый белок (например, изменять уровень его экспрессии или способность связывания) [15].

Модификации и похожие методы

Со времени изобретения ChIP-Seq было придумано множество модификаций метода, направленных на улучшение эффективности иммунопреципитации, уменьшение фонового шума и уменьшение необходимого числа клеток.

PLAC-seq

Существует множество методов исследования дальних взаимодействий хроматина, но они требуют большое количество клеток для анализа. Для преодоления этого ограничения был разработан метод PLAC-seq (Proximity Ligation-Assisted ChIP-seq), в котором сшивка сближенных участков осуществляется в ядре до фрагментации хроматина и иммунопреципитации. PLAC-seq демонстрирует лучшую точность, эффективность и воспроизводимость по сравнению с ChIA-PET при определении дальних контактов в клетках млекопитающих [19].

Nano-ChIP-seq

Метод nano-ChIP-seq основан на том, что выделенная в ходе эксперимента ChIP ДНК амплифицируется с помощью ПЦР и уже после этого секвенируется[20]. Это позволяет проводить анализ на малом количестве клеток, обычно около 10 тысяч. Тем не менее, достаточное число клеток зависит от множества факторов, таких как эффективность антител и обогащенность образца целевым белком, поэтому в каких-то случаях может понадобиться больше 10 тыс. клеток.

ChIP-exo и ChIP-nexus

Метод ChIP-exo является модификацией протокола ChIP-seq, позволяющей улучшить разрешение найденных сайтов связывания от сотен пар оснований практически до одного нуклеотида. В ChIP-exo используется λ-экзонуклеаза для удаления контаминирующей ДНК и 5′-концов сшитых с целевым белком фрагментов ДНК вплоть до позиции, на каком-то фиксированном расстоянии от места связывания белка[21]. Так как в результате эксперимента ChIP образуются ДНК фрагменты обеих цепей, выровненные 5′ концы картируются на 2 позиции генома, между которыми и находится сайт связывания белка. Эксперименты на дрожжах показали, что ChIP-exo позволяет идентифицировать сайты связывания с нуклеотидной точностью и в 40 раз большим отношением сигнал-шум по сравнению с ChIP-seq и ChIP-on-Chip [21].

Модификацией протокола ChIP-exo является протокол ChIP-nexus[22] (ChIP experiments with nucleotide resolution through exonuclease, unique barcode and single ligation). В этом протоколе к ДНК лигируются специальные адапторы, которые содержат пару последовательностей для амплификации библиотеки, сайт рестриктазы BamHI, и рандомизированный баркод, который позволяет отследить избыточную амплификацию фрагментов. После обработки λ-экзонуклеазой происходит внутримолекулярная циркуляризация ДНК, а затем релинеаризация путем обработки рестриктазой BamHI [22]. Таким образом по краям фрагмента оказываются последовательности для амплификации. Этот дополнительный шаг позволяет улучшить эффективность встраивания ДНК-фрагментов в библиотеку.

Competition-ChIP

Competition-ChIP — модификация протокола ChIP-seq, использующаяся для измерения относительной динамики связывания транскрипционных факторов с ДНК [23].

CLIP-seq

CLIP-Seq (также известный как HITS-CLIP — high-throughput sequencing of RNA isolated by crosslinking immunoprecipitation) — метод исследования РНК-белковых взаимодействий и модификаций РНК in vivo [24].

DRIP-seq и DRIVE-seq

R-петли — трехцепочечные структуры, образованные вытесненной одноцепочечной ДНК (оцДНК) и дуплексом РНК-оцДНК. In vivo на их долю приходится примерно 5%–8% генома. Через регуляцию связывания различных белков R-петли участвуют во многих клеточных процессах, таких как, например, дифференциация эмбриональных стволовых клеток [25]. Для исследования R-петель был разработан метод DRIP-seq (DNA:RNA ImmunoPrecipitation and sequencing), который по сути очень похож на ChIP-Seq, но основан на использовании специфичных к R-петлям антител [26]. Альтернативой для исследования R-петель является метод DRIVE-seq (DNA:RNA In Vitro Enrichment and sequencing), в котором вместо антител используется инактивированная эндонуклеаза MBP-RNASEH1 [26]. DRIVE-seq может быть использован для уточнения предсказаний, полученных с помощью DRIP-seq. Оба метода позволяют точно и практически количественно оценить число R-петель. Впервые DRIP-seq был использован для изучения R-петель в геноме человека: было показано, что большое их количество содержится в CpG островках промоторов [26].

CETCh-seq

Создан для того, чтобы при изучении ДНК-белковых взаимодействий преодолеть такую техническую проблему, как доступность подходящих для ChIP-seq экспериментов антител. С помощью геномного редактирования с использованием CRISPR/Cas9 к интересующим белкам, например, транскрипционным факторам, присоединяется эпитоп для дальнейшего распознавания подходящими антителами[27].

Применение

ChIP-seq, в принципе, применим для любых белков, которые осаждаются в ходе иммунопреципитации хроматина. Типичным примером использования метода ChIP-seq является определение участков связывания транскрипционных факторов, ДНК-полимеразы, структурных белков, а также модификаций гистонов и структуры хроматина[6]. В качестве альтернативы ChIP-seq был разработан ряд не использующих иммунопреципитацию методов (DNase-Seq и FAIRE-Seq) для определения свободных от нуклеосом участков ДНК.

Поиск мотивов

Одной из основных целей ChIP-seq экспериментов является поиск в последовательности ДНК мотивов для связывания белков. Участки ДНК, физически контактирующие с факторами транскрипции и другими белками, могут быть изолированы методом иммунопреципитации хроматина. В ходе эксперимента получается набор фрагментов ДНК, связанных с исследуемым белком in vivo. Дальнейший анализ включает использование массивного параллельного секвенирования и баз данных полных геномов для определения положения участков связывания в геноме[6]. Наиболее широко используемый инструмент для обнаружения мотивов — алгоритм MEME (Multiple EM for Motif Elicitation). Часто множество мотивов может быть найдено на основе одного датасета и анализ мотивов может быть проведен даже на ChIP-seq данных низкого качества, но значимость и достоверность таких мотивов будет ниже[28].  

Поиск участков с биологической функцией

Данные экспериментов ChIP-seq часто используются для определения регуляторных участков для интересующего локуса [15]. В частности, ChIP-seq широко используется для изучения бактериальных регулонов [29]. Для этого после нахождения участков связывания производится поиск предполагаемых регулируемых генов.

Дифференциальный анализ

Определение различий между профилями ChIP-Seq при разных условиях производится после вызова пиков. Пики, полученные в разных экспериментах, сливаются затем в один список. Для дальнейшего определения участков-кандидатов часто используются программы для анализа дифференциальной экспрессии генов, например, DESeq2[30] и edgeR[31]. Эти программы способны проводить дифференциальный анализ, обрабатывая списки полученных пиков как списки "генов". Существуют также программы, разработанные специально для дифференциального анализа данных ChIP-Seq (например, DiffBind[32], ChIPComp[33], DBChIP[34]), которые работают по схожему принципу. Многие другие программы (например, PePr[35]) используют иные модели, не требующие предварительного вызова пиков.

Исследование состояния хроматина

Метилирование ДНК и модификации гистонов претерпевают сильные изменения в процессе переходов между стадиями развития и при заболеваниях, таких как рак, и таким образом вносят основной вклад в динамическую природу хроматина. Различные модификации гистонов исследуются с использованием специфичных антител, чтобы получить профиль гистоновых меток в образце. В собственных экспериментах консорциум ENCODE тщательно тестирует специфичность используемых антител на множестве различно модифицированных гистоновых концевых пептидов. Также используются общие источники клеток, которые профилированы и сравнены, для обеспечения согласованности между экспериментами. Современные методические рекомендации консорциума ENCODE охватывают валидацию антител, воспроизводимость экспериментов, глубину секвенирования, анализ качества данных, публикацию данных и метаданных[28] [36].

Анализ аллельного дисбаланса

Все больший интерес развивается к анализу данных ChIP-Seq со внутренним контролем по другому аллелю для выявления аллельного дисбаланса[37]. При этом данные, полученные из эксперимента ChIP-Seq, используются для поиска связи биологических сигналов с однонуклеотидными полиморфизмами (SNP)[37]. Данный анализ включает три стадии[38]:

  1. выравнивание ридов, т.е. определение позиции в геноме и аллеля для каждого рида,
  2. подсчет числа достоверно откартированных ридов для каждого SNP для каждого аллеля,
  3. ранжирование возможных SNP и статистическая оценка аллельного дисбаланса.

Для первых двух этапов важна правильная стратегия картирования ридов на референсный геном, так как необходимо отличать ошибки секвенирования от реально существующих аллелей. Для третьего этапа разработано несколько программ, использующих разные статистические тесты, например, AlleleDB[39], NPBin[40], WASP[41].

Типы данных в энциклопедии ДНК элементов (ENCODE)

Базы данных

Геном многоклеточных организмов крайне сложен, и на данный момент не до конца понятно в деталях, как происходит реализация наследственной информации. Детальное понимание работы генома требует наличие полного списка функциональных элементов и описания того, как они действуют во времени и в различных типах клеток. В попытке решения данной проблемы были созданы проекты ENCODE и modENCODE[42]. Помимо результатов ChIP-seq, в ENCODE и modENCODE интегрируются данные таких анализов, как: и ChIA-PET, позволяющих определить конформацию хромосом; DNase-seq и FAIRE-Seq, позволяющих определить свободные от нуклеосом участки; бисульфитного секвенирования и Infinium Methylation Assay, позволяющих определить наличие метилцитозинов в ДНК, RT-PCR и секвенирования РНК, позволяющих определить уровень экспрессии генов, а также CLIP-seq[англ.] и RIP-seq[англ.], позволяющих выявить РНК-белковые взаимодействия.

На данный момент существует ряд баз данных, содержащих результаты экспериментов ChIP-seq и их анализа:

  • ENCODE — на сайте проекта можно скачать координаты участков связывания ДНК с транскрипционными факторами или модифицированными гистонами, полученными в результате ChIP-seq. Содержит данные по различным клеточным линиям и тканям мыши и человека[43].
  • modENCODE — проект, посвящённый анализу ДНК-элементов плодовой мушки D. melanogaster и нематоды C. elegans[44].
  • Factorbook — база данных, сгенерированная на основе ENCODE[45].
  • ChIPBase (недоступная ссылка) — помимо человека и мыши, доступны результаты экспериментов ChIP-seq собаки, курицы, дрозофилы и нематоды C. elegans[46].
  • ChEA — ChIP-seq человека, мыши и крысы, можно получить список участков связывания с различными белками, в которые попал исследуемый ген[47].
  • CTCFBSDB — база данных участков связывания инсулятора CTCF[48].
  • hmChIP — ChIP-seq и ChIP-chip человека и мыши[49].
  • HOCOMOCO — база данных участков связывания транскрипционных факторов человека[50].
  • JASPAR — профили участков связывания транскрипционных факторов на основе ChIP-seq различных эукариот[51].
  • SwissRegulon — база данных аннотированных регуляторных сайтов[52].
  • CistromeMap — ChIP-Seq и DNase-Seq человека и мыши[53].
  • CR Cistrome — интегрированная база данных регуляторов хроматина, доступны результаты экспериментов ChIP-seq человека и мыши[54].

Исследования

Эукариоты

В качестве примера успешного использования ChIP-seq для изучения эукариот можно привести исследование нуклеосомной архитектуры промоторов. С помощью ChIP-seq удалось установить, что у дрожжей, возможно, имеются свободные от нуклеосом области промоторов (длиной примерно 150 н.), с которых РНК-полимераза может инициировать транскрипцию [55]. Данный метод также был успешно применён для поиска сайтов связывания 22-х транскрипционных факторов в геноме нематоды C. elegans. Для 20% всех аннотированных генов генома нематоды были определены регулирующие их факторы транскрипции [56].

Также ChIP-seq широко используется для изучения модификаций гистонов. На данный момент известно более 100 модификаций гистонов[57][58]. Наример, известно, что ацетилирование, в частности, ацетилирование лизина 9 гистона Н3 (H3K9Ac), обычно ассоциируются с открытыми и доступными областями хроматина (эухроматином). В то же время метилирование гистонов может быть ассоциировано как с открытыми, так и с плотно упакованными областями хроматина (гетерохроматином). В частности, моно- и триметилирование лизина 4 гистона Н3 (H3K4me1 или H3K4me3) обычно ассоциируется с открытым хроматином, причем каждая из этих меток представляет особую категорию открытого хроматина: H3K4me3 маркирует промоторные регионы,  H3K4me1 — маркирует транскрипционные энхансеры, H3K36me3 — маркирует транскрибируемые участки генома. Триметилирование лизинов 9 и 27 гистона Н3 (H3K9me3 и H3K27me3) напротив ассоциируется с компактизацией хроматина и, как следствие, репрессией генов. H3K9me3 и  H3K27me3 регулируют разные типы генов: H3K27me3 преимущественное подавляет гомеобоксные транскрипционные факторы, а целевыми генами H3K9me3 преимущественно являются транскрипционные факторы с мотивом цинковые пальцы (zinc finger transcription factors)[59]. Различные комбинации гистоновых меток могут обеспечить еще более подробную информацию: например, присутствие сразу двух меток H3K4me3 (метки эухроматина) и H3K9me3 (метки гетерохроматина) на промоторе может быть идентификатором импринтируемых генов [60].

Прокариоты

У бактерий регуляция экспрессии генов на уровне транскрипции осуществляется с помощью транскрипционных факторов [61]. Метод ChIP-seq может быть использован для определения участков связывания таких транскрипционных факторов. Некоторые бактериальные транскрипционные факторы имеют несколько сайтов связывания внутри промотора (т.е. сайтов, расположенных на расстоянии менее 100 п.н.) [62]. Большинство алгоритмов поиска пиков определяют такие близко расположенные сайты как один. Для решения этой проблемы используются так называемые алгоритмы деконволюции пиков, например, CSDeconv [63], GEM [64], PICS [65], dPeak [66].

Следующим шагом после определения сайтов связывания является определение регулируемых генов. Обычно ассоциация найденных пиков с генами выполняется алгоритмически с помощью поиска близлежащих сайтов старта транскрипции (transcription start site, TSS). Однако в случае бактерий (в том числе E. coli) TSS могут быть не определены для многих генов, поэтому вместо TSS можно искать близлежащие сайты старта трансляции, вручную исследовать геномное окружение пика или использовать данные экспрессии генов (например, сравнивать экспрессию регулонов в диком типе и при делеции исследуемого транскрипционного фактора на основании данных RNA-seq) [29].

Перспективы развития

Текущие успехи ChIP-seq уже позволяют анализировать образцы, содержащие гораздо меньше клеток, что значительно расширяет его применимость в таких областях, как эмбриология и биология развития, где получать большие образцы слишком дорого или трудно. Метод определённо имеет потенциал для обнаружения мутаций в сайтах связывания, которые влияют на связывание с белками и регуляцию экспрессии генов [6].

Однако становится очевидным, что проблемы ChIP-seq требуют новых экспериментальных, статистических и вычислительных решений. Необходимо снизить количество артефактов и ложно-положительных результатов, а также научиться отличать индивидуальные эффекты изучаемых явлений от контекстно-зависимых. Пожалуй, наиболее важные новые разработки связаны с обнаружением и анализом дистальных (находящихся на значительном расстоянии от гена) регуляторных областей. Возможно, с помощью ChIP-seq можно будет определять непрямое связывание ДНК, например, через дополнительные белки или комплексы белков, так как предсказанные сайты могут быть функциональными вне зависимости от наличия специфического мотива. Наконец, необходимо использовать дополнительную информацию (например, уровень экспрессии или данные о конформации хроматина), чтобы отличать реальную функциональность, так как связывание с ДНК не обязательно подразумевает определённую функцию [18].

Перспективным направлением является интеграция данных, полученных из большого числа экспериментов, для разрешения и анализа сложных взаимодействий. Для этой цели часто применяются различные методы машинного обучения [67][68][69].

Примечания

  1. Mikkelsen T. S., Ku M., Jaffe D. B., Issac B., Lieberman E., Giannoukos G., Alvarez P., Brockman W., Kim T. K., Koche R. P., Lee W., Mendenhall E., O'Donovan A., Presser A., Russ C., Xie X., Meissner A., Wernig M., Jaenisch R., Nusbaum C., Lander E. S., Bernstein B. E. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells. (англ.) // Nature. — 2007. — Vol. 448, no. 7153. — P. 553—560. — doi:10.1038/nature06008. — PMID 17603471.
  2. Barski A., Cuddapah S., Cui K., Roh T. Y., Schones D. E., Wang Z., Wei G., Chepelev I., Zhao K. High-resolution profiling of histone methylations in the human genome. (англ.) // Cell. — 2007. — Vol. 129, no. 4. — P. 823—837. — doi:10.1016/j.cell.2007.05.009. — PMID 17512414.
  3. Johnson D. S., Mortazavi A., Myers R. M., Wold B. Genome-wide mapping of in vivo protein-DNA interactions. (англ.) // Science (New York, N.Y.). — 2007. — Vol. 316, no. 5830. — P. 1497—1502. — doi:10.1126/science.1141319. — PMID 17540862.
  4. 1 2 Park P. J. ChIP-seq: advantages and challenges of a maturing technology. (англ.) // Nature reviews. Genetics. — 2009. — Vol. 10, no. 10. — P. 669—680. — doi:10.1038/nrg2641. — PMID 19736561.
  5. Barbara Kaboord, Maria Perr. Isolation of proteins and protein complexes by immunoprecipitation (англ.) // Methods in Molecular Biology (Clifton, N.J.). — 2008-01-01. — Vol. 424. — P. 349–364. — ISSN 1064-3745. — doi:10.1007/978-1-60327-064-9_27.
  6. 1 2 3 4 5 6 7 8 9 10 11 12 Terrence S. Furey. ChIP-seq and beyond: new and improved methodologies to detect and characterize protein-DNA interactions (англ.) // Nature Reviews. Genetics. — 2012-12-01. — Vol. 13, iss. 12. — P. 840–852. — ISSN 1471-0064. — doi:10.1038/nrg3306.
  7. 1 2 3 4 5 6 7 8 9 10 Ryuichiro Nakato, Katsuhiko Shirahige. Recent advances in ChIP-seq analysis: from quality management to whole-genome annotation (англ.) // Briefings in Bioinformatics. — 2016-03-15. — P. bbw023. — ISSN 1477-4054 1467-5463, 1477-4054. — doi:10.1093/bib/bbw023.
  8. 1 2 3 4 5 Timothy Bailey, Pawel Krajewski, Istvan Ladunga, Celine Lefebvre, Qunhua Li. Practical guidelines for the comprehensive analysis of ChIP-seq data (англ.) // PLoS computational biology. — 2013-01-01. — Vol. 9, iss. 11. — P. e1003326. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003326.
  9. Anthony M. Bolger, Marc Lohse, Bjoern Usadel. Trimmomatic: a flexible trimmer for Illumina sequence data (англ.) // Bioinformatics. — 2014-08-01. — Vol. 30, iss. 15. — P. 2114–2120. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btu170.
  10. 1 2 Joel Rozowsky, Ghia Euskirchen, Raymond K Auerbach, Zhengdong D Zhang, Theodore Gibson. PeakSeq enables systematic scoring of ChIP-seq experiments relative to controls (англ.) // Nature Biotechnology. — 2009-1. — Vol. 27, iss. 1. — P. 66–75. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt.1518.
  11. Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan. The Sequence Alignment/Map format and SAMtools (англ.) // Bioinformatics. — 2009-08-15. — Vol. 25, iss. 16. — P. 2078–2079. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btp352.
  12. Hashem Koohy, Thomas A. Down, Mikhail Spivakov, Tim Hubbard. A Comparison of Peak Callers Used for DNase-Seq Data // PLoS ONE. — 2014-05-08. — Т. 9, вып. 5. — С. e96303. — ISSN 1932-6203. — doi:10.1371/journal.pone.0096303.
  13. Elizabeth G. Wilbanks, Marc T. Facciotti. Evaluation of Algorithm Performance in ChIP-Seq Peak Detection // PLoS ONE. — 2010-07-08. — Т. 5, вып. 7. — С. e11471. — ISSN 1932-6203. — doi:10.1371/journal.pone.0011471.
  14. Teemu D Laajala, Sunil Raghav, Soile Tuomela, Riitta Lahesmaa, Tero Aittokallio. A practical comparison of methods for detecting transcription factor binding sites in ChIP-seq experiments // BMC Genomics. — 2009. — Т. 10, вып. 1. — С. 618. — ISSN 1471-2164. — doi:10.1186/1471-2164-10-618.
  15. 1 2 3 4 5 6 S. G. Landt, G. K. Marinov, A. Kundaje, P. Kheradpour, F. Pauli. ChIP-seq guidelines and practices of the ENCODE and modENCODE consortia (англ.) // Genome Research. — 2012-09-01. — Vol. 22, iss. 9. — P. 1813–1831. — ISSN 1088-9051. — doi:10.1101/gr.136184.111.
  16. Assaf Rotem, Oren Ram, Noam Shoresh, Ralph A. Sperling, Alon Goren. Single-cell ChIP-seq reveals cell subpopulations defined by chromatin state // Nature biotechnology. — 2015-11. — Т. 33, вып. 11. — С. 1165–1172. — ISSN 1087-0156. — doi:10.1038/nbt.3383.
  17. The ENCODE Project Consortium. A User's Guide to the Encyclopedia of DNA Elements (ENCODE) (англ.) // PLoS Biology / Peter B. Becker. — 2011-04-19. — Vol. 9, iss. 4. — P. e1001046. — ISSN 1545-7885. — doi:10.1371/journal.pbio.1001046.
  18. 1 2 Joshua W. K. Ho, Eric Bishop, Peter V. Karchenko, Nicolas Nègre, Kevin P. White. ChIP-chip versus ChIP-seq: lessons for experimental design and data analysis (англ.) // BMC genomics. — 2011-02-28. — Vol. 12. — P. 134. — ISSN 1471-2164. — doi:10.1186/1471-2164-12-134.
  19. Rongxin Fang, Miao Yu, Guoqiang Li, Sora Chee, Tristin Liu. Mapping of long-range chromatin interactions by proximity ligation-assisted ChIP-seq (англ.) // Cell Research. — 2016-12. — Vol. 26, iss. 12. — P. 1345–1348. — ISSN 1748-7838 1001-0602, 1748-7838. — doi:10.1038/cr.2016.137.
  20. Mazhar Adli, Bradley E Bernstein. Whole-genome chromatin profiling from limited numbers of cells using nano-ChIP-seq (англ.) // Nature Protocols. — 2011-10. — Vol. 6, iss. 10. — P. 1656–1668. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2011.402.
  21. 1 2 Ho Sung Rhee, B. Franklin Pugh. Comprehensive Genome-wide Protein-DNA Interactions Detected at Single-Nucleotide Resolution (англ.) // Cell. — 2011-12. — Vol. 147, iss. 6. — P. 1408–1419. — doi:10.1016/j.cell.2011.11.013.
  22. 1 2 Qiye He, Jeff Johnston, Julia Zeitlinger. ChIP-nexus: a novel ChIP-exo protocol for improved detection of in vivo transcription factor binding footprints // Nature biotechnology. — 2015-4. — Т. 33, вып. 4. — С. 395–401. — ISSN 1087-0156. — doi:10.1038/nbt.3121.
  23. Colin R Lickwar, Florian Mueller, Jason D Lieb. Genome-wide measurement of protein-DNA binding dynamics using competition ChIP (англ.) // Nature Protocols. — 2013-7. — Vol. 8, iss. 7. — P. 1337–1353. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2013.077.
  24. Robert B. Darnell. HITS‐CLIP: panoramic views of protein–RNA regulation in living cells (англ.) // Wiley Interdisciplinary Reviews: RNA. — 2010-9. — Vol. 1, iss. 2. — P. 266–286. — ISSN 1757-7012 1757-7004, 1757-7012. — doi:10.1002/wrna.31.
  25. László Halász, Zsolt Karányi, Beáta Boros-Oláh, Tímea Kuik-Rózsa, Éva Sipos. RNA-DNA hybrid (R-loop) immunoprecipitation mapping: an analytical workflow to evaluate inherent biases (англ.) // Genome Research. — 2017-6. — Vol. 27, iss. 6. — P. 1063–1073. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.219394.116.
  26. 1 2 3 Paul A. Ginno, Paul L. Lott, Holly C. Christensen, Ian Korf, Frédéric Chédin. R-Loop Formation Is a Distinctive Characteristic of Unmethylated Human CpG Island Promoters (англ.) // Molecular Cell. — 2012-3. — Vol. 45, iss. 6. — P. 814–825. — doi:10.1016/j.molcel.2012.01.017.
  27. Daniel Savic, E. Christopher Partridge, Kimberly M. Newberry, Sophia B. Smith, Sarah K. Meadows. CETCh-seq: CRISPR epitope tagging ChIP-seq of DNA-binding proteins (англ.) // Genome Research. — 2015-10. — Vol. 25, iss. 10. — P. 1581–1589. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.193540.115.
  28. 1 2 ChIP Sequencing Overview. epigenie.com. Дата обращения: 22 апреля 2019.
  29. 1 2 Kevin S. Myers, Dan M. Park, Nicole A. Beauchene, Patricia J. Kiley. Defining bacterial regulons using ChIP-seq (англ.) // Methods. — 2015-9. — Vol. 86. — P. 80–88. — doi:10.1016/j.ymeth.2015.05.022.
  30. Michael I Love, Wolfgang Huber, Simon Anders. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2 // Genome Biology. — 2014-12. — Т. 15, вып. 12. — ISSN 1474-760X. — doi:10.1186/s13059-014-0550-8.
  31. M. D. Robinson, D. J. McCarthy, G. K. Smyth. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data // Bioinformatics. — 2009-11-11. — Т. 26, вып. 1. — С. 139–140. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btp616.
  32. Anaïs Bardet. Peak Calling // Practical Guide to ChIP-seq Data Analysis. — CRC Press, 2018-10-26. — С. 41–52. — ISBN 9780429487590.
  33. Li Chen, Chi Wang, Zhaohui S. Qin, Hao Wu. A novel statistical method for quantitative comparison of multiple ChIP-seq datasets // Bioinformatics. — 2015-02-13. — Т. 31, вып. 12. — С. 1889–1896. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btv094.
  34. Kun Liang, Sündüz Keleş. Detecting differential binding of transcription factors with ChIP-seq // Bioinformatics. — 2011-11-03. — Т. 28, вып. 1. — С. 121–122. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btr605.
  35. Yanxiao Zhang, Yu-Hsuan Lin, Timothy D. Johnson, Laura S. Rozek, Maureen A. Sartor. PePr: a peak-calling prioritization pipeline to identify consistent or differential peaks from replicated ChIP-Seq data // Bioinformatics. — 2014-06-03. — Т. 30, вып. 18. — С. 2568–2575. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btu372.
  36. Bradley E Bernstein, John A Stamatoyannopoulos, Joseph F Costello, Bing Ren, Aleksandar Milosavljevic. The NIH Roadmap Epigenomics Mapping Consortium // Nature biotechnology. — 2010-10. — Т. 28, вып. 10. — С. 1045–1048. — ISSN 1087-0156. — doi:10.1038/nbt1010-1045.
  37. 1 2 Qi Zhang, Sündüz Keleş. An empirical Bayes test for allelic-imbalance detection in ChIP-seq // Biostatistics. — 2017-11-03. — Т. 19, вып. 4. — С. 546–561. — ISSN 1468-4357 1465-4644, 1468-4357. — doi:10.1093/biostatistics/kxx060.
  38. Qi Zhang. Data Analysis of ChIP-Seq Experiments (англ.) // Computational Epigenetics and Diseases. — Elsevier, 2019. — P. 67–77. — ISBN 9780128145135. — doi:10.1016/b978-0-12-814513-5.00005-2.
  39. Christopher Gregg. Faculty of 1000 evaluation for A uniform survey of allele-specific binding and expression over 1000-Genomes-Project individuals. F1000 - Post-publication peer review of the biomedical literature (11 июля 2016). Дата обращения: 5 мая 2019.
  40. Qi Zhang, Sündüz Keleş. An empirical Bayes test for allelic-imbalance detection in ChIP-seq // Biostatistics. — 2017-11-03. — Т. 19, вып. 4. — С. 546–561. — ISSN 1468-4357 1465-4644, 1468-4357. — doi:10.1093/biostatistics/kxx060.
  41. Bryce van de Geijn, Graham McVicker, Yoav Gilad, Jonathan K Pritchard. WASP: allele-specific software for robust molecular quantitative trait locus discovery // Nature Methods. — 2015-09-14. — Т. 12, вып. 11. — С. 1061–1063. — ISSN 1548-7105 1548-7091, 1548-7105. — doi:10.1038/nmeth.3582.
  42. Susan E. Celniker, Laura A. L. Dillon, Mark B. Gerstein, Kristin C. Gunsalus, Steven Henikoff. Unlocking the secrets of the genome (англ.) // Nature. — 2009-06-18. — Vol. 459, iss. 7249. — P. 927–930. — ISSN 1476-4687. — doi:10.1038/459927a.
  43. Hongzhu Qu, Xiangdong Fang. A brief review on the Human Encyclopedia of DNA Elements (ENCODE) project (англ.) // Genomics, Proteomics & Bioinformatics. — 2013-06-01. — Vol. 11, iss. 3. — P. 135–141. — ISSN 2210-3244. — doi:10.1016/j.gpb.2013.05.001.
  44. modENCODE Consortium, Sushmita Roy, Jason Ernst, Peter V. Kharchenko, Pouya Kheradpour. Identification of functional elements and regulatory circuits by Drosophila modENCODE (англ.) // Science (New York, N.Y.). — 2010-12-24. — Vol. 330, iss. 6012. — P. 1787–1797. — ISSN 1095-9203. — doi:10.1126/science.1198374.
  45. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin-Ying Lin, Melissa C. Greven. Factorbook.org: a Wiki-based database for transcription factor-binding data generated by the ENCODE consortium (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D171–176. — ISSN 1362-4962. — doi:10.1093/nar/gks1221.
  46. Jian-Hua Yang, Jun-Hao Li, Shan Jiang, Hui Zhou, Liang-Hu Qu. ChIPBase: a database for decoding the transcriptional regulation of long non-coding RNA and microRNA genes from ChIP-Seq data (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D177–187. — ISSN 1362-4962. — doi:10.1093/nar/gks1060.
  47. Alexander Lachmann, Huilei Xu, Jayanth Krishnan, Seth I. Berger, Amin R. Mazloom. ChEA: transcription factor regulation inferred from integrating genome-wide ChIP-X experiments (англ.) // Bioinformatics (Oxford, England). — 2010-10-01. — Vol. 26, iss. 19. — P. 2438–2444. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btq466.
  48. Jesse D. Ziebarth, Anindya Bhattacharya, Yan Cui. CTCFBSDB 2.0: a database for CTCF-binding sites and genome organization (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D188–194. — ISSN 1362-4962. — doi:10.1093/nar/gks1165.
  49. Li Chen, George Wu, Hongkai Ji. hmChIP: a database and web server for exploring publicly available human and mouse ChIP-seq and ChIP-chip data (англ.) // Bioinformatics (Oxford, England). — 2011-05-15. — Vol. 27, iss. 10. — P. 1447–1448. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btr156.
  50. Ivan V. Kulakovskiy, Ilya E. Vorontsov, Ivan S. Yevshin, Anastasiia V. Soboleva, Artem S. Kasianov. HOCOMOCO: expansion and enhancement of the collection of transcription factor binding sites models (англ.) // Nucleic Acids Research. — 2016-01-04. — Vol. 44, iss. D1. — P. D116–125. — ISSN 1362-4962. — doi:10.1093/nar/gkv1249.
  51. Albin Sandelin, Wynand Alkema, Pär Engström, Wyeth W. Wasserman, Boris Lenhard. JASPAR: an open-access database for eukaryotic transcription factor binding profiles (англ.) // Nucleic Acids Research. — 2004-01-01. — Vol. 32, iss. Database issue. — P. D91–94. — ISSN 1362-4962. — doi:10.1093/nar/gkh012.
  52. Mikhail Pachkov, Piotr J. Balwierz, Phil Arnold, Evgeniy Ozonov, Erik van Nimwegen. SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates (англ.) // Nucleic Acids Research. — 2013-01-01. — Vol. 41, iss. Database issue. — P. D214–220. — ISSN 1362-4962. — doi:10.1093/nar/gks1145.
  53. Bo Qin, Meng Zhou, Ying Ge, Len Taing, Tao Liu. CistromeMap: a knowledgebase and web server for ChIP-Seq and DNase-Seq studies in mouse and human (англ.) // Bioinformatics (Oxford, England). — 2012-05-15. — Vol. 28, iss. 10. — P. 1411–1412. — ISSN 1367-4811. — doi:10.1093/bioinformatics/bts157.
  54. Qixuan Wang, Jinyan Huang, Hanfei Sun, Jing Liu, Juan Wang. CR Cistrome: a ChIP-Seq database for chromatin regulators and histone modification linkages in human and mouse (англ.) // Nucleic Acids Research. — 2014-01-01. — Vol. 42, iss. Database issue. — P. D450–458. — ISSN 1362-4962. — doi:10.1093/nar/gkt1151.
  55. Christoph D. Schmid, Philipp Bucher. ChIP-Seq data reveal nucleosome architecture of human promoters (англ.) // Cell. — 2007-11-30. — Vol. 131, iss. 5. — P. 831–832; author reply 832–833. — ISSN 0092-8674. — doi:10.1016/j.cell.2007.11.017.
  56. Wei Niu, Zhi John Lu, Mei Zhong, Mihail Sarov, John I. Murray. Diverse transcription factor binding features revealed by genome-wide ChIP-seq in C. elegans (англ.) // Genome Research. — 2011-02-01. — Vol. 21, iss. 2. — P. 245–254. — ISSN 1549-5469. — doi:10.1101/gr.114587.110.
  57. Xiong Ji, Daniel B. Dadon, Brian J. Abraham, Tong Ihn Lee, Rudolf Jaenisch. Chromatin proteomic profiling reveals novel proteins associated with histone-marked genomic regions // Proceedings of the National Academy of Sciences. — 2015-03-09. — С. 201502971. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.1502971112.
  58. Huihuang Yan, Shulan Tian, Susan L Slager, Zhifu Sun. ChIP-seq in studying epigenetic mechanisms of disease and promoting precision medicine: progresses and future directions (англ.) // Epigenomics. — 2016-9. — Vol. 8, iss. 9. — P. 1239–1258. — ISSN 1750-192X 1750-1911, 1750-192X. — doi:10.2217/epi-2016-0053.
  59. Henriette O’Geen, Lorigail Echipare, Peggy J. Farnham. Using ChIP-Seq Technology to Generate High-Resolution Profiles of Histone Modifications // Methods in molecular biology (Clifton, N.J.). — 2011. — Т. 791. — С. 265–286. — ISSN 1064-3745. — doi:10.1007/978-1-61779-316-5_20.
  60. Tarjei S. Mikkelsen, Manching Ku, David B. Jaffe, Biju Issac, Erez Lieberman. Genome-wide maps of chromatin state in pluripotent and lineage-committed cells // Nature. — 2007-08-02. — Т. 448, вып. 7153. — С. 553–560. — ISSN 0028-0836. — doi:10.1038/nature06008.
  61. Douglas F. Browning, Stephen J. W. Busby. The regulation of bacterial transcription initiation // Nature Reviews Microbiology. — 2004-01. — Т. 2, вып. 1. — С. 57–65. — ISSN 1740-1534 1740-1526, 1740-1534. — doi:10.1038/nrmicro787.
  62. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data // PLoS Computational Biology. — 2013-10-17. — Т. 9, вып. 10. — С. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  63. Antonio L.C. Gomes, Thomas Abeel, Matthew Peterson, Elham Azizi, Anna Lyubetskaya. Decoding ChIP-seq with a double-binding signal refines binding peaks to single-nucleotides and predicts cooperative interaction (англ.) // Genome Research. — 2014-10. — Vol. 24, iss. 10. — P. 1686–1697. — ISSN 1549-5469 1088-9051, 1549-5469. — doi:10.1101/gr.161711.113.
  64. Yuchun Guo, Shaun Mahony, David K. Gifford. High Resolution Genome Wide Binding Event Finding and Motif Discovery Reveals Transcription Factor Spatial Binding Constraints (англ.) // PLoS Computational Biology / Stein Aerts. — 2012-08-09. — Vol. 8, iss. 8. — P. e1002638. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1002638.
  65. Xuekui Zhang, Gordon Robertson, Martin Krzywinski, Kaida Ning, Arnaud Droit. PICS: Probabilistic Inference for ChIP-seq (англ.) // Biometrics. — 2011-3. — Vol. 67, iss. 1. — P. 151–163. — doi:10.1111/j.1541-0420.2010.01441.x.
  66. Dongjun Chung, Dan Park, Kevin Myers, Jeffrey Grass, Patricia Kiley. dPeak: High Resolution Identification of Transcription Factor Binding Sites from PET and SET ChIP-Seq Data (англ.) // PLoS Computational Biology / Roderic Guigo. — 2013-10-17. — Vol. 9, iss. 10. — P. e1003246. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1003246.
  67. Jason Ernst, Manolis Kellis. Discovery and characterization of chromatin states for systematic annotation of the human genome // Nature Biotechnology. — 2010-07-25. — Т. 28, вып. 8. — С. 817–825. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt.1662.
  68. Jason Ernst, Pouya Kheradpour, Tarjei S. Mikkelsen, Noam Shoresh, Lucas D. Ward. Mapping and analysis of chromatin state dynamics in nine human cell types // Nature. — 2011-03-23. — Т. 473, вып. 7345. — С. 43–49. — ISSN 1476-4687 0028-0836, 1476-4687. — doi:10.1038/nature09906.
  69. Shirley Pepke, Barbara Wold, Ali Mortazavi. Computation for ChIP-seq and RNA-seq studies // Nature Methods. — 2009-11. — Т. 6, вып. 11. — С. S22–S32. — ISSN 1548-7105 1548-7091, 1548-7105. — doi:10.1038/nmeth.1371.