Поиск сайтов связывания транскрипционных факторов in silico: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
мНет описания правки
м ссылки, исправление опечаток, оформление
Строка 8: Строка 8:


=== Поиск мотивов на основе уже известных ===
=== Поиск мотивов на основе уже известных ===
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся [[ген]]ы с общим факторами транскрипции или оценить влияние [[Мутация|мутаций]] в последовательности мотива на связывание с транскрипционным фактором<ref name="boe2" />.
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся [[ген]]ы с общими факторами транскрипции или оценить влияние [[Мутация|мутаций]] в последовательности мотива на связывание с транскрипционным фактором<ref name="boe2" />.


Информация о сайте связывания транскрипционных факторов в последовательностях ДНК получается экспериментально такими методами, как [[Систематическая эволюция лигандов экспоненциальным обогащением|SELEX]], РВМ (protein binding microarrays)<ref>{{Статья|ссылка=http://dx.doi.org/10.1038/nprot.2008.195|автор=Michael F Berger, Martha L Bulyk|заглавие=Universal protein-binding microarrays for the comprehensive characterization of the DNA-binding specificities of transcription factors|год=2009-03|издание=Nature Protocols|том=4|выпуск=3|страницы=393–411|issn=1754-2189, 1750-2799|doi=10.1038/nprot.2008.195}}</ref> или {{iw|Иммунопреципитация хроматина|СHIP|en|Chromatin immunoprecipitation}}-х (то есть, [[ChIP-seq]], [[ChIP-seq#ChIP-exo и ChIP-nexus|ChIP-exo]], ORGANIC<ref>{{Статья|ссылка=http://dx.doi.org/10.1186/1756-8935-6-s1-p114|автор=Sivakanthan Kasinathan, Steven Henikoff|заглавие=High-resolution mapping of transcription factor binding sites on native chromatin|год=2013-03|издание=Epigenetics & Chromatin|том=6|выпуск=S1|issn=1756-8935|doi=10.1186/1756-8935-6-s1-p114}}</ref>, [[ChIP-seq#ChIP-on-chip|ChIP-on-chip]]. Полученные в результате экcпериментов последовательности сайтов связывания описываются моделью (мотивом). На данный момент уже известно много мотивов, которые собраны в различные базы данных. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива из базы данных именуется экземпляром мотива (хитом), или словом)<ref name="boe2" />.
Информация о сайте связывания транскрипционных факторов в последовательностях ДНК получается экспериментально такими методами, как [[Систематическая эволюция лигандов экспоненциальным обогащением|SELEX]], РВМ (protein binding microarrays)<ref>{{Статья|ссылка=http://dx.doi.org/10.1038/nprot.2008.195|автор=Michael F Berger, Martha L Bulyk|заглавие=Universal protein-binding microarrays for the comprehensive characterization of the DNA-binding specificities of transcription factors|год=2009-03|издание=Nature Protocols|том=4|выпуск=3|страницы=393–411|issn=1754-2189, 1750-2799|doi=10.1038/nprot.2008.195}}</ref> или {{iw|Иммунопреципитация хроматина|СHIP|en|Chromatin immunoprecipitation}}-х (то есть, [[ChIP-seq]], [[ChIP-seq#ChIP-exo и ChIP-nexus|ChIP-exo]], ORGANIC<ref>{{Статья|ссылка=http://dx.doi.org/10.1186/1756-8935-6-s1-p114|автор=Sivakanthan Kasinathan, Steven Henikoff|заглавие=High-resolution mapping of transcription factor binding sites on native chromatin|год=2013-03|издание=Epigenetics & Chromatin|том=6|выпуск=S1|issn=1756-8935|doi=10.1186/1756-8935-6-s1-p114}}</ref>, [[ChIP-seq#ChIP-on-chip|ChIP-on-chip]]. Полученные в результате экcпериментов последовательности сайтов связывания описываются моделью (мотивом). На данный момент уже известно много мотивов, которые собраны в различные базы данных. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива из базы данных именуется экземпляром мотива (хитом), или словом)<ref name="boe2" />.
Строка 14: Строка 14:
Сложности в идентификации мотивов<ref name="Das3" /><ref name="boe2" />:
Сложности в идентификации мотивов<ref name="Das3" /><ref name="boe2" />:


* Точная последовательность мотива может быть неизвестна, так как в ней могут происходить мутации.
* Точная последовательность мотива может быть неизвестна, так как в ней могут происходить мутации;
* В интересующей последовательности может находиться несколько мотивов (например, сайт связывания транскрипционного фактора и сайт связывания его кофактора), только один мотив, или же, наоборот, ни одного.
* В интересующей последовательности может находиться несколько мотивов (например, сайт связывания транскрипционного фактора и сайт связывания его кофактора), только один мотив, или же, наоборот, ни одного;
*Мотивы могут перекрываться<ref>{{Статья|ссылка=http://dx.doi.org/10.1080/07391102.2013.786511|автор=Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield|заглавие=77 Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors|год=2013-01|издание=Journal of Biomolecular Structure and Dynamics|том=31|выпуск=sup1|страницы=49–50|issn=0739-1102, 1538-0254|doi=10.1080/07391102.2013.786511}}</ref>
*Мотивы могут перекрываться<ref>{{Статья|ссылка=http://dx.doi.org/10.1080/07391102.2013.786511|автор=Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield|заглавие=77 Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors|год=2013-01|издание=Journal of Biomolecular Structure and Dynamics|том=31|выпуск=sup1|страницы=49–50|issn=0739-1102, 1538-0254|doi=10.1080/07391102.2013.786511}}</ref>;
* Неизвестно, где находится мотив относительно точки старта транскрипции.
* Неизвестно, где находится мотив относительно точки старта транскрипции;
* Необходимы критерии для отделения настоящих мотивов от шума.
* Необходимы критерии для отделения настоящих мотивов от шума.


Строка 23: Строка 23:


=== Поиск мотивов ''de novo''===
=== Поиск мотивов ''de novo''===
Когда [[позиционная весовая матрица]] (ПВМ) сайта связывания интересующего фактора транскрипции неизвестна, она может быть получена путем обнаружения мотивов ''de novo'' из набора последовательностей ДНК, содержащих сайты связывания этого фактора транскрипции. Методика состоит в определении наиболее перепредставленных (т.е. встречающихся чаще, можно ожидать случайно) мотивов в данном наборе последовательностей ДНК. Существует большое количество ''de novo'' методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате [[ChIP-seq]] экспериментов: HMS<ref>{{Книга|ссылка=http://worldcat.org/oclc/679207879|автор=Hu, Ming Yu, Jindan Taylor, Jeremy M. G. Chinnaiyan, Arul M. Qin, Zhaohui S.|заглавие=On the detection and refinement of transcription factor binding sites using ChIP-Seq data|издательство=Oxford University Press}}</ref>, cERMIT<ref>{{Статья|ссылка=http://dx.doi.org/10.1186/gb-2010-11-2-r19|автор=Stoyan Georgiev, Alan P Boyle, Karthik Jayasurya, Xuan Ding, Sayan Mukherjee|заглавие=Evidence-ranked motif identification|год=2010|издание=Genome Biology|том=11|выпуск=2|страницы=R19|issn=1465-6906|doi=10.1186/gb-2010-11-2-r19}}</ref>, ChIPMunk, diChIPMunk, MEME-ChIP, POSMO, XXmotif, FMotif, Dimont, RSAT, and DeepBind. Проверка обнаруженных сайтов связывания транскрипционного фактора может быть осуществлена с использованием комбинации [[Иммунопреципитация|иммунопреципитации]] [[хроматин]]а с [[Антитела|антителом]], специфичным к интересующему фактору транскрипции и [[полимеразная цепная реакция в реальном времени]] с [[праймер]]ами, специфичными к предсказанному целевому региону<ref name="boe2" />.
Когда [[позиционная весовая матрица]] (ПВМ) сайта связывания интересующего фактора транскрипции неизвестна, она может быть получена путем обнаружения мотивов ''de novo'' из набора последовательностей ДНК, содержащих сайты связывания этого фактора транскрипции. Методика состоит в определении наиболее перепредставленных (т.е. встречающихся чаще, можно ожидать случайно) мотивов в данном наборе последовательностей ДНК. Существует большое количество ''de novo'' методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате [[ChIP-seq]] экспериментов: HMS<ref name=":1">{{Книга|ссылка=http://worldcat.org/oclc/679207879|автор=Hu, Ming Yu, Jindan Taylor, Jeremy M. G. Chinnaiyan, Arul M. Qin, Zhaohui S.|заглавие=On the detection and refinement of transcription factor binding sites using ChIP-Seq data|издательство=Oxford University Press}}</ref>, cERMIT<ref name=":2">{{Статья|ссылка=http://dx.doi.org/10.1186/gb-2010-11-2-r19|автор=Stoyan Georgiev, Alan P Boyle, Karthik Jayasurya, Xuan Ding, Sayan Mukherjee|заглавие=Evidence-ranked motif identification|год=2010|издание=Genome Biology|том=11|выпуск=2|страницы=R19|issn=1465-6906|doi=10.1186/gb-2010-11-2-r19}}</ref>, ChIPMunk<ref name=":3">{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/btq488|автор=I. V. Kulakovskiy, V. A. Boeva, A. V. Favorov, V. J. Makeev|заглавие=Deep and wide digging for binding motifs in ChIP-Seq data|год=2010-10-15|издание=Bioinformatics|том=26|выпуск=20|страницы=2622–2623|issn=1460-2059, 1367-4803|doi=10.1093/bioinformatics/btq488}}</ref>, diChIPMunk<ref name=":4">{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkt831|автор=Jan Grau, Stefan Posch, Ivo Grosse, Jens Keilwagen|заглавие=A general approach for discriminative de novo motif discovery from high-throughput data|год=2013-09-19|издание=Nucleic Acids Research|том=41|выпуск=21|страницы=e197–e197|issn=1362-4962, 0305-1048|doi=10.1093/nar/gkt831}}</ref>, MEME-ChIP<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/btr189|автор=Philip Machanick, Timothy L. Bailey|заглавие=MEME-ChIP: motif analysis of large DNA datasets|год=2011-04-12|издание=Bioinformatics|том=27|выпуск=12|страницы=1696–1697|issn=1460-2059, 1367-4803|doi=10.1093/bioinformatics/btr189}}</ref>, POSMO<ref name=":5">{{Статья|ссылка=http://dx.doi.org/10.1007/11818564_4|автор=Loi Sy Ho, Jagath C. Rajapakse|заглавие=Graphical Approach to Weak Motif Recognition in Noisy Data Sets|год=2006|место=Berlin, Heidelberg|издание=Pattern Recognition in Bioinformatics|издательство=Springer Berlin Heidelberg|страницы=23–31|isbn=978-3-540-37446-6, 978-3-540-37447-3}}</ref>, XXmotif<ref>{{Статья|ссылка=http://dx.doi.org/10.1101/gr.139881.112|автор=H. Hartmann, E. W. Guthohrlein, M. Siebert, S. Luehr, J. Soding|заглавие=P-value-based regulatory motif discovery using positional weight matrices|год=2012-09-18|издание=Genome Research|том=23|выпуск=1|страницы=181–194|issn=1088-9051|doi=10.1101/gr.139881.112}}</ref>, FMotif<ref>{{Статья|ссылка=http://dx.doi.org/10.1371/journal.pone.0086044|автор=Caiyan Jia, Matthew B. Carson, Yang Wang, Youfang Lin, Hui Lu|заглавие=A New Exhaustive Method and Strategy for Finding Motifs in ChIP-Enriched Regions|год=2014-01-24|издание=PLoS ONE|том=9|выпуск=1|страницы=e86044|issn=1932-6203|doi=10.1371/journal.pone.0086044}}</ref>, Dimont<ref name=":4" />, RSAT<ref name=":5" />, and DeepBind<ref>{{Cite web|url=http://dx.doi.org/10.3410/f.725675202.793531623|title=Faculty Opinions recommendation of Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning.|author=Michael Barnes, David Watson|date=2017-05-09|publisher=Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature|accessdate=2020-05-11}}</ref>. Проверка обнаруженных сайтов связывания транскрипционного фактора может быть осуществлена с использованием комбинации [[Иммунопреципитация|иммунопреципитации]] [[хроматин]]а с [[Антитела|антителом]], специфичным к интересующему фактору транскрипции, и [[полимеразная цепная реакция в реальном времени|полимеразной цепной реакции в реальном времени]] с [[праймер]]ами, специфичными к предсказанному целевому региону<ref name="boe2" />.


== Способы представления мотивов ==
== Способы представления мотивов ==
Строка 44: Строка 44:
<code> TATRNT</code>
<code> TATRNT</code>


Когда консенсус нестрогий, представление мотива может включать в себя экземпляры с очень низкой [[Аффинность|аффинностью]] связывания. С другой стороны очень строгий консенсус может не охватить все реально существующие вариации мотива.
Когда консенсус нестрогий, представление мотива может включать в себя экземпляры с очень низкой [[Аффинность|аффинностью]] связывания. С другой стороны очень строгий консенсус может не охватить все реально существующие вариации мотива.<ref name="Das3" /><ref name="boe2" />


=== Позиционная весовая матрица ===
=== Позиционная весовая матрица (ПВМ) ===
{{основная статья|Позиционная весовая матрица}}
Вторым наиболее популярным методом является использование [[Позиционная весовая матрица|ПВМ]]. ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых мест связывания, однако возникает проблема в том, как отличить слабые мотивы от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива. Существует так же динуклеотидная ПВМ, использующая 16 буквенный алфавит (AA, AC, AT, …... CG, GG). Эта модель реализована в методах обнаружения мотивов Dimont и diChIPMunk <ref name="boe">Boeva V. [http://journal.frontiersin.org/article/10.3389/fgene.2016.00024/full «Analysis of Genomic Sequence Motifs for Deciphering Transcription Factor Binding and Transcriptional Regulation in Eukaryotic Cells»]. Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.</ref>. Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами.
Вторым наиболее популярным методом является использование [[Позиционная весовая матрица|ПВМ]]. ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых мест связывания, однако возникает проблема в том, как отличить слабые мотивы от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива. Существует так же динуклеотидная ПВМ, использующая 16 буквенный алфавит (AA, AC, AT, …... CG, GG). Эта модель реализована в методах обнаружения мотивов Dimont<ref name=":4" /> и diChIPMunk<ref name=":4" /> . Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами.<ref name="boe2" />


=== Методы контролируемой классификации ===
=== Методы контролируемой классификации ===
Модели, использующие [[Байесовская сеть|байесовские сети]] позволяют смоделировать зависимости между позициями внутри мотива, но не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например,[[Скрытая марковская модель]]) или с использованием метода опорных векторов. Подобные методы позволяют искать мотивы со [[Спейсер (биология)|спейсерами]] — участками вариабельной длины между двумя полусайтами двойных мотивов <ref name="boe" />.
Модели, использующие [[Байесовская сеть|байесовские сети]] позволяют установить зависимости между позициями внутри мотива, однако не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например, [[Скрытая марковская модель]]) или с использованием [[Метод опорных векторов|метода опорных векторов]]. Подобные методы позволяют искать мотивы со [[Спейсер (биология)|спейсерами]] — участками вариабельной длины между двумя полусайтами двойных мотивов (каждый полусайт представляет собой участок посадки одной из субъединиц димера транскрипционного фактора) <ref name="boe2" />.


== Классификация алгоритмов ==
== Классификация алгоритмов ==
Строка 56: Строка 57:


=== По набору исследуемых последовательностей ===
=== По набору исследуемых последовательностей ===
Алгоритмы поиска [[Мотив (молекулярная биология)|мотивов]] по типам входных данных можно разделить на три основных класса<ref name="Das">Das MK, Dai H-K. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2099490/ «A survey of DNA motif finding algorithms.»] BMC Bioinformatics. 2007;8(Suppl 7):S21. doi:10.1186/1471-2105-8-S7-S21.</ref>:
Алгоритмы поиска [[Мотив (молекулярная биология)|мотивов]] по типам входных данных можно разделить на три основных класса<ref name="Das3" />:


# использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
# использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
# использующие ортологичные промоторные последовательности одного гена у нескольких видов (т.е. филогенетический футпринтинг), например, PHYLONET<ref>{{Статья|ссылка=http://dx.doi.org/10.1073/pnas.0505147102|автор=T. Wang, G. D. Stormo|заглавие=Identifying the conserved network of cis-regulatory sites of a eukaryotic genome|год=2005-11-21|издание=Proceedings of the National Academy of Sciences|том=102|выпуск=48|страницы=17400–17405|issn=0027-8424, 1091-6490|doi=10.1073/pnas.0505147102}}</ref>, PhyloScan<ref>{{Книга|ссылка=http://worldcat.org/oclc/678823676|автор=Carmack, C Steven McCue, Lee Ann Newberg, Lee A Lawrence, Charles E|заглавие=PhyloScan: identification of transcription factor binding sites using cross-species evidence|издательство=BioMed Central}}</ref> и PhyloCon<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/btg329|автор=T. Wang, G. D. Stormo|заглавие=Combining phylogenetic data with co-regulated genes to identify regulatory motifs|год=2003-12-10|издание=Bioinformatics|том=19|выпуск=18|страницы=2369–2380|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/btg329}}</ref>;
# использующие ортологичные промоторные последовательности одного гена у нескольких видов (т.е. {{iw|Филогенетический футпринтинг|филогенетический футпринтинг|en|Phylogenetic footprinting}}), например, PHYLONET<ref>{{Статья|ссылка=http://dx.doi.org/10.1073/pnas.0505147102|автор=T. Wang, G. D. Stormo|заглавие=Identifying the conserved network of cis-regulatory sites of a eukaryotic genome|год=2005-11-21|издание=Proceedings of the National Academy of Sciences|том=102|выпуск=48|страницы=17400–17405|issn=0027-8424, 1091-6490|doi=10.1073/pnas.0505147102}}</ref>, PhyloScan<ref>{{Книга|ссылка=http://worldcat.org/oclc/678823676|автор=Carmack, C Steven McCue, Lee Ann Newberg, Lee A Lawrence, Charles E|заглавие=PhyloScan: identification of transcription factor binding sites using cross-species evidence|издательство=BioMed Central}}</ref> и PhyloCon<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/btg329|автор=T. Wang, G. D. Stormo|заглавие=Combining phylogenetic data with co-regulated genes to identify regulatory motifs|год=2003-12-10|издание=Bioinformatics|том=19|выпуск=18|страницы=2369–2380|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/btg329}}</ref>;
# использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.
# использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.


Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг<ref name="Das" />.
Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг<ref name="Das3" />.


=== По принципу действия ===
=== По принципу действия ===
По принципу действия выделяют следующие<ref name="Das" />:
По принципу действия выделяют следующие<ref name="Das3" />:


* методы, основанные на операциях со строками (словами), которые в основном полагаются на исчерпывающий перечень, то есть, подсчет и сравнение частоты [[олигонуклеотид]]ов. К ним относятся методы, использующие суффиксные деревья, и методы на основе графов;
* методы, основанные на операциях со строками (словами), которые в основном полагаются на подсчет и сравнение частот [[олигонуклеотид]]ов. К ним относятся методы, использующие суффиксные деревья, и методы на основе графов;
* вероятностные модели последовательности, где параметры модели оцениваются с использованием принципа максимального правдоподобия, [[Байесовская сеть|байесовских сетей]].
* вероятностные модели последовательности, где параметры модели оцениваются с использованием принципа максимального правдоподобия, [[Байесовская сеть|байесовских сетей]].


Такие методы к-мерного перечисления, как POSMO<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkr1135|автор=Xiaotu Ma, Ashwinikumar Kulkarni, Zhihua Zhang, Zhenyu Xuan, Robert Serfling|заглавие=A highly efficient and effective motif discovery method for ChIP-seq/ChIP-chip data using positional information|год=2011-01-06|издание=Nucleic Acids Research|том=40|выпуск=7|страницы=e50–e50|issn=1362-4962, 0305-1048|doi=10.1093/nar/gkr1135}}</ref>, cERMIT<ref name=":2" />, и RSAT-peak-motifs<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkn304|автор=M. Thomas-Chollier, O. Sand, J.-V. Turatsinze, R. Janky, M. Defrance|заглавие=RSAT: regulatory sequence analysis tools|год=2008-05-19|издание=Nucleic Acids Research|том=36|выпуск=Web Server|страницы=W119–W127|issn=0305-1048, 1362-4962|doi=10.1093/nar/gkn304}}</ref> показывают очень конкурентоспособное время выполнения задачи на больших наборах данных [[ChIP-seq]]. Тем не менее, вероятностные подходы (например, ChIPMunk<ref name=":3" />, Dimont<ref name=":4" />) могут обеспечить большую точность результатов<ref name=":4" />.
Такие методы к-мерного перечисления, как POSMO, cERMIT, и RSAT-peak-motifs показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-SEQ. Тем не менее, вероятностные подходы (например, ChIPMunk, Dimont) могут обеспечить более высокую точность результатов<ref name="autogenerated3">Grau, J., Posch, S., Grosse, I., and Keilwagen, J. (2013). [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834837/ «A general approach for discriminative de novo motif discovery from high-throughput data.»] Nucleic Acids Res. 41, e197. doi: 10.C/gkt831.</ref>.


==== Строковые методы ====
==== Строковые методы ====
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных [[Регулярные выражения|регулярными выражениями]], и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких [[Эукариоты|эукариотических]] мотивов, которые обычно короче, чем у [[Прокариоты|прокариот]] и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как [[Суффиксное дерево|деревья суффиксов]] (алгоритмы Weeder<ref>{{Статья|ссылка=http://dx.doi.org/10.1007/978-3-540-71913-7_9|заглавие=Finding Signals in DNA Sequences|место=Berlin, Heidelberg|издание=Algorithmic Aspects of Bioinformatics|издательство=Springer Berlin Heidelberg|страницы=213–236|isbn=978-3-540-71912-0}}</ref> и MITRA (Mismatch Tree Algorithm) или графы (алгоритм WINNOWER<ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/10977088|автор=P. A. Pevzner, S. H. Sze|заглавие=Combinatorial approaches to finding subtle signals in DNA sequences|год=2000|издание=Proceedings. International Conference on Intelligent Systems for Molecular Biology|том=8|страницы=269–278|issn=1553-0833}}</ref>). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком методов также является нахождение большого количества ложных мотивов<ref name="Das" /><ref>{{Книга|ссылка=http://worldcat.org/oclc/635283096|автор=Giancarlo, Raffaele.|заглавие=Algorithms in bioinformatics : 7th International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007 ; proceedings|год=2007|издательство=Springer|isbn=3-540-74125-9, 978-3-540-74125-1}}</ref>.
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных [[Регулярные выражения|регулярными выражениями]], и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких [[Эукариоты|эукариотических]] мотивов, которые обычно короче, чем у [[Прокариоты|прокариот]] и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как [[Суффиксное дерево|деревья суффиксов]] (алгоритмы Weeder<ref name=":6">{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/17.suppl_1.s207|автор=G. Pavesi, G. Mauri, G. Pesole|заглавие=An algorithm for finding signals of unknown length in DNA sequences|год=2001-06-01|издание=Bioinformatics|том=17|выпуск=Suppl 1|страницы=S207–S214|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/17.suppl_1.s207}}</ref> и MITRA (Mismatch Tree Algorithm)<ref name=":7">{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/18.suppl_1.s354|автор=E. Eskin, P. A. Pevzner|заглавие=Finding composite regulatory patterns in DNA sequences|год=2002-07-01|издание=Bioinformatics|том=18|выпуск=Suppl 1|страницы=S354–S363|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/18.suppl_1.s354}}</ref> или графы (алгоритм WINNOWER<ref name=":8">{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/10977088|автор=P. A. Pevzner, S. H. Sze|заглавие=Combinatorial approaches to finding subtle signals in DNA sequences|год=2000|издание=Proceedings. International Conference on Intelligent Systems for Molecular Biology|том=8|страницы=269–278|issn=1553-0833}}</ref>). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком методов также является нахождение большого количества ложных мотивов<ref name="Das3" /><ref>{{Книга|ссылка=http://worldcat.org/oclc/635283096|автор=Giancarlo, Raffaele.|заглавие=Algorithms in bioinformatics : 7th International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007 ; proceedings|год=2007|издательство=Springer|isbn=3-540-74125-9, 978-3-540-74125-1}}</ref>.


В данном типе методов можно выделить несколько классов<ref name=":0">{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6490410/|автор=Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany|заглавие=Review of Different Sequence Motif Finding Algorithms|год=2019|издание=Avicenna Journal of Medical Biotechnology|том=11|выпуск=2|страницы=130–148|issn=2008-2835}}</ref>:
В данном типе методов можно выделить несколько классов<ref name=":0">{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6490410/|автор=Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany|заглавие=Review of Different Sequence Motif Finding Algorithms|год=2019|издание=Avicenna Journal of Medical Biotechnology|том=11|выпуск=2|страницы=130–148|issn=2008-2835}}</ref>:


* Полное перечисление
* Полное перечисление;
* Кластерные методы
* Кластерные методы;
* Методы, основанные на использовании деревьев
* Методы, основанные на использовании [[Дерево (структура данных)|деревьев]];
* Методы, основанные на использовании графов
* Методы, основанные на использовании [[Граф (математика)|графов;]]
* Методы, использующие хэширование
* Методы, использующие [[Хеш-функция|хэширование]];
* Методы фиксированных кандидатов
* Методы фиксированных кандидатов.


==== Вероятностный подход ====
==== Вероятностный подход ====
Вероятностный подход предполагает представление модели мотива с помощью [[Позиционная весовая матрица|ПВМ]]. ПВМ является наиболее популярным методом представления мотивов.
Вероятностный подход предполагает представление модели мотива с помощью [[Позиционная весовая матрица|позиционной весовой матрицы]] (ПВМ). ПВМ является наиболее популярным методом представления мотивов. Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как<ref name="Das3" />:
Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как<ref name="Das" />:


*[[Семплирование по Гиббсу|Сэмплирование по Гиббсу]] (AlignACE<ref name=":9">{{Статья|ссылка=http://dx.doi.org/10.1038/nbt1098-939|автор=Frederick P. Roth, Jason D. Hughes, Preston W. Estep, George M. Church|заглавие=Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation|год=1998-10|издание=Nature Biotechnology|том=16|выпуск=10|страницы=939–945|issn=1087-0156, 1546-1696|doi=10.1038/nbt1098-939}}</ref>, ANN-Spec<ref>{{Статья|ссылка=http://dx.doi.org/10.1142/9789814447331_0044|автор=C. T. WORKMAN, G. D. STORMO|заглавие=ANN-SPEC: A METHOD FOR DISCOVERING TRANSCRIPTION FACTOR BINDING SITES WITH IMPROVED SPECIFICITY|год=1999-12|издание=Biocomputing 2000|издательство=WORLD SCIENTIFIC|isbn=978-981-02-4188-9, 978-981-4447-33-1|doi=10.1142/9789814447331_0044}}</ref>, BioProspector<ref>{{Статья|ссылка=http://dx.doi.org/10.1142/9789814447362_0014|автор=X. LIU, D. L. BRUTLAG, J. S. LIU|заглавие=BIOPROSPECTOR: DISCOVERING CONSERVED DNA MOTIFS IN UPSTREAM REGULATORY REGIONS OF CO-EXPRESSED GENES|год=2000-12|издание=Biocomputing 2001|издательство=WORLD SCIENTIFIC|isbn=978-981-02-4515-3, 978-981-4447-36-2|doi=10.1142/9789814447362_0014}}</ref>, MotifSampler<ref>{{Статья|ссылка=http://dx.doi.org/10.1145/369133.369253|автор=Gert Thijs, Kathleen Marchal, Magali Lescot, Stephane Rombauts, Bart De Moor|заглавие=A Gibbs sampling method to detect over-represented motifs in the upstream regions of co-expressed genes|год=2001|место=New York, New York, USA|издание=Proceedings of the fifth annual international conference on Computational biology - RECOMB '01|издательство=ACM Press|isbn=1-58113-353-7|doi=10.1145/369133.369253}}</ref>, GLAM<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkh169|автор=M. C. Frith|заглавие=Finding functional sequence elements by multiple local alignment|год=2004-01-02|издание=Nucleic Acids Research|том=32|выпуск=1|страницы=189–200|issn=1362-4962|doi=10.1093/nar/gkh169}}</ref>, SeSiMCMC<ref name=":10">{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/bti336|автор=A. V. Favorov, M. S. Gelfand, A. V. Gerasimova, D. A. Ravcheev, A. A. Mironov|заглавие=A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length|год=2005-02-22|издание=Bioinformatics|том=21|выпуск=10|страницы=2240–2245|issn=1367-4803, 1460-2059|doi=10.1093/bioinformatics/bti336}}</ref>, PhyloGibbs<ref>{{Статья|ссылка=http://dx.doi.org/10.1371/journal.pcbi.0010067.eor|автор=Rahul Siddharthan, Eric D Siggia, Erik Jan van Nimwegen|заглавие=PhyloGibbs: A Gibbs Sampling Motif Finder that Incorporates Phylogeny|год=2005|издание=PLoS Computational Biology|том=preprint|выпуск=2005|страницы=e67|issn=1553-734X, 1553-7358|doi=10.1371/journal.pcbi.0010067.eor}}</ref>, GibbsST<ref>{{Статья|ссылка=http://dx.doi.org/10.1186/1471-2105-7-486|автор=Kazuhito Shida|заглавие=GibbsST: a Gibbs sampling method for motif discovery with enhanced resistance to local optima|год=2006-11-04|издание=BMC Bioinformatics|том=7|выпуск=1|issn=1471-2105|doi=10.1186/1471-2105-7-486}}</ref>);
*[[Семплирование по Гиббсу|Сэмплирование по Гиббсу]] (MACAW, AlignACE, ANN-Spec, Bioprospector, Co-Bind, MotifSampler, GLAM, SeSiMCMC, PhyloGibbs, GibbsST);


* Принцип [[Метод максимального правдоподобия|максимального правдоподобия]] ([[MEME]], MEME-ChIP<ref>{{Статья|ссылка=http://dx.doi.org/10.1186/1471-2105-11-165|автор=Robert C McLeay, Timothy L Bailey|заглавие=Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data|год=2010-04-01|издание=BMC Bioinformatics|том=11|выпуск=1|issn=1471-2105|doi=10.1186/1471-2105-11-165}}</ref>, LOGOS<ref name=":11">{{Статья|ссылка=http://dx.doi.org/10.1109/tcbb.2010.92|автор=Chao-Wen Huang, Wun-Shiun Lee, Sun-Yuan Hsieh|заглавие=An Improved Heuristic Algorithm for Finding Motif Signals in DNA Sequences|год=2011-07|издание=IEEE/ACM Transactions on Computational Biology and Bioinformatics|том=8|выпуск=4|страницы=959–975|issn=1545-5963|doi=10.1109/tcbb.2010.92}}</ref>, Improbizer<ref>{{Статья|ссылка=http://dx.doi.org/10.1126/science.1102216|автор=W. Ao|заглавие=Environmentally Induced Foregut Remodeling by PHA-4/FoxA and DAF-12/NHR|год=2004-09-17|издание=Science|том=305|выпуск=5691|страницы=1743–1746|issn=0036-8075, 1095-9203|doi=10.1126/science.1102216}}</ref>, PhyME<ref name=":12">{{Статья|ссылка=http://dx.doi.org/10.1385/1-59745-514-8:309|автор=Saurabh Sinha|заглавие=PhyME: A Software tool for Finding Motifs in Sets of Orthologous Sequences|место=New Jersey|издание=Comparative Genomics|издательство=Humana Press|страницы=309–318|isbn=1-59745-514-8}}</ref>, OrthoMEME<ref>{{Статья|ссылка=http://dx.doi.org/10.1142/9789812704856_0033|автор=A. PRAKASH, M. BLANCHETTE, S. SINHA, M. TOMPA|заглавие=MOTIF DISCOVERY IN HETEROGENEOUS SEQUENCE DATA|год=2003-12|издание=Biocomputing 2004|издательство=WORLD SCIENTIFIC|isbn=978-981-238-598-7, 978-981-270-485-6|doi=10.1142/9789812704856_0033}}</ref>, GIMF<ref>{{Статья|ссылка=http://dx.doi.org/10.1117/1.1417493|автор=John A. Richards|заглавие=Expectation-maximization approach to target model generation from multiple synthetic aperture radar images|год=2002-01-01|издание=Optical Engineering|том=41|выпуск=1|страницы=150|issn=0091-3286|doi=10.1117/1.1417493}}</ref>);
* Принцип [[Метод максимального правдоподобия|максимального правдоподобия]] ([[MEME]], MEME-ChIP, LOGOS, Improbizer, PhyME, OrthoMEME, GIMF, ALSE, EM);


*[[Жадный алгоритм]] (ChIPmunk и diChIPMunk).
*[[Жадный алгоритм]] (ChIPmunk<ref name=":3" /> и diChIPMunk<ref name=":4" />).


Эти алгоритмы также можно разделить на несколько классов<ref name=":0" />:
Эти алгоритмы также можно разделить на несколько классов<ref name=":0" />:


* Детерминистические: методы, основанные на принципе максимального правдоподобия ([[MEME]], STEME<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkr574|автор=John E. Reid, Lorenz Wernisch|заглавие=STEME: efficient EM to find motifs in large data sets|год=2011-07-23|издание=Nucleic Acids Research|том=39|выпуск=18|страницы=e126–e126|issn=1362-4962, 0305-1048|doi=10.1093/nar/gkr574}}</ref>, EXTREME<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/bioinformatics/btu093|автор=Daniel Quang, Xiaohui Xie|заглавие=EXTREME: an online EM algorithm for motif discovery|год=2014-02-14|издание=Bioinformatics|том=30|выпуск=12|страницы=1667–1673|issn=1460-2059, 1367-4803|doi=10.1093/bioinformatics/btu093}}</ref>)
* Детерминистические: методы, основанные на принципе максимального правдоподобия (MEME, STEME, EXTREME)
* Стохастические: методы, основанные на сэмплировании по Гиббсу (AlignACE, BioProspector)
* Стохастические: методы, основанные на сэмплировании по Гиббсу (AlignACE<ref name=":9" />, BioProspector<ref name=":1" />)
* Байесовские методы (LOGOS)
* Байесовские методы (LOGOS<ref name=":11" />)


==== Подходы, основанные на природных механизмах ====
==== Подходы, основанные на природных механизмах ====
[[Генетический алгоритм]], [[муравьиный алгоритм]], [[Метод роя частиц|методы роя частиц]], [[алгоритм пчелиной колонии]], алгоритм кукушки также применяются для оптимизации поиска мотивов.<ref>{{Статья|ссылка=http://dx.doi.org/10.1007/s00521-018-3398-0|автор=Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa|заглавие=A developed system based on nature-inspired algorithms for DNA motif finding process|год=2018-03-06|издание=Neural Computing and Applications|том=30|выпуск=7|страницы=2059–2069|issn=0941-0643, 1433-3058|doi=10.1007/s00521-018-3398-0}}</ref><ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/16632495|автор=Zhi Wei, Shane T. Jensen|заглавие=GAME: detecting cis-regulatory elements using a genetic algorithm|год=2006-07-01|издание=Bioinformatics (Oxford, England)|том=22|выпуск=13|страницы=1577–1584|issn=1367-4803|doi=10.1093/bioinformatics/btl147}}</ref><ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/17068086|автор=Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira|заглавие=MUSA: a parameter free algorithm for the identification of biologically significant motifs|год=2006-12-15|издание=Bioinformatics (Oxford, England)|том=22|выпуск=24|страницы=2996–3002|issn=1367-4811|doi=10.1093/bioinformatics/btl537}}</ref>
[[Генетический алгоритм]], [[муравьиный алгоритм]], [[Метод роя частиц|методы роя частиц]], [[алгоритм пчелиной колонии]], алгоритм кукушки также применяются для оптимизации поиска мотивов.<ref>{{Статья|ссылка=http://dx.doi.org/10.1007/s00521-018-3398-0|автор=Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa|заглавие=A developed system based on nature-inspired algorithms for DNA motif finding process|год=2018-03-06|издание=Neural Computing and Applications|том=30|выпуск=7|страницы=2059–2069|issn=0941-0643, 1433-3058|doi=10.1007/s00521-018-3398-0}}</ref><ref name=":13">{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/16632495|автор=Zhi Wei, Shane T. Jensen|заглавие=GAME: detecting cis-regulatory elements using a genetic algorithm|год=2006-07-01|издание=Bioinformatics (Oxford, England)|том=22|выпуск=13|страницы=1577–1584|issn=1367-4803|doi=10.1093/bioinformatics/btl147}}</ref><ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/17068086|автор=Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira|заглавие=MUSA: a parameter free algorithm for the identification of biologically significant motifs|год=2006-12-15|издание=Bioinformatics (Oxford, England)|том=22|выпуск=24|страницы=2996–3002|issn=1367-4811|doi=10.1093/bioinformatics/btl537}}</ref>
{| class="wikitable wide collapsible"
{| class="wikitable wide collapsible"
!colspan="3"|Алгоритмы поиска мотивов
!colspan="3"|Алгоритмы поиска мотивов
Строка 107: Строка 107:
!Подход||Принцип поиска||Примеры
!Подход||Принцип поиска||Примеры
|-
|-
|Строковый||[[Суффиксное дерево|Деревья суффиксов]]||SMILE<ref>{{Статья|ссылка=http://dx.doi.org/10.1145/332306.332553|автор=Laurent Marsan, Marie-France Sagot|заглавие=Extracting structured motifs using a suffix tree---algorithms and application to promoter consensus identification|год=2000|место=New York, New York, USA|издание=Proceedings of the fourth annual international conference on Computational molecular biology - RECOMB '00|издательство=ACM Press|isbn=1-58113-186-0|doi=10.1145/332306.332553}}</ref>, Verbumculus<ref>{{Статья|ссылка=http://dx.doi.org/10.1145/565196.565200|автор=Alberto Apostolico, Mary Ellen Bock, Stefano Lonardi|заглавие=Monotony of surprise and large-scale quest for unusual words|год=2002|место=New York, New York, USA|издание=Proceedings of the sixth annual international conference on Computational biology - RECOMB '02|издательство=ACM Press|isbn=1-58113-498-3|doi=10.1145/565196.565200}}</ref>
|Строковый||Деревья суффиксов||SMILE, Verbumculus
|-
|-
|Строковый||Деревья префиксов/Графы||MITRA
|Строковый||Деревья префиксов/Графы||MITRA<ref name=":7" />
|-
|-
|Строковый||Графы||WINNOWER
|Строковый||[[Граф (математика)|Графы]]||WINNOWER<ref name=":8" />
|-
|-
|Строковый||Полное перечисление||YMF<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gkg618|автор=S. Sinha|заглавие=YMF: a program for discovery of novel transcription factor binding sites by statistical overrepresentation|год=2003-07-01|издание=Nucleic Acids Research|том=31|выпуск=13|страницы=3586–3588|issn=1362-4962|doi=10.1093/nar/gkg618}}</ref>, Oligo-Analysis<ref>{{Статья|ссылка=http://dx.doi.org/10.1006/jmbi.1998.1947|автор=J. van Helden, B. André, J. Collado-Vides|заглавие=Extracting regulatory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies 1 1Edited by G. von Heijne|год=1998-09|издание=Journal of Molecular Biology|том=281|выпуск=5|страницы=827–842|issn=0022-2836|doi=10.1006/jmbi.1998.1947}}</ref>, Weeder<ref name=":6" />
|Строковый||Полное перечисление||YMF, Oligo-Analysis, Weeder
|-
|-
|Строковый||Словарь||MobyDick<ref>{{Статья|ссылка=http://dx.doi.org/10.1073/pnas.180265397|автор=H. J. Bussemaker, H. Li, E. D. Siggia|заглавие=Building a dictionary for genomes: Identification of presumptive regulatory sites by statistical analysis|год=2000-08-15|издание=Proceedings of the National Academy of Sciences|том=97|выпуск=18|страницы=10096–10100|issn=0027-8424, 1091-6490|doi=10.1073/pnas.180265397}}</ref>, WordSpy<ref>{{Статья|ссылка=http://dx.doi.org/10.1093/nar/gki492|автор=G. Wang, T. Yu, W. Zhang|заглавие=WordSpy: identifying transcription factor binding motifs by building a dictionary and learning a grammar|год=2005-07-01|издание=Nucleic Acids Research|том=33|выпуск=Web Server|страницы=W412–W416|issn=0305-1048, 1362-4962|doi=10.1093/nar/gki492}}</ref>
|Строковый||Словарь||MobyDick, WordSpy
|-
|-
|Вероятностный||[[Сэмплирование по Гиббсу]]||SeSiMCMC, Gibbs sampler
|Вероятностный||[[Сэмплирование по Гиббсу]]||SeSiMCMC<ref name=":10" />
|-
|-
|Вероятностный||Принцип максимального правдоподобия||[[MEME]], PhyME
|Вероятностный||[[Метод максимального правдоподобия|Принцип максимального правдоподобия]]||[[MEME]], PhyME<ref name=":12" />
|-
|-
|Вероятностный||[[Жадный алгоритм]]|| ChIPMunk<ref name=":3" />, MDScan<ref>{{Статья|ссылка=http://dx.doi.org/10.1038/nbt717|автор=X. Shirley Liu, Douglas L. Brutlag, Jun S. Liu|заглавие=An algorithm for finding protein–DNA binding sites with applications to chromatin- immunoprecipitation microarray experiments|год=2002-07-08|издание=Nature Biotechnology|том=20|выпуск=8|страницы=835–839|issn=1087-0156, 1546-1696|doi=10.1038/nbt717}}</ref>
|Вероятностный||Жадный алгоритм|| ChIPMunk, MDScan
|-
|-
|Филогенетический футпринтинг||Выравнивание последовательностей||PHYLONET
|Филогенетический футпринтинг||Выравнивание последовательностей||PHYLONET<ref>{{Cite web|url=http://dx.doi.org/10.1101/238071|title=Inferring Phylogenetic Networks Using PhyloNet|author=Dingqiao Wen, Yun Yu, Jiafan Zhu, Luay Nakhleh|date=2017-12-22|publisher=dx.doi.org|accessdate=2020-05-11}}</ref>
|-
|-
|Прочие||[[Генетический алгоритм]], Кластеризация||GAME<ref name=":13" />, FMGA<ref>{{Статья|ссылка=http://dx.doi.org/10.1109/bibe.2004.1317378|автор=F.F.M. Liu, J.J.P. Tsai, R.M. Chen, S.N. Chen, S.H. Shih|заглавие=FMGA: finding motifs by genetic algorithm|издание=Proceedings. Fourth IEEE Symposium on Bioinformatics and Bioengineering|издательство=IEEE|isbn=0-7695-2173-8|doi=10.1109/bibe.2004.1317378}}</ref>, EMD<ref>{{Книга|ссылка=http://worldcat.org/oclc/808855697|автор=Hu, Jianjun Yang, Yifeng D Kihara, Daisuke|заглавие=EMD: an ensemble algorithm for discovering regulatory motifs in DNA sequences|год=2006-07-13|издательство=BioMed Central Ltd}}</ref>
|Прочие||Генетический алгоритм, Кластеризация||GAME, FMGA, EMD
|}
|}


== Инструменты поиска ==
== Инструменты поиска ==
'''The [[MEME]] Suite''' — программный инструментарий с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, [[Рибонуклеиновая кислота|РНК]] и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs) позволяет учитывать вставки и [[Делеция|делеции]] в мотивах.
'''The [[MEME]] Suite''' — программный пакет инструментов с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, [[Рибонуклеиновая кислота|РНК]] и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs)<ref>{{Статья|ссылка=http://dx.doi.org/10.1371/journal.pcbi.1000071|автор=Martin C. Frith, Neil F. W. Saunders, Bostjan Kobe, Timothy L. Bailey|заглавие=Discovering Sequence Motifs with Arbitrary Insertions and Deletions|год=2008-05-09|издание=PLoS Computational Biology|том=4|выпуск=5|страницы=e1000071|issn=1553-7358|doi=10.1371/journal.pcbi.1000071}}</ref> позволяет учитывать вставки и [[Делеция|делеции]] в мотивах.


Для анализа данных ChIP-Seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа по обогащению мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания ТФ с известными связывающими ДНК мотивами<ref>Machanick P, Bailey TL. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3106185/ «MEME-ChIP: motif analysis of large DNA datasets.»] Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.</ref>. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст<ref name="autogenerated2">Tran, N. T. L., and Huang, C.-H. (2014). [https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-9-4 «A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data»]. Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4</ref>.
Для анализа данных [[ChIP-seq]] и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа [[Аффинность|аффинности]] связывания, анализа обогащения мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания транскрипционных факторов с известными связывающими ДНК мотивами<ref>Machanick P, Bailey TL. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3106185/ «MEME-ChIP: motif analysis of large DNA datasets.»] Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.</ref>. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст<ref name="autogenerated2">Tran, N. T. L., and Huang, C.-H. (2014). [https://biologydirect.biomedcentral.com/articles/10.1186/1745-6150-9-4 «A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data»]. Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4</ref>.


'''ChIPMunk''' — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-Seq, который использует жадный подход в сочетании с бутстреппингом. ChIPMunk оценивает качество мотива с помощью [[Расстояние Кульбака — Лейблера|дискретного информационного содержания Кульбака]] (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке.
'''ChIPMunk''' — быстрый эвристический инструмент обнаружения ДНК мотивов в данных [[ChIP-seq]], который использует [[Жадный алгоритм|жадный подход]] в сочетании с [[Бутстрэп (статистика)|бутстреппингом]]. ChIPMunk оценивает качество мотива с помощью [[Расстояние Кульбака — Лейблера|дискретного информационного содержания Кульбака]] (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке<ref name=":14" />.
[[Файл:DiLogo.jpg|мини|справа|Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk]]
[[Файл:DiLogo.jpg|мини|справа|Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk]]
ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц, которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге, ChIPmunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве<ref>Levitsky VG, Kulakovskiy IV, Ershov NI, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4234207/ «Application of experimentally verified transcription factor binding sites models for computational analysis of ChIP-Seq data.»] BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.</ref>.
ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых [[Позиционная весовая матрица|позиционных весовых матриц]], которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге, ChIPMunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ, исходя из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве<ref name=":14">Levitsky VG, Kulakovskiy IV, Ershov NI, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4234207/ «Application of experimentally verified transcription factor binding sites models for computational analysis of ChIP-Seq data.»] BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.</ref><ref name=":3" />.


ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов<ref name="boe" />.
ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов<ref name="boe2" />.


'''Dimont''' — общий подход для вероятностного дифференциального обнаружения мотивов de novo, который способен обрабатывать данные ChIP-Seq, ChIP-exo и PBM (технология белок-связывающих микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы<ref name="autogenerated3" />.
'''Dimont''' — общий подход для вероятностного дифференциального обнаружения мотивов ''de novo'', который способен обрабатывать данные [[ChIP-seq]], [[ChIP-seq#ChIP-exo и ChIP-nexus|ChIP-exo]] и PBM (технология белок-связывающих микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов ''de novo'' обнаружения мотивов при достижении приемлемого времени работы<ref name=":4" />.


=== Анализ найденных мотивов ===
=== Анализ найденных мотивов ===
Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из MEME Suite, MACRO-APE и STAMP.
Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из [http://meme-suite.org/ MEME Suite], MACRO-APE и STAMP.


'''TOMTOM''' определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве<ref name="autogenerated1">Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble [http://nar.oxfordjournals.org/content/37/suppl_2/W202.full «MEME SUITE: tools for motif discovery and searching.»] Nucleic Acids Research, 37:W202-W208, 2009.</ref>.
'''TOMTOM''' определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве<ref name="autogenerated1">Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble [http://nar.oxfordjournals.org/content/37/suppl_2/W202.full «MEME SUITE: tools for motif discovery and searching.»] Nucleic Acids Research, 37:W202-W208, 2009.</ref>.


'''MACRO-APE''' позволяет вычислять [[Коэффициент Жаккара|коэффициент сходства Жаккара]] для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц на сходство с интересующей ПВМ при заданном пороге или уровне P-значения. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот<ref>Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). [http://almob.biomedcentral.com/articles/10.1186/1748-7188-8-23 «Jaccard index based similarity measure to compare transcription factor binding site models.»] Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23</ref>.
'''MACRO-APE''' позволяет вычислять [[Коэффициент Жаккара|коэффициент сходства Жаккара]] для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц в поиске сходства с интересующей ПВМ при заданном пороге или уровне [[P-значение|P-значения]]. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот<ref>Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). [http://almob.biomedcentral.com/articles/10.1186/1748-7188-8-23 «Jaccard index based similarity measure to compare transcription factor binding site models.»] Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23</ref>.


== Ссылки ==
== Ссылки ==


=== Базы данных мотивов ===
=== Базы данных мотивов ===
Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов<ref name="boe"/>:
Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов<ref name="boe">Boeva V. [http://journal.frontiersin.org/article/10.3389/fgene.2016.00024/full «Analysis of Genomic Sequence Motifs for Deciphering Transcription Factor Binding and Transcriptional Regulation in Eukaryotic Cells»]. Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.</ref>:
* [http://jaspar.genereg.net JASPAR 2016]: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания ТФ<ref>Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). [http://nar.oxfordjournals.org/content/early/2015/11/02/nar.gkv1176.full «JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles»] Nucleic Acids Res. 2016 44: D110-D115.</ref>.
* [http://jaspar.genereg.net JASPAR]: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания транскрипционных факторов<ref>Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). [http://nar.oxfordjournals.org/content/early/2015/11/02/nar.gkv1176.full «JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles»] Nucleic Acids Res. 2016 44: D110-D115.</ref>.
* {{нп5|TRANSFAC®||en|TRANSFAC}}: коммерческая база данных по ССТФ, ПВМ, и регулируемым генам эукариот.
* {{нп5|TRANSFAC®||en|TRANSFAC}}: коммерческая база данных сайтов связывания транскрипционных факторов, ПВМ, и регулируемых генов эукариот.
* [http://thebrain.bwh.harvard.edu/uniprobe/ UniProbe]: база экспериментальных данных от экспериментов с использованием технологии белок- связывающих микрочипов (PBM).<ref>Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4383892/ «UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions.»] Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.</ref>.
* [http://thebrain.bwh.harvard.edu/uniprobe/ UniProbe]: база экспериментальных данных, полученных в результате экспериментов с использованием технологии белок-связывающих микрочипов (PBM).<ref>Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4383892/ «UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions.»] Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.</ref>.
* [https://web.archive.org/web/20140529224906/http://swissregulon.unibas.ch/fcgi/sr/swissregulon SwissRegulon]: база данных полногеномных аннотаций регуляторных участков<ref>Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531101/ «SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates»]. Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.</ref>.
* [https://web.archive.org/web/20140529224906/http://swissregulon.unibas.ch/fcgi/sr/swissregulon SwissRegulon]: база данных полногеномных аннотаций регуляторных участков<ref>Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531101/ «SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates»]. Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.</ref>.
* [http://mccb.umassmed.edu/ffs/ Fly Factor Survey]: база данных ССТФ для Drosophila<ref>Zhu LJ, Christensen RG, Kazemian M, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013762/ «FlyFactorSurvey: a database of Drosophila transcription factor binding specificities determined using the bacterial one-hybrid system.»] Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.</ref>.
* [http://mccb.umassmed.edu/ffs/ Fly Factor Survey]: база данных сайтов связывания транскрипционных факторов для ''Drosophila''<ref>Zhu LJ, Christensen RG, Kazemian M, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3013762/ «FlyFactorSurvey: a database of Drosophila transcription factor binding specificities determined using the bacterial one-hybrid system.»] Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.</ref>.
* [http://hocomoco.autosome.ru/ HOCOMOCO]: расширяющаяся и совершенствующаяся коллекция ССТФ человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ<ref>Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531053/ «HOCOMOCO: a comprehensive collection of human transcription factor binding sites models»]. Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.</ref>.
* [http://hocomoco.autosome.ru/ HOCOMOCO]: расширяющаяся и совершенствующаяся коллекция сайтов связывания транскрипционных факторов человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ<ref>Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3531053/ «HOCOMOCO: a comprehensive collection of human transcription factor binding sites models»]. Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.</ref>.
* [http://floresta.eead.csic.es/footprintdb/ footprintDB]: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных<ref>Sebastian A, Contreras-Moreira B. [http://bioinformatics.oxfordjournals.org/content/30/2/258.long «footprintDB: a database of transcription factors with annotated cis elements and binding interfaces.»] Bioinformatics 30, 258-65 (2014).</ref>.
* [http://floresta.eead.csic.es/footprintdb/ footprintDB]: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных<ref>Sebastian A, Contreras-Moreira B. [http://bioinformatics.oxfordjournals.org/content/30/2/258.long «footprintDB: a database of transcription factors with annotated cis elements and binding interfaces.»] Bioinformatics 30, 258-65 (2014).</ref>.


Строка 166: Строка 166:
* [http://opossum.cisreg.ca/oPOSSUM3/ oPOSSUM-3]
* [http://opossum.cisreg.ca/oPOSSUM3/ oPOSSUM-3]
* [http://acgt.cs.tau.ac.il/amadeus/ Amadeus] — требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
* [http://acgt.cs.tau.ac.il/amadeus/ Amadeus] — требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
* [https://gbiomed.kuleuven.be/apps/lcb/i-cisTarget/ i-cisTarget] — принимает .BED файлы или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
* [https://gbiomed.kuleuven.be/apps/lcb/i-cisTarget/ i-cisTarget] — принимает файлы расширения .BED или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
* [http://www.beaconlab.it/pscan Pscan] — требует список генов и предлагает на выбор 5 интервалов длин промоторов
* [http://www.beaconlab.it/pscan Pscan] — требует список генов и предлагает на выбор 5 интервалов длин промоторов
* [http://genome.ucsf.edu/~jiashun/OTFBS/ OTFBS] — онлайн-версия принимает не более 200 последовательностей в формате [[FASTA]]
* [http://genome.ucsf.edu/~jiashun/OTFBS/ OTFBS] — онлайн-версия принимает не более 200 последовательностей в формате [[FASTA]]

Версия от 02:24, 11 мая 2020

Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции в последовательности нуклеотидов ДНК при помощи компьютерных алгоритмов. Сайты связывания представляют собой имеющие высокое сродство к факторам транскрипции короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований, которые называются мотивы[1][2][3]. Аналогично ищутся сайты связывания кофакторов, полимераз, сайты сплайсинга и повторяющиеся элементы в ДНК. Обнаружение мотивов позволяет лучше понять регуляцию транскрипции, сплайсинг мРНК и образование белковых комплексов.

Основные задачи

В анализе геномных последовательностей при поиске мотивов выделяют две ключевые задачи[3]:

  1. Идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных
  2. Обнаружение неизвестных мотивов de novo. Задача актуальна, когда есть набор промоторных последовательностей с предполагаемым общим транскрипционным фактором, но сам фактор транскрипции или сайты связывания для него неизвестны.

Поиск мотивов на основе уже известных

Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся гены с общими факторами транскрипции или оценить влияние мутаций в последовательности мотива на связывание с транскрипционным фактором[1].

Информация о сайте связывания транскрипционных факторов в последовательностях ДНК получается экспериментально такими методами, как SELEX, РВМ (protein binding microarrays)[4] или СHIP[англ.]-х (то есть, ChIP-seq, ChIP-exo, ORGANIC[5], ChIP-on-chip. Полученные в результате экcпериментов последовательности сайтов связывания описываются моделью (мотивом). На данный момент уже известно много мотивов, которые собраны в различные базы данных. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива из базы данных именуется экземпляром мотива (хитом), или словом)[1].

Сложности в идентификации мотивов[3][1]:

  • Точная последовательность мотива может быть неизвестна, так как в ней могут происходить мутации;
  • В интересующей последовательности может находиться несколько мотивов (например, сайт связывания транскрипционного фактора и сайт связывания его кофактора), только один мотив, или же, наоборот, ни одного;
  • Мотивы могут перекрываться[6];
  • Неизвестно, где находится мотив относительно точки старта транскрипции;
  • Необходимы критерии для отделения настоящих мотивов от шума.

На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.

Поиск мотивов de novo

Когда позиционная весовая матрица (ПВМ) сайта связывания интересующего фактора транскрипции неизвестна, она может быть получена путем обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого фактора транскрипции. Методика состоит в определении наиболее перепредставленных (т.е. встречающихся чаще, можно ожидать случайно) мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-seq экспериментов: HMS[7], cERMIT[8], ChIPMunk[9], diChIPMunk[10], MEME-ChIP[11], POSMO[12], XXmotif[13], FMotif[14], Dimont[10], RSAT[12], and DeepBind[15]. Проверка обнаруженных сайтов связывания транскрипционного фактора может быть осуществлена с использованием комбинации иммунопреципитации хроматина с антителом, специфичным к интересующему фактору транскрипции, и полимеразной цепной реакции в реальном времени с праймерами, специфичными к предсказанному целевому региону[1].

Способы представления мотивов

Консенсус

Одним из популярных способов представления мотива является консенсус — слово, составленное из нуклеотидов, наиболее часто встречающихся в конкретных позициях сайта. Для записи консенсуса также может использоваться обозначения нуклеотидов в соответствии с номенклатурой ИЮПАК.[1]

Например, для последовательностей вида:

TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT

консенсус ИЮПАК будет выглядеть следующим образом:

TATRNT

Когда консенсус нестрогий, представление мотива может включать в себя экземпляры с очень низкой аффинностью связывания. С другой стороны очень строгий консенсус может не охватить все реально существующие вариации мотива.[3][1]

Позиционная весовая матрица (ПВМ)

Вторым наиболее популярным методом является использование ПВМ. ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых мест связывания, однако возникает проблема в том, как отличить слабые мотивы от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива. Существует так же динуклеотидная ПВМ, использующая 16 буквенный алфавит (AA, AC, AT, …... CG, GG). Эта модель реализована в методах обнаружения мотивов Dimont[10] и diChIPMunk[10] . Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами.[1]

Методы контролируемой классификации

Модели, использующие байесовские сети позволяют установить зависимости между позициями внутри мотива, однако не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например, Скрытая марковская модель) или с использованием метода опорных векторов. Подобные методы позволяют искать мотивы со спейсерами — участками вариабельной длины между двумя полусайтами двойных мотивов (каждый полусайт представляет собой участок посадки одной из субъединиц димера транскрипционного фактора) [1].

Классификация алгоритмов

Алгоритмы можно классифицировать по двум принципам: на основе исследуемых последовательностей и на основе механизма действия.

По набору исследуемых последовательностей

Алгоритмы поиска мотивов по типам входных данных можно разделить на три основных класса[3]:

  1. использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
  2. использующие ортологичные промоторные последовательности одного гена у нескольких видов (т.е. филогенетический футпринтинг[англ.]), например, PHYLONET[16], PhyloScan[17] и PhyloCon[18];
  3. использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.

Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг[3].

По принципу действия

По принципу действия выделяют следующие[3]:

  • методы, основанные на операциях со строками (словами), которые в основном полагаются на подсчет и сравнение частот олигонуклеотидов. К ним относятся методы, использующие суффиксные деревья, и методы на основе графов;
  • вероятностные модели последовательности, где параметры модели оцениваются с использованием принципа максимального правдоподобия, байесовских сетей.

Такие методы к-мерного перечисления, как POSMO[19], cERMIT[8], и RSAT-peak-motifs[20] показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-seq. Тем не менее, вероятностные подходы (например, ChIPMunk[9], Dimont[10]) могут обеспечить большую точность результатов[10].

Строковые методы

Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных регулярными выражениями, и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких эукариотических мотивов, которые обычно короче, чем у прокариот и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов (алгоритмы Weeder[21] и MITRA (Mismatch Tree Algorithm)[22] или графы (алгоритм WINNOWER[23]). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком методов также является нахождение большого количества ложных мотивов[3][24].

В данном типе методов можно выделить несколько классов[25]:

  • Полное перечисление;
  • Кластерные методы;
  • Методы, основанные на использовании деревьев;
  • Методы, основанные на использовании графов;
  • Методы, использующие хэширование;
  • Методы фиксированных кандидатов.

Вероятностный подход

Вероятностный подход предполагает представление модели мотива с помощью позиционной весовой матрицы (ПВМ). ПВМ является наиболее популярным методом представления мотивов. Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как[3]:

Эти алгоритмы также можно разделить на несколько классов[25]:

  • Детерминистические: методы, основанные на принципе максимального правдоподобия (MEME, STEME[40], EXTREME[41])
  • Стохастические: методы, основанные на сэмплировании по Гиббсу (AlignACE[26], BioProspector[7])
  • Байесовские методы (LOGOS[35])

Подходы, основанные на природных механизмах

Генетический алгоритм, муравьиный алгоритм, методы роя частиц, алгоритм пчелиной колонии, алгоритм кукушки также применяются для оптимизации поиска мотивов.[42][43][44]

Алгоритмы поиска мотивов
Подход Принцип поиска Примеры
Строковый Деревья суффиксов SMILE[45], Verbumculus[46]
Строковый Деревья префиксов/Графы MITRA[22]
Строковый Графы WINNOWER[23]
Строковый Полное перечисление YMF[47], Oligo-Analysis[48], Weeder[21]
Строковый Словарь MobyDick[49], WordSpy[50]
Вероятностный Сэмплирование по Гиббсу SeSiMCMC[31]
Вероятностный Принцип максимального правдоподобия MEME, PhyME[37]
Вероятностный Жадный алгоритм ChIPMunk[9], MDScan[51]
Филогенетический футпринтинг Выравнивание последовательностей PHYLONET[52]
Прочие Генетический алгоритм, Кластеризация GAME[43], FMGA[53], EMD[54]

Инструменты поиска

The MEME Suite — программный пакет инструментов с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, РНК и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs)[55] позволяет учитывать вставки и делеции в мотивах.

Для анализа данных ChIP-seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа обогащения мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания транскрипционных факторов с известными связывающими ДНК мотивами[56]. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст[57].

ChIPMunk — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-seq, который использует жадный подход в сочетании с бутстреппингом. ChIPMunk оценивает качество мотива с помощью дискретного информационного содержания Кульбака (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке[58].

Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk

ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц, которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге, ChIPMunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ, исходя из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве[58][9].

ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов[1].

Dimont — общий подход для вероятностного дифференциального обнаружения мотивов de novo, который способен обрабатывать данные ChIP-seq, ChIP-exo и PBM (технология белок-связывающих микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы[10].

Анализ найденных мотивов

Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из MEME Suite, MACRO-APE и STAMP.

TOMTOM определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве[59].

MACRO-APE позволяет вычислять коэффициент сходства Жаккара для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц в поиске сходства с интересующей ПВМ при заданном пороге или уровне P-значения. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот[60].

Ссылки

Базы данных мотивов

Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов[61]:

  • JASPAR: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания транскрипционных факторов[62].
  • TRANSFAC®[англ.]: коммерческая база данных сайтов связывания транскрипционных факторов, ПВМ, и регулируемых генов эукариот.
  • UniProbe: база экспериментальных данных, полученных в результате экспериментов с использованием технологии белок-связывающих микрочипов (PBM).[63].
  • SwissRegulon: база данных полногеномных аннотаций регуляторных участков[64].
  • Fly Factor Survey: база данных сайтов связывания транскрипционных факторов для Drosophila[65].
  • HOCOMOCO: расширяющаяся и совершенствующаяся коллекция сайтов связывания транскрипционных факторов человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ[66].
  • footprintDB: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных[67].

Веб-сайты и программы для поиска мотивов и промотерного анализа[61]

  • AME или FIMO из MEME suite
  • SeqPos из Galaxy Cistrome
  • PWMScan из PWMTools
  • oPOSSUM-3
  • Amadeus — требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
  • i-cisTarget — принимает файлы расширения .BED или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
  • Pscan — требует список генов и предлагает на выбор 5 интервалов длин промоторов
  • OTFBS — онлайн-версия принимает не более 200 последовательностей в формате FASTA
  • Asap — принимает последовательности в формате FASTA; порог ПВМ должен быть выбран пользователем
  • oPOSSUM-3 — принимает как последовательности в формате списка генов, так и в формате FASTA
  • Match and P-Match — алгоритм поиска мотивов TRANSFAC®
  • SiTaR — принимает мотивы в формате перечня
  • Clover — офлайн-инструмент для анализа промоутеров.
  • HOMER

Программы для сравнения мотивов с известными ПВМ[61]

Примечания

  1. 1 2 3 4 5 6 7 8 9 10 Boeva V. «Analysis of Genomic Sequence Motifs for Deciphering Transcription Factor Binding and Transcriptional Regulation in Eukaryotic Cells». Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.
  2. Tran, N. T. L., and Huang, C.-H. (2014). «A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data». Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4
  3. 1 2 3 4 5 6 7 8 9 Das MK, Dai H-K. «A survey of DNA motif finding algorithms.» BMC Bioinformatics. 2007;8(Suppl 7):S21. doi:10.1186/1471-2105-8-S7-S21.
  4. Michael F Berger, Martha L Bulyk. Universal protein-binding microarrays for the comprehensive characterization of the DNA-binding specificities of transcription factors // Nature Protocols. — 2009-03. — Т. 4, вып. 3. — С. 393–411. — ISSN 1750-2799 1754-2189, 1750-2799. — doi:10.1038/nprot.2008.195.
  5. Sivakanthan Kasinathan, Steven Henikoff. High-resolution mapping of transcription factor binding sites on native chromatin // Epigenetics & Chromatin. — 2013-03. — Т. 6, вып. S1. — ISSN 1756-8935. — doi:10.1186/1756-8935-6-s1-p114.
  6. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield. 77 Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors // Journal of Biomolecular Structure and Dynamics. — 2013-01. — Т. 31, вып. sup1. — С. 49–50. — ISSN 1538-0254 0739-1102, 1538-0254. — doi:10.1080/07391102.2013.786511.
  7. 1 2 Hu, Ming Yu, Jindan Taylor, Jeremy M. G. Chinnaiyan, Arul M. Qin, Zhaohui S. On the detection and refinement of transcription factor binding sites using ChIP-Seq data. — Oxford University Press.
  8. 1 2 Stoyan Georgiev, Alan P Boyle, Karthik Jayasurya, Xuan Ding, Sayan Mukherjee. Evidence-ranked motif identification // Genome Biology. — 2010. — Т. 11, вып. 2. — С. R19. — ISSN 1465-6906. — doi:10.1186/gb-2010-11-2-r19.
  9. 1 2 3 4 5 I. V. Kulakovskiy, V. A. Boeva, A. V. Favorov, V. J. Makeev. Deep and wide digging for binding motifs in ChIP-Seq data // Bioinformatics. — 2010-10-15. — Т. 26, вып. 20. — С. 2622–2623. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btq488.
  10. 1 2 3 4 5 6 7 8 Jan Grau, Stefan Posch, Ivo Grosse, Jens Keilwagen. A general approach for discriminative de novo motif discovery from high-throughput data // Nucleic Acids Research. — 2013-09-19. — Т. 41, вып. 21. — С. e197–e197. — ISSN 0305-1048 1362-4962, 0305-1048. — doi:10.1093/nar/gkt831.
  11. Philip Machanick, Timothy L. Bailey. MEME-ChIP: motif analysis of large DNA datasets // Bioinformatics. — 2011-04-12. — Т. 27, вып. 12. — С. 1696–1697. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btr189.
  12. 1 2 Loi Sy Ho, Jagath C. Rajapakse. Graphical Approach to Weak Motif Recognition in Noisy Data Sets // Pattern Recognition in Bioinformatics. — Berlin, Heidelberg: Springer Berlin Heidelberg, 2006. — С. 23–31. — ISBN 978-3-540-37446-6, 978-3-540-37447-3.
  13. H. Hartmann, E. W. Guthohrlein, M. Siebert, S. Luehr, J. Soding. P-value-based regulatory motif discovery using positional weight matrices // Genome Research. — 2012-09-18. — Т. 23, вып. 1. — С. 181–194. — ISSN 1088-9051. — doi:10.1101/gr.139881.112.
  14. Caiyan Jia, Matthew B. Carson, Yang Wang, Youfang Lin, Hui Lu. A New Exhaustive Method and Strategy for Finding Motifs in ChIP-Enriched Regions // PLoS ONE. — 2014-01-24. — Т. 9, вып. 1. — С. e86044. — ISSN 1932-6203. — doi:10.1371/journal.pone.0086044.
  15. Michael Barnes, David Watson. Faculty Opinions recommendation of Predicting the sequence specificities of DNA- and RNA-binding proteins by deep learning. Faculty Opinions – Post-Publication Peer Review of the Biomedical Literature (9 мая 2017). Дата обращения: 11 мая 2020.
  16. T. Wang, G. D. Stormo. Identifying the conserved network of cis-regulatory sites of a eukaryotic genome // Proceedings of the National Academy of Sciences. — 2005-11-21. — Т. 102, вып. 48. — С. 17400–17405. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0505147102.
  17. Carmack, C Steven McCue, Lee Ann Newberg, Lee A Lawrence, Charles E. PhyloScan: identification of transcription factor binding sites using cross-species evidence. — BioMed Central.
  18. T. Wang, G. D. Stormo. Combining phylogenetic data with co-regulated genes to identify regulatory motifs // Bioinformatics. — 2003-12-10. — Т. 19, вып. 18. — С. 2369–2380. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/btg329.
  19. Xiaotu Ma, Ashwinikumar Kulkarni, Zhihua Zhang, Zhenyu Xuan, Robert Serfling. A highly efficient and effective motif discovery method for ChIP-seq/ChIP-chip data using positional information // Nucleic Acids Research. — 2011-01-06. — Т. 40, вып. 7. — С. e50–e50. — ISSN 0305-1048 1362-4962, 0305-1048. — doi:10.1093/nar/gkr1135.
  20. M. Thomas-Chollier, O. Sand, J.-V. Turatsinze, R. Janky, M. Defrance. RSAT: regulatory sequence analysis tools // Nucleic Acids Research. — 2008-05-19. — Т. 36, вып. Web Server. — С. W119–W127. — ISSN 1362-4962 0305-1048, 1362-4962. — doi:10.1093/nar/gkn304.
  21. 1 2 G. Pavesi, G. Mauri, G. Pesole. An algorithm for finding signals of unknown length in DNA sequences // Bioinformatics. — 2001-06-01. — Т. 17, вып. Suppl 1. — С. S207–S214. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/17.suppl_1.s207.
  22. 1 2 E. Eskin, P. A. Pevzner. Finding composite regulatory patterns in DNA sequences // Bioinformatics. — 2002-07-01. — Т. 18, вып. Suppl 1. — С. S354–S363. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/18.suppl_1.s354.
  23. 1 2 P. A. Pevzner, S. H. Sze. Combinatorial approaches to finding subtle signals in DNA sequences // Proceedings. International Conference on Intelligent Systems for Molecular Biology. — 2000. — Т. 8. — С. 269–278. — ISSN 1553-0833.
  24. Giancarlo, Raffaele. Algorithms in bioinformatics : 7th International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007 ; proceedings. — Springer, 2007. — ISBN 3-540-74125-9, 978-3-540-74125-1.
  25. 1 2 Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany. Review of Different Sequence Motif Finding Algorithms // Avicenna Journal of Medical Biotechnology. — 2019. — Т. 11, вып. 2. — С. 130–148. — ISSN 2008-2835.
  26. 1 2 Frederick P. Roth, Jason D. Hughes, Preston W. Estep, George M. Church. Finding DNA regulatory motifs within unaligned noncoding sequences clustered by whole-genome mRNA quantitation // Nature Biotechnology. — 1998-10. — Т. 16, вып. 10. — С. 939–945. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt1098-939.
  27. C. T. WORKMAN, G. D. STORMO. ANN-SPEC: A METHOD FOR DISCOVERING TRANSCRIPTION FACTOR BINDING SITES WITH IMPROVED SPECIFICITY // Biocomputing 2000. — WORLD SCIENTIFIC, 1999-12. — ISBN 978-981-02-4188-9, 978-981-4447-33-1. — doi:10.1142/9789814447331_0044.
  28. X. LIU, D. L. BRUTLAG, J. S. LIU. BIOPROSPECTOR: DISCOVERING CONSERVED DNA MOTIFS IN UPSTREAM REGULATORY REGIONS OF CO-EXPRESSED GENES // Biocomputing 2001. — WORLD SCIENTIFIC, 2000-12. — ISBN 978-981-02-4515-3, 978-981-4447-36-2. — doi:10.1142/9789814447362_0014.
  29. Gert Thijs, Kathleen Marchal, Magali Lescot, Stephane Rombauts, Bart De Moor. A Gibbs sampling method to detect over-represented motifs in the upstream regions of co-expressed genes // Proceedings of the fifth annual international conference on Computational biology - RECOMB '01. — New York, New York, USA: ACM Press, 2001. — ISBN 1-58113-353-7. — doi:10.1145/369133.369253.
  30. M. C. Frith. Finding functional sequence elements by multiple local alignment // Nucleic Acids Research. — 2004-01-02. — Т. 32, вып. 1. — С. 189–200. — ISSN 1362-4962. — doi:10.1093/nar/gkh169.
  31. 1 2 A. V. Favorov, M. S. Gelfand, A. V. Gerasimova, D. A. Ravcheev, A. A. Mironov. A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length // Bioinformatics. — 2005-02-22. — Т. 21, вып. 10. — С. 2240–2245. — ISSN 1460-2059 1367-4803, 1460-2059. — doi:10.1093/bioinformatics/bti336.
  32. Rahul Siddharthan, Eric D Siggia, Erik Jan van Nimwegen. PhyloGibbs: A Gibbs Sampling Motif Finder that Incorporates Phylogeny // PLoS Computational Biology. — 2005. — Т. preprint, вып. 2005. — С. e67. — ISSN 1553-7358 1553-734X, 1553-7358. — doi:10.1371/journal.pcbi.0010067.eor.
  33. Kazuhito Shida. GibbsST: a Gibbs sampling method for motif discovery with enhanced resistance to local optima // BMC Bioinformatics. — 2006-11-04. — Т. 7, вып. 1. — ISSN 1471-2105. — doi:10.1186/1471-2105-7-486.
  34. Robert C McLeay, Timothy L Bailey. Motif Enrichment Analysis: a unified framework and an evaluation on ChIP data // BMC Bioinformatics. — 2010-04-01. — Т. 11, вып. 1. — ISSN 1471-2105. — doi:10.1186/1471-2105-11-165.
  35. 1 2 Chao-Wen Huang, Wun-Shiun Lee, Sun-Yuan Hsieh. An Improved Heuristic Algorithm for Finding Motif Signals in DNA Sequences // IEEE/ACM Transactions on Computational Biology and Bioinformatics. — 2011-07. — Т. 8, вып. 4. — С. 959–975. — ISSN 1545-5963. — doi:10.1109/tcbb.2010.92.
  36. W. Ao. Environmentally Induced Foregut Remodeling by PHA-4/FoxA and DAF-12/NHR // Science. — 2004-09-17. — Т. 305, вып. 5691. — С. 1743–1746. — ISSN 1095-9203 0036-8075, 1095-9203. — doi:10.1126/science.1102216.
  37. 1 2 Saurabh Sinha. PhyME: A Software tool for Finding Motifs in Sets of Orthologous Sequences // Comparative Genomics. — New Jersey: Humana Press. — С. 309–318. — ISBN 1-59745-514-8.
  38. A. PRAKASH, M. BLANCHETTE, S. SINHA, M. TOMPA. MOTIF DISCOVERY IN HETEROGENEOUS SEQUENCE DATA // Biocomputing 2004. — WORLD SCIENTIFIC, 2003-12. — ISBN 978-981-238-598-7, 978-981-270-485-6. — doi:10.1142/9789812704856_0033.
  39. John A. Richards. Expectation-maximization approach to target model generation from multiple synthetic aperture radar images // Optical Engineering. — 2002-01-01. — Т. 41, вып. 1. — С. 150. — ISSN 0091-3286. — doi:10.1117/1.1417493.
  40. John E. Reid, Lorenz Wernisch. STEME: efficient EM to find motifs in large data sets // Nucleic Acids Research. — 2011-07-23. — Т. 39, вып. 18. — С. e126–e126. — ISSN 0305-1048 1362-4962, 0305-1048. — doi:10.1093/nar/gkr574.
  41. Daniel Quang, Xiaohui Xie. EXTREME: an online EM algorithm for motif discovery // Bioinformatics. — 2014-02-14. — Т. 30, вып. 12. — С. 1667–1673. — ISSN 1367-4803 1460-2059, 1367-4803. — doi:10.1093/bioinformatics/btu093.
  42. Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa. A developed system based on nature-inspired algorithms for DNA motif finding process // Neural Computing and Applications. — 2018-03-06. — Т. 30, вып. 7. — С. 2059–2069. — ISSN 1433-3058 0941-0643, 1433-3058. — doi:10.1007/s00521-018-3398-0.
  43. 1 2 Zhi Wei, Shane T. Jensen. GAME: detecting cis-regulatory elements using a genetic algorithm // Bioinformatics (Oxford, England). — 2006-07-01. — Т. 22, вып. 13. — С. 1577–1584. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btl147.
  44. Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira. MUSA: a parameter free algorithm for the identification of biologically significant motifs // Bioinformatics (Oxford, England). — 2006-12-15. — Т. 22, вып. 24. — С. 2996–3002. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btl537.
  45. Laurent Marsan, Marie-France Sagot. Extracting structured motifs using a suffix tree---algorithms and application to promoter consensus identification // Proceedings of the fourth annual international conference on Computational molecular biology - RECOMB '00. — New York, New York, USA: ACM Press, 2000. — ISBN 1-58113-186-0. — doi:10.1145/332306.332553.
  46. Alberto Apostolico, Mary Ellen Bock, Stefano Lonardi. Monotony of surprise and large-scale quest for unusual words // Proceedings of the sixth annual international conference on Computational biology - RECOMB '02. — New York, New York, USA: ACM Press, 2002. — ISBN 1-58113-498-3. — doi:10.1145/565196.565200.
  47. S. Sinha. YMF: a program for discovery of novel transcription factor binding sites by statistical overrepresentation // Nucleic Acids Research. — 2003-07-01. — Т. 31, вып. 13. — С. 3586–3588. — ISSN 1362-4962. — doi:10.1093/nar/gkg618.
  48. J. van Helden, B. André, J. Collado-Vides. Extracting regulatory sites from the upstream region of yeast genes by computational analysis of oligonucleotide frequencies 1 1Edited by G. von Heijne // Journal of Molecular Biology. — 1998-09. — Т. 281, вып. 5. — С. 827–842. — ISSN 0022-2836. — doi:10.1006/jmbi.1998.1947.
  49. H. J. Bussemaker, H. Li, E. D. Siggia. Building a dictionary for genomes: Identification of presumptive regulatory sites by statistical analysis // Proceedings of the National Academy of Sciences. — 2000-08-15. — Т. 97, вып. 18. — С. 10096–10100. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.180265397.
  50. G. Wang, T. Yu, W. Zhang. WordSpy: identifying transcription factor binding motifs by building a dictionary and learning a grammar // Nucleic Acids Research. — 2005-07-01. — Т. 33, вып. Web Server. — С. W412–W416. — ISSN 1362-4962 0305-1048, 1362-4962. — doi:10.1093/nar/gki492.
  51. X. Shirley Liu, Douglas L. Brutlag, Jun S. Liu. An algorithm for finding protein–DNA binding sites with applications to chromatin- immunoprecipitation microarray experiments // Nature Biotechnology. — 2002-07-08. — Т. 20, вып. 8. — С. 835–839. — ISSN 1546-1696 1087-0156, 1546-1696. — doi:10.1038/nbt717.
  52. Dingqiao Wen, Yun Yu, Jiafan Zhu, Luay Nakhleh. Inferring Phylogenetic Networks Using PhyloNet. dx.doi.org (22 декабря 2017). Дата обращения: 11 мая 2020.
  53. F.F.M. Liu, J.J.P. Tsai, R.M. Chen, S.N. Chen, S.H. Shih. FMGA: finding motifs by genetic algorithm // Proceedings. Fourth IEEE Symposium on Bioinformatics and Bioengineering. — IEEE. — ISBN 0-7695-2173-8. — doi:10.1109/bibe.2004.1317378.
  54. Hu, Jianjun Yang, Yifeng D Kihara, Daisuke. EMD: an ensemble algorithm for discovering regulatory motifs in DNA sequences. — BioMed Central Ltd, 2006-07-13.
  55. Martin C. Frith, Neil F. W. Saunders, Bostjan Kobe, Timothy L. Bailey. Discovering Sequence Motifs with Arbitrary Insertions and Deletions // PLoS Computational Biology. — 2008-05-09. — Т. 4, вып. 5. — С. e1000071. — ISSN 1553-7358. — doi:10.1371/journal.pcbi.1000071.
  56. Machanick P, Bailey TL. «MEME-ChIP: motif analysis of large DNA datasets.» Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.
  57. Tran, N. T. L., and Huang, C.-H. (2014). «A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data». Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4
  58. 1 2 Levitsky VG, Kulakovskiy IV, Ershov NI, et al. «Application of experimentally verified transcription factor binding sites models for computational analysis of ChIP-Seq data.» BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.
  59. Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble «MEME SUITE: tools for motif discovery and searching.» Nucleic Acids Research, 37:W202-W208, 2009.
  60. Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). «Jaccard index based similarity measure to compare transcription factor binding site models.» Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23
  61. 1 2 3 Boeva V. «Analysis of Genomic Sequence Motifs for Deciphering Transcription Factor Binding and Transcriptional Regulation in Eukaryotic Cells». Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.
  62. Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). «JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles» Nucleic Acids Res. 2016 44: D110-D115.
  63. Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. «UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions.» Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.
  64. Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. «SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates». Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.
  65. Zhu LJ, Christensen RG, Kazemian M, et al. «FlyFactorSurvey: a database of Drosophila transcription factor binding specificities determined using the bacterial one-hybrid system.» Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.
  66. Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. «HOCOMOCO: a comprehensive collection of human transcription factor binding sites models». Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.
  67. Sebastian A, Contreras-Moreira B. «footprintDB: a database of transcription factors with annotated cis elements and binding interfaces.» Bioinformatics 30, 258-65 (2014).