Поиск сайтов связывания транскрипционных факторов in silico: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м Добавлена Категория:Поиск с помощью HotCat
Незначительные изменения, касающиеся оформления и дополнительных ссылок. Упомянула методы оптимизации поиска мотивов в ДНК, основанные на природных механизмах.
Строка 2: Строка 2:


== Основные задачи ==
== Основные задачи ==
В анализе [[геном]]ных последовательностей выделяют две ключевые задачи: идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных, и обнаружение неизвестных мотивов de novo. Обнаружение мотивов de novo используется тогда, когда есть набор последовательностей с предполагаемым общим [[Факторы транскрипции|ТФ]], но сам ТФ или сайты связывания для него неизвестны.
В анализе [[геном]]ных последовательностей выделяют две ключевые задачи: идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных, и обнаружение неизвестных мотивов ''de novo''. Обнаружение мотивов ''de novo'' используется тогда, когда есть набор последовательностей с предполагаемым общим [[Факторы транскрипции|ТФ]], но сам ТФ или сайты связывания для него неизвестны.


=== Поиск мотивов на основе уже известных ===
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся [[ген]]ы с общим ТФ или оценить влияние [[Мутация|мутаций]] в последовательности мотива, влияющих на связывание с ТФ. Идентификация известных сайтов связывания ТФ в последовательностях ДНК начинается с получения информации о сайте связывания ТФ из таких экспериментов, как SELEX, РВМ или ChIP-х (то есть, [[ChIP-seq]], ChIP-exo, ORGANIC, ChIP-on-chip)<ref name="boe"/>. На данный момент уже известно много мотивов, которые собраны в различные базы данных.
Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся [[ген]]ы с общим ТФ или оценить влияние [[Мутация|мутаций]] в последовательности мотива, влияющих на связывание с ТФ. Идентификация известных сайтов связывания ТФ в последовательностях ДНК начинается с получения информации о сайте связывания ТФ из таких экспериментов, как SELEX, РВМ или ChIP-х (то есть, [[ChIP-seq]], ChIP-exo, ORGANIC, ChIP-on-chip)<ref name="boe"/>. На данный момент уже известно много мотивов, которые собраны в различные базы данных.
Затем следует построение модели (мотива) для описания сайтов связывания ТФ и поиск новых экземпляров мотива в интересующих последовательностях.
Затем следует построение модели (мотива) для описания сайтов связывания ТФ и поиск новых экземпляров мотива в интересующих последовательностях.
Строка 10: Строка 11:
Сложности в идентификации мотивов:
Сложности в идентификации мотивов:
* Точная последовательность мотива может быть не известна, так как в ней могут происходить мутации.
* Точная последовательность мотива может быть не известна, так как в ней могут происходить мутации.
*Мотивы могут перекрываться<ref>{{Статья|ссылка=http://dx.doi.org/10.1080/07391102.2013.786511|автор=Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield|заглавие=77 Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors|год=2013-01|издание=Journal of Biomolecular Structure and Dynamics|том=31|выпуск=sup1|страницы=49–50|issn=0739-1102, 1538-0254|doi=10.1080/07391102.2013.786511}}</ref>
* В интересующей последовательности может находиться несколько мотивов (например, сайт связывания ТФ и сайт связывания его кофактора), только один мотив, или же наоборот, ни одного.
* В интересующей последовательности может находиться несколько мотивов (например, сайт связывания ТФ и сайт связывания его кофактора), только один мотив, или же наоборот, ни одного.
* Неизвестно, где находится мотив относительно точки старта транскрипции.
* Неизвестно, где находится мотив относительно точки старта транскрипции.
Строка 16: Строка 18:
На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.
На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.


=== Поиск мотивов de novo ===
=== Поиск мотивов ''de novo''===
Когда [[позиционная весовая матрица]] (ПВМ) интересующего ТФ не известна, она может быть получена с помощью обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого ТФ. Методика состоит в определении наиболее перепредставленных мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-SEQ экспериментов: HMS, cERMIT, ChIPMunk, diChIPMunk, MEME-ChIP, POSMO, XXmotif, FMotif, Dimont, RSAT, and DeepBind<ref name="boe" />. Проверка обнаруженных ССТФ может быть осуществлена с использованием комбинации [[Иммунопреципитация|иммунопреципитации]] [[хроматин]]а с [[Антитела|антителом]], специфичным к интересующему ТФ и [[полимеразная цепная реакция в реальном времени]] с [[праймер]]ами, специфичными к предсказанному целевому региону<ref name="boe" />.
Когда [[позиционная весовая матрица]] (ПВМ) интересующего ТФ не известна, она может быть получена с помощью обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого ТФ. Методика состоит в определении наиболее перепредставленных мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-SEQ экспериментов: HMS, cERMIT, ChIPMunk, diChIPMunk, MEME-ChIP, POSMO, XXmotif, FMotif, Dimont, RSAT, and DeepBind<ref name="boe" />. Проверка обнаруженных ССТФ может быть осуществлена с использованием комбинации [[Иммунопреципитация|иммунопреципитации]] [[хроматин]]а с [[Антитела|антителом]], специфичным к интересующему ТФ и [[полимеразная цепная реакция в реальном времени]] с [[праймер]]ами, специфичными к предсказанному целевому региону<ref name="boe" />.


Строка 89: Строка 91:
Такие методы к-мерного перечисления, как POSMO, cERMIT, и RSAT-peak-motifs показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-SEQ. Тем не менее, вероятностные подходы (например, ChIPMunk, Dimont) могут обеспечить более высокую точность результатов<ref name=autogenerated3>Grau, J., Posch, S., Grosse, I., and Keilwagen, J. (2013). [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834837/ «A general approach for discriminative de novo motif discovery from high-throughput data.»] Nucleic Acids Res. 41, e197. doi: 10.C/gkt831.</ref>.
Такие методы к-мерного перечисления, как POSMO, cERMIT, и RSAT-peak-motifs показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-SEQ. Тем не менее, вероятностные подходы (например, ChIPMunk, Dimont) могут обеспечить более высокую точность результатов<ref name=autogenerated3>Grau, J., Posch, S., Grosse, I., and Keilwagen, J. (2013). [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834837/ «A general approach for discriminative de novo motif discovery from high-throughput data.»] Nucleic Acids Res. 41, e197. doi: 10.C/gkt831.</ref>.


=== Строковые методы ===
==== Строковые методы ====
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных [[Регулярные выражения|регулярными выражениями]], и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких [[Эукариоты|эукариотических]] мотивов, которые обычно короче, чем у [[Прокариоты|прокариот]] и для поиска очень консервативных последовательностей. Они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов, например, алгоритмы Weeder и MITRA (Mismatch Tree Algorithm). Плюсом является также то, что строковые методы находят глобальный оптимум. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком метода также является нахождение большого количества ложных мотивов<ref name="Das"/>.
Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных [[Регулярные выражения|регулярными выражениями]], и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких [[Эукариоты|эукариотических]] мотивов, которые обычно короче, чем у [[Прокариоты|прокариот]] и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как [[Суффиксное дерево|деревья суффиксов]] (алгоритмы Weeder<ref>{{Статья|ссылка=http://dx.doi.org/10.1007/978-3-540-71913-7_9|заглавие=Finding Signals in DNA Sequences|место=Berlin, Heidelberg|издание=Algorithmic Aspects of Bioinformatics|издательство=Springer Berlin Heidelberg|страницы=213–236|isbn=978-3-540-71912-0}}</ref> и MITRA (Mismatch Tree Algorithm) или графы (алгоритм WINNOWER<ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/10977088|автор=P. A. Pevzner, S. H. Sze|заглавие=Combinatorial approaches to finding subtle signals in DNA sequences|год=2000|издание=Proceedings. International Conference on Intelligent Systems for Molecular Biology|том=8|страницы=269–278|issn=1553-0833}}</ref>). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком методов также является нахождение большого количества ложных мотивов<ref name="Das" /><ref>{{Книга|ссылка=http://worldcat.org/oclc/635283096|автор=Giancarlo, Raffaele.|заглавие=Algorithms in bioinformatics : 7th International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007 ; proceedings|год=2007|издательство=Springer|isbn=3-540-74125-9, 978-3-540-74125-1}}</ref>.


В данном типе методов можно выделить несколько классов<ref name=":0">{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6490410/|автор=Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany|заглавие=Review of Different Sequence Motif Finding Algorithms|год=2019|издание=Avicenna Journal of Medical Biotechnology|том=11|выпуск=2|страницы=130–148|issn=2008-2835}}</ref>:
=== Вероятностный подход ===

* Полное перечисление
* Кластерные методы
* Методы, основанные на использовании деревьев
* Методы, основанные на использовании графов
* Методы, использующие хэширование
* Методы фиксированных кандидатов

==== Вероятностный подход ====
Вероятностный подход предполагает представление модели мотива с помощью [[Позиционная весовая матрица|ПВМ]]. ПВМ является наиболее популярным методом представления мотивов.
Вероятностный подход предполагает представление модели мотива с помощью [[Позиционная весовая матрица|ПВМ]]. ПВМ является наиболее популярным методом представления мотивов.
Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы используют локальные методы поиска, такие как<ref name="Das"/>:
Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как<ref name="Das"/>:
* [[Семплирование по Гиббсу]] (MACAW, AlignACE, ANN-Spec, Bioprospector, Co-Bind, MotifSampler, GLAM, SeSiMCMC, PhyloGibbs, GibbsST);
*[[Семплирование по Гиббсу|Сэмплирование по Гиббсу]] (MACAW, AlignACE, ANN-Spec, Bioprospector, Co-Bind, MotifSampler, GLAM, SeSiMCMC, PhyloGibbs, GibbsST);

* принцип максимального правдоподобия (MEME, MEME-ChIP, LOGOS, Improbizer, PhyME, OrthoMEME, GIMF, ALSE, EM);
* Принцип [[Метод максимального правдоподобия|максимального правдоподобия]] ([[MEME]], MEME-ChIP, LOGOS, Improbizer, PhyME, OrthoMEME, GIMF, ALSE, EM);
* [[жадный алгоритм]] (ChIPmunk и diChIPMunk).

*[[Жадный алгоритм]] (ChIPmunk и diChIPMunk).

Эти алгоритмы также можно разделить на несколько классов<ref name=":0" />:

* Детерминистические: методы, основанные на принципе максимального правдоподобия (MEME, STEME, EXTREME)
* Стохастические: методы, основанные на сэмплировании по Гиббсу (AlignACE, BioProspector)
* Байесовские методы (LOGOS)

==== Подходы, основанные на природных механизмах ====
[[Генетический алгоритм]], [[муравьиный алгоритм]], [[Метод роя частиц|методы роя частиц]], [[алгоритм пчелиной колонии]], алгоритм кукушки также применяются для оптимизации поиска мотивов.<ref>{{Статья|ссылка=http://dx.doi.org/10.1007/s00521-018-3398-0|автор=Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa|заглавие=A developed system based on nature-inspired algorithms for DNA motif finding process|год=2018-03-06|издание=Neural Computing and Applications|том=30|выпуск=7|страницы=2059–2069|issn=0941-0643, 1433-3058|doi=10.1007/s00521-018-3398-0}}</ref><ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/16632495|автор=Zhi Wei, Shane T. Jensen|заглавие=GAME: detecting cis-regulatory elements using a genetic algorithm|год=2006-07-01|издание=Bioinformatics (Oxford, England)|том=22|выпуск=13|страницы=1577–1584|issn=1367-4803|doi=10.1093/bioinformatics/btl147}}</ref><ref>{{Статья|ссылка=https://www.ncbi.nlm.nih.gov/pubmed/17068086|автор=Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira|заглавие=MUSA: a parameter free algorithm for the identification of biologically significant motifs|год=2006-12-15|издание=Bioinformatics (Oxford, England)|том=22|выпуск=24|страницы=2996–3002|issn=1367-4811|doi=10.1093/bioinformatics/btl537}}</ref>


== Инструменты поиска ==
== Инструменты поиска ==

Версия от 20:46, 24 апреля 2020

Поиск сайтов связывания транскрипционных факторов in silico — поиск и предсказание сайтов связывания факторов транскрипции (ТФ) в последовательности нуклеотидов ДНК при помощи компьютерных алгоритмов. Сайты связывания представляют собой короткие сегменты ДНК, длиной от 8—10 до 16—20 пар оснований, которые называются мотивы, и которые имеют высокое сродство с ТФ[1][2][3]. Аналогично ищутся сайты связывания кофакторов, полимераз, сайты сплайсинга и повторяющиеся элементы в ДНК последовательности. Обнаружение мотивов позволяет лучше понять регуляциию транскрипции, сплайсинг мРНК и образование белковых комплексов.

Основные задачи

В анализе геномных последовательностей выделяют две ключевые задачи: идентификация в наборе последовательностей ДНК уже известных мотивов из баз данных, и обнаружение неизвестных мотивов de novo. Обнаружение мотивов de novo используется тогда, когда есть набор последовательностей с предполагаемым общим ТФ, но сам ТФ или сайты связывания для него неизвестны.

Поиск мотивов на основе уже известных

Сканирование набора последовательностей против известных мотивов помогает идентифицировать совместно регулирующиеся гены с общим ТФ или оценить влияние мутаций в последовательности мотива, влияющих на связывание с ТФ. Идентификация известных сайтов связывания ТФ в последовательностях ДНК начинается с получения информации о сайте связывания ТФ из таких экспериментов, как SELEX, РВМ или ChIP-х (то есть, ChIP-seq, ChIP-exo, ORGANIC, ChIP-on-chip)[1]. На данный момент уже известно много мотивов, которые собраны в различные базы данных. Затем следует построение модели (мотива) для описания сайтов связывания ТФ и поиск новых экземпляров мотива в интересующих последовательностях. Каждое обнаруженное в последовательности ДНК совпадение с последовательностью мотива именуется экземпляром мотива (хитом), или словом.

Сложности в идентификации мотивов:

  • Точная последовательность мотива может быть не известна, так как в ней могут происходить мутации.
  • Мотивы могут перекрываться[4]
  • В интересующей последовательности может находиться несколько мотивов (например, сайт связывания ТФ и сайт связывания его кофактора), только один мотив, или же наоборот, ни одного.
  • Неизвестно, где находится мотив относительно точки старта транскрипции.
  • Необходимы критерии для отделения настоящих мотивов от шума.

На данный момент существует множество подходов для поиска мотивов. Каждый метод имеет свои ограничения и какого-либо универсального алгоритма не существует. Лучшим решением для предсказания мотивов считается использование комбинированных подходов.

Поиск мотивов de novo

Когда позиционная весовая матрица (ПВМ) интересующего ТФ не известна, она может быть получена с помощью обнаружения мотивов de novo из набора последовательностей ДНК, содержащих сайты связывания этого ТФ. Методика состоит в определении наиболее перепредставленных мотивов в данном наборе последовательностей ДНК. Существует большое количество de novo методов обнаружения перепредставленных мотивов. Несколько методов были созданы для анализа больших наборов последовательностей в результате ChIP-SEQ экспериментов: HMS, cERMIT, ChIPMunk, diChIPMunk, MEME-ChIP, POSMO, XXmotif, FMotif, Dimont, RSAT, and DeepBind[1]. Проверка обнаруженных ССТФ может быть осуществлена с использованием комбинации иммунопреципитации хроматина с антителом, специфичным к интересующему ТФ и полимеразная цепная реакция в реальном времени с праймерами, специфичными к предсказанному целевому региону[1].

Способы представления мотивов

Консенсус

Одним из популярных способов представления мотива является консенсус — слово, составленное из нуклеотидов, наиболее часто встречающихся в конкретных позициях сайта. Для записи консенсуса также может использоваться обозначения нуклеотидов в соответствии с номенклатурой ИЮПАК.

Например, для последовательностей вида:

TACGAT
TATAAT
TATAAT
GATACT
TATGAT
TATGTT

консенсус ИЮПАК будет выглядеть следующим образом:

TATRNT

Когда консенсус плох, представление мотива может включать в себя экземпляры с очень низкой аффинностью связывания. С другой стороны очень строгий консенсус может не охватить все реально существующие вариации мотива.

Позиционная весовая матрица

Вторым наиболее популярным методом является использование ПВМ. ПВМ построена на основе частот единичных нуклеотидов (A, T, G, C). Использование ПВМ позволяет отличить сильные сайты связывания от слабых мест связывания, однако возникает проблема в том, как отличить слабые мотивы от фона. Недостатком также является то, что ПВМ не учитывает взаимосвязи позиций внутри мотива. Существует так же динуклеотидная ПВМ, использующая 16 буквенный алфавит (AA, AC, AT, …... CG, GG). Эта модель реализована в методах обнаружения мотивов Dimont и diChIPMunk [1]. Использование динуклеотидных ПВМ позволяет учитывать взаимосвязи между соседними нуклеотидами.

Методы контролируемой классификации

Модели, использующие байесовские сети позволяют смоделировать зависимости между позициями внутри мотива, но не существует простого способа визуализировать эти мотивы. Существуют также методы построения мотивов с использованием графов (например,Скрытая марковская модель) или с использованием метода опорных векторов. Подобные методы позволяют искать мотивы со спейсерами — участками вариабельной длины между двумя полусайтами двойных мотивов [1].

Классификация алгоритмов

Алгоритмы поиска мотивов
Подход Принцип поиска Примеры
Строковый Деревья суффиксов SMILE, Verbumculus
Строковый Деревья префиксов/Графы MITRA
Строковый Графы WINNOWER
Строковый Полное перечисление YMF, Oligo-Analysis, Weeder
Строковый Словарь MobyDick, WordSpy
Вероятностный Сэмплирование по Гиббсу SeSiMCMC, Gibbs sampler
Вероятностный Принцип максимального правдоподобия MEME, PhyME
Вероятностный Жадный алгоритм ChIPMunk, MDScan
Филогенетический футпринтинг Выравнивание последовательностей PHYLONET
Прочие Генетический алгоритм, Кластеризация GAME, FMGA, EMD

По набору исследуемых последовательностей

Алгоритмы поиска мотивов по типам входных данных можно разделить на три основных класса[3]:

  1. использующие промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов;
  2. использующие ортологичные промоторные последовательности одного гена у нескольких видов (т.е. филогенетический футпринтинг), например, PHYLONET, PhyloScan и PhyloCon;
  3. использующие комплексный подход, т.е. последовательности промоторов совместно регулируемых генов и филогенетический футпринтинг.

Более ранние алгоритмы используют промоторные последовательности совместно регулируемых генов из одного генома и поиск статистически перепредставленых мотивов. В настоящее время появляются алгоритмы для использования филогенетического футпринтинга или ортологичных последовательностей, а также разрабатывается комплексный подход, при котором используют промоторные последовательности совместно регулируемых генов и филогенетический футпринтинг[3].

По принципу действия

По принципу действия выделяют следующие[3]:

  • методы, основанные на операциях со строками (словами), которые в основном полагаются на исчерпывающий перечень, то есть, подсчет и сравнение частоты олигонуклеотидов. К ним относятся методы, использующие суффиксные деревья, и методы на основе графов;
  • вероятностные модели последовательности, где параметры модели оцениваются с использованием принципа максимального правдоподобия, байесовских сетей.

Такие методы к-мерного перечисления, как POSMO, cERMIT, и RSAT-peak-motifs показывают очень конкурентоспособное время выполнения задачи на больших наборах данных ChIP-SEQ. Тем не менее, вероятностные подходы (например, ChIPMunk, Dimont) могут обеспечить более высокую точность результатов[5].

Строковые методы

Строковые методы подсчитывают количество совпадений в последовательности всех возможных мотивов, представленных регулярными выражениями, и вычисляют, какие из них встречаются чаще. Строковые методы подходят для поиска коротких эукариотических мотивов, которые обычно короче, чем у прокариот и для поиска очень консервативных последовательностей. Время работы этих алгоритмов экспоненциально растет с длиной искомого мотива, однако они могут быть достаточно быстры, если реализованы с помощью структур оптимизированных данных, таких как деревья суффиксов (алгоритмы Weeder[6] и MITRA (Mismatch Tree Algorithm) или графы (алгоритм WINNOWER[7]). Плюсом является также то, что строковые методы находят глобальный оптимум, поскольку перебирают все подстроки в исследуемых последовательностях. Однако типичные мотивы транскрипционных факторов часто имеют несколько слабо консервативных позиций. Недостатком методов также является нахождение большого количества ложных мотивов[3][8].

В данном типе методов можно выделить несколько классов[9]:

  • Полное перечисление
  • Кластерные методы
  • Методы, основанные на использовании деревьев
  • Методы, основанные на использовании графов
  • Методы, использующие хэширование
  • Методы фиксированных кандидатов

Вероятностный подход

Вероятностный подход предполагает представление модели мотива с помощью ПВМ. ПВМ является наиболее популярным методом представления мотивов. Вероятностные методы подходят для поиска более длинных мотивов как для прокариот, так и для эукариот. Эти алгоритмы, в отличие от алгоритмов строкового метода, не ищут оптимальное глобальное решение и используют локальные методы поиска, такие как[3]:

Эти алгоритмы также можно разделить на несколько классов[9]:

  • Детерминистические: методы, основанные на принципе максимального правдоподобия (MEME, STEME, EXTREME)
  • Стохастические: методы, основанные на сэмплировании по Гиббсу (AlignACE, BioProspector)
  • Байесовские методы (LOGOS)

Подходы, основанные на природных механизмах

Генетический алгоритм, муравьиный алгоритм, методы роя частиц, алгоритм пчелиной колонии, алгоритм кукушки также применяются для оптимизации поиска мотивов.[10][11][12]

Инструменты поиска

The MEME Suite — программный инструментарий с единым веб-интерфейсом для поиска и анализа мотивов в ДНК, РНК и белковых последовательностях, также существует локальная версия (не все инструменты доступны в виде веб-сервисов). MEME использует вероятностную и дискретную модели для поиска безделеционных мотивов и не предназначен для поиска мотивов в больших наборах данных. Алгоритм GLAM2 (Gapped Local Alignment of Motifs) позволяет учитывать вставки и делеции в мотивах.

Для анализа данных ChIP-Seq и других больших наборов данных предназначен MEME-ChIP. Он включает два взаимодополняющих алгоритма обнаружения мотивов MEME и DREME, и использует обнаруженые мотивы для последующей визуализации, анализа аффинности связывания, анализа по обогащению мотивов с использованием алгоритма AME, который позволяет обнаруживать очень низкие уровни обогащения сайтов связывания ТФ с известными связывающими ДНК мотивами[13]. MEME, MEME-ChIP, GLAM2 имеют три выходных формата: HTML, XML и текст[2].

ChIPMunk — быстрый эвристический инструмент обнаружения ДНК мотивов в данных ChIP-Seq, который использует жадный подход в сочетании с бутстреппингом. ChIPMunk оценивает качество мотива с помощью дискретного информационного содержания Кульбака (Kullback discrete information content, KDIC; Kullback Dinucleotide Discrete Information Content, KDDIC — для динуклеотидной версии). ChIPMunk реализован в Java (1.6 или выше) и эффективно обрабатывает большие наборы последовательностей на современном настольном компьютере или ноутбуке.

Лого динуклеотидной ПВМ, созданное скриптами для diChIPMunk

ChIPMunk итеративно ищет безделеционное множественное локальное выравнивание с наивысшим KDIC. Оптимальное выравнивание строится с помощью итерационной оптимизации стартовых позиционных весовых матриц, которые либо генерируются случайным образом (по умолчанию) или являются производными от данного пользователем набора последовательностей. На каждом итеративном шаге, ChIPmunk ищет лучшие хиты ПВМ во всех последовательностях и переоценивает ПВМ из лучших хитов. Для выбора оптимальной длины выравнивания в заданном диапазоне длин алгоритм перебирает их, начиная с наибольшей, и останавливается тогда, когда находит так называемый сильный мотив. Динуклеотидная версия алгоритма diChIPMunk, использует динуклеотидный алфавит из 16 букв и учитывает зависимость между соседними нуклеотидами в мотиве[14].

ChIPMunk и diChIPMunk также поддерживают применение профилей покрытия чтений (.wig файлы) в качестве априорных значений для местоположений мотивов, улучшая качество полученных мотивов[1].

Dimont — общий подход для вероятностного дифференциального обнаружения мотивов de novo, который способен обрабатывать данные ChIP-Seq, ChIP-exo и PBM (технология белок-связывающих микрочипов). Dimont также может использовать динуклеотидные последовательности для построения ПВМ и учитывать информацию о высоте пика. Dimont реализует подход, который позволяет придерживаться вероятностных методов с использованием популярной модели «ноль или одно совпадение в последовательности» многих инструментов de novo обнаружения мотивов при достижении приемлемого времени работы[5].

Анализ найденных мотивов

Также существуют различные инструменты для сравнения найденных мотивов с известными мотивами из баз данных, например TOMTOM из MEME Suite, MACRO-APE и STAMP.

TOMTOM определяет количественное сходство между двумя мотивами и оценивает его статистическую значимость. TOMTOM выводит лого, представляющее выравнивание двух мотивов, р-значение и q-значение [мера ложных обнаружений], а также ссылки на базу данных мотивов для более подробной информации о целевом мотиве[15].

MACRO-APE позволяет вычислять коэффициент сходства Жаккара для пары ПВМ с заданными пороговыми значениями. Программа позволяет сканировать коллекцию известных матриц на сходство с интересующей ПВМ при заданном пороге или уровне P-значения. Наряду с этими инструментами, MACRO-APE предоставляет базовые утилиты для оценки порогового значения ПВМ для заданного P-значения и наоборот[16].

Ссылки

Базы данных мотивов

Существует несколько открытых и коммерческих баз данных ПВМ известных мотивов[1]:

  • JASPAR 2016: экстенсивно расширяющаяся и обновляющаяся база данных с открытым доступом. Коллекция JASPAR CORE содержит курируемый, не избыточный набор профилей связывания ТФ[17].
  • TRANSFAC®[англ.]: коммерческая база данных по ССТФ, ПВМ, и регулируемым генам эукариот.
  • UniProbe: база экспериментальных данных от экспериментов с использованием технологии белок- связывающих микрочипов (PBM).[18].
  • SwissRegulon: база данных полногеномных аннотаций регуляторных участков[19].
  • Fly Factor Survey: база данных ССТФ для Drosophila[20].
  • HOCOMOCO: расширяющаяся и совершенствующаяся коллекция ССТФ человека и мыши. Содержит мононуклеотидные и динуклеотидные ПВМ[21].
  • footprintDB: обобщенная база данных мотивов из HOCOMOCO, JASPAR, и других баз данных[22].

Веб-сайты и программы для поиска мотивов и промотерного анализа[1]

  • AME или FIMO из MEME suite
  • SeqPos из Galaxy Cistrome
  • PWMScan из PWMTools
  • oPOSSUM-3
  • Amadeus — требует загрузки программы; можно найти пары совместно встречающихся мотивов; принимает перечень генов в качестве входных данных
  • i-cisTarget — принимает .BED файлы или имена генов; когда даны имена генов, поиск мотива выполняется в окне 20 Kb вокруг точек старта транскрипции генов
  • Pscan — требует список генов и предлагает на выбор 5 интервалов длин промоторов
  • OTFBS — онлайн-версия принимает не более 200 последовательностей в формате FASTA
  • Asap — принимает последовательности в формате FASTA; порог ПВМ должен быть выбран пользователем
  • oPOSSUM-3 — принимает как последовательности в формате списка генов, так и в формате FASTA
  • Match and P-Match — алгоритм поиска мотивов TRANSFAC®
  • SiTaR — принимает мотивы в формате перечня
  • Clover — офлайн-инструмент для анализа промоутеров.
  • HOMER

Программы для сравнения мотивов с известными ПВМ[1]

Примечания

  1. 1 2 3 4 5 6 7 8 9 10 Boeva V. «Analysis of Genomic Sequence Motifs for Deciphering Transcription Factor Binding and Transcriptional Regulation in Eukaryotic Cells». Frontiers in Genetics. 2016;7:24. doi:10.3389/fgene.2016.00024.
  2. 1 2 Tran, N. T. L., and Huang, C.-H. (2014). «A survey of motif finding Web tools for detecting binding site motifs in ChIP-Seq data». Biol. Direct 9:4. doi: 10.1186/1745-6150-9-4
  3. 1 2 3 4 5 6 Das MK, Dai H-K. «A survey of DNA motif finding algorithms.» BMC Bioinformatics. 2007;8(Suppl 7):S21. doi:10.1186/1471-2105-8-S7-S21.
  4. Jie Wang, Jiali Zhuang, Sowmya Iyer, Xin Lin, Troy W. Whitfield. 77 Sequence features and chromatin structure around the genomic regions bound by 119 human transcription factors // Journal of Biomolecular Structure and Dynamics. — 2013-01. — Т. 31, вып. sup1. — С. 49–50. — ISSN 1538-0254 0739-1102, 1538-0254. — doi:10.1080/07391102.2013.786511.
  5. 1 2 Grau, J., Posch, S., Grosse, I., and Keilwagen, J. (2013). «A general approach for discriminative de novo motif discovery from high-throughput data.» Nucleic Acids Res. 41, e197. doi: 10.C/gkt831.
  6. Finding Signals in DNA Sequences // Algorithmic Aspects of Bioinformatics. — Berlin, Heidelberg: Springer Berlin Heidelberg. — С. 213–236. — ISBN 978-3-540-71912-0.
  7. P. A. Pevzner, S. H. Sze. Combinatorial approaches to finding subtle signals in DNA sequences // Proceedings. International Conference on Intelligent Systems for Molecular Biology. — 2000. — Т. 8. — С. 269–278. — ISSN 1553-0833.
  8. Giancarlo, Raffaele. Algorithms in bioinformatics : 7th International Workshop, WABI 2007, Philadelphia, PA, USA, September 8-9, 2007 ; proceedings. — Springer, 2007. — ISBN 3-540-74125-9, 978-3-540-74125-1.
  9. 1 2 Fatma A. Hashim, Mai S. Mabrouk, Walid Al-Atabany. Review of Different Sequence Motif Finding Algorithms // Avicenna Journal of Medical Biotechnology. — 2019. — Т. 11, вып. 2. — С. 130–148. — ISSN 2008-2835.
  10. Mai S. Mabrouk, Mohamed B. Abdelhalim, Ebtehal S. Elewa. A developed system based on nature-inspired algorithms for DNA motif finding process // Neural Computing and Applications. — 2018-03-06. — Т. 30, вып. 7. — С. 2059–2069. — ISSN 1433-3058 0941-0643, 1433-3058. — doi:10.1007/s00521-018-3398-0.
  11. Zhi Wei, Shane T. Jensen. GAME: detecting cis-regulatory elements using a genetic algorithm // Bioinformatics (Oxford, England). — 2006-07-01. — Т. 22, вып. 13. — С. 1577–1584. — ISSN 1367-4803. — doi:10.1093/bioinformatics/btl147.
  12. Nuno D. Mendes, Ana C. Casimiro, Pedro M. Santos, Isabel Sá-Correia, Arlindo L. Oliveira. MUSA: a parameter free algorithm for the identification of biologically significant motifs // Bioinformatics (Oxford, England). — 2006-12-15. — Т. 22, вып. 24. — С. 2996–3002. — ISSN 1367-4811. — doi:10.1093/bioinformatics/btl537.
  13. Machanick P, Bailey TL. «MEME-ChIP: motif analysis of large DNA datasets.» Bioinformatics. 2011;27(12):1696-1697. doi:10.1093/bioinformatics/btr189.
  14. Levitsky VG, Kulakovskiy IV, Ershov NI, et al. «Application of experimentally verified transcription factor binding sites models for computational analysis of ChIP-Seq data.» BMC Genomics. 2014;15(1):80. doi:10.1186/1471-2164-15-80.
  15. Timothy L. Bailey, Mikael Bodén, Fabian A. Buske, Martin Frith, Charles E. Grant, Luca Clementi, Jingyuan Ren, Wilfred W. Li, William S. Noble «MEME SUITE: tools for motif discovery and searching.» Nucleic Acids Research, 37:W202-W208, 2009.
  16. Vorontsov, I. E., Kulakovskiy, I. V., and Makeev, V. J. (2013). «Jaccard index based similarity measure to compare transcription factor binding site models.» Algorithms Mol. Biol. 8:23. doi: 10.1186/1748-7188-8-23
  17. Mathelier, A., Fornes, O., Arenillas, D.J., Chen, C., Denay, G., Lee, J., Shi, W., Shyr, C., Tan, G., Worsley-Hunt, R., et al. (2015). «JASPAR 2016: a major expansion and update of the open-access database of transcription factor binding profiles» Nucleic Acids Res. 2016 44: D110-D115.
  18. Hume MA, Barrera LA, Gisselbrecht SS, Bulyk ML. «UniPROBE, update 2015: new tools and content for the online database of protein-binding microarray data on protein-DNA interactions.» Nucleic Acids Research 2014; doi: 10.1093/nar/gku1045.
  19. Pachkov M, Balwierz PJ, Arnold P, Ozonov E, van Nimwegen E. «SwissRegulon, a database of genome-wide annotations of regulatory sites: recent updates». Nucleic Acids Research. 2013;41(Database issue):D214-D220. doi:10.1093/nar/gks1145.
  20. Zhu LJ, Christensen RG, Kazemian M, et al. «FlyFactorSurvey: a database of Drosophila transcription factor binding specificities determined using the bacterial one-hybrid system.» Nucleic Acids Research. 2011;39(Database issue):D111-D117. doi:10.1093/nar/gkq858.
  21. Kulakovskiy IV, Medvedeva YA, Schaefer U, et al. «HOCOMOCO: a comprehensive collection of human transcription factor binding sites models». Nucleic Acids Research. 2013;41(Database issue):D195-D202. doi:10.1093/nar/gks1089.
  22. Sebastian A, Contreras-Moreira B. «footprintDB: a database of transcription factors with annotated cis elements and binding interfaces.» Bioinformatics 30, 258-65 (2014).