Мотив (молекулярная биология): различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Содержимое удалено Содержимое добавлено
Новая страница: «{{В инкубаторе}} '''Мотив''' — это определенная последовательность Нуклеотиды |…»
(нет различий)

Версия от 15:02, 1 апреля 2014

Мотив — это определенная последовательность нуклеотидов ДНК, РНК) или аминокислот белках), которые имеют существенное биологическое значение. Мотивы отвечают за специфическое узнавание какой либо последовательности стоящей после нее.


Мотивы в белках

Мотивы в белках позволяют найти домены, стоящие после них, участвующие или отвечающие за определенные свойства.

Поиск мотивов в белках с помощью регулярных выражений

Для обозначения мотива используют стандартные обозначения регулярных выражений:

1. Алфавит – совокупность отдельных символов, обозначающих определенную аминокислоту или набор аминокислот.

2. Строка из символов алфавита - обозначающая последовательность соответствующих аминокислот.

3. [ABC] - любая строка символов , взятых из алфавита в квадратных скобках соответствует любому из соответствующих аминокислот ; например [ABC] соответствует любому из аминокислот , из представленных: или a или b или c.

4. {ABC} - любая строка символов, взятых из алфавита соответствует любой аминокислоте кроме тех, что находятся в фигурных скобках; например {ABC} соответствует любой аминокислоте ,кроме: a, b и c.

Главная идея, лежащая в этих обозначениях - принцип соответствия: последовательность элементов паттерна совпадает с последовательностью аминокислот, если и только если последнюю последовательность можно разбить на подпоследовательности таким образом, что каждый элемент массива соответствует соответствующий подпоследовательности в свою очередь.

Например модель [AB] [ CDE ] F соответствует шести последовательности аминокислот: ACF, ADF, AEF, BCF, BDF, and BEF.

Поиск мотивов в белках с помощью PROSITE

PROSITE использует ИЮПАК для обозначения однобуквенных кодов аминокислот, за исключением, символа конкатенация, '-' , используемого между элементами паттерна.

PROSITE дополняет список выражений, описанных выше:

1. "х" - шаблон элемента обозначают любую аминокислоту.

2. '<' - шаблон ограничивается N-концом последовательности.

3. '>' - шаблон ограничивается C-концом последовательности.

Также символ ' >' может находиться внутри квадратных скобок, например: S [ T> ] соответствует как " ST " и " S >".

4. Если е - шаблон элемента , и m и n два целых десятичных числа и m < = n, то:

- е (m) эквивалентно повторению е ровно m раз
- е ( m, n) эквивалентно повторению е ровно k раз для любого целого k удовлетворяющей : m < = k < = n

Например:

х (3) эквивалентно Х-Х-Х.

х (2,4) соответствует любой последовательности, которая соответствует хх или ххх или хххх.

Мотив домена цинкового пальца: C-х (2,4)-C-х (3)-[LIVMFYWC]- х(8)-H-x(3,5)-H

Поиск мотивов в белках с помощью пространственной структуры белка

Данный метод предложен в работе Мацуды, и др.. 1997. [1]

Оперон E. coli репрессор лактозы LacI (PDB 1lcc chain A) и ген активатор катабализма (PDB 3gap chain A) оба имеют мотив: спираль-поворот-спираль, но их аминокислотные последовательности не очень схожи. Мацуда и др. разработал код, который они назвали «трехмерной код цепи», представляющий структуру белка в виде строки из писем. Эта схема кодирования показывает сходство между белками гораздо более отчетливо, чем аминокислотные последовательности:

Последовательность 3D код аминокислотной цепи

1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV

3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

где "W" соответствует α-спирали, и "E" и "D" соответствует β-нити.


Мотивы в нуклеотидных последовательностях

Матрица чисел содержит частоту нуклеотида для каждой позиции в мотиве фиксированной длины. Есть два типа весовых матриц.

  • Позиционная матрица частот (PFM) записывает положение в зависимости от частоты каждого нуклеотида. PFM может быть экспериментально определен из SELEX эксперимента или обнаружен с помощью вычислительных инструментов, таких как MEME использующего скрытые модели Маркова.
  • Позиционная матрица весов (PWM) содержат веса для вычисления степени сходства нуклеотидных последовательностей. Можно указывать коэффициент специфичности в входящей последовательности мотива. Позиционная матрица весов использует для вычисления позиционную матрицу частот.

Пример позиционной матрицы частот из базы данных TRANSFAC для фактора транскрипции AP -1:

Позиция A C G T Консенсус
01 6 2 8 1 G
02 3 5 9 0 G
03 0 0 0 17 T
04 0 0 17 0 G
05 17 0 0 0 A
06 0 16 0 1 C
07 3 2 3 9 T
08 4 7 2 4 C
09 9 6 1 1 A
10 4 3 7 3 G
11 6 3 1 7 T

Первая колонка определяет позицию, вторая колонка содержит частоту появлений нуклеотида А в этой позиции, третья колонка содержит частоту появлений нуклеотида C в этой позиции, четвертая колонка содержит частоту появлений нуклеотида G в этой позиции, пятая колонка содержит частоту появлений T в этой позиции, а последний столбец содержит консенсус для этой позиции. Обратите внимание, что суммы вхождений для A, C, G, и T для каждой строки должна быть равна, потому что позиционная матрица частот (PFM) происходит на основе объединения нескольких последовательностей.


Поиск мотивов

Поиск мотивов de novo

Существует ряд программ, которые учитывают несколько входных последовательностей и пытаются определить кандидата(ов) в мотивы.

Одной из таких программ является MEME, которая генерирует статистическую информацию по каждому кандидату (н-р: частоту встречаемости группы нуклеотидов (паттерны)). Другие алгоритмы используют программы AlignAce, Amadeus, CisModule, FIRE, Gibbs Motif Sampler, PhyloGibbs, SeSiMCMC, ChIPMunk and Weeder. SCOPE, MotifVoter и MProfiler используют в ходе работы сразу несколько алгоритмов поиска.

Поиск мотива строится на комбинаторной основе, то есть мотивы обнаруживаются методом перебора. В настоящее время существует более 100 публикаций с подобными алгоритмами; Weirauch и др. оценили множество алгоритмов [2]

Поиск мотивов через эволюционные отношения

Мотивы были обнаружены при изучении сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, GCM(glial cells missing) гена человека, мыши и D. melanogaster, Akiyama[3] обнаружил паттерн GCM мотив. Он охватывает около 150 аминокислотных остатка:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Где . – любая аминокислота или гэп

• - обозначает один член близко родственного семейства аминокислот.

PhyloGibbs[4][5] и Gibbs Motif Sampler[6][7] – являются алгоритмами для обнаружения мотивов на основе филогенетических отношений.


Внешние ссылки

Методы поиска мотивов и базы данных

Поиск мотивов с помощью веб-приложений

  • BLOCK-maker — finds conserved blocks in a group of two or more unaligned protein sequences
  • ChIPMunk — is a fast heuristic DNA motif digger based a on greedy approach accompanied by bootstrapping
  • ELM — functional site prediction of short linear motifs
  • FIRE — finds DNA and RNA motifs from expression data using the mutual information
  • Gibbs Motif Sampler — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
  • GIMSAN — motif-finder with biologically realistic and reliable statistical significance analysis
  • Improbizer — searches for motifs in DNA or RNA sequences that occur with improbable frequency
  • MEME Suite — discover motifs (highly conserved regions) in groups of related DNA or protein sequences
  • Minimotif Miner — public interface to the minimotif miner database which correlates short sequence amino acids to their biological function
  • ModuleMaster — allows to search for motifs by pre-defined or custom PWMs
  • MotifVoter — variance based ensemble method for discovery of binding sites
  • PhyloGibbs — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
  • PLACE — database of plant cis-acting regulatory DNA elements
  • PMS or [2] — free online motif discovery tools for searching DNA and RNA overrepresented conserved motifs
  • RSATde novo detection of regulatory signals in non-coding sequences
  • SCOPE — an ensemble of programs aimed at identifying novel cis-regulatory elements from groups of upstream sequences
  • SeSiMCMC — algorithm finds DNA motifs of unknown length and complicated structure, such as direct repeats or palindromes with variable spacers in the middle in a set of unaligned DNA sequences
  • TEIRESIS — search for short sequence motifs in Proteins
  • WebMotifs — use different programs to search for DNA-sequence motifs, and to easily combine and evaluate the results
  • XXmotif web server for eXhaustive, weight matriX-based motif discovery in nucleotide sequences

Визуализация и обзор мотивов

  • MochiView — a genome browser supporting import of motif libraries and containing tools for motif discovery, visualization, and analysis
  • Seq2Logo — a sequence logo generator for construction and visualization of amino acid binding motifs and sequence profiles, including features for sequence weighting, pseudo counts and two-sided representation of amino acid enrichment and depletion

Примечания

  1. Matsuda H, Taniguchi F, Hashimoto A (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Proc. of 2nd Pacific Symposium on Biocomputing: 280—291.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  2. Weirauch; et al. (2009). "Evaluation of methods for modeling transcription factor sequence specificity". Nature biotechnology. 31: 126—134. doi:10.1038/nbt.2486. {{cite journal}}: Явное указание et al. в: |author= (справка)
  3. Akiyama Y, Hosoya T, Poole AM, Hotta Y (1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proc. Natl. Acad. Sci. U.S.A. 93 (25): 14912—14916. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  4. Siddharthan R, van Nimwegen E, Siggia ED (2004). "PhyloGibbs: A Gibbs sampler incorporating phylogenetic information". In Eskin E, Workman C (eds), RECOMB 2004 Satellite Workshop on Regulatory Genomics, LNBI 3318, 3041 (Springer-Verlag Berlin Heidelberg 2005).{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
  5. Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny". PLoS Comput Biol. 1 (7): e67. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  6. Lawrence, Charles E.; Altschul, Stephen F.; Boguski, Mark S.; Liu, Jun S.; Neuwald, Andrew F.; Wootton, John C. (8 October 1993). "Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment". Science. 262 (5131): 208—214. doi:10.1126/science.8211139. PMID 8211139.
  7. Newberg, Lee A.; Thompson, William A.; Conlan, Sean; Smith, Thomas M.; McCue, Lee Ann; Lawrence, Charles E. (15 July 2007). "A phylogenetic Gibbs sampler that yields centroid solutions for cis regulatory site prediction". Bioinformatics. 23 (14): 1718—1727. doi:10.1093/bioinformatics/btm241. PMC 2268014. PMID 17488758.


Шаблон:Link FA