Мотив (молекулярная биология)

Материал из Википедии — свободной энциклопедии
(перенаправлено с «Консервативные мотивы»)
Перейти к: навигация, поиск

Моти́в в молекулярной биологии — это характерная последовательность нуклеотидовДНК, РНК) или аминокислотбелках), которая имеет существенное биологическое значение. Мотивы в белках позволяют найти участки белков, отвечающие за определённые свойства.

Консервати́вные моти́вы — короткие последовательности нуклеотидов в ДНК или аминокислот в белке, которые сохраняются в процессе эволюции, поскольку эти нуклеотиды или аминокислоты незаменимы для выполнения каких-либо процессов в клетке. Например, введение одной из посттрансляционных модификаций белков — присоединение глюкозы (N-гликозилирование) — осуществляется ферментами, у которых в аминокислотной последовательности есть:

аспарагин — любая аминокислота, кроме пролина — серин или треонин — любая аминокислота, кроме пролина.

Мотивы в белках[править | править вики-текст]

Поиск мотивов в белках с помощью регулярных выражений[править | править вики-текст]

Для обозначения мотива используют стандартные обозначения регулярных выражений:

  • Алфавит — совокупность отдельных символов, обозначающих определенную аминокислоту или набор аминокислот.
  • Строка из символов алфавита — обозначающая последовательность соответствующих аминокислот.
  • [ABC] — любая строка символов, взятых из алфавита в квадратных скобках соответствует любому из соответствующих аминокислот; например [ABC] соответствует любому из аминокислот, из представленных: или a или b или c.
  • {ABC} — любая строка символов, взятых из алфавита соответствует любой аминокислоте кроме тех, что находятся в фигурных скобках; например {ABC} соответствует любой аминокислоте, кроме: a, b и c.

Главная идея, лежащая в этих обозначениях — принцип соответствия: последовательность элементов паттерна совпадает с последовательностью аминокислот, если и только если последнюю последовательность можно разбить на подпоследовательности таким образом, что каждый элемент массива соответствует соответствующий подпоследовательности в свою очередь.

Например, модель [AB] [ CDE ] F соответствует шести последовательности аминокислот: ACF, ADF, AEF, BCF, BDF и BEF.

Поиск мотивов в белках с помощью PROSITE[править | править вики-текст]

PROSITE использует ИЮПАК для обозначения однобуквенных кодов аминокислот, за исключением символа конкатенации "-", используемого между элементами паттерна.

PROSITE дополняет список выражений, описанных выше:

1. «х» — шаблон элемента обозначают любую аминокислоту.

2. '<' — шаблон ограничивается N-концом последовательности.

3. '>' — шаблон ограничивается C-концом последовательности.

Также символ ' >' может находиться внутри квадратных скобок, например: S [ T> ] соответствует как " ST " и « S >».

4. Если е — шаблон элемента, и m и n два целых десятичных числа и m < = n, то:

- е (m) эквивалентно повторению е ровно m раз
- е ( m, n) эквивалентно повторению е ровно k раз для любого целого k удовлетворяющей : m < = k < = n

Например:

х (3) эквивалентно Х-Х-Х.

х (2,4) соответствует любой последовательности, которая соответствует хх или ххх или хххх.

Мотив домена цинкового пальца: C-х (2,4)-C-х (3)-[LIVMFYWC]- х(8)-H-x(3,5)-H

Поиск мотивов в белках с помощью пространственной структуры белка[править | править вики-текст]

Данный метод предложен в работе Мацуды, и др.. 1997.[1]

Оперон E. coli репрессор лактозы LacI (PDB 1lcc chain A) и ген активатор катабализма (PDB 3gap chain A) оба имеют мотив: спираль-поворот-спираль, но их аминокислотные последовательности не очень схожи. Мацуда и др. разработал код, который они назвали «трехмерной код цепи», представляющий структуру белка в виде строки из писем. Эта схема кодирования показывает сходство между белками гораздо более отчетливо, чем аминокислотные последовательности:

Последовательность 3D код аминокислотной цепи

1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV

3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

где «W» соответствует α-спирали, и «E» и «D» соответствует β-нити.

Мотивы в нуклеотидных последовательностях[править | править вики-текст]

Матрица чисел содержит частоту нуклеотида для каждой позиции в мотиве фиксированной длины. Есть два типа весовых матриц.

  • Позиционная матрица частот (PFM) записывает положение в зависимости от частоты каждого нуклеотида. PFM может быть экспериментально определен из SELEX эксперимента или обнаружен с помощью вычислительных инструментов, таких как MEME использующего скрытые модели Маркова.
  • Позиционная матрица весов (PWM) содержат веса для вычисления степени сходства нуклеотидных последовательностей. Можно указывать коэффициент специфичности в входящей последовательности мотива. Позиционная матрица весов использует для вычисления позиционную матрицу частот.

Пример позиционной матрицы частот из базы данных TRANSFAC для фактора транскрипции AP −1:

Позиция A C G T Консенсус
01 6 2 8 1 G
02 3 5 9 0 G
03 0 0 0 17 T
04 0 0 17 0 G
05 17 0 0 0 A
06 0 16 0 1 C
07 3 2 3 9 T
08 4 7 2 4 C
09 9 6 1 1 A
10 4 3 7 3 G
11 6 3 1 7 T

Первая колонка определяет позицию, вторая колонка содержит частоту появлений нуклеотида А в этой позиции, третья колонка содержит частоту появлений нуклеотида C в этой позиции, четвертая колонка содержит частоту появлений нуклеотида G в этой позиции, пятая колонка содержит частоту появлений T в этой позиции, а последний столбец содержит консенсус для этой позиции. Обратите внимание, что суммы вхождений для A, C, G, и T для каждой строки должна быть равна, потому что позиционная матрица частот (PFM) происходит на основе объединения нескольких последовательностей.

Поиск мотивов[править | править вики-текст]

Поиск мотивов de novo[править | править вики-текст]

Существует ряд программ, которые учитывают несколько входных последовательностей и пытаются определить кандидата(ов) в мотивы.

Одной из таких программ является MEME, которая генерирует статистическую информацию по каждому кандидату (н-р: частоту встречаемости группы нуклеотидов (паттерны)). Другие алгоритмы используют программы AlignAce, Amadeus, CisModule, FIRE, Gibbs Motif Sampler, PhyloGibbs, SeSiMCMC, ChIPMunk and Weeder. SCOPE, MotifVoter и MProfiler используют в ходе работы сразу несколько алгоритмов поиска.

Поиск мотива строится на комбинаторной основе, то есть мотивы обнаруживаются методом перебора. В настоящее время существует более 100 публикаций с подобными алгоритмами; Weirauch и др. оценили множество алгоритмов[2]

Поиск мотивов через эволюционные отношения[править | править вики-текст]

Мотивы были обнаружены при изучении сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, GCM(glial cells missing) гена человека, мыши и D. melanogaster, Akiyama[3] обнаружил паттерн GCM мотив. Он охватывает около 150 аминокислотных остатка:

WDIND*.*P..*…D.F.*W***.**.IYS**…A.*H*S*WAMRNTNNHN

Где . — любая аминокислота или гэп

• — обозначает один член близко родственного семейства аминокислот.

PhyloGibbs[4][5] и Gibbs Motif Sampler[6][7] — являются алгоритмами для обнаружения мотивов на основе филогенетических отношений.

Примечания[править | править вики-текст]

  1. Matsuda H, Taniguchi F, Hashimoto A (1997). «An approach to detection of protein structural motifs using an encoding scheme of backbone conformations». Proc. of 2nd Pacific Symposium on Biocomputing: 280–291.
  2. Weirauch et al. (2009). «Evaluation of methods for modeling transcription factor sequence specificity». Nature biotechnology 31: 126–134. DOI:10.1038/nbt.2486.
  3. Akiyama Y, Hosoya T, Poole AM, Hotta Y (1996). «The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals». Proc. Natl. Acad. Sci. U.S.A. 93 (25): 14912–14916. DOI:10.1073/pnas.93.25.14912. PMID 8962155.
  4. Siddharthan R, van Nimwegen E, Siggia ED (2004). «PhyloGibbs: A Gibbs sampler incorporating phylogenetic information». In Eskin E, Workman C (eds), RECOMB 2004 Satellite Workshop on Regulatory Genomics, LNBI 3318, 3041 (Springer-Verlag Berlin Heidelberg 2005).
  5. Siddharthan R, Siggia ED, van Nimwegen E (2005). «PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny». PLoS Comput Biol 1 (7): e67. DOI:10.1371/journal.pcbi.0010067. PMID 16477324.
  6. (8 October 1993) «Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment». Science 262 (5131): 208–214. DOI:10.1126/science.8211139. PMID 8211139.
  7. (15 July 2007) «A phylogenetic Gibbs sampler that yields centroid solutions for cis regulatory site prediction». Bioinformatics 23 (14): 1718–1727. DOI:10.1093/bioinformatics/btm241. PMID 17488758.

Литература[править | править вики-текст]

  • Balla S, Thapar V, Verma S, Luong T, Faghri T, Huang CH, Rajasekaran S, del Campo JJ, Shinn JH, Mohler WA, Maciejewski MW, Gryk MR, Piccirillo B, Schiller SR, Schiller MR. (2006) «Minimotif Miner: a tool for investigating protein function» Nature Methods Mar;3(3):175-7.

Ссылки[править | править вики-текст]

Методы поиска мотивов и базы данных[править | править вики-текст]