Мотив (молекулярная биология): различия между версиями

Содержимое удалено Содержимое добавлено

Линейный

Версия от 15:02, 1 апреля 2014

Мотив — это определенная последовательность нуклеотидов (в ДНК, РНК) или аминокислот (в белках), которые имеют существенное биологическое значение. Мотивы отвечают за специфическое узнавание какой либо последовательности стоящей после нее.

Мотивы в белках

Мотивы в белках позволяют найти домены, стоящие после них, участвующие или отвечающие за определенные свойства.

Поиск мотивов в белках с помощью регулярных выражений

Для обозначения мотива используют стандартные обозначения регулярных выражений:

1. Алфавит – совокупность отдельных символов, обозначающих определенную аминокислоту или набор аминокислот.

2. Строка из символов алфавита - обозначающая последовательность соответствующих аминокислот.

3. [ABC] - любая строка символов , взятых из алфавита в квадратных скобках соответствует любому из соответствующих аминокислот ; например [ABC] соответствует любому из аминокислот , из представленных: или a или b или c.

4. {ABC} - любая строка символов, взятых из алфавита соответствует любой аминокислоте кроме тех, что находятся в фигурных скобках; например {ABC} соответствует любой аминокислоте ,кроме: a, b и c.

Главная идея, лежащая в этих обозначениях - принцип соответствия: последовательность элементов паттерна совпадает с последовательностью аминокислот, если и только если последнюю последовательность можно разбить на подпоследовательности таким образом, что каждый элемент массива соответствует соответствующий подпоследовательности в свою очередь.

Например модель [AB] [ CDE ] F соответствует шести последовательности аминокислот: ACF, ADF, AEF, BCF, BDF, and BEF.

Поиск мотивов в белках с помощью PROSITE

PROSITE использует ИЮПАК для обозначения однобуквенных кодов аминокислот, за исключением, символа конкатенация, '-' , используемого между элементами паттерна.

PROSITE дополняет список выражений, описанных выше:

1. "х" - шаблон элемента обозначают любую аминокислоту.

2. '<' - шаблон ограничивается N-концом последовательности.

3. '>' - шаблон ограничивается C-концом последовательности.

Также символ ' >' может находиться внутри квадратных скобок, например: S [ T> ] соответствует как " ST " и " S >".

4. Если е - шаблон элемента , и m и n два целых десятичных числа и m < = n, то:

- е (m) эквивалентно повторению е ровно m раз
- е ( m, n) эквивалентно повторению е ровно k раз для любого целого k удовлетворяющей : m < = k < = n

Например:

х (3) эквивалентно Х-Х-Х.

х (2,4) соответствует любой последовательности, которая соответствует хх или ххх или хххх.

Мотив домена цинкового пальца: C-х (2,4)-C-х (3)-[LIVMFYWC]- х(8)-H-x(3,5)-H

Поиск мотивов в белках с помощью пространственной структуры белка

Данный метод предложен в работе Мацуды, и др.. 1997. ^[1]

Оперон E. coli репрессор лактозы LacI (PDB 1lcc chain A) и ген активатор катабализма (PDB 3gap chain A) оба имеют мотив: спираль-поворот-спираль, но их аминокислотные последовательности не очень схожи. Мацуда и др. разработал код, который они назвали «трехмерной код цепи», представляющий структуру белка в виде строки из писем. Эта схема кодирования показывает сходство между белками гораздо более отчетливо, чем аминокислотные последовательности:

Последовательность 3D код аминокислотной цепи

1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV

3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL

где "W" соответствует α-спирали, и "E" и "D" соответствует β-нити.

Мотивы в нуклеотидных последовательностях

Матрица чисел содержит частоту нуклеотида для каждой позиции в мотиве фиксированной длины. Есть два типа весовых матриц.

Позиционная матрица частот (PFM) записывает положение в зависимости от частоты каждого нуклеотида. PFM может быть экспериментально определен из SELEX эксперимента или обнаружен с помощью вычислительных инструментов, таких как MEME использующего скрытые модели Маркова.
Позиционная матрица весов (PWM) содержат веса для вычисления степени сходства нуклеотидных последовательностей. Можно указывать коэффициент специфичности в входящей последовательности мотива. Позиционная матрица весов использует для вычисления позиционную матрицу частот.

Пример позиционной матрицы частот из базы данных TRANSFAC для фактора транскрипции AP -1:

Позиция	A	C	G	T	Консенсус
01	6	2	8	1	G
02	3	5	9	0	G
03	0	0	0	17	T
04	0	0	17	0	G
05	17	0	0	0	A
06	0	16	0	1	C
07	3	2	3	9	T
08	4	7	2	4	C
09	9	6	1	1	A
10	4	3	7	3	G
11	6	3	1	7	T

Первая колонка определяет позицию, вторая колонка содержит частоту появлений нуклеотида А в этой позиции, третья колонка содержит частоту появлений нуклеотида C в этой позиции, четвертая колонка содержит частоту появлений нуклеотида G в этой позиции, пятая колонка содержит частоту появлений T в этой позиции, а последний столбец содержит консенсус для этой позиции. Обратите внимание, что суммы вхождений для A, C, G, и T для каждой строки должна быть равна, потому что позиционная матрица частот (PFM) происходит на основе объединения нескольких последовательностей.

Поиск мотивов

Поиск мотивов de novo

Существует ряд программ, которые учитывают несколько входных последовательностей и пытаются определить кандидата(ов) в мотивы.

Одной из таких программ является MEME, которая генерирует статистическую информацию по каждому кандидату (н-р: частоту встречаемости группы нуклеотидов (паттерны)). Другие алгоритмы используют программы AlignAce, Amadeus, CisModule, FIRE, Gibbs Motif Sampler, PhyloGibbs, SeSiMCMC, ChIPMunk and Weeder. SCOPE, MotifVoter и MProfiler используют в ходе работы сразу несколько алгоритмов поиска.

Поиск мотива строится на комбинаторной основе, то есть мотивы обнаруживаются методом перебора. В настоящее время существует более 100 публикаций с подобными алгоритмами; Weirauch и др. оценили множество алгоритмов ^[2]

Поиск мотивов через эволюционные отношения

Мотивы были обнаружены при изучении сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, GCM(glial cells missing) гена человека, мыши и D. melanogaster, Akiyama^[3] обнаружил паттерн GCM мотив. Он охватывает около 150 аминокислотных остатка:

WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN

Где . – любая аминокислота или гэп

• - обозначает один член близко родственного семейства аминокислот.

PhyloGibbs^[4]^[5] и Gibbs Motif Sampler^[6]^[7] – являются алгоритмами для обнаружения мотивов на основе филогенетических отношений.

Внешние ссылки

Методы поиска мотивов и базы данных

kmerHMM: a Hidden Markov Model method for motif discovery on protein binding microarray data
PMS or [1] — for discovery of de novo DNA/Protein motifs (from University of Connecticut)
Minimotif Miner — for discovery of short contiguous motifs of known function (from University of Nevada Las Vegas and University of Connecticut)
Amadeus and Allegro motif finding platforms (from Tel-Aviv University)
PROSITE — database of protein families and domains
Database and Analysis Suite for Quadruplex forming motifs in Nucleotide Sequences
MEME Suite of motif-based sequence analysis tools
TRANSFAC — a commercial (limited public access) database for transcription factor motifs
eMotif (from Stanford University)
HOCOMOCO — Homo Sapiens Comprehensive Model Collection of transcription factor binding models obtained by careful integration of data from different sources
Bioprospector (from Stanford University)
FIRE motif discovery approach (from the Tavazoie lab at Princeton)
Cis-analysis — list of and comments on other programs useful for discovering cis-regulatory element motifs
NCBI Home Page — NIH's National Library of Medicine NCBI (National Center for Biotechnology Information) link to a tremendous number of resources including sequence analysis and motif discovery.
Transcriptional Regulation Wiki
Wikiomic Sequence motifs page
XXmotif open-source software for eXhaustive, weight matriX-based motif discovery in nucleotide sequences
MProfiler: an ensemble method for DNA motif finding

Поиск мотивов с помощью веб-приложений

BLOCK-maker — finds conserved blocks in a group of two or more unaligned protein sequences
ChIPMunk — is a fast heuristic DNA motif digger based a on greedy approach accompanied by bootstrapping
ELM — functional site prediction of short linear motifs
FIRE — finds DNA and RNA motifs from expression data using the mutual information
Gibbs Motif Sampler — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
GIMSAN — motif-finder with biologically realistic and reliable statistical significance analysis
Improbizer — searches for motifs in DNA or RNA sequences that occur with improbable frequency
MEME Suite — discover motifs (highly conserved regions) in groups of related DNA or protein sequences
Minimotif Miner — public interface to the minimotif miner database which correlates short sequence amino acids to their biological function
ModuleMaster — allows to search for motifs by pre-defined or custom PWMs
MotifVoter — variance based ensemble method for discovery of binding sites
PhyloGibbs — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
PLACE — database of plant cis-acting regulatory DNA elements
PMS or [2] — free online motif discovery tools for searching DNA and RNA overrepresented conserved motifs
RSAT — de novo detection of regulatory signals in non-coding sequences
SCOPE — an ensemble of programs aimed at identifying novel cis-regulatory elements from groups of upstream sequences
SeSiMCMC — algorithm finds DNA motifs of unknown length and complicated structure, such as direct repeats or palindromes with variable spacers in the middle in a set of unaligned DNA sequences
TEIRESIS — search for short sequence motifs in Proteins
WebMotifs — use different programs to search for DNA-sequence motifs, and to easily combine and evaluate the results
XXmotif web server for eXhaustive, weight matriX-based motif discovery in nucleotide sequences

Визуализация и обзор мотивов

MochiView — a genome browser supporting import of motif libraries and containing tools for motif discovery, visualization, and analysis
Seq2Logo — a sequence logo generator for construction and visualization of amino acid binding motifs and sequence profiles, including features for sequence weighting, pseudo counts and two-sided representation of amino acid enrichment and depletion

Примечания

↑ Matsuda H, Taniguchi F, Hashimoto A (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Proc. of 2nd Pacific Symposium on Biocomputing: 280—291.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Weirauch; et al. (2009). "Evaluation of methods for modeling transcription factor sequence specificity". Nature biotechnology. 31: 126—134. doi:10.1038/nbt.2486. {{cite journal}}: Явное указание et al. в: |author= (справка)
↑ Akiyama Y, Hosoya T, Poole AM, Hotta Y (1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proc. Natl. Acad. Sci. U.S.A. 93 (25): 14912—14916. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Siddharthan R, van Nimwegen E, Siggia ED (2004). "PhyloGibbs: A Gibbs sampler incorporating phylogenetic information". In Eskin E, Workman C (eds), RECOMB 2004 Satellite Workshop on Regulatory Genomics, LNBI 3318, 3041 (Springer-Verlag Berlin Heidelberg 2005).{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny". PLoS Comput Biol. 1 (7): e67. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
↑ Lawrence, Charles E.; Altschul, Stephen F.; Boguski, Mark S.; Liu, Jun S.; Neuwald, Andrew F.; Wootton, John C. (8 October 1993). "Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment". Science. 262 (5131): 208—214. doi:10.1126/science.8211139. PMID 8211139.
↑ Newberg, Lee A.; Thompson, William A.; Conlan, Sean; Smith, Thomas M.; McCue, Lee Ann; Lawrence, Charles E. (15 July 2007). "A phylogenetic Gibbs sampler that yields centroid solutions for cis regulatory site prediction". Bioinformatics. 23 (14): 1718—1727. doi:10.1093/bioinformatics/btm241. PMC 2268014. PMID 17488758.

Шаблон:Link FA

[Matsuda1997-1] Matsuda H, Taniguchi F, Hashimoto A (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Proc. of 2nd Pacific Symposium on Biocomputing: 280—291.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Weirauch2013-2] Weirauch; et al. (2009). "Evaluation of methods for modeling transcription factor sequence specificity". Nature biotechnology. 31: 126—134. doi:10.1038/nbt.2486. {{cite journal}}: Явное указание et al. в: |author= (справка)

[Akiyama1996-3] Akiyama Y, Hosoya T, Poole AM, Hotta Y (1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proc. Natl. Acad. Sci. U.S.A. 93 (25): 14912—14916. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Siddharthan2004-4] Siddharthan R, van Nimwegen E, Siggia ED (2004). "PhyloGibbs: A Gibbs sampler incorporating phylogenetic information". In Eskin E, Workman C (eds), RECOMB 2004 Satellite Workshop on Regulatory Genomics, LNBI 3318, 3041 (Springer-Verlag Berlin Heidelberg 2005).{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Siddharthan2005-5] Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny". PLoS Comput Biol. 1 (7): e67. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[Lawrence1993-6] Lawrence, Charles E.; Altschul, Stephen F.; Boguski, Mark S.; Liu, Jun S.; Neuwald, Andrew F.; Wootton, John C. (8 October 1993). "Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment". Science. 262 (5131): 208—214. doi:10.1126/science.8211139. PMID 8211139.

[Newberg2007-7] Newberg, Lee A.; Thompson, William A.; Conlan, Sean; Smith, Thomas M.; McCue, Lee Ann; Lawrence, Charles E. (15 July 2007). "A phylogenetic Gibbs sampler that yields centroid solutions for cis regulatory site prediction". Bioinformatics. 23 (14): 1718—1727. doi:10.1093/bioinformatics/btm241. PMC 2268014. PMID 17488758.

[1]

[2]

[3]

[4]

[5]

[6]

[7]