Мотив (молекулярная биология): различия между версиями
ARustam (обсуждение | вклад) ← Новая страница: «{{В инкубаторе}} '''Мотив''' — это определенная последовательность Нуклеотиды |…» |
(нет различий)
|
Версия от 15:02, 1 апреля 2014
Эту статью Инкубатора предлагается удалить. |
Мотив — это определенная последовательность нуклеотидов (в ДНК, РНК) или аминокислот (в белках), которые имеют существенное биологическое значение. Мотивы отвечают за специфическое узнавание какой либо последовательности стоящей после нее.
Мотивы в белках
Мотивы в белках позволяют найти домены, стоящие после них, участвующие или отвечающие за определенные свойства.
Поиск мотивов в белках с помощью регулярных выражений
Для обозначения мотива используют стандартные обозначения регулярных выражений:
1. Алфавит – совокупность отдельных символов, обозначающих определенную аминокислоту или набор аминокислот.
2. Строка из символов алфавита - обозначающая последовательность соответствующих аминокислот.
3. [ABC] - любая строка символов , взятых из алфавита в квадратных скобках соответствует любому из соответствующих аминокислот ; например [ABC] соответствует любому из аминокислот , из представленных: или a или b или c.
4. {ABC} - любая строка символов, взятых из алфавита соответствует любой аминокислоте кроме тех, что находятся в фигурных скобках; например {ABC} соответствует любой аминокислоте ,кроме: a, b и c.
Главная идея, лежащая в этих обозначениях - принцип соответствия: последовательность элементов паттерна совпадает с последовательностью аминокислот, если и только если последнюю последовательность можно разбить на подпоследовательности таким образом, что каждый элемент массива соответствует соответствующий подпоследовательности в свою очередь.
Например модель [AB] [ CDE ] F соответствует шести последовательности аминокислот: ACF, ADF, AEF, BCF, BDF, and BEF.
Поиск мотивов в белках с помощью PROSITE
PROSITE использует ИЮПАК для обозначения однобуквенных кодов аминокислот, за исключением, символа конкатенация, '-' , используемого между элементами паттерна.
PROSITE дополняет список выражений, описанных выше:
1. "х" - шаблон элемента обозначают любую аминокислоту.
2. '<' - шаблон ограничивается N-концом последовательности.
3. '>' - шаблон ограничивается C-концом последовательности.
Также символ ' >' может находиться внутри квадратных скобок, например: S [ T> ] соответствует как " ST " и " S >".
4. Если е - шаблон элемента , и m и n два целых десятичных числа и m < = n, то:
- е (m) эквивалентно повторению е ровно m раз - е ( m, n) эквивалентно повторению е ровно k раз для любого целого k удовлетворяющей : m < = k < = n
Например:
х (3) эквивалентно Х-Х-Х.
х (2,4) соответствует любой последовательности, которая соответствует хх или ххх или хххх.
Мотив домена цинкового пальца: C-х (2,4)-C-х (3)-[LIVMFYWC]- х(8)-H-x(3,5)-H
Поиск мотивов в белках с помощью пространственной структуры белка
Данный метод предложен в работе Мацуды, и др.. 1997. [1]
Оперон E. coli репрессор лактозы LacI (PDB 1lcc chain A) и ген активатор катабализма (PDB 3gap chain A) оба имеют мотив: спираль-поворот-спираль, но их аминокислотные последовательности не очень схожи. Мацуда и др. разработал код, который они назвали «трехмерной код цепи», представляющий структуру белка в виде строки из писем. Эта схема кодирования показывает сходство между белками гораздо более отчетливо, чем аминокислотные последовательности:
Последовательность 3D код аминокислотной цепи
1lccA TWWWWWWWKCLKWWWWWWG LYDVAEYAGVSYQTVSRVV
3gapA KWWWWWWGKCFKWWWWWWW RQEIGQIVGCSRETVGRIL
где "W" соответствует α-спирали, и "E" и "D" соответствует β-нити.
Мотивы в нуклеотидных последовательностях
Матрица чисел содержит частоту нуклеотида для каждой позиции в мотиве фиксированной длины. Есть два типа весовых матриц.
- Позиционная матрица частот (PFM) записывает положение в зависимости от частоты каждого нуклеотида. PFM может быть экспериментально определен из SELEX эксперимента или обнаружен с помощью вычислительных инструментов, таких как MEME использующего скрытые модели Маркова.
- Позиционная матрица весов (PWM) содержат веса для вычисления степени сходства нуклеотидных последовательностей. Можно указывать коэффициент специфичности в входящей последовательности мотива. Позиционная матрица весов использует для вычисления позиционную матрицу частот.
Пример позиционной матрицы частот из базы данных TRANSFAC для фактора транскрипции AP -1:
Позиция | A | C | G | T | Консенсус |
---|---|---|---|---|---|
01 | 6 | 2 | 8 | 1 | G |
02 | 3 | 5 | 9 | 0 | G |
03 | 0 | 0 | 0 | 17 | T |
04 | 0 | 0 | 17 | 0 | G |
05 | 17 | 0 | 0 | 0 | A |
06 | 0 | 16 | 0 | 1 | C |
07 | 3 | 2 | 3 | 9 | T |
08 | 4 | 7 | 2 | 4 | C |
09 | 9 | 6 | 1 | 1 | A |
10 | 4 | 3 | 7 | 3 | G |
11 | 6 | 3 | 1 | 7 | T |
Первая колонка определяет позицию, вторая колонка содержит частоту появлений нуклеотида А в этой позиции, третья колонка содержит частоту появлений нуклеотида C в этой позиции, четвертая колонка содержит частоту появлений нуклеотида G в этой позиции, пятая колонка содержит частоту появлений T в этой позиции, а последний столбец содержит консенсус для этой позиции. Обратите внимание, что суммы вхождений для A, C, G, и T для каждой строки должна быть равна, потому что позиционная матрица частот (PFM) происходит на основе объединения нескольких последовательностей.
Поиск мотивов
Поиск мотивов de novo
Существует ряд программ, которые учитывают несколько входных последовательностей и пытаются определить кандидата(ов) в мотивы.
Одной из таких программ является MEME, которая генерирует статистическую информацию по каждому кандидату (н-р: частоту встречаемости группы нуклеотидов (паттерны)). Другие алгоритмы используют программы AlignAce, Amadeus, CisModule, FIRE, Gibbs Motif Sampler, PhyloGibbs, SeSiMCMC, ChIPMunk and Weeder. SCOPE, MotifVoter и MProfiler используют в ходе работы сразу несколько алгоритмов поиска.
Поиск мотива строится на комбинаторной основе, то есть мотивы обнаруживаются методом перебора. В настоящее время существует более 100 публикаций с подобными алгоритмами; Weirauch и др. оценили множество алгоритмов [2]
Поиск мотивов через эволюционные отношения
Мотивы были обнаружены при изучении сходных генов у разных видов. Например, выравнивая аминокислотные последовательности, GCM(glial cells missing) гена человека, мыши и D. melanogaster, Akiyama[3] обнаружил паттерн GCM мотив. Он охватывает около 150 аминокислотных остатка:
WDIND*.*P..*...D.F.*W***.**.IYS**...A.*H*S*WAMRNTNNHN
Где . – любая аминокислота или гэп
• - обозначает один член близко родственного семейства аминокислот.
PhyloGibbs[4][5] и Gibbs Motif Sampler[6][7] – являются алгоритмами для обнаружения мотивов на основе филогенетических отношений.
Внешние ссылки
Методы поиска мотивов и базы данных
- kmerHMM: a Hidden Markov Model method for motif discovery on protein binding microarray data
- PMS or [1] — for discovery of de novo DNA/Protein motifs (from University of Connecticut)
- Minimotif Miner — for discovery of short contiguous motifs of known function (from University of Nevada Las Vegas and University of Connecticut)
- Amadeus and Allegro motif finding platforms (from Tel-Aviv University)
- PROSITE — database of protein families and domains
- Database and Analysis Suite for Quadruplex forming motifs in Nucleotide Sequences
- MEME Suite of motif-based sequence analysis tools
- TRANSFAC — a commercial (limited public access) database for transcription factor motifs
- eMotif (from Stanford University)
- HOCOMOCO — Homo Sapiens Comprehensive Model Collection of transcription factor binding models obtained by careful integration of data from different sources
- Bioprospector (from Stanford University)
- FIRE motif discovery approach (from the Tavazoie lab at Princeton)
- Cis-analysis — list of and comments on other programs useful for discovering cis-regulatory element motifs
- NCBI Home Page — NIH's National Library of Medicine NCBI (National Center for Biotechnology Information) link to a tremendous number of resources including sequence analysis and motif discovery.
- Transcriptional Regulation Wiki
- Wikiomic Sequence motifs page
- XXmotif open-source software for eXhaustive, weight matriX-based motif discovery in nucleotide sequences
- MProfiler: an ensemble method for DNA motif finding
Поиск мотивов с помощью веб-приложений
- BLOCK-maker — finds conserved blocks in a group of two or more unaligned protein sequences
- ChIPMunk — is a fast heuristic DNA motif digger based a on greedy approach accompanied by bootstrapping
- ELM — functional site prediction of short linear motifs
- FIRE — finds DNA and RNA motifs from expression data using the mutual information
- Gibbs Motif Sampler — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
- GIMSAN — motif-finder with biologically realistic and reliable statistical significance analysis
- Improbizer — searches for motifs in DNA or RNA sequences that occur with improbable frequency
- MEME Suite — discover motifs (highly conserved regions) in groups of related DNA or protein sequences
- Minimotif Miner — public interface to the minimotif miner database which correlates short sequence amino acids to their biological function
- ModuleMaster — allows to search for motifs by pre-defined or custom PWMs
- MotifVoter — variance based ensemble method for discovery of binding sites
- PhyloGibbs — discovers overrepresented conserved motifs in an aligned set of orthologous sequences
- PLACE — database of plant cis-acting regulatory DNA elements
- PMS or [2] — free online motif discovery tools for searching DNA and RNA overrepresented conserved motifs
- RSAT — de novo detection of regulatory signals in non-coding sequences
- SCOPE — an ensemble of programs aimed at identifying novel cis-regulatory elements from groups of upstream sequences
- SeSiMCMC — algorithm finds DNA motifs of unknown length and complicated structure, such as direct repeats or palindromes with variable spacers in the middle in a set of unaligned DNA sequences
- TEIRESIS — search for short sequence motifs in Proteins
- WebMotifs — use different programs to search for DNA-sequence motifs, and to easily combine and evaluate the results
- XXmotif web server for eXhaustive, weight matriX-based motif discovery in nucleotide sequences
Визуализация и обзор мотивов
- MochiView — a genome browser supporting import of motif libraries and containing tools for motif discovery, visualization, and analysis
- Seq2Logo — a sequence logo generator for construction and visualization of amino acid binding motifs and sequence profiles, including features for sequence weighting, pseudo counts and two-sided representation of amino acid enrichment and depletion
Примечания
- ↑ Matsuda H, Taniguchi F, Hashimoto A (1997). "An approach to detection of protein structural motifs using an encoding scheme of backbone conformations" (PDF). Proc. of 2nd Pacific Symposium on Biocomputing: 280—291.
{{cite journal}}
: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) - ↑ Weirauch; et al. (2009). "Evaluation of methods for modeling transcription factor sequence specificity". Nature biotechnology. 31: 126—134. doi:10.1038/nbt.2486.
{{cite journal}}
: Явное указание et al. в:|author=
(справка) - ↑ Akiyama Y, Hosoya T, Poole AM, Hotta Y (1996). "The gcm-motif: a novel DNA-binding motif conserved in Drosophila and mammals". Proc. Natl. Acad. Sci. U.S.A. 93 (25): 14912—14916. doi:10.1073/pnas.93.25.14912. PMC 26236. PMID 8962155.
{{cite journal}}
: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) - ↑ Siddharthan R, van Nimwegen E, Siggia ED (2004). "PhyloGibbs: A Gibbs sampler incorporating phylogenetic information". In Eskin E, Workman C (eds), RECOMB 2004 Satellite Workshop on Regulatory Genomics, LNBI 3318, 3041 (Springer-Verlag Berlin Heidelberg 2005).
{{cite journal}}
: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) - ↑ Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny". PLoS Comput Biol. 1 (7): e67. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.
{{cite journal}}
: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка) Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка) - ↑ Lawrence, Charles E.; Altschul, Stephen F.; Boguski, Mark S.; Liu, Jun S.; Neuwald, Andrew F.; Wootton, John C. (8 October 1993). "Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment". Science. 262 (5131): 208—214. doi:10.1126/science.8211139. PMID 8211139.
- ↑ Newberg, Lee A.; Thompson, William A.; Conlan, Sean; Smith, Thomas M.; McCue, Lee Ann; Lawrence, Charles E. (15 July 2007). "A phylogenetic Gibbs sampler that yields centroid solutions for cis regulatory site prediction". Bioinformatics. 23 (14): 1718—1727. doi:10.1093/bioinformatics/btm241. PMC 2268014. PMID 17488758.