Позиционная весовая матрица: различия между версиями

[непроверенная версия]

Содержимое удалено Содержимое добавлено

Линейный

Версия от 22:29, 29 апреля 2015

Позиционная матрица весов (ПМВ), также известная как позиционная-специфичная весовая матрица применяется для поиска мотивов в биологических последовательностях.
ПМВ может быть построена на основе множественного выравнивания последовательностей, которые, как предполагается, объединены общей функцией. ПМВ являются основным компонентом современных алгоритмов для обнаружения новых мотивов.

История вопроса

Позиционная весовая матрица была представлена американским генетиком Гэри Стормо и его коллегами в 1982^[1] году как альтернативный способ представления консенсусных последовательностей. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях.^[2] Впервые ПМВ была использована для поиска сайтов инициации трансляции в РНК. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, был предложен перцептронный алгоритм польско-американским математиком А. Эренфойхтом. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.
Преимущества ПМВ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях.^[3]^[4]

Создание ПМВ

ПМВ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива.
Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее ПМЧ преобразуется в позиционную вероятностную матрицу (ПВМ) путем нормировки на общее число последовательностей в выравнивании. ПВМ показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.
Каждый элемент вероятностной матрицы $M_{k,j}$ равен вероятности встретить букву $k$ в позиции $j$ в исходном выравнивании и высчитывается по формуле:
${\textstyle M_{k,j}={\frac {1}{N}}\sum _{i=1}^{N}I\left({X_{i,j}=k}\right),}$
где i $\in$ (1,…,N) — номер последовательности, j $\in$ (1,…,l) — длина мотива, $k$ это набор букв в алфавите, а $I$ — индикатор, вычисляемый по формуле:
_{${\textstyle {I\left(a=k\right)}=\left\{{\begin{matrix}1,&a=k,\\0,&a\neq k,\end{matrix}}\right.}$}
Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:

`GAGGTAAAC TCCGTAAGT CAGGTTGGA ACAGTCAGT TAGGTCATT TAGGTACTG ATGGTAACT CAGGTATAC TGTGTGAGT AAGGTAAGT`

соответственно позиционная матрица частот:

{\textstyle F={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}3&6&1&0&0&6&7&2&1\\2&2&1&0&0&2&1&1&2\\1&1&7&10&0&1&1&5&1\\4&1&1&0&10&1&1&2&6\end{bmatrix}}.}

и, следовательно, полученная после деления на число последовательностей вероятностная матрица:

{\textstyle P={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.3&0.6&0.1&0.0&0.0&0.6&0.7&0.2&0.1\\0.2&0.2&0.1&0.0&0.0&0.2&0.1&0.1&0.2\\0.1&0.1&0.7&1.0&0.0&0.1&0.1&0.5&0.1\\0.4&0.1&0.1&0.0&1.0&0.1&0.1&0.2&0.6\end{bmatrix}}.}

^[5]

В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.
С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность S. Так как столбцы матрицы предполагаются независимыми друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в ее позиции, то есть:
${\textstyle p(S\vert M)=\prod _{i=0}^{l}M\left(S_{i,j}\right),}$
где $S_{j}$ — буква последовательности S в позиции j.
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей ПВМ M , приведенной выше, может быть рассчитана:
$p(S\vert M)=0.1\times 0.6\times 0.7\times 1.0\times 1.0\times 0.6\times 0.7\times 0.2\times 0.2=0.0007056.$
Для расчета ПВМ из небольшого массива данных часто применяются псевдоотсчеты. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности.^[6] Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдоотчетом, чтобы сделать его отличным от нуля. По правилу Лапласа к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдоотсчетов, например, использующие смеси Дирихле или матрицы замен.
В приведенном выше примере, построенном без применения псевдоотсчетов, любая последовательность, которая не имеет G в четвертой позиции или T в пятой позиции, будет иметь вероятность 0.
Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учетом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение $b_{k}=1/\vert k\vert$ для всех символов в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле:

M_{k,j}=\mathrm {log} \;(M_{k,j}/b_{k}).

Применяя эту трансформацию с вероятностной матрицей из примера (без учета псевдоотсчетов) получаем:

M={\begin{matrix}A\\C\\G\\T\end{matrix}}{\begin{bmatrix}0.18&0.87&-0.91&-\infty &-\infty &0.87&1.02&-0.22&-0.91\\-0.22&-0.22&-0.91&-\infty &-\infty &-0.22&-0.91&-0.91&-0.22\\-0.91&-0.91&1.02&1.38&-\infty &-0.91&-0.91&0.69&-0.91\\0.47&-0.91&-0.91&-\infty &1.38&-0.91&-0.91&-0.22&0.87\end{bmatrix}}.

В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в ее позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем меньше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.

Информативность ПМB

Информационное содержание ПМВ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения. Собственная информация для каждого символа i в позиции j мотива, равна:

-\log(p_{i,j})

Ожидаемая (средняя) собственная информация для этого элемента равна:

-p_{i,j}\cdot \log(p_{i,j})

Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:

\textstyle -\sum _{i,j}p_{i,j}\cdot \log(p_{i,j}),

где

p_{b}

— фоновая частота для данного символа.

Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией.

Использование ПМB

ПМВ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH^[7] способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков.^[8] Помимо поиска функциональных доменов, с помощью ПМВ можно предсказывать различные свойства белков, такие как вторичная структура,^[9]^[10]^[11] их доступность для растворителя,^[12]^[13]контакты в структуре.^[14] Помимо поиска мотивов, ПМВ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПМВ, с помощью которых можно определять принадлежность интересующего белка к известным семействам.[1] Также совершенствуются методы построения и использования ПМВ. Например, был разработан способ создания ПМВ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных. Кроме того, существует подход с использованием множественных ПМВ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.^[15]

Примечания

↑ Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej (1982). "Use of the 'Perceptron' algorithm to distinguish translational initiation sites in E. coli". Nucleic Acids Research. 10 (9): 2997—3011. doi:10.1093/nar/10.9.2997.
↑ Stormo, G. D. (1 January 2000). "DNA binding sites: representation and discovery". Bioinformatics. 16 (1): 16—23. doi:10.1093/bioinformatics/16.1.16. PMID 10812473.
↑ Sinha, S. (27 July 2006). "On counting position weight matrix matches in a sequence, with application to discriminative motif finding". Bioinformatics. 22 (14): e454—e463. doi:10.1093/bioinformatics/btl227.
↑ Xia, Xuhua (2012). "Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction". Scientifica. 2012: 1—15. doi:10.6064/2012/917540.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
↑ Guigo, Roderic An Introduction to Position Specific Scoring Matrices (неопр.). http://bioinformatica.upf.edu.
↑ Nishida, K.; Frith, M. C.; Nakai, K. (23 December 2008). "Pseudocounts for transcription factor binding sites". Nucleic Acids Research. 37 (3): 939—944. doi:10.1093/nar/gkn1019.
↑ Kel AE; et al. (2003). "MATCHTM: a tool for searching transcription factor binding sites in DNA sequences". Nucleic Acids Research. 31 (13): 3576—3579. doi:10.1093/nar/gkg585. PMC 169193. PMID 12824369. {{cite journal}}: Явное указание et al. в: |author= (справка)
↑ Beckstette M.; et al. (2006). "Fast index based algorithms and software for matching position specific scoring matrices". BMC Bioinformatics. 7: 389. doi:10.1186/1471-2105-7-389. PMC 1635428. PMID 1635428. {{cite journal}}: Явное указание et al. в: |author= (справка)Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
↑ Jones D. T. (1999). "Protein secondary structure prediction based on position-specific scoring matrices". J Mol Biol. 292: 195–202. PMID 10493868.
↑ Pollastri, G. & McLysaght, A. (2005). "Porter: a new, accurate server for protein secondary structure prediction". Bioinformatics. 21: 1719–1720. PMID 15585524.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Rost, B. (2001). "Review: protein secondary structure prediction continues to rise". J Struct Biol. 134: 204–218. PMID 11551180.
↑ Adamczak, R.; Porollo, A. & Meller, J. (2004). "Accurate prediction of solvent accessibility using neural networks-based regression". Proteins. 56: 753–767. PMID 15281128.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. (2007). "Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information". BMC Bioinformatics. 8: 201. PMC 1913928. PMID 17570843.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. (2001). "Improved prediction of the number of residue contacts in proteins by recurrent neural networks". Bioinformatics. 17: Suppl 1 : S234-S242. PMID 11473014.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)
↑ Shandar Ahmad and Akinori Sarai (2005). "PSSM-based prediction of DNA binding sites in proteins". BMC Bioinformatics. 6: 33. PMC 550660. PMID 15720719.

[Stormo1982-1] Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej (1982). "Use of the 'Perceptron' algorithm to distinguish translational initiation sites in E. coli". Nucleic Acids Research. 10 (9): 2997—3011. doi:10.1093/nar/10.9.2997.

[Stormo1990-2] Stormo, G. D. (1 January 2000). "DNA binding sites: representation and discovery". Bioinformatics. 16 (1): 16—23. doi:10.1093/bioinformatics/16.1.16. PMID 10812473.

[3] Sinha, S. (27 July 2006). "On counting position weight matrix matches in a sequence, with application to discriminative motif finding". Bioinformatics. 22 (14): e454—e463. doi:10.1093/bioinformatics/btl227.

[4] Xia, Xuhua (2012). "Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction". Scientifica. 2012: 1—15. doi:10.6064/2012/917540.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[guigo-pssms-5] Guigo, Roderic An Introduction to Position Specific Scoring Matrices (неопр.). http://bioinformatica.upf.edu.

[6] Nishida, K.; Frith, M. C.; Nakai, K. (23 December 2008). "Pseudocounts for transcription factor binding sites". Nucleic Acids Research. 37 (3): 939—944. doi:10.1093/nar/gkn1019.

[Kel2003-7] Kel AE; et al. (2003). "MATCHTM: a tool for searching transcription factor binding sites in DNA sequences". Nucleic Acids Research. 31 (13): 3576—3579. doi:10.1093/nar/gkg585. PMC 169193. PMID 12824369. {{cite journal}}: Явное указание et al. в: |author= (справка)

[Becks2006-8] Beckstette M.; et al. (2006). "Fast index based algorithms and software for matching position specific scoring matrices". BMC Bioinformatics. 7: 389. doi:10.1186/1471-2105-7-389. PMC 1635428. PMID 1635428. {{cite journal}}: Явное указание et al. в: |author= (справка)Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[Jones1999-9] Jones D. T. (1999). "Protein secondary structure prediction based on position-specific scoring matrices". J Mol Biol. 292: 195–202. PMID 10493868.

[Poll2005-10] Pollastri, G. & McLysaght, A. (2005). "Porter: a new, accurate server for protein secondary structure prediction". Bioinformatics. 21: 1719–1720. PMID 15585524.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Rost2001-11] Rost, B. (2001). "Review: protein secondary structure prediction continues to rise". J Struct Biol. 134: 204–218. PMID 11551180.

[Adam2004-12] Adamczak, R.; Porollo, A. & Meller, J. (2004). "Accurate prediction of solvent accessibility using neural networks-based regression". Proteins. 56: 753–767. PMID 15281128.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Poll2007-13] Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. (2007). "Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information". BMC Bioinformatics. 8: 201. PMC 1913928. PMID 17570843.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Poll2001-14] Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. (2001). "Improved prediction of the number of residue contacts in proteins by recurrent neural networks". Bioinformatics. 17: Suppl 1 : S234-S242. PMID 11473014.{{cite journal}}: Википедия:Обслуживание CS1 (множественные имена: authors list) (ссылка)

[Shan2005-15] Shandar Ahmad and Akinori Sarai (2005). "PSSM-based prediction of DNA binding sites in proteins". BMC Bioinformatics. 6: 33. PMC 550660. PMID 15720719.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

@@ Строка 3: / Строка 3: @@
 == История вопроса ==
-Позиционная весовая матрица была представлена американским генетиком [[:en:Gary Stormo|Гэри Стормо]] и его коллегами в 1982[http://nar.oxfordjournals.org/content/10/9/2997] году как альтернативный способ представления [[:en:Consensus sequence|консенсусных последовательностей]]. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях. Впервые ПМВ была использована для поиска сайтов инициации трансляции в [[РНК]]. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, был предложен [[Перцептрон|перцептронный]] алгоритм польско-американским математиком [[:en:Andrzej Ehrenfeucht|А. Эренфойхтом]]. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись [[Матрица (математика)|матрица]] и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.<br />
+Позиционная весовая матрица была представлена американским генетиком [[:en:Gary Stormo|Гэри Стормо]] и его коллегами в 1982<ref name="Stormo1982">{{cite journal|last=Stormo|first=Gary D.|author2=Schneider, Thomas D. |author3=Gold, Larry |author4= Ehrenfeucht, Andrzej |title=Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in ''E. coli''|journal=[[:en:Nucleic Acids Research|Nucleic Acids Research]]|year=1982|volume=10|issue=9|pages=2997–3011|doi=10.1093/nar/10.9.2997}}</ref> году как альтернативный способ представления [[:en:Consensus sequence|консенсусных последовательностей]]. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях.<ref name="Stormo1990">{{cite journal|last=Stormo|first=G. D.|title=DNA binding sites: representation and discovery|journal=Bioinformatics|date=1 January 2000|volume=16|issue=1|pages=16–23|doi=10.1093/bioinformatics/16.1.16|pmid=10812473}}</ref> Впервые ПМВ была использована для поиска сайтов инициации трансляции в [[РНК]]. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, был предложен [[Перцептрон|перцептронный]] алгоритм польско-американским математиком [[:en:Andrzej Ehrenfeucht|А. Эренфойхтом]]. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись [[Матрица (математика)|матрица]] и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.<br />
-Преимущества ПМВ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях.
+Преимущества ПМВ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях.<ref>{{cite journal|last=Sinha|first=S.|title=On counting position weight matrix matches in a sequence, with application to discriminative motif finding|journal=Bioinformatics|date=27 July 2006|volume=22|issue=14|pages=e454–e463|doi=10.1093/bioinformatics/btl227}}</ref><ref>{{cite journal|last=Xia|first=Xuhua|title=Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction|journal=Scientifica|year=2012|volume=2012|pages=1–15|doi=10.6064/2012/917540}}</ref>
 == Создание ПМВ ==
@@ Строка 59: / Строка 59: @@
 .4 & 0.1 & 0.1 & 0.0 & 1.0 & 0.1 & 0.1 & 0.2 & 0.6
 \end{bmatrix}.
+</math><br /><ref name=guigo-pssms>{{cite web|last=Guigo|first=Roderic|title=An Introduction to Position Specific Scoring Matrices|url=http://bioinformatica.upf.edu/T12/MakeProfile.html|work=http://bioinformatica.upf.edu}}</ref>
-</math><br />
 В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.<br />
 С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность S. Так как столбцы матрицы предполагаются [[Независимость (теория вероятностей)|независимыми]] друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в ее позиции, то есть:<br />
@@ Строка 66: / Строка 66: @@
 Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей ПВМ M , приведенной выше, может быть рассчитана:<br />
 <math>p(S\vert M) = 0.1 \times 0.6 \times 0.7 \times 1.0 \times 1.0 \times 0.6 \times 0.7 \times 0.2 \times 0.2 = 0.0007056.</math><br />
-Для расчета ПВМ из небольшого массива данных часто применяются [[:en:Pseudocount|псевдоотсчеты]]. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности. Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдоотчетом, чтобы сделать его отличным от нуля. По [[:en:Rule of succession|правилу Лапласа]] к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдоотсчетов, например, использующие [[Латентное размещение Дирихле|смеси Дирихле]] или [[:en:Substitution matrix|матрицы замен]].<br />
+Для расчета ПВМ из небольшого массива данных часто применяются [[:en:Pseudocount|псевдоотсчеты]]. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности.<ref>{{cite journal|last=Nishida|first=K.|author2=Frith, M. C. |author3=Nakai, K. |title=Pseudocounts for transcription factor binding sites|journal=Nucleic Acids Research|date=23 December 2008|volume=37|issue=3|pages=939–944|doi=10.1093/nar/gkn1019}}</ref> Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдоотчетом, чтобы сделать его отличным от нуля. По [[:en:Rule of succession|правилу Лапласа]] к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдоотсчетов, например, использующие [[Латентное размещение Дирихле|смеси Дирихле]] или [[:en:Substitution matrix|матрицы замен]].<br />
 В приведенном выше примере, построенном без применения псевдоотсчетов, любая последовательность, которая не имеет G в четвертой позиции или T в пятой позиции, будет иметь вероятность 0.<br />
 Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как [[Функция правдоподобия|логарифмическое отношение правдоподобия]] с учетом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение <math>b_k = 1/\vert k \vert</math> для всех символов в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле:
@@ Строка 96: / Строка 96: @@
 == Использование ПМB ==
-ПМВ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков. Помимо поиска функциональных доменов, с помощью ПМВ можно предсказывать различные свойства белков, такие как вторичная структура, их доступность для растворителя, контакты в структуре. Помимо поиска мотивов, ПМВ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПМВ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПМВ. Например, был разработан способ создания ПМВ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных. Кроме того, существует подход с использованием множественных ПМВ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.
+ПМВ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH<ref name="Kel2003">{{cite journal |author=Kel AE, et al. |title=MATCHTM: a tool for searching transcription factor binding sites in DNA sequences |journal=Nucleic Acids Research |volume=31 |pages=3576–3579 |year=2003 |doi=10.1093/nar/gkg585 |pmid=12824369 |issue=13 |pmc=169193}}</ref> способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков.<ref name="Becks2006">{{cite journal |author=Beckstette M., et al. |title=Fast index based algorithms and software for matching position specific scoring matrices |journal=BMC Bioinformatics |volume=7 |pages=389 |year=2006 |doi=10.1186/1471-2105-7-389 |pmid=1635428 |pmc=1635428}}</ref> Помимо поиска функциональных доменов, с помощью ПМВ можно предсказывать различные свойства белков, такие как вторичная структура,<ref name="Jones1999">{{cite journal |author=Jones D. T. |title= Protein secondary structure prediction based on position-specific scoring matrices. |journal=J Mol Biol|volume=292 |pages=195-202 |year=1999 |pmid=10493868}}</ref><ref name="Poll2005">{{cite journal |author=Pollastri, G. & McLysaght, A. |title=Porter: a new, accurate server for protein secondary structure prediction. |journal=Bioinformatics|volume=21 |pages=1719-1720|year=2005 |pmid=15585524}}</ref><ref name="Rost2001">{{cite journal |author=Rost, B. |title= Review: protein secondary structure prediction continues to rise. |journal=J Struct Biol|volume=134 |pages=204-218|year=2001 |pmid= 11551180}}</ref> их доступность для растворителя,<ref name="Adam2004">{{cite journal |author=Adamczak, R.; Porollo, A. & Meller, J. |title= Accurate prediction of solvent accessibility using neural networks-based regression. |journal=Proteins|volume=56 |pages=753-767|year=2004 |pmid= 15281128}}</ref><ref name="Poll2007">{{cite journal |author= Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. |title=  Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information. |journal=BMC Bioinformatics|volume=8 |pages=201|year=2007 |pmid= 17570843|pmc=1913928}}</ref>контакты в структуре.<ref name="Poll2001">{{cite journal |author= Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. |title=  Improved prediction of the number of residue contacts in proteins by recurrent neural networks.  |journal=Bioinformatics|volume=17 |pages=Suppl 1 : S234-S242|year=2001 |pmid= 11473014}}</ref> Помимо поиска мотивов, ПМВ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПМВ, с помощью которых можно определять принадлежность интересующего белка к известным семействам.[http://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml] Также совершенствуются методы построения и использования ПМВ. Например, был разработан способ создания ПМВ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных. Кроме того, существует подход с использованием множественных ПМВ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.<ref name="Shan2005">{{cite journal |author= Shandar Ahmad and Akinori Sarai |title=  PSSM-based prediction of DNA binding sites in proteins.  |journal=BMC Bioinformatics|volume=6 |pages=33|year=2005 |pmid= 15720719|pmc=550660 }}</ref>
+== Примечания ==

Позиционная весовая матрица: различия между версиями

Версия от 22:29, 29 апреля 2015

Содержание

История вопроса

Создание ПМВ

Информативность ПМB

Использование ПМB

Примечания

Навигация

Позиционная весовая матрица: различия между версиями

Версия от 22:29, 29 апреля 2015

История вопроса

Создание ПМВ

Информативность ПМB

Использование ПМB

Примечания

Навигация

Поиск