Эта статья входит в число добротных статей

Позиционная весовая матрица

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску

Позиционная весовая матрица (ПВМ) — биоинформатический метод, который применяется для поиска мотивов в биологических последовательностях.
ПВМ может быть построена на основе множественного выравнивания родственных последовательностей, или последовательностей, выполняющих близкие функции. ПВМ используется во многих современных алгоритмах для обнаружения новых мотивов[1].

История вопроса[править | править код]

Позиционная весовая матрица была представлена американским генетиком Гэри Стормо  (англ.) и его коллегами в 1982[2] году как альтернативный способ представления консенсусных последовательностей. Консенсусные последовательности использовались ранее для отображения общих мотивов в биологических последовательностях, однако этот метод имел некоторые недостатки прогнозирования и поиска этих мотивов в новых последовательностях[3]. Впервые ПВМ была использована для поиска сайтов инициации трансляции в РНК. Для создания матрицы весов, с помощью которой можно было бы отличать истинные сайты от схожих участков последовательностей, польско-американским математиком Анджеем Эренфойхтом  (англ.) был предложен перцептронный алгоритм. Результатом обучения перцептрона на выборках истинных и ложных сайтов являлись матрица и пороговое значение для различия этих двух наборов данных. Тестирование этой матрицы на новых последовательностях, не включенных в обучающую выборку, показало, что этот метод был более точным и чувствительным по сравнению с построением консенсусной последовательности.

Преимущества ПВМ перед консенсусными последовательностями сделали матрицы популярным методом для представления мотивов в биологических последовательностях[4][5].

Математическое определение[править | править код]

Строгое определение позиционно весовой матрицы выглядит следующим образом[6]:

, где  — алфавит последовательности (зд. нуклеотидов),  — номер позиции,

 — позиционная матрица вероятностей,  — встречаемость буквы в алфавите (то есть 0.25 для последовательности нуклеотидов и 0.05 для последовательности аминокислот).

Создание ПВМ[править | править код]

ПВМ представляет собой матрицу, количество строк которой соответствует размеру алфавита (4 нуклеотида для нуклеиновых кислот и 20 аминокислот для белковых последовательностей), а количество столбцов — длине мотива[6].

Шаг 1. Построение позиционной матрицы вероятностей[править | править код]

Первым этапом построения матрицы весов на основе множественного безделеционного выравнивания является создание позиционной матрица частот (ПМЧ). Элементы этой матрицы соответствуют тому, сколько раз каждая буква алфавита встречается на конкретной позиции в мотиве. Далее, ПМЧ преобразуется в позиционную вероятностную матрицу путём нормировки на общее число последовательностей в выравнивании. Такая матрица показывает, какова вероятность встретить данную букву в данной позиции в исходном выравнивании.

Каждый элемент вероятностной матрицы равен вероятности встретить букву в позиции в исходном выравнивании и высчитывается по формуле[1]:

где  — номер последовательности,  — номер позиции,  — буква алфавита,

 — буква, соответствующая позиции в последовательности , а  — индикаторная функция, вычисляемая по формуле:

Например, даны следующие десять выровненных последовательностей ДНК, которые представляют один мотив:

GAGGTAAAC
TCCGTAAGT
CAGGTTGGA
ACAGTCAGT
TAGGTCATT
TAGGTACTG
ATGGTAACT
CAGGTATAC
TGTGTGAGT
AAGGTAAGT

соответственно позиционная матрица частот:

и, следовательно, полученная после деления на число последовательностей вероятностная матрица:

[7].

В позиционной вероятностной матрице сумма значений каждого столбца, то есть вероятность встретить какую-нибудь букву алфавита в данной позиции, в случае безделеционного исходного выравнивания равна 1.

С помощью этой матрицы можно рассчитать вероятность того, что, генерируя с указанной в ней вероятностью буквы в каждой позиции, мы получим последовательность . Так как столбцы матрицы предполагаются независимыми друг от друга, эта вероятность равна произведению вероятностей получить каждую букву последовательности в её позиции, то есть:

где  — буква последовательности в позиции .
Например, вероятность того, что последовательности S = GAGGTAAAC получена матрицей из предыдущего примера, может быть рассчитана:

Замечание[править | править код]

Для расчета позиционной матрицы вероятностей из небольшого массива данных часто применяются псевдосчёты. Из-за неполноты выборки может возникнуть ситуация, когда в некоторой позиции в исходной выборке представлены не все буквы. В таком случае вероятность получить эту букву при генерации случайной последовательности из этой матрицы будет равна нулю. Соответственно, вероятность сгенерировать последовательность с такой буквой в этой позиции тоже будет равна нулю вне зависимости от остальной последовательности[8]. Чтобы избежать этого, к каждому элементу вероятностной матрицы прибавляется некоторое значение, называемое псевдосчетом, чтобы сделать его отличным от нуля. По правилу Лапласа к каждому элементу матрицы частот добавляется 1 — минимальная возможная встречаемость буквы в этом положении. Существуют более сложные системы псевдосчетов, например, использующие смеси Дирихле или матрицы замен.

Учитывая псевдосчеты, определение матрицы вероятностей может быть сформулировано:

, где  — ПМЧ,  — псевдосчетная функция[9].

В приведенном выше примере, построенном без применения псевдосчетов, любая последовательность, которая не имеет G в четвёртой позиции или T в пятой позиции, будет иметь вероятность 0.

Шаг 2. Переход от вероятностей к весам[править | править код]

Последний шаг для создания ПВМ — переход от вероятностей букв в различных положениях мотива к их весам. Чаще всего эти веса вычисляются как логарифмическое отношение правдоподобия с учётом фоновой модели генерации случайной последовательности b. Простейшая фоновая модель предполагает, что каждая буква появляется одинаково часто в любой позиции наборе данных, то есть значение для любого символа в алфавите (0.25 для нуклеотидов и 0.05 для аминокислот, соответственно). Фоновая модель не обязательно должна подразумевать равномерное распределение букв: например, при изучения организмов с высоким GC-составом вероятности для C и G могут увеличиться, а для А и Т — соответственно уменьшиться. Таким образом, элементы матрицы весов рассчитываются по формуле[6]:

Применяя эту трансформацию к вероятностной матрице из примера (без учета псевдосчетов) получаем:

В случае, если элементы ПВМ рассчитываются с использованием логарифмического отношения правдоподобия, вес последовательности может быть рассчитан как сумма весов для каждой буквы этой последовательности в её позиции. Полученный вес дает представление о том, насколько эта последовательность соответствует мотиву, по которому была создана позиционная матрица весов. Чем выше вероятность того, что последовательность сгенерирована соответствующей вероятностной матрицей, а не случайна, тем выше вес.

Информативность ПBМ[править | править код]

Информационное содержание ПВМ показывает, насколько описанное в ней распределение букв в позициях отличается от равномерного распределения. Собственная информация для каждого символа в позиции мотива, равна:

Ожидаемая (средняя) собственная информация для этого элемента равна:

Информационное содержание всей матрицы равна сумме всех ожидаемых средних собственных информаций каждого элемента матрицы. Информационное содержание ПВМ в случае с неравномерным фоновым распределением рассчитывается по формуле:

где  — фоновая частота для данного символа.

Информационное содержание соотносится с расстоянием Кульбака — Лейблера или относительной энтропией. Однако, при использовании алгоритма PSSM для поиска геномных последовательностей (см. Ниже) такая равномерная коррекция может привести к переоценке важности различных оснований в мотиве из-за неравномерного распределения n-mers в реальных геномах, ведущих к значительно большему числу ложных срабатываний[10].

Использование ПBМ[править | править код]

ПВМ широко применяются для анализа нуклеотидных и белковых последовательностей. Прежде всего, они используются для поиска специфических сайтов и мотивов. Например, алгоритм MATCH[11] способен искать в последовательностях ДНК потенциальные сайты связывания транскрипционных факторов. Аналогичные подходы используются для белков[12]. Помимо поиска функциональных доменов, с помощью ПВМ можно предсказывать различные свойства белков, такие как вторичная структура[13][14][15], их доступность для растворителя[16][17], контакты в структуре[18]. Помимо поиска мотивов, ПВМ, построенные по множественному выравниванию, используются для описания семейств белков. Существуют базы ПВМ, с помощью которых можно определять принадлежность интересующего белка к известным семействам. Также совершенствуются методы построения и использования ПВМ. Например, был разработан способ создания ПВМ без использования больших множественных выравниваний белков, что значительно ускоряет расчеты при наличии большого массива исходных данных[19]. Кроме того, существует подход с использованием множественных ПВМ для описания семейств белков: в таком случае строится не одна, а много матриц с использованием разных неблизких (чтобы избежать смещения) белков семейства.

Алгоритмы для построения и использования ПВМ[править | править код]

Существуют различные алгоритмы для сканирования совпадений PWM в последовательностях. Одним из примеров является алгоритм MATCH, который был реализован в ModuleMaster. Более сложные алгоритмы для быстрого поиска в базе данных с помощью нуклеотидов, а также PWM / PSSM аминокислот внедрены в программное обеспечение possumsearch и описаны Beckstette, et al. (2006 год)[20].

Так же, среди наиболее известных алгоритмов, присутствуют MEME и Gibbs[1].

Реализация ПВМ[править | править код]

Готовой реализацией ПВМ можно воспользоваться на языках программирования Python (пакет BioPython) и R (библиотека seqLogo).

Пример кода на R[править | править код]

#install if necessary
source("http://bioconductor.org/biocLite.R")
biocLite("seqLogo")
 
library(seqLogo)
 
a <- c(0, 4, 4, 0, 3, 7, 4, 3, 5, 4, 2, 0, 0, 4)
c <- c(3, 0, 4, 8, 0, 0, 0, 3, 0, 0, 0, 0, 2, 4)
g <- c(2, 3, 0, 0, 0, 0, 0, 0, 1, 0, 6, 8, 5, 0)
t <- c(3, 1, 0, 0, 5, 1, 4, 2, 2, 4, 0, 0, 1, 0)
 
df <- data.frame(a,c,g,t)
df
   a c g t
1  0 3 2 3
2  4 0 3 1
3  4 4 0 0
4  0 8 0 0
5  3 0 0 5
6  7 0 0 1
7  4 0 0 4
8  3 3 0 2
9  5 0 1 2
10 4 0 0 4
11 2 0 6 0
12 0 0 8 0
13 0 2 5 1
14 4 4 0 0
 
#define function that divides the frequency by the row sum i.e. proportions
proportion <- function(x){
   rs <- sum(x);
   return(x / rs);
}
 
#create position weight matrix
mef2 <- apply(df, 1, proportion)
mef2 <- makePWM(mef2)
seqLogo(mef2)

Примечания[править | править код]

  1. 1 2 3 CSB2007 Learning Position Weight Matrices from Sequence and Expression Data. www.lifesciencessociety.org. Дата обращения: 30 апреля 2017. Архивировано 2 декабря 2016 года.
  2. Stormo, Gary D.; Schneider, Thomas D.; Gold, Larry; Ehrenfeucht, Andrzej. Use of the ‘Perceptron’ algorithm to distinguish translational initiation sites in E. coli (англ.) // :en:Nucleic Acids Research|Nucleic Acids Research : journal. — 1982. — Vol. 10, no. 9. — P. 2997—3011. — doi:10.1093/nar/10.9.2997.
  3. Stormo, G. D. DNA binding sites: representation and discovery (неопр.) // Bioinformatics. — 2000. — 1 January (т. 16, № 1). — С. 16—23. — doi:10.1093/bioinformatics/16.1.16. — PMID 10812473.
  4. Sinha, S. On counting position weight matrix matches in a sequence, with application to discriminative motif finding (англ.) // Bioinformatics : journal. — 2006. — 27 July (vol. 22, no. 14). — P. e454—e463. — doi:10.1093/bioinformatics/btl227.
  5. Xia, Xuhua. Position Weight Matrix, Gibbs Sampler, and the Associated Significance Tests in Motif Characterization and Prediction (англ.) // Scientifica : journal. — 2012. — Vol. 2012. — P. 1—15. — doi:10.6064/2012/917540.
  6. 1 2 3 "Position weight matrix - Musings from an unlikely candidate". Musings from an unlikely candidate (англ.). 2013-10-01. Архивировано 1 апреля 2017. Дата обращения: 30 апреля 2017.
  7. Guigo, Roderic An Introduction to Position Specific Scoring Matrices. http://bioinformatica.upf.edu. Дата обращения: 29 апреля 2015. Архивировано 28 ноября 2012 года.
  8. Nishida, K.; Frith, M. C.; Nakai, K. Pseudocounts for transcription factor binding sites (англ.) // Nucleic Acids Research  (англ.) : journal. — 2008. — 23 December (vol. 37, no. 3). — P. 939—944. — doi:10.1093/nar/gkn1019.
  9. "Position weight matrix - Musings from an unlikely candidate". Musings from an unlikely candidate (англ.). 2013-10-01. Архивировано 1 апреля 2017. Дата обращения: 31 марта 2017.
  10. Ivan Erill, Michael C O'Neill. A reexamination of information theory-based methods for DNA-binding site identification // BMC Bioinformatics. — 2009-02-11. — Т. 10. — С. 57. — ISSN 1471-2105. — doi:10.1186/1471-2105-10-57.
  11. Kel A. E., et al. MATCHTM: a tool for searching transcription factor binding sites in DNA sequences (англ.) // Nucleic Acids Research  (англ.) : journal. — 2003. — Vol. 31, no. 13. — P. 3576—3579. — doi:10.1093/nar/gkg585. — PMID 12824369. — PMC 169193.
  12. Beckstette M., et al. Fast index based algorithms and software for matching position specific scoring matrices (англ.) // BMC Bioinformatics  (англ.) : journal. — 2006. — Vol. 7. — P. 389. — doi:10.1186/1471-2105-7-389. — PMID 1635428. — PMC 1635428.
  13. Jones D. T. Protein secondary structure prediction based on position-specific scoring matrices (англ.) // J Mol Biol  (англ.) : journal. — 1999. — Vol. 292. — P. 195—202. — PMID 10493868.
  14. Pollastri, G. & McLysaght, A. Porter: a new, accurate server for protein secondary structure prediction (англ.) // Bioinformatics : journal. — 2005. — Vol. 21. — P. 1719—1720. — PMID 15585524.
  15. Rost, B. Review: protein secondary structure prediction continues to rise (англ.) // J Struct Biol  (англ.) : journal. — 2001. — Vol. 134. — P. 204—218. — PMID 11551180.
  16. Adamczak, R.; Porollo, A. & Meller, J. Accurate prediction of solvent accessibility using neural networks-based regression (англ.) // Proteins : journal. — 2004. — Vol. 56. — P. 753—767. — PMID 15281128.
  17. Pollastri, G.; Martin, A. J. M.; Mooney, C. & Vullo, A. Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information (англ.) // BMC Bioinformatics  (англ.) : journal. — 2007. — Vol. 8. — P. 201. — PMID 17570843. — PMC 1913928.
  18. Pollastri, G.; Baldi, P.; Fariselli, P. & Casadio, R. Improved prediction of the number of residue contacts in proteins by recurrent neural networks (англ.) // Bioinformatics : journal. — 2001. — Vol. 17. — P. Suppl 1 : S234—S242. — PMID 11473014.
  19. Shandar Ahmad and Akinori Sarai. PSSM-based prediction of DNA binding sites in proteins (англ.) // BMC Bioinformatics  (англ.) : journal. — 2005. — Vol. 6. — P. 33. — PMID 15720719. — PMC 550660.
  20. Michael Beckstette, Robert Homann, Robert Giegerich, Stefan Kurtz. Fast index based algorithms and software for matching position specific scoring matrices // BMC Bioinformatics. — 2006-08-24. — Т. 7. — С. 389. — ISSN 1471-2105. — doi:10.1186/1471-2105-7-389.