Выравнивание последовательностей

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Выравнивание последовательностей — биоинформатический метод, основанный на размещении двух или более последовательностей мономеров ДНК, РНК или белков друг под другом таким образом, чтобы легко увидеть сходные участки в этих последовательностях. Сходство первичных структур двух молекул может отражать их функциональные, структурные или эволюционные взаимосвязи[1].

Алгоритмы выравнивания последовательностей также используются в NLP.

Графическое и текстовое представление[править | править вики-текст]

В большинстве представлений результата выравнивания, последовательности располагаются в строчках матрицы таким образом, что совпадающие элементы (нуклеотиды или аминокислоты) находятся один под другим (в одной колонке). «Разрывы» заменяются знаком «-» или ячейка остается пустой.

Выравнивание двух последовательностей аминокислот («цинковых пальцев»), сгенерированное программой ClustalW. В левой колонке находятся идентификаторы этих последовательностей в базе GenBank.
Обозначения: Буквы — Аминокислоты. Знаки под колонками: «*» — одинаковые; «.» — сходные по свойствам; «:» — близкие по свойствам

Парное выравнивание[править | править вики-текст]

Парное выравнивание используется для нахождения сходных участков двух последовательностей. Различают глобальное и локальное выравнивание. Глобальное выравнивание предполагает, что последовательности гомологичны по всей длине. В глобальное выравнивание включаются обе входные последовательности целиком. Локальное выравнивание применяется, если последовательности содержат как родственные (гомологичные), так и неродственные участки. Результатом локального выравнивания является выбор участка в каждой из последовательностей и выравнивание между этими участками.

Для получения парного выравнивания используются разновидности метода динамического программирования: для глобального выравнивания — алгоритм Нидлмана — Вунша, для локального — алгоритм Смита — Ватермана.

Алгоритмы поиска[править | править вики-текст]

Применяются для поиска в больших базах данных последовательностей, схожих с некой заданной последовательностью по указанным критериям. Применяемое выравнивание — локальное. Для повышения скорости поиска используются различные эвристические методы. Наиболее известные программы: BLAST и FASTA3x.

Множественное выравнивание[править | править вики-текст]

Множественное выравнивание — это выравнивание трёх и более последовательностей. Применяется для нахождения консервативных участков в наборе гомологичных последовательностей. В большинстве случаев построение множественного выравнивания — необходимый этап реконструкции филогенетических деревьев. Нахождение оптимального множественного выравнивания методом динамического программирования имеет слишком большую временную сложность, поэтому множественные выравнивания строятся на базе различных эвристик. Наиболее известные программы, осуществляющие множественное выравнивание — Clustal (http://www2.ebi.ac.uk/clustalw/), T-COFFEE (англ.) (http://tcoffee.vital-it.ch/cgi-bin/Tcoffee/tcoffee_cgi/index.cgi), MUSCLE (англ.) (http://www.drive5.com/muscle/) и MAFFT (англ.) (http://mafft.cbrc.jp/alignment/software/). Имеются также программы для просмотра и редактирования множественных выравниваний, например Jalview (англ.) или русскоязычный UGENE.

Структурное выравнивание[править | править вики-текст]

Применяется к белкам и рибонуклеиновым кислотам (РНК), для которых известна пространственная (третичная) структура. Целью является нахождение и сопоставление участков, одинаково уложенных в пространстве. Структурное выравнивание обычно сопровождается наложением структур, то есть нахождением движений пространства, применение которых к заданным молекулам наилучшим образом совмещает их. Имеется большое количество программ для структурного выравнивания (англ.).

Примечания[править | править вики-текст]

  1. Mount DM. Bioinformatics: Sequence and Genome Analysis. — 2nd. — Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY., 2004. — ISBN 0-87969-608-7