BLAST

BLAST
BLAST
Тип	Биоинформатика
Разработчики	Стивен Альтшуль[англ.], Уоррен Гиш[англ.], Вебб Миллер[англ.], Юджин Майерс и Дэвид Липман[англ.] (NCBI)
Написана на	C++ и Си
Операционные системы	UNIX, Linux, Apple Macintosh, Microsoft Windows
Последняя версия	2.13.0 (17.03.2022)
Читаемые форматы файлов:
Читаемые форматы файлов:
	XML BLAST Output[вд]
Создаваемые форматы файлов:
Создаваемые форматы файлов:
	XML BLAST Output[вд]
Лицензия	Public Domain
Сайт	ftp.ncbi.nlm.nih.gov/bla…

BLAST (англ. Basic Local Alignment Search Tool — средство поиска основного локального выравнивания) — семейство компьютерных программ, служащих для поиска сходных аминокислотных или нуклеотидных последовательностей^[1]. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти предполагаемые гомологи. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: Стивен Альтшуль^[англ.], Уоррен Гиш^[англ.], Вебб Миллер^[англ.], Юджин Майерс и Дэвид Липман^[англ.] в системе Национальных институтов здравоохранения США. Первая публикация с описанием программы вышла в Журнале молекулярной биологии^[англ.] в 1990 году^[2].

Классификация программ серии BLAST

Семейство программ серии BLAST делится на 4 основные группы:

Нуклеотидные

предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных геномов и их участков:

megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
discontiguous megablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
blastn — поиск относительно коротких последовательностей, обладающих незначительным сходством и др.

Белковые

предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их фрагментов.

blastp — медленное сравнение с целью поиска всех сходных последовательностей,
DELTA-BLAST — поиск последовательностей, обладающих незначительным сходством. Проводится сравнение запроса с базой данных консервативных доменов и построение позиционной таблицы счетов (англ. position-specific score matrix). Итоговый поиск в базах данных проводится с использованием полученной позиционной таблицы^[3].
PSI-BLAST — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
PHI-BLAST — поиск белков, содержащих определённый пользователем паттерн и др.

Транслирующие

способны переводить нуклеотидные последовательности в аминокислотные и наоборот:

blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.

Специальные

прикладные программы, использующие BLAST:

bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
CDART — сравнение с целью поиска гомологичных белков по доменной архитектуре,
magicblast — картирует прочтения (риды) на полный геном или транскриптом,
VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.

Принципы работы BLAST

Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.

После введения изучаемой нуклеотидной или аминокислотной последовательности (запрос) на одну из веб-страниц BLAST, она вместе с другой входной информацией (база данных, размера «слова» (участка), значение величины E и др.) поступает на сервер. BLAST создаёт таблицу всех «слов» (в белке — это участок последовательностей, который по умолчанию состоит из трёх аминокислот, а для нуклеиновых кислот из 11 нуклеотидов) и сходных «слов».

Затем в базе данных проводится их поиск. Когда обнаруживается соответствие, то делается попытка продлить размеры «слова» (до 4 и более аминокислот и 12 и более нуклеотидов) сначала без гэпов (пробелов), а затем с их использованием. После максимального продления размеров всех возможных «слов» изучаемой последовательности, определяются выравнивания с максимальным количеством совпадений для каждой пары запрос — последовательность базы данных, и полученная информация фиксируется в структуре SeqAlign. Форматер, расположенный на сервере BLAST, использует информацию из SeqAlign и представляет её различными способами (традиционным, графическим, в виде таблицы).

Для каждой обнаруженной в базе данных программами BLAST последовательности необходимо определить, насколько она сходна с изучаемой последовательностью (запрос) и значимо ли это сходство. Для этого BLAST вычисляет число битов и величину Е (expected value, E-value) для каждой пары последовательностей.

При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).

С помощью модифицированных алгоритмов Смита-Уотермана или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).

Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:

B=(P\cdot S-\ln {K})/\ln {2}

Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:

E=m\cdot n\cdot 2^{-B}

Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HSP с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.

Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.

Теоретически локальное выравнивание может начинаться с любой пары нуклеотидов или аминокислот выровненных последовательностей. Однако HPS, как правило, не начинаются близко к краю (началу или концу) последовательностей. Для коррекции такого краевого эффекта необходимо вычислять эффективную длину последовательностей. В случае последовательностей длиной более 200 остатков происходит нейтрализация краевого эффекта.

См. также

PSI Protein Classifier

Примечания

↑ Pertsemlidis A; Fondon JW (2001). "Having a BLAST with bioinformatics (and avoiding BLASTphemy)". Genome Biology. 2 (10): reviews2002.1. doi:10.1186/gb-2001-2-10-reviews2002. PMID 11597340.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
↑ Altschul SF; Gish W; Miller W; Myers EW; Lipman DJ (1990). "Basic local alignment search tool". Journal of Molecular Biology. 215 (3): 403—410. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712.
↑ Boratyn GM; Schäffer AA; Agarwala R; Altschul SF; Lipman DJ; Madden TL (2012). "Domain enhanced lookup time accelerated BLAST". Biology Direct. 7: 12. doi:10.1186/1745-6150-7-12. PMID 22510480.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

Ссылки

NCBI Blast (англ.)
Презентация о BLAST на русском

[Pertsemlidis2001-1] Pertsemlidis A; Fondon JW (2001). "Having a BLAST with bioinformatics (and avoiding BLASTphemy)". Genome Biology. 2 (10): reviews2002.1. doi:10.1186/gb-2001-2-10-reviews2002. PMID 11597340.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[Altschul1990-2] Altschul SF; Gish W; Miller W; Myers EW; Lipman DJ (1990). "Basic local alignment search tool". Journal of Molecular Biology. 215 (3): 403—410. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712.

[Boratyn2012-3] Boratyn GM; Schäffer AA; Agarwala R; Altschul SF; Lipman DJ; Madden TL (2012). "Domain enhanced lookup time accelerated BLAST". Biology Direct. 7: 12. doi:10.1186/1745-6150-7-12. PMID 22510480.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[1]

[2]

[3]

BLAST

Содержание

Классификация программ серии BLAST

Нуклеотидные

Белковые

Транслирующие

Специальные

Принципы работы BLAST

См. также

Примечания

Ссылки

Навигация

BLAST

Классификация программ серии BLAST

Нуклеотидные

Белковые

Транслирующие

Специальные

Принципы работы BLAST

См. также

Примечания

Ссылки

Навигация

Поиск