FASTA

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
FASTA
Расширение

.fas, .fasta, .fna, .ffn, .faa, .frn

MIME-тип

chemical/seq-aa-fasta, chemical/seq-na-fasta[1]

Тип формата

термин и формат файла

В биоинформатике FASTA-формат представляет собой текстовый формат для нуклеотидных или полипептидных последовательностей, в котором нуклеотиды или аминокислоты обозначаются при помощи однобуквенных кодов. Данный формат может содержать названия последовательностей и сопутствующие комментарии.

Простота FASTA-формата позволяет легко производить различные действия с последовательностями при помощи инструментов редактирования текста и скриптовых языков программирования, таких как Python[2], Ruby[3], Perl.

Форматы FASTA и FASTQ (Sanger Institute) наиболее популярны для представления генетических данных.[источник не указан 123 дня] Иногда также используется более подробный формат GenBank[4] и PDB.

Формат[править | править вики-текст]

Последовательности в формате FASTA начинаются с однострочного описания за которым следуют линии с данными последовательности. Описание отмечается при помощи символа «больше» («>») в первой колонке. Слово за ним является идентификатором последовательности, далее, через пробел, следует опциональное описание. Обычно строки в формате FASTA ограничены длиной в 80 символов. Данные последовательности располагаются до следующего описания. Пример одной последовательности в формате FASTA:

   >gi|31563518|ref|NP_852610.1| microtubule-associated proteins 1A/1B light chain 3A isoform b [Homo sapiens]
   MKMRFFSSPCGKAAVDPADRCKEVQQIRDQHPSKIPVIIERYKGEKQLPVLDKTKFLVPDHVNMSELVKI
   IRRRLQLNPTQAFFLLVNQHSMVSVSTPIADIYEQEKDEDGFLYMVYASQETFGFIRENE

Названием этой последовательности является "gi|31563518|ref|NP_852610.1|".

Последовательности записываются в виде нуклеиновых кислот или аминокислот, в них допускаются пропуски и символы выравнивания. Составляющие элементы кодируются общепринятыми однобуквенными кодами IUB/ИЮПАК (IUB/IUPAC), при этом дополнительно разрешено использовать символы нижнего регистра, дефис для пропусков, и символы «U» и «*» в аминокислотных последовательностях. Числа не допускаются, но используются в некоторых базах данных для обозначения позиции.

Нуклеиновые кислоты обозначаются:[5][6]

Код Значение Мнемоника
A A Adenine — Аденин
C C Cytosine — Цитозин
G G Guanine — Гуанин
T T Thymine — Тимин (5-метилурацил)
U U Uracil — Урацил
R A, G puRine — Пурин
Y C, T, U pYrimidines — Пиримидины
K G, T, U Кетоновые основания
M A, C основания с аминогруппами
S C, G Сильное взаимодействие
W A, T, U Слабое взаимодействие
B не A (то есть C, G, T или U) B идет за A
D не C (то есть A, G, T или U) D идет за C
H не G (A, C, T или U) H идет за G
V не T и не U (A, C или G) V идет за U
N A C G T U Нуклеиновая кислота
X маска
- пропуск неопределенной длины

Для аминокислот есть 24 обычных кода и 3 специальных:

Код аминокислоты Значение
A Аланин
B Аспарагиновая кислота (D) или Аспарагин (N)
C Цистеин
D Аспарагиновая кислота
E Глутаминовая кислота
F Фенилаланин
G Глицин
H Гистидин
I Изолейцин
J Лейцин (L) или Изолейцин (I)
K Лизин
L Лейцин
M Метионин
N Аспарагин
O Пирролизин
P Пролин
Q Глутамин
R Аргинин
S Серин
T Треонин
U Селеноцистеин
V Валин
W Триптофан
Y Тирозин
Z Глутаминовая кислота (E) или Глутамин (Q)
X любой
* остановка трансляции
- пропуск неопределенной длины

Идентификаторы последовательностей[править | править вики-текст]

Центр NCBI определил правила создания уникальных идентификаторов последовательностей (SeqID). В формате NCBI FASTA defline имеются следующие варианты формирования идентификаторов:[7]

 GenBank                           gb|accession|locus
 EMBL Data Library                 emb|accession|locus
 DDBJ, DNA Database of Japan       dbj|accession|locus
 NBRF PIR                          pir||entry
 Protein Research Foundation       prf||name
 SWISS-PROT                        sp|accession|entry name
 Brookhaven Protein Data Bank      pdb|entry|chain
 Patents                           pat|country|number
 GenInfo Backbone Id               bbs|number
 General database identifier       gnl|database|identifier
 NCBI Reference Sequence           ref|accession|locus
 Local Sequence identifier         lcl|identifier

Расширения файлов[править | править вики-текст]

Расширение Значение Примечания
fasta (.fas) Обычные данные fasta Любые данные fasta. Иногда также .fa, .seq, .fsa, .fasta
fna аббр. от «fasta nucleic acid» Для описания нуклеотидных последовательностей.
ffn Кодирующие участки нуклеотидов Содержат кодирующие участки геномов.
faa аббр. от «fasta amino acid» Содержат описания аминокислотных последовательностей. Используется расширение mpfa при хранении нескольких белков в одном файле.
frn Некодирующая РНК в формате FASTA Содержат некодирующие участки РНК, в алфавите ДНК, например тРНК, рРНК

Примечания[править | править вики-текст]

Ссылки[править | править вики-текст]