GenBank

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

GenBank — база данных, находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США, входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем 100000 различных организмов.

GenBank — архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC (http://insdc.org/), осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей.

Релиз GenBank происходит каждые два месяца и доступен с сайта ftp. Заметки о выпуске для текущей версии GenBank предоставляют подробную информацию о выпуске и уведомлениях о предстоящих изменениях в GenBank. Также доступны примечания к выпуску предыдущих версий GenBank.

Аннотация записи GenBank[править | править вики-текст]

.....

Название поля Аннотация поля
LOCUS Поле LOCUS содержит несколько различных элементов данных, включая имя локуса (Locus Name), длину последовательности (Sequence Length), тип молекулы (Molecule Type), раздел GenBank (GenBank Division) и дату изменения (Modification Date).
Имя локуса[править | править вики-текст]
Длина последовательности[править | править вики-текст]

Количество нуклеотидных пар оснований (или аминокислотных остатков) в записи последовательности.

Поле поиска Entrez: длина последовательности [SLEN]

Тип молекулы[править | править вики-текст]

Тип молекулы, которая была секвенирована. Каждая запись GenBank должна содержать данные последовательности одного типа молекулы: геномная ДНК, геномная РНК, несозревшая РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и малая цитоплазматическая РНК.

Поле поиска Entrez: тип молекулы [PROP]. Пример biomol_genomic, biomol_mRNA и т. д.

Раздел GenBank[править | править вики-текст]

Раздел GenBank, к которому относится запись, обозначается аббревиатурой из 3 букв. База данных GenBank делится на 18 разделов:

PRI (primate) - последовательности приматов

ROD (rodent) - последовательности грызунов

MAM (mammalian) - другие последовательности млекопитающих

VRT (vertebrate) - другие последовательности позвоночных животных

INV (invertebrate) - последовательности беспозвоночных животных

PLN (plant) - последовательности растений, грибов и водорослей

BCT (bacterial) - бактериальные последовательности

VRL (viral) - вирусные последовательности

PHG (bacteriophage) - последовательности бактериофагов

SYN (synthetic) - синтетические последовательности

UNA (unannotated) - не аннотированные последовательности

EST (expressed sequence tags) - последовательности тегов

PAT (patent) - патентные последовательности

STS (sequence tagged sites) - последовательности с меченными участками?

GSS (genome survey sequences) - последовательности генома?

HTG (high-throughput genomic sequences) - высокопроизводительные геномные последовательности?

HTC (unfinished high-throughput cDNA sequencing) - незавершенная высокопроизводительная последовательность кДНК

ENV (environmental) - последовательности образца окружающей среды

Некоторые из разделов содержат последовательности конкретных групп организмов, тогда как другие (EST, GSS, HTG и т. д.) содержат данные, полученные с помощью специальных технологий секвенирования из множества различных организмов. Разделение организмов является историческим и не отражает текущую таксономию NCBI?. Из-за этого, а также из-за того, что последовательности определенного организма могут существовать в технологических подразделениях, для получения всех последовательностей из конкретного организма следует использовать NCBI Taxonomy Browser&.

Поле поиска Entrez: раздел [PROP]. Пример: gbdiv_pri, gbdiv_est и т. д.

Дата изменения[править | править вики-текст]

Дата последней модификации записи.

Поле поиска Entrez: дата [MDAT]. Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд)

DEFINITION Краткое описание последовательности; включает в себя следующую информацию - организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей). Если последовательность имеет кодирующую область (CDS), за описанием может следовать показатель полноты, такой как «complete cds».

Поле поиска Entrez: описание [TITL].

ACCESSION Уникальный идентификатор записи последовательности. Идентификатор относится к полной записи и представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности. Номер записи не изменяется, даже если информация в записи изменена по запросу автора.

Поле поиска Entrez: идентификатор [ACCN].

VERSION Идентификационный номер нуклеотидной последовательности, который представляет собой одну конкретную последовательность в базе данных GenBank. Этот идентификационный номер использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года.

Если произойдет изменение данных последовательности (даже одного основания), идентификационный номер будет увеличен, например, U12345.1.

Система идентификаторов последовательностей accession.version работает параллельно с системой идентификаторов GI - при любом изменении последовательности она получает новый номер GI. Историю изменений последовательности можно найти в разделе GenBank Sequence Revision History.

Поле поиска Entrez: используйте значение по умолчанию «All Fields».

GI Идентификационный номер последовательности «GenInfo Identifier». Если последовательность изменяется каким-либо образом, будет назначен новый номер GI. Отдельный номер GI также присваивается каждому транслированному с нуклеотидной записи белку, и новый GI присваивается, если транслированный белок изменяется каким-либо образом.

Поле поиска Entrez: используйте значение по умолчанию «All Fields»

KEYWORDS Слово или фраза, описывающие последовательность. Если запись не содержит ни одно ключевое слово, поле содержит только точку.

Данное поле присутствует в записях последовательностей в основном по историческим причинам и не основано на контролируемой лексике. Ключевые слова обычно присутствуют в старых записях. Они не включаются в более новые записи, если запись не содержит особый тип последовательности, такой как EST, STS, GSS, HTG и т. д.

Поле поиска Entrez: ключевое слово [KYWD] (поскольку ключевые слова не присутствуют во многих записях, лучше не искать это поле).

SOURCE Информация о названии организма, откуда взята последовательность; представлена в свободной формате и иногда сопровождается типом молекулы.

Подполе Organism, представляет формальное научное название исходного организма (род и вид, где это уместно) и его родословная, основанная на схеме филогенетической классификации, используемой в базе данных таксономии NCBI.

Поле поиска Entrez: организм [ORGN]. Пример Saccharomyces cerevisiae

REFERENCE Публикации авторов записи, в которых обсуждают данные, указанные в записи. Ссылки автоматически сортируются по дате публикации, причем сначала отображаются самые старые ссылки. Не опубликованные в научных статьях последовательности отображает статус "unpublished" или "in press".

В данном поле представлены различные классы публикаций, включая журнальную статью, главу книги, книгу, диссертацию / монографию, главу заседания?, материалы собрания и патент. Последняя цитата обычно содержит информацию о непосредственном подателе последовательности, а не цитату из литературы. Поэтому она называется «submitter block» и вместо названия статьи присутствуют слова «Direct Submission».

Поле содержит несколько подполей: авторы (authors), заглавие (title), журнал (jounal), PUBMED.

Авторы

Список авторов в порядке их появления в цитируемой статье.

Entrez Поле поиска: автор [AUTH] (в формате Фамилия AB без точек после инициалов, инициалы модно опустить).

Заглавие

Название опубликованной или предварительное название неопубликованной работы.

Поле поиска Entrez: название [WORD].

Журнал

MEDLINE аббревиатура названия журнала. (Полное правописание может быть получено из базы данных Entrez Journals)

Поле поиска Entrez: имя журнала [JOUR] (можно вводить как полное правописание журнала, так и аббревиатуру MEDLINE).

PUBMED

Идентификатор PubMed (PMID).

Ссылки, которые включают идентификаторы PubMed, содержат ссылки в соответствующую запись PubMed. И наоборот, записи PubMed, содержащие идентификаторы последовательностей в поле SI (вторичный идентификатор источника), содержат ссылки на записи последовательностей.

Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed.

FEATURES Поле содержит информацию о генах и генных продуктах (белках), а также о биологически важных сайтах, указанных в последовательности. Они могут включать области последовательности, которые кодируют белки и молекулы РНК, а также ряд других признаков.

Полный список функций доступен в следующих местах:

Приложение III: Ссылка на функциональные клавиши таблицы функций DDBJ / EMBL / GenBank содержит определения, необязательные квалификаторы и комментарии для каждой функции. Также доступен алфавитный список. Приложение IV: Сводка квалификаторов для функциональных клавиш содержит определения квалификаторов Feature.

Справочная документация по Sequin (прокрутите вниз до «Особенности» в оглавлении, чтобы увидеть алфавитный список функций со ссылками на описания)

Местоположение каждой функции также предоставляется и может быть одной базой, смежным диапазоном баз, объединением интервалов последовательностей и другими представлениями. Если функция расположена на дополнительной нити, перед базовым пролетом появится слово «дополнение». Если символ «<» предшествует базовому кадру, последовательность является частичной на 5'-конце (например, CDS <1..206). Если символ «>» следует за базовым пролетом, последовательность является частичной на 3'-конце (например, CDS 435..915>).

Дополнительные сведения о расположении элементов см. В документации справки Sequin.

Показанная здесь выборочная запись включает только небольшое количество признаков (источник, CDS и ген, все из которых описаны ниже). В разделе «Другие функции» ниже приведены ссылки на некоторые записи GenBank, которые показывают ряд дополнительных функций.

Поле поиска Entrez: функциональный ключ [FKEY] Совет поиска: для прокрутки списка доступных функций просмотрите поле Feature Key в режиме Index. Затем вы можете выбрать одну или несколько функций из индекса для включения в запрос. Например, вы можете ограничить свой поиск записями, которые содержат как функции primer_bind, так и промоутеры.

ORIGIN

Статистика GenBank[править | править вики-текст]

Поиск по GenBank[править | править вики-текст]

Организация GenBank[править | править вики-текст]

Правила внесения данных[править | править вики-текст]

Только первоначальные последовательности вносят в GenBank. Непосредственный внос данных для желающих пополнить базу GenBank возможен через отдельную онлайн-программу. Данные проверяются сотрудниками GenBank на предмет:

  • в какой лаборатории получены данные
  • качество полученных данных

После проверки добавленных данных, им присваивается новый AC (accession number англ.). Данные, проверка которых завершена, добавляют в общий доступ, откуда их можно извлечь, используя Entrez или сохранить с сайта через FTP.

История базы данных[править | править вики-текст]

Начало GenBank положило формирование в 1979г. Базы Данных Сиквенсов в Лос Аламосе Волтером Гоадом и сотрудниками группы Теоретической Биологии и Биофизики. В середине 1980-х биоинформатическая компания Intelligenetics в Стэнфордском Университете управляла проектом GenBank совместно с LANL. Будучи одним из первых общественных биоинформатических проектов в Интернете, в рамках проекта были открыты первые форумы и средства для обмена научными знаниями: BIOSCI/Bionet.

В период с 1989-1992 GenBank был перемещен в новообразованныйНациональный Центр Биотехнологической Информации (NCBI).

Развитие GenBank[править | править вики-текст]

На июль 2013 года GenBank содержал информацию о 152 599 230 112 нуклеотидах, 165 740 164 последовательностях (из более чем 100 000 живых организмов)[1]. Релиз банка данных от 15 декабря 2015 года (211.0) одержал 189232925 проаннотированных локусов, 20393911071 оснований, входящих в состав 189232925 описанных секвенированных геномов. Скорость расширения банка огромна: количество данных в нем удваивается примерно в течение 18 месяцев.

В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.

Примечания[править | править вики-текст]

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]