Эта статья является кандидатом в хорошие статьи

GenBank

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

GenBank — база данных, находящаяся в открытом доступе, содержащая все аннотированные последовательности ДНК и РНК, а также последовательности закодированных в них белков. GenBank поддерживается Национальным центром биотехнологической информации США (NCBI), входящего в состав Национальных Институтов Здоровья в США, и доступен на бесплатной основе исследователям всего мира. GenBank получает и объединяет данные, полученные в разных лабораториях, для более чем 100 000 различных организмов.

GenBank — архивная база данных, то есть ответственность за содержимое каждой записи несут создатели этой записи, которыми, как правило, являются экспериментаторы, определившие данную последовательность. GenBank вместе с банками EMBL и DDBJ входит в консорциум INSDC (http://insdc.org/), осуществляющий регулярный обмен данными между этими тремя архивами аннотированных нуклеотидных последовательностей.

Релиз GenBank происходит каждые два месяца и доступен с сайта по протоколу FTP. Заметки о выпуске для текущей версии GenBank предоставляют подробную информацию о выпуске и уведомлениях о предстоящих изменениях в GenBank. Также доступны примечания к выпуску предыдущих версий GenBank.

История создания[править | править вики-текст]

В марте 1979 года в Университете Рокфеллера в Нью-Йорке состоялась встреча тридцати молекулярных биологов и специалистов по компьютерным наукам. На ней была согласована позиция о необходимости создания общенациональной компьютеризованной базы данных. Это было обусловлено стремительными темпами роста количества известных последовательностей ДНК, а также перспективами получения новых биологических знаний путём их анализа и сравнения. До того времени существовало несколько отдельных коллекций последовательностей, но ни одна из них не была полной[1].

Маргарет Дайхофф

Три года понадобилось Национальному Институту Здоровья (NIH), чтобы разработать схему финансирования проекта. За это время EMBL сделала общедоступной свою собственную базу данных последовательностей. Такая досадная для NIH задержка явилась следствием не только медленной работы бюрократической системы, но и неопределённостью среди учёных в отношении роли биологических коллекций во времена преобладания экспериментальных методов познания живого. Под давлением нескольких учёных-экспериментаторов NIH всё же начал поиск исполнителей проекта. В конкурсе на создание базы данных участвовали две группы: команда из Национального Фонда Биомедицинских Исследований (NBRF), возглавляемая Маргарет Дайхофф, и группа исследователей под руководством Уолтера Гоада из Лос-Аламосской национальной лаборатории (LANL) в сотрудничестве с частной компанией «Bolt, Beranek and Newman»[1]. Дайхофф создала одну из первых баз данных биологических последовательностей, собирая аминокислотные последовательности белков с 1960-х годов. По её мнению, большое количество информации, касающейся эволюционной истории и биохимической функции, невозможно извлечь из каждой индивидуальной последовательности, и что крайне важно собрать значимую информацию вместе, преобразовать её в единое целое и интерпретировать специальными методами. В серии томов «Атласа белковых последовательностей и структур» опубликованных начиная с 1965 года, Дайхофф была представлена самая крупная в мире коллекция последовательностей белков и нуклеиновых кислот, новейших методов их анализа и вытекающих из них эволюционных соображений[2].

Уолтер Гоад напротив терминала с открытым файлом GenBank, 1983.[3]

Данный атлас стал чрезвычайно популярен как инструмент в работах молекулярных и эволюционных биологов. Дайхофф рассчитывала, что исследователи будут делиться с ней новыми последовательности напрямую, до того, как они будут опубликованы. Однако данная инициатива не нашла должного отклика среди экспериментальных биологов, так как при занесении в Атлас не устанавливались ни авторство, ни приоритет открытия. Дайхофф и её команда были вынуждены продолжить заниматься ручным анализом публикуемой литературы[1].

Другой претендент на заключение контракта с NIH – группа из Лос-Аламоса, где со времён Манхэттенского проекта велись ограниченные биомедицинские исследования. Узнав о решении, принятом в Университете Рокфеллера, Уолтер Гоад был убеждён, что Лос-Аламос является «естественным местом для центра по анализу последовательностей ДНК», главным образом, из-за «уникальных компьютерных мощностей», которыми обладала располагающаяся там национальная лаборатория[4]. Гоад также начал собирать последовательности нуклеиновых кислот, в основном, из других коллекций, принадлежащих Ричарду Грантому во Франции, Курту Стёберу в Германии, Дугласу Брутлагу и Элвину Кабату в США[1].

Выпуски с последовательностями в первые годы существования GenBank в бумажной форме.

Предложения NBRF (Дайхофф) и LANL-BBN (Гоад) по созданию централизованной базы данных были очень похожи, однако они содержали ключевые различия, касающиеся собственности, конфиденциальности и научного приоритета. NBRF предложила собирать последовательности, анализируя опубликованную литературу и приглашая экспериментаторов предоставлять их данные. Такой подход подразумевал такое же отношение к последовательностям, как отношение натуралистов к экземплярам – находящимся в окружающей природе объектам, которые могут быть собраны и использованы. LANL-BBN, напротив, предлагали просить издательства, чтобы включение последовательностей в базу данных было обязательным условием для публикации статьи в журнале. Такая система соответствовала системе мотивации в экспериментальных науках, в которой результаты исследований считаются личным знанием до того, как они будут опубликованы и им будет присвоено авторство. Публикация таким образом является стимулом к тому, чтобы сделать знания общедоступными[1].

В 1980 году Верховный суд США объявил, что «что-либо под солнцем, созданное человеком», включая генетически модифицированные организмы, может быть запатентовано[5]. Данное заявление поставило перед NIH вопрос о том, кто мог бы стать собственником информации в будущей базе данных. Гоад подчеркнул, что он «не собирается отстаивать какие-либо права собственности на какие бы то ни было данные», и отметил, что Дайхофф и ее команда «искали доходы от продаж своей базы данных и препятствовали их перераспределению», не упомянув, что доходы шли только на покрытие расходов, а не для получения прибыли[6].

CD диск с сотым выпуском GenBank.

LANL-BBN имели возможность в дальнейшем повысить открытость своей базы данных, предложив распространять ее через компьютерную сеть ARPANET, находящуюся под управлением Министерством обороны, в то время как NBRF мог предложить только ограниченный онлайн-доступ через телефонные модемы. 30 июня 1982 года NIH заключила контракт с LANL-BBN на создание общедоступной бесплатно базы данных последовательностей нуклеиновых кислот, которая вскоре стала называться GenBank. Успех GenBank в сборе всех опубликованных последовательностей был обусловлен двумя ключевыми факторами. Во-первых, было организовано плотное сотрудничество с базой данных EMBL, созданной несколькими месяцами ранее в Гейдельберге, и с DDBJ в 1986 году. Каждая база данных была ответственна за отслеживание публикаций в определённых журналах[1].

Во-вторых, базы данных ДНК всё сильнее отставали от растущего взрывными темпами количества известных последовательностей. Решением проблемы стала договорённость с издательствами об электронном включении последовательностей в базу данных как обязательном условии для публикации в журнале.

С тех пор GenBank рос и расширялся, участвуя в таких проектах, как «Геном человека» и проектах по баркодированию ДНК. GenBank стала примером проекта, основанного на принципах «свободного контента», которые приобретают огромное конкурентное преимущество в современном мире.

В середине 1980-х биоинформатическая компания Intelligenetics в Стэнфордском Университете управляла проектом GenBank совместно с LANL. Будучи одним из первых общественных биоинформатических проектов в Интернете, в рамках проекта были открыты первые форумы и средства для обмена научными знаниями: BIOSCI/Bionet.

В период с 1989-1992 GenBank был перемещен в новообразованный Национальный Центр Биотехнологической Информации (NCBI).

Статистика GenBank[править | править вики-текст]

Рост количества нуклеотидов в GenBank с декабря 1982 года по февраль 2017
Рост количества последовательностей в GenBank с декабря 1982 года по февраль 2017

В третьем выпуске базы данных, вышедшем в декабре 1982 года содержалось 606 нуклеотидных последовательностей, в пересчёте на основания - 680338. Уже к ноябрю 1983 года количество последовательностей увеличилось более чем в 4 раза - до 2427. До 2000 года рост базы данных имел экспоненциальный характер. К 2007 году количество данных удваивалось каждые 18 месяцев.

С апреля 2002 года ведётся статистика по разделу WGS. Скорость его роста опережает основное отделение GenBank. После уменьшения темпов роста в 2010 году, WGS вновь демонстрирует ускоренный рост[7].

На февраль 2013 года GenBank содержал информацию о более чем 228 млрд. пар оснований и почти 200 млн. последовательностях (из более чем 100 000 живых организмов[8].

В генном банке содержатся также дополнительные наборы данных, механически добавленных, на основе основной коллекции данных секвенирования.

По информации, содержащейся в таблице, можно определить масштаб данных, накопленных в GenBank и сравнить скорости, с которыми в базе данных появлялись новые записи в первые годы после основания базы и в настоящее время.

Выпуск Дата Оснований Последовательностей
3 декабрь 1982 680338 606
66 декабрь 1990 51306092 41057
121 декабрь 2000 11101066288 10106023
181 декабрь 2010 122082812719 129902276
218 февраль 2017 228719437638 199341377

Аннотация записи GenBank[править | править вики-текст]

Аннотированный образец GenBank в формате GenBank Flat File имеет следующие разделы[9]:

Название поля Аннотация поля

LOCUS[править | править вики-текст]

Поле LOCUS содержит несколько различных элементов данных, включая имя локуса (Locus Name), длину последовательности (Sequence Length), тип молекулы (Molecule Type), раздел GenBank (GenBank Division) и дату изменения (Modification Date).

Имя локуса

Длина последовательности

Количество нуклеотидных пар оснований (или аминокислотных остатков) в записи последовательности.

Поле поиска Entrez: длина последовательности [SLEN]

Тип молекулы

Тип молекулы, которая была секвенирована. Каждая запись GenBank должна содержать данные последовательности одного типа молекулы: геномная ДНК, геномная РНК, несозревшая РНК, матричная РНК (кДНК), рибосомная РНК, транспортная РНК, малая ядерная РНК и малая цитоплазматическая РНК.

Поле поиска Entrez: тип молекулы [PROP]. Пример biomol_genomic, biomol_mRNA и т. д.

Раздел GenBank

Раздел GenBank, к которому относится запись, обозначается аббревиатурой из 3 букв. База данных GenBank делится на 18 разделов:

  • PRI (primate) - последовательности приматов
  • ROD (rodent) - последовательности грызунов
  • MAM (mammalian) - другие последовательности млекопитающих
  • VRT (vertebrate) - другие последовательности позвоночных животных
  • INV (invertebrate) - последовательности беспозвоночных животных
  • PLN (plant) - последовательности растений, грибов и водорослей
  • BCT (bacterial) - бактериальные последовательности
  • VRL (viral) - вирусные последовательности
  • PHG (bacteriophage) - последовательности бактериофагов
  • SYN (synthetic) - синтетические последовательности
  • UNA (unannotated) - неаннотированные последовательности
  • EST (expressed sequence tags) - последовательности тегов
  • PAT (patent) - запатентованные последовательности
  • STS (sequence tagged sites) - тегированные последовательности сайтов
  • GSS (genome survey sequences) - исследование последовательности генома
  • HTG (high-throughput genomic sequences) - данные высокопроизводительного секвенирования генома
  • HTC (high-throughput cDNA sequencing) - данные высокопроизводительного секвенирования кДНК
  • ENV (environmental) - последовательности образца окружающей среды

Некоторые из разделов содержат последовательности конкретных групп организмов, тогда как другие (EST, GSS, HTG и т. д.) содержат данные, полученные с помощью специальных технологий секвенирования из множества различных организмов. Разделение организмов является историческим и не отражает текущую таксономию NCBI. Из-за этого, а также из-за того, что последовательности определенного организма могут существовать в технологических подразделениях, для получения всех последовательностей из конкретного организма следует использовать NCBI Taxonomy Browser.

Поле поиска Entrez: раздел [PROP]. Пример: gbdiv_pri, gbdiv_est и т. д.

Дата изменения

Дата последней модификации записи.

Поле поиска Entrez: дата [MDAT]. Пример 1999/07/25, 1999/07/25:1999/07/31 (обязателен формат гггг/мм/дд)

DEFINITION[править | править вики-текст]

Краткое описание последовательности; включает в себя следующую информацию - организм, имя гена/белка, описание функций последовательности (если последовательность является некодирующей). Если последовательность имеет кодирующую область (CDS), за описанием может следовать показатель полноты, такой как «complete cds».

Поле поиска Entrez: описание [TITL].

ACCESSION[править | править вики-текст]

Уникальный идентификатор записи последовательности (accession number англ.). Идентификатор относится к полной записи и представляет собой комбинацию букв и цифр. Обычно это одна буква, за которой следуют пять цифр (например, U12345) или две буквы, а затем шесть цифр (например, AF123456). Некоторые идентификаторы могут быть длиннее, в зависимости от типа записи последовательности. Номер записи не изменяется, даже если информация в записи изменена по запросу автора.

Поле поиска Entrez: идентификатор [ACCN].

VERSION[править | править вики-текст]

Идентификационный номер нуклеотидной последовательности, который представляет собой одну конкретную последовательность в базе данных GenBank. Этот идентификационный номер использует формат "accession.version", реализованный GenBank / EMBL / DDBJ в феврале 1999 года.

Если произойдет изменение данных последовательности (даже одного основания), идентификационный номер будет увеличен, например, U12345.1.

Система идентификаторов последовательностей accession.version работает параллельно с системой идентификаторов GI - при любом изменении последовательности она получает новый номер GI. Историю изменений последовательности можно найти в разделе GenBank Sequence Revision History и Sequence IDs.

Поле поиска Entrez: используйте значение по умолчанию «All Fields».

GI[править | править вики-текст]

Идентификационный номер последовательности «GenInfo Identifier». Если последовательность изменяется каким-либо образом, будет назначен новый номер GI. Отдельный номер GI также присваивается каждому транслированному с нуклеотидной записи белку, и новый GI присваивается, если транслированный белок изменяется каким-либо образом.

Поле поиска Entrez: используйте значение по умолчанию «All Fields»

KEYWORDS[править | править вики-текст]

Слово или фраза, описывающие последовательность. Если запись не содержит ни одно ключевое слово, поле содержит только точку.

Данное поле присутствует в записях последовательностей в основном по историческим причинам и не основано на контролируемой лексике. Ключевые слова обычно присутствуют в старых записях. Они не включаются в более новые записи, если запись не содержит особый тип последовательности, такой как EST, STS, GSS, HTG и т. д.

Поле поиска Entrez: ключевое слово [KYWD] (поскольку ключевые слова не присутствуют во многих записях, лучше не искать это поле).

SOURCE[править | править вики-текст]

Информация о названии организма, откуда взята последовательность; представлена в свободной формате и иногда сопровождается типом молекулы.

Подполе Organism, представляет формальное научное название исходного организма (род и вид, где это уместно) и его родословная, основанная на схеме филогенетической классификации, используемой в базе данных таксономии NCBI.

Поле поиска Entrez: организм [ORGN]. Пример Saccharomyces cerevisiae

REFERENCE[править | править вики-текст]

Публикации авторов записи, в которых обсуждают данные, указанные в записи. Ссылки автоматически сортируются по дате публикации, причем сначала отображаются самые старые ссылки. Не опубликованные в научных статьях последовательности отображает статус "unpublished" или "in press".

В данном поле представлены различные классы публикаций, включая журнальную статью, главу книги, книгу, диссертацию / монографию, главу заседания?, материалы собрания и патент. Последняя цитата обычно содержит информацию о непосредственном подателе последовательности, а не цитату из литературы. Поэтому она называется «submitter block» и вместо названия статьи присутствуют слова «Direct Submission».

Поле содержит несколько подполей: авторы (authors), заглавие (title), журнал (jounal), PUBMED.

Авторы

Список авторов в порядке их появления в цитируемой статье.

Entrez Поле поиска: автор [AUTH] (в формате Фамилия AB без точек после инициалов, инициалы модно опустить).

Заглавие

Название опубликованной или предварительное название неопубликованной работы.

Поле поиска Entrez: название [WORD].

Журнал

MEDLINE аббревиатура названия журнала. (Полное правописание может быть получено из базы данных Entrez Journals)

Поле поиска Entrez: имя журнала [JOUR] (можно вводить как полное правописание журнала, так и аббревиатуру MEDLINE).

PUBMED

Идентификатор PubMed (PMID).

Ссылки, которые включают идентификаторы PubMed, содержат ссылки в соответствующую запись PubMed. И наоборот, записи PubMed, содержащие идентификаторы последовательностей в поле SI (вторичный идентификатор источника), содержат ссылки на записи последовательностей.

Поле поиска Entrez: Невозможно выполнить поиск по PubMed ID, однако можно выполнить поиск в базе данных PubMed.

FEATURES[править | править вики-текст]

Поле содержит информацию о генах и генных продуктах (белках), а также о биологически важных областях, указанных в последовательности: ген, промотор, TATA-сигнал, матричная РНК, нетранслируемые 5' и 3' области (5'UTR, 3'UTR), кодирующая последовательность (CDS), альтернативно сплайсированная мРНК и другие.

Полный список функциональных последовательностей доступен в следующих местах:

В поле содержится информация о местоположении каждой биологически важной области, которая может быть представлена единичным интервалом нуклеотидов, смежным интервалом нуклеотидов, объединением интервалов последовательности и другими представлениями. Слово "complement" перед координатами подпоследовательности указывает на её расположенность на комплементарной цепи. Область, как правило, задается двумя координатами n..m. Если координатам предшествует символ «<», то последовательность частично расположена на 5'-конце (например, CDS <1..206). Если после координат следует символ «>», то последовательность частично расположена на 3'-конце (например, CDS 435..915>).

Поле поиска Entrez: функциональный ключ [FKEY]. Пример, promoter

source

Обязательное поле каждой записи, которое суммирует длину последовательности, научное название организма, откуда взята последовательность, и Taxon ID (идентификационный номер, присваиваемый каждому таксону в базе NCBI Taxonomy Database ). Может также включать дополнительную информацию, такую как локализация на карте генома (например, номер хромосомы), штамм, клон, тип ткани и т. д.

Поле поиска Entrez: используйте запрос длина последовательности [SLEN] для поиска по длине, организм [ORGN] для поиска по названию организма, дополнительная информация [ALL] для поиска других элементов, таких как штамм, клон, тип ткани.

CDS

Кодирующая последовательность - область нуклеотидов, которая соответствует последовательности аминокислот в белке (местонахождение включает в себя старт- и стоп-кодоны). CDS включает в себя транслированную с этой области аминокислотную последовательность. Авторы могут указать природу CDS, используя спецификатор "/evidence=experimental" или "/evidence=not_experimental". Авторам записей также предлагается комментировать последовательность мРНК, которая включает в себя 5'-нетранслируемую область (5'UTR), кодирующие последовательности (CDS, экзон) и 3'-нетранслируемую область (3'UTR).

Поле поиска Entrez: функциональный ключ [FKEY]

protein_id, GI

Идентификационный номер белковой последовательности, аналогичный идентификатору нуклеотидной последовательности. Идентификаторы белков состоят из трех букв, за которыми следуют пять цифр, точка и номер версии. Если произойдет изменение данных последовательности (даже одной аминокислоты), номер версии будет увеличен (например, AAA98665.1 изменится на AAA98665.2).

Формат идентификации идентификационных номеров белковых последовательностей accession.version был реализован GenBank / EMBL / DDBJ в феврале 1999 года и работает параллельно с цифровой системой GI (смотри выше).

Поле поиска Entrez: используйте значение по умолчанию «All Fields»

ген

Область биологического интереса, идентифицированная как ген, для которой присвоено имя.

Поле поиска Entrez: функциональный ключ [FKEY]

ORIGIN[править | править вики-текст]

Непосредственно содержит саму последовательность. Чтобы просмотреть или загрузить данные последовательности в формате FASTA, добавьте «?format = fasta» к URL-адресу записи; Например, /nucleotide/U49845?format=fasta&report=text.

Поле ORIGIN может быть пустым, может отображаться как «Unreported», или может давать локальный указатель на начало последовательности, как правило, с участием экспериментально определенного сайта рестрикции или генетического локуса (если имеется). Эта информация присутствует только в старых записях.

Правила внесения данных[править | править вики-текст]

Данные в GenBank и в сотрудничающие базы данных ENA и DDBJ представляются либо отдельными авторами в одну из трех баз данных. Кроме того, NCBI тесно сотрудничает с центрами секвенирования для обеспечения своевременного добавления новых записей. Фактически все учетные записи входят в GenBank как прямые электронные заявки, причем большинство авторов используют программы BankIt или Sequin. У многих журналов выкладывание последовательности в публичную базу данных GenBank обязательным требованием к публикации авторов последовательности. Сотрудники GenBank обычно могут присваивать идентификаторы последовательностям в течение двух дней после подачи заявки. В среднем, за день идентификаторы получают приблизительно 3500 последовательностей. Идентификатор служит подтверждением того, что последовательность была опубликована и является средством для извлечения данной последовательности из базы данных, используя Entrez или сохранить с сайта через FTP. Заявки тщательно проверяются на наличие фрагментов используемых векторов (используется система VecScreen), правильной трансляции кодирующей области, правильной таксономии и правильных библиографических ссылок. Черновик записи в GenBank отправляется обратно автору для проверки и последних правок перед публикацией. Авторы могут потребовать, чтобы их последовательности были конфиденциальными до момента публикации. Но политика GenBank такова, что авторам необходимо сообщить о точной дате публикации, чтобы, начиная с этого момента, последовательность стала общедоступной[10].

GenBank предлагает специальные пакеты программ, облегчающие подачу заявок[10]:

  • BankIt. Около трети предоставленных авторами материалов принимаются через веб-интерфейс NCBI BankIt. Используя BankIt, авторы предоставляют информацию о последовательности и различные биологические аннотации, такие как кодирующие области, тип мРНК и др., заполняя специальную форму, что позволяет заявителю правильно описать последовательность без необходимости изучать правила форматирования и нормативную лексику.
  • Sequin - автономный программный инструмент, разработанный NCBI для отправки и обновления записей в базе данных последовательности GenBank. Он способен обрабатывать простые записи, содержащие одну короткую последовательность мРНК, и сложные записи, содержащие длинные последовательности, множественные аннотации, или филогенетические и популяционные исследования. Один файл Sequin должен содержать менее 10000 последовательностей для максимальной производительности. Более крупные записи должны быть сделаны с помощью tbl2asn. Дополнительно существует веб-сервис Submission Portal (submit.ncbi.nlm.nih.gov), предоставляющий интерфейс, который принимает данные WGS в формате FASTA с fastaнабора онлайн-форм.
  • tbl2asn инструмент командной строки для преобразования таблицы с аннотацией, полученной при помощи аннотационного пайплайна, в запись, подходящую для предоставления в GenBank.
  • Submission Portal - веб-сервис, предоставляющий интерфейс, который принимает данные WGS в формате FASTA с использованием набора онлайн-форм.
  • BarSTool - онлайн-инструмент, позволяющий подавать заявки о включении в базу последовательностей для баркодинга.

Разделы GenBank[править | править вики-текст]

В настоящий момент база GenBank, помимо последовательностей отдельных генов, содержит много данных, полученных с помощью современных методов секвенирования ДНК и автоматического аннотирования последовательностей. Существует несколько разделов GenBank, посвящённых данным высокопроизводительного секвенирования[11].

  • Genomes - специальный раздел для хранения полных геномов. Созданы руководства по аннотации полных геномов прокариот и эукариот.
  • WGS (Whole genome shoutgun) – проекты по сборке неполных геномов, хромосом прокариот или эукариот, главным образом, секвенированных методом дробовика. В GenBank аннотация проектов WGS необязательна, однако NCBI располагает специальным пайплайном для аннотации прокариотических геномов. Существует список доступных WGS-проектов
  • TPA (Third Party Annotation) представляет из себя базу данных экспериментальных или выведенных из уже имеющихся данных результатов, аннотация которых не произведена автором из первичных данных, а определена по косвенным. Записи TPA делятся, соответственно, на две категории:
    • experimental – аннотация последовательностей подтверждена экспериментальным доказательством в «мокрой» лаборатории.
    • inferential – аннотация последовательностей сделана путём умозаключения из доступной информации. При этом непосредственно молекула нуклеиновой кислоты или её продукт(ы) не являлись предметами прямых экспериментов.
  • TSA (Transcriptome Shotgun Assembly sequences) –  последовательности транскриптомов, полученные путём секвенирования методом дробовика. Данный раздел содержит данные, собранные из последовательностей, размещённых в NCBI Trace Archieve, Sequence Read Archive и разделe GenBank EST. Отдел TSA представляет собой один из самых быстрорастущих разделов GenBank.
  • ENV (Environmental sample sequences) – последовательности образцов из окружающей среды, конкретный источник которых неизвестен. Многие из них получены путём анализа метагеномов. Подаздел «Метагеномы» включает в себя группы последовательностей, полученных при секвенировании ДНК, взятой из какого-либо места окружающей среды с определёнными условиями. Такой подход позволяет найти организмы, лабораторная культура которых не получена. Также он исключительно важен для понимания генетического разнообразия, структуры популяций, экологической роли таких организмов. ENV последовательности, как правило, предоставлены данными секвенирования полного метагенома методом дробовика или исследований последовательностей на основе таргетных генов, таких как 16S рРНК. NCBI продолжает поддерживать поиск BLAST метагеномных последовательностей ENV, но последовательности в рамках WGS проектов теперь являются частью базы данных WGS BLAST.
  • EST (Expressed sequence tags) – основной источник данных для исследований, посвящённым изучению экспрессии генов и аннотированию последовательностей. Раздел содержит более 40 млрд. пар оснований – является крупнейшим по этому параметру после WGS. 
  • HTG (High-throughput genomic) содержит масштабные геномные записи незавершённых, которые в перспективе будут окончены. Записям в данном разделе присваивается номер фазы, которой соответствует их текущее качество. При достижении третьей фазы – полного завершения – запись переносится в раздел соответствующего организма.
  • GSS содержит записи чернового качества, которые, могут включать в себя 5’ и 3’ нетранслируемые области (UTR), части кодирующих областей и интроны. По мере обретения высокого качества записи перемещаются в раздел соответствующего организма.
  • CON (Contig records for assemblies of smaller records) – содержит записи, представляющие собой очень длинные последовательности, такие как эукариотические хромосомы, чьи полные последовательности не известны, но которые включают несколько контигов с неохарактеризованными гэпами между ними. CON скорее содержит не список последовательностей сам по себе, а инструкцию по сборке, включающую несколько последовательностей-компонентов.

Примечания[править | править вики-текст]

  1. 1 2 3 4 5 6 Bruno J. Strasser GenBank--Natural History in the 21st Century? (англ.) // Science. — 2008-10-24. — Vol. 322, iss. 5901. — P. 537–538. — ISSN 1095-9203. — DOI:10.1126/science.1163399.
  2. MARGARET OAKLEY DAYHOFF, 57; EXPERT ON PROTEIN STRUCTURES, The New York Times (9 февраля 1983). Проверено 25 марта 2017.
  3. . Walter Goad in front of a terminal accessing the GenBank... - Figure 3 of 4 (англ.). ResearchGate. Проверено 14 апреля 2017.
  4. Strasser, Bruno The Experimenter's Museum: GenBank, Natural History, and the Moral Economies of Biomedicine // Isis. — 2011-01-01. — Т. 102, вып. 1. — ISSN 0021-1753.
  5. Diamond v. Chakrabarty 447 U.S. 303 (1980) (англ.), Justia Law. Проверено 25 марта 2017.
  6. Frederick Sanger Sequences, Sequences, and Sequences // Annual Review of Biochemistry. — 1988-01-01. — Т. 57, вып. 1. — С. 1–29. — DOI:10.1146/annurev.bi.57.070188.000245.
  7. GenBank and WGS Statistics (англ.). www.ncbi.nlm.nih.gov. Проверено 25 марта 2017.
  8. GenBank release notes. NCBI.
  9. Sample GenBank Record (англ.). www.ncbi.nlm.nih.gov. Проверено 14 апреля 2017.
  10. 1 2 Dennis A. Benson, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman, James Ostell GenBank // Nucleic Acids Research. — 2015-01-01. — Т. 43, вып. Database issue. — С. D30–35. — ISSN 1362-4962. — DOI:10.1093/nar/gku1216.
  11. Dennis A. Benson, Mark Cavanaugh, Karen Clark, Ilene Karsch-Mizrachi, David J. Lipman GenBank // Nucleic Acids Research. — 2013-01-01. — Т. 41, вып. Database issue. — С. D36–42. — ISSN 1362-4962. — DOI:10.1093/nar/gks1195.

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]