Эта статья входит в число добротных статей

UniProt

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск
Uniprot.gif
UniProt
Содержимое
Описание

База данных последовательностей белков

Тип данных

Аннотирование белков

Организмы

Все

Контакты
Исследовательский центр

EMBL-EBI, UK; SIB, Switzerland; PIR, US.

Доступность
Формат данных

FASTA, GFF, RDF, XML.

Сайт

uniprot.org
uniprot.org/news/

Инструменты
Прочее

UniProt — открытая база данных последовательностей белков. Консорциум UniProt действует с 2003 года[⇨]. Единая база данных UniProt была создана путём объединения нескольких баз[⇨]. UniProt состоит из четырёх крупных баз данных (База знаний[⇨], Архив[⇨], Справочные кластеры[⇨] и метагеномные данные[⇨]) и охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.

Uniprot-консорциум[править | править код]

В UniProt-консорциум входят: Европейский Институт Биоинформатики (EBI), Швейцарский Институт Биоинформатики (SIB) и Белковый Информационный Ресурс (PIR)[1].

В EBI, расположенном в посёлке Хинкстон (Hinxton), Великобритания, размещено большое количество биоинформатических баз данных и сервисов[2].

SIB, расположенный в Женеве, Швейцария, является хранилищем серверов, служащих для экспертного белкового системного анализа (ExPASy-серверов), являющихся главным источником для инструментов протеомики и соответствующих баз данных[3].

PIR расположен в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, и представляет собой интегрированный биоинформатический ресурс, предназначенный для поддержки исследований в области геномики и протеомики[4].

В 2002 году PIR (Белковый Информационный Ресурс), вместе со своими международными партнёрами, EBI (Европейским Институтом Биоинформатики) и SIB (Швейцарским Институтом Биоинформатики), получили грант от Национального Института Здоровья (NIH) для создания UniProt, единой всемирной базы данных последовательностей и функций белков. Так появился консорциум UniProt[5]. Проект UniProt начал действовать с декабря 2003 года[6].

UniProt финансируется за счёт грантов от Национальных Институтов Здравоохранения США (NIH), Национального Института исследования генома человека (NHGRI), Национального Института Общемедицинских Hаук (NIGMS), Британского фонда по борьбе с сердечными заболеваниями (BHF),  Швейцарского Федерального Правительства через Федеральное управление образования и науки, Национального научного фонда (NSF)[1][7].

Происхождение базы данных UniProt[править | править код]

Единая база данных UniProt была создана путём объединения баз данных Swiss-Prot, TrEMBL и PIR — PSD[8][9][10].

Swiss-Prot[править | править код]

База данных Swiss-Prot была создана в 1986 году Амосом Байрошем во время работы над своим PhD-проектом и развита в дальнейшем в Швейцарском Институте Биоинформатики (SIB), а позже доработана Рольфом Апвейлером в Европейском Институте Биоинформатики (EBI)[11][12][13]. Основная функция базы данных Swiss-Prot направлена на обеспечение надёжности информации о белковых последовательностях, обусловленной высоким, детальным уровнем аннотации, выполненной вручную. Она включает описание функции белка, его доменной структуры, пост-трансляционных модификаций, различных вариантов последовательности и т. д., причём с минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных[1].

TrEMBL[править | править код]

База данных «Библиотека данных Нуклеотидных последовательностей» (TrEMBL) была разработана в 1996 году как аннотированное компьютерное приложение к Swiss-Prot[8][10][11]. Решение о создании TrEMBL было принято в ответ на увеличение потока данных в результате появления геномных проектов, а затратный по времени и трудоемкий процесс ручной аннотации в UniProtKB / Swiss-Prot превышал возможности Swiss-Prot для того, чтобы включить все доступные белковые последовательности[8][10]. TrEMBL предоставляет возможность автоматизированной аннотации для трансляции имеющихся нуклеотидных последовательностей и превращения их в белковые последовательности вне Swiss-Prot[6].

PIR-PSD[править | править код]

PIR, организованный Национальным фондом медико-биологических исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, а именно, созданным Маргарет Окли Дейхофф «Атласом последовательностей белка и структуры», впервые опубликованным в 1965 году[14]. PIR поддерживает несколько белковых баз данных, а именно: главную базу белковых последовательностей (PIR-PSD), базу данных, связанную с классификацией белков по структуре и функциям (iProClass), а также другие базы данных белковых последовательностей и курируемых семейств[1].

Организация баз данных UniProt[править | править код]

UniProt предоставляет четыре основных базы данных:

  1. UniProtKB (Swiss-Prot и TrEMBL),
  2. UniParc,
  3. UniRef,
  4. UniMes.

UniProt KnowledgeBase (UniProtKB)[править | править код]

База знаний UniProt (UniProtKB) представляет собой белковую базу данных, частично курируемую экспертами и состоящую из двух секций:

  • UniProtKB / Swiss-Prot, содержащую обзорные, вручную аннотированные записи. По состоянию на 15 марта 2017 года UniProtKB / Swiss-Prot содержит 553941 запись последовательностей (включающих 198311666 аминокислот), полученных из 251243 источников[15].
  • UniProtKB / TrEMBL, содержащую нерецензированные, автоматически аннотированные записи[7]. По состоянию на 15 марта 2017 года UniProtKB / TrEMBL содержит 80204459 записей белковых последовательностей (включающих 26890984395 аминокислот)[16].

UniProtKB/Swiss-Prot[править | править код]

UniProtKB/Swiss-Prot является аннотированной вручную, без резервирования, базой данных белковых последовательностей. Целью UniProtKB / Swiss-Prot является предоставление всей известной необходимой информации о конкретном белке[1]. Аннотации регулярно проверяются, чтобы соответствовать текущим научным результатам. Требования к составлению аннотации записи включают подробный анализ последовательности белка и данных о нём из научной литературы[17]. Последовательности белка того же самого гена и того же вида объединены в одной и той же записи базы данных. Различия между последовательностями идентифицированы, и их причины документально зафиксированы и приведены (например, такие как альтернативный сплайсинг, естественные изменения, неправильные сайты инициации, неправильные экзонные границы, неправильные рамки считывания, список неопознанных конфликтов и другие). Целый диапазон инструментов анализа последовательностей используется при аннотации записей в UniProtKB/Swiss-Prot. Компьютерные предсказания вручную анализируются, и подходящие результаты отбираются для включения в записи базы данных. Эти предсказания включают пост-трансляционные модификации, последовательность, структуру и топологию трансмембранных доменов,сигнальные пептиды, доменную идентификацию и классификацию белковых семейств[17][18]. Соответствующие публикации идентифицируются поиском в базах данных, таких как PubMed. Полный текст каждого документа считывается, и информация добавляется к записи.

Аннотация, как правило, включает нижеперечисленную информацию[6]:

Аннотированная запись должна пройти контроль качества перед включением в UniProtKB / Swiss-Prot. При появлении новых данных существующие записи обновляются[1].

UniProtKB/TrEMBL[править | править код]

UniProtKB / TrEMBL содержит записи, проанализированные с помощью компьютерной техники, которые дополнены при помощи автоматической аннотации[1].

Трансляция аннотированных кодирующих последовательностей в базах данных последовательностей нуклеотидов, таких как Европейская молекулярно-биологическая лаборатория (EMBL-Bank), ГенБанк, Японская база данных ДНК (DDBJ) осуществляется автоматически, после чего эти белковые последовательности заносятся в UniProtKB / TrEMBL. UniProtKB / TrEMBL также содержит последовательности из Белкового Банка Данных (PDB) и предсказанные гены, в том числе из Ensembl — объединённого научного проекта, включающего Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute, RefSeq и CCDS[19].

UniProt Архив (UniParc)[править | править код]

UniProt Архив (UniParc) представляет собой всеобъемлющую, содержащуюся без резервирования базу данных, которая содержит последовательности белков из основных общедоступных баз данных белковых последовательностей[20]. Так как один и тот же белок может находиться в нескольких различных исходных базах данных, а также присутствовать в нескольких экземплярах в одной и той же базе данных, во избежание избыточности UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, являются ли они белками, представляющими одни и те же или разные виды. Каждой последовательности присвоен стабильной и уникальный код (УПИ), что делает возможным идентифицировать один и тот же белок из различных исходных баз данных[1].

UniParc содержит только белковые последовательности без аннотации. Перекрёстные ссылки в записях из базы данных UniParc позволяют получить дополнительную информацию о белке из базы данных, являющейся первоисточником. Если в исходных базах данных последовательности изменяются, эти изменения отслеживаются в UniParc, а история всех изменений сохраняется в архиве[1].

Источники данных для UniParc[1]
База данных Тип данных
Японская база данных ДНК (DDBJ)

Европейский архив нуклеотидов (ENA)

База данных ДНК и РНК (GenBank)

Кодирующие последовательности
Объединённый научный проект, включающий Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute (Ensembl)

База данных Геномной Аннотации Позвоночных (VEGA)

Прогнозируемые кодирующие последовательности из геномов позвоночных 
Основное хранилище генетических и молекулярных данных для насекомых семейства Drosophilidae (FlyBase) Кодирующая последовательность для видов из семейства Drosophilidae 
Исчерпывающий источник аннотаций для человеческих генов и транскриптов (H-Inv) Последовательности человеческого белка 
Международный Белковый Индекс (IPI) Протеиновые последовательности высших эукариот 
Patent Offices in Europe, US and Japan (USPTO) Кодирующие последовательности, связанные с патентами из патентных ведомств 
Белковые информационные ресурсы (PIR-PSD) Курированные последовательности белка 
Белковый Банк данных (PDB) Последовательности белков, трёхмерные структуры которых находятся в PDB 
Белковый исследовательский фонд (PRF) Протеиновые последовательности из научных трудов и предсказаний 
Кластеры ссылок UniProt (RefSeq) Кодирующие последовательности из набора NCBI геномных, транскрипционных и белковых эталонных последовательностей 
Дрожжевая геномная база данных (SGD) Кодирующие последовательности для Saccharomyces cerevisiae 
База информационных ресурсов для Arabidopsis thaliana (TAIR) Кодирующие последовательности для Arabidopsis thaliana 
TROME  Прогнозируемые аминокислотные последовательности
UniProtKB/Swiss-Prot  Обработанные вручную белковые последовательности, главным образом производные от TrEMBL 
UniProtKB/TrEMBL  Автоматически курируемые последовательности белка, полученные из кодирующих последовательностей в базах данных нуклеотидных последовательностей
База данных геномных и других биологических характеристик Caenorhabditis elegans (WormBase) Кодирующие последовательности для нематоды Caenorhabditis elegans 

Справочные кластеры UniProt (UniRef)[править | править код]

Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB и отобранных записей UniParc[21].

База данных UniRef100 сочетает идентичные последовательности и фрагменты последовательности (из любого организма) в одной записи UniRef[1].

Последовательности UniRef100 были кластеризованы с использованием CD-HIT алгоритма[21][22], чтобы построить UniRef90 и UniRef50[22]. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. В настоящее время покрытие UniRef превышает 4000000 исходных последовательностей[23].

Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надёжность поиска далёких родственных белков[1].

Записи UniRef содержат сведения о последовательности репрезентативного белка, подсчёт членов и общей таксономии кластера, а также регистрационные номера всех присоединяемых записей и ссылок на аннотации в UniProtKB для облегчения биологических исследований[1].

UniRef доступен с сайта UniREF FTP[24].

UniMrot (UniMes)[править | править код]

UniProt KB содержит записи с известной таксономией источника. Новые разработки привели к обнаружению новых источников для поиска белковых последовательностей. Появление метагеномных данных потребовало создания принципиально нового раздела в UniProt KB, а именно, отдельной базы данных — UniProt метагеномных последовательностей и неизвестных последовательностей из окружающей среды, UniMES (The UniProt Metagenomic and Environmental Sequences database)[25].

Метагеномика (metagenomics) представляет собой масштабный геномный анализ микробов, выделенных из проб из окружающей среды, в отличие от лабораторно выращенных организмов, которые представляют лишь небольшую часть микробного мира.

UniMES в настоящее время содержит данные о белковых последовательностях организмов из мирового океана, обеспеченных глобальной океанической экспедицией по сбору проб (Global Ocean Sampling expedition — GOS)[25], которые были первоначально представлены в Международной базе данных нуклеотидных последовательностей (INSDC)[26].

Первоначальный GOS-набор данных состоит из 25 миллионов последовательностей ДНК, в основном из океанических микробов, и почти 6 миллионов предсказанных белков. UniMES объединяет предсказанные белковые последовательности с автоматической классификацией по Interpro, который является интегрированным ресурсом для белковых семейств, доменов и функциональных сайтов. Поэтому UniMES является уникальной базой данных, которая обеспечивает свободный доступ к массиву геномной информации, полученной от экспедиций для отбора проб. Данные пробы из окружающей среды, содержащиеся в этой базе данных, отсутствуют в UniProt базе знаний или UniProt справочных кластерах (UniRef), но интегрированы в UniParc[27].

UniMES доступен на UniProt FTP site в формате FASTA[28].

Примечания[править | править код]

  1. 1 2 3 4 5 6 7 8 9 10 11 12 13 About UniProt (англ.). http://www.uniprot.org/help/about.
  2. About EBI (англ.). https://www.ebi.ac.uk/about/travel.
  3. About SIB (англ.). http://www.sib.swiss/about-us.
  4. About PIR (англ.). http://pir.georgetown.edu/pirwww/about/.
  5. Funding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283)
  6. 1 2 3 Apweiler R., Bairoch A., Wu C. H. Protein sequence databases. (англ.) // Current opinion in chemical biology. — 2004. — Vol. 8, no. 1. — P. 76—80. — DOI:10.1016/j.cbpa.2003.12.004. — PMID 15036160. исправить
  7. 1 2 The Universal Protein Resource (UniProt) in 2010. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D142–148. — DOI:10.1093/nar/gkp846. — PMID 19843607. исправить
  8. 1 2 3 O'Donovan C., Martin M. J., Gattiker A., Gasteiger E., Bairoch A., Apweiler R. High-quality protein knowledge resource: SWISS-PROT and TrEMBL. (англ.) // Briefings in bioinformatics. — 2002. — Vol. 3, no. 3. — P. 275—284. — PMID 12230036. исправить
  9. Wu C. H., Yeh L. S., Huang H., Arminski L., Castro-Alvear J., Chen Y., Hu Z., Kourtesis P., Ledley R. S., Suzek B. E., Vinayaka C. R., Zhang J., Barker W. C. The Protein Information Resource. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 345—347. — PMID 12520019. исправить
  10. 1 2 3 Boeckmann B., Bairoch A., Apweiler R., Blatter M. C., Estreicher A., Gasteiger E., Martin M. J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 365—370. — PMID 12520024. исправить
  11. 1 2 Bairoch A., Apweiler R. The SWISS-PROT protein sequence data bank and its new supplement TREMBL. (англ.) // Nucleic acids research. — 1996. — Vol. 24, no. 1. — P. 21—25. — PMID 8594581. исправить
  12. Bairoch A. Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 1. — P. 48—64. — PMID 10812477. исправить
  13. Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch». Protéines à la Une, August 2006. ISSN 1660-9824.
  14. Dayhoff, Margaret O. Atlas of protein sequence and structure. — Silver Spring, Md: National Biomedical Research Foundation, 1965.
  15. UniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html)
  16. UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/)
  17. 1 2 How do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45)
  18. Apweiler R., Bairoch A., Wu C. H., Barker W. C., Boeckmann B., Ferro S., Gasteiger E., Huang H., Lopez R., Magrane M., Martin M. J., Natale D. A., O'Donovan C., Redaschi N., Yeh L. S. UniProt: the Universal Protein knowledgebase. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. D115–119. — DOI:10.1093/nar/gkh131. — PMID 14681372. исправить
  19. Where do UniProtKB sequences come from (англ.). http://www.uniprot.org/faq/37.
  20. Leinonen R., Diez F. G., Binns D., Fleischmann W., Lopez R., Apweiler R. UniProt archive. (англ.) // Bioinformatics. — 2004. — Vol. 20, no. 17. — P. 3236—3237. — DOI:10.1093/bioinformatics/bth191. — PMID 15044231. исправить
  21. 1 2 Suzek B. E., Huang H., McGarvey P., Mazumder R., Wu C. H. UniRef: comprehensive and non-redundant UniProt reference clusters. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 10. — P. 1282—1288. — DOI:10.1093/bioinformatics/btm098. — PMID 17379688. исправить
  22. 1 2 Li W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. (англ.) // Bioinformatics. — 2001. — Vol. 17, no. 3. — P. 282—283. — PMID 11294794. исправить
  23. About UniRef=http://www.uniprot.org/uniref/.
  24. UniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/)
  25. 1 2 Yooseph S., Sutton G., Rusch D. B., Halpern A. L., Williamson S. J., Remington K., Eisen J. A., Heidelberg K. B., Manning G., Li W., Jaroszewski L., Cieplak P., Miller C. S., Li H., Mashiyama S. T., Joachimiak M. P., van Belle C., Chandonia J. M., Soergel D. A., Zhai Y., Natarajan K., Lee S., Raphael B. J., Bafna V., Friedman R., Brenner S. E., Godzik A., Eisenberg D., Dixon J. E., Taylor S. S., Strausberg R. L., Frazier M., Venter J. C. The Sorcerer II Global Ocean Sampling expedition: expanding the universe of protein families. (англ.) // Public Library of Science Biology. — 2007. — Vol. 5, no. 3. — P. e16. — DOI:10.1371/journal.pbio.0050016. — PMID 17355171. исправить
  26. Brunak S., Danchin A., Hattori M., Nakamura H., Shinozaki K., Matise T., Preuss D. Nucleotide sequence database policies. (англ.) // Science (New York, N.Y.). — 2002. — Vol. 298, no. 5597. — P. 1333. — PMID 12436968. исправить
  27. The universal protein resource (UniProt). (англ.) // Nucleic acids research. — 2008. — Vol. 36. — P. D190–195. — DOI:10.1093/nar/gkm895. — PMID 18045787. исправить
  28. Uniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/)

Ссылки[править | править код]