UniProt

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

UniProt представляет собой базу данных последовательностей белков. Информация из базы данных доступна для всех пользователей. Она охватывает различные аспекты анализа белковых последовательностей. Многие из последовательностей стали известны в результате реализации проектов секвенирования геномов последних лет. Кроме того, база данных UniProt содержит большое количество информации о биологических функциях белков, полученной из научной литературы.

Uniprot консорциум[править | править вики-текст]

В UniProt-консорциум входят: Европейский Институт Биоинформатики (EBI), Швейцарский Институт Биоинформатики (SIB) и Белковый Информационный Ресурс (PIR).

В EBI, расположенном в «Wellcome Trust» Геномном Кампусе (Wellcome Trust Genome Campus) в посёлке Хинкстон (Hinxton), Великобритания, размещено большое количество биоинформатических баз данных и сервисов.

SIB, расположенный в Женеве, Швейцария, является хранилищем серверов, служащих для экспертного белкового системного анализа (ExPASy-серверов), являющихся главным источником для инструментов протеомики и соответствующих баз данных.

PIR расположен в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, и представляет собой интегрированный биоинформатический ресурс, предназначенный для поддержки исследований в области геномики и протеомики.

В 2002 году PIR (Белковый Информационный Ресурс), вместе со своими международными партнёрами, EBI (Европейским Институтом Биоинформатики) и SIB (Швейцарским Институтом Биоинформатики), получили грант от Национального Института Здоровья (NIH) для создания UniProt, единой всемирной базы данных последовательностей и функций белков. Так появился консорциум UniProt[1]. Проект UniProt начал действовать с декабря 2003 года[2].

UniProt финансируется за счёт грантов от Национального Института исследования генома человека (NHGRI), Национального Института Здоровья (NIH), Европейской комиссии, Швейцарского Федерального Правительства через Федеральное управление образования и науки, Национального Института рака и раковой Биомедицинской Информационной Сети (NCI-caBIG), Министерства обороны[3].

Происхождение базы данных UniProt[править | править вики-текст]

Единая база данных UniProt была создана путём объединения баз данных Swiss-Prot, TrEMBL и PIR — PSD[4][5][6].

Swiss-Prot

База данных Swiss-Prot была создана в 1986 году Амосом Байрошем во время работы над своим PhD-проектом и развита в дальнейшем в Швейцарском Институте Биоинформатики (SIB), а позже доработана Рольфом Апвейлером в Европейском Институте Биоинформатики (EBI)[7][8][9]. Основная функция базы данных Swiss-Prot направлена на обеспечение надежности информации о белковых последовательностях, обусловленной высоким, детальным уровнем аннотации, выполненной вручную. Она включает описание функции белка, его доменной структуры, пост-трансляционных модификаций, различных вариантов последовательности и т. д., причём с минимальным уровнем избыточности и высоким уровнем интеграции с другими базами данных.

TrEMBL

База данных «Библиотека данных Нуклеотидных последовательностей» (TrEMBL) была разработана в 1996 году как аннотированное компьютерное приложение к Swiss-Prot[4][6][7]. Решение о создании TrEMBL было принято в ответ на увеличение потока данных в результате появления геномных проектов, а затратный по времени и трудоемкий процесс ручной аннотации в UniProtKB / Swiss-Prot превышал возможности Swiss-Prot для того, чтобы включить все доступные белковые последовательности[4][6]. TrEMBL предоставляет возможность автоматизированной аннотации для трансляции имеющихся нуклеотидных последовательностей и превращения их в белковые последовательности вне Swiss-Prot[2].

PIR-PSD

PIR, организованный Национальным фондом медико-биологических исследований (NBRF) в Медицинском центре Джорджтаунского университета в Вашингтоне, округ Колумбия, США, является наследником старейшей базы данных последовательностей белков, а именно, созданным Margaret Dayhoff «Атласом последовательностей белка и структуры», впервые опубликованным в 1965 году[10]. PIR поддерживает несколько белковых баз данных, а именно: главную базу белковых последовательностей (PIR-PSD), базу данных, связанную с классификацией белков по структуре и функциям (iProClass), а также другие базы данных белковых последовательностей и курируемых семейств.

После объединения каждый член консорциума активно участвует в обеспечении единой базы данных последовательностями белков и их аннотации.

Организация баз данных UniProt[править | править вики-текст]

UniProt предоставляет четыре основных базы данных: UniProtKB (Swiss-Prot и TrEMBL), UniParc, UniRef и UniMes.

UniProtKB[править | править вики-текст]

База знаний UniProt (UniProtKB) представляет собой белковую базу данных, частично курируемую экспертами и состоящую из двух секций: UniProtKB / Swiss-Prot (содержащую обзорные, вручную аннотированные записи) и UniProtKB / TrEMBL (содержащую нерецензированные, автоматически аннотированные записи)[3]. По состоянию на 19 марта 2014 года UniProtKB / Swiss-Prot содержал 542782 записи последовательностей (включающих 193019802 аминокислоты), полученных из 226896 источников, по состоянию на эту же дату UniProtKB / TrEMBL содержал 54247468 записей белковых последовательностей (включающих 17207833179 аминокислот)[11][12].

UniProtKB/Swiss-Prot[править | править вики-текст]

UniProtKB/Swiss-Prot является аннотированной вручную, без резервирования, базой данных белковых последовательностей. Целью UniProtKB / Swiss-Prot является предоставление всей известной необходимой информации о конкретном белке. Аннотации регулярно проверяются, чтобы соответствовать текущим научным результатам. Требования к составлению аннотации записи включают подробный анализ последовательности белка и данных о нём из научной литературы[13]. Последовательности белка того же самого гена и того же вида объединены в одной и той же записи базы данных. Различия между последовательностями идентифицированы, и их причины документально зафиксированы и приведены (например, такие как альтернативный сплайсинг, естественные изменения, неправильные сайты инициации, неправильные экзонные границы, неправильные рамки считывания, список неопознанных конфликтов и другие). Целый диапазон инструментов анализа последовательностей используется при аннотации записей в UniProtKB/Swiss-Prot. Компьютерные предсказания вручную анализируются, и подходящие результаты отбираются для включения в записи базы данных. Эти предсказания включают пост-трансляционные модификации, последовательность, структуру и топологию трансмембранных доменов,сигнальные пептиды, доменную идентификацию и классификацию белковых семейств[13][14]. Соответствующие публикации идентифицируются поиском в базах данных, таких как PubMed. Полный текст каждого документа считывается, и информация добавляется к записи.

Аннотация, как правило, включает нижеперечисленную информацию[2]:

Аннотированная запись должна пройти контроль качества перед включением в UniProtKB / Swiss-Prot. При появлении новых данных существующие записи обновляются.

UniProtKB/TrEMBL[править | править вики-текст]

UniProtKB / TrEMBL содержит записи, проанализированные с помощью компьютерной техники, которые дополнены при помощи автоматической аннотации.

Трансляция аннотированных кодирующих последовательностей в базах данных последовательностей нуклеотидов, таких как Европейская молекулярно-биологическая лаборатория (EMBL-Bank), ГенБанк, Японская база данных ДНК (DDBJ) осуществляется автоматически, после чего эти белковые последовательности заносятся в UniProtKB / TrEMBL. UniProtKB / TrEMBL также содержит последовательности из Белкового Банка Данных (PDB) и предсказанные гены, в том числе из Ensembl — объединённого научного проекта, включающего Европейский Институт Биоинформатики и the Wellcome Trust Sanger Institute, RefSeq и CCDS[15].

UniParc[править | править вики-текст]

UniProt Архив (UniParc) представляет собой всеобъемлющую, содержащуюся без резервирования базу данных, которая содержит последовательности белков из основных общедоступных баз данных белковых последовательностей[16]. Так как один и тот же белок может находиться в нескольких различных исходных базах данных, а также присутствовать в нескольких экземплярах в одной и той же базе данных, во избежание избыточности UniParc сохраняет каждую уникальную последовательность только один раз. Идентичные последовательности объединяются независимо от того, являются ли они белками, представляющими одни и те же или разные виды. Каждой последовательности присвоен стабильной и уникальный код (УПИ), что делает возможным идентифицировать один и тот же белок из различных исходных баз данных. UniParc содержит только белковые последовательности без аннотации. Перекрёстные ссылки в записях из базы данных UniParc позволяют получить дополнительную информацию о белке из базы данных, являющейся первоисточником. Если в исходных базах данных последовательности изменяются, эти изменения отслеживаются в UniParc, а история всех изменений сохраняется в архиве.

Источники баз данных[править | править вики-текст]

В настоящее время UniParc содержит белковые последовательности из следующих общедоступных баз данных:

UniRef[править | править вики-текст]

Кластеры ссылок UniProt (UniRef) состоят из трёх баз данных (UniRef100, UniRef90 и UniRef50), сформированных из кластеризованных наборов белковых последовательностей из UniProtKB и отобранных записей UniParc[19].

База данных UniRef100 сочетает идентичные последовательности и фрагменты

последовательности (из любого организма) в одной записи UniRef. Последовательности UniRef100 были кластеризованы с использованием CD-HIT алгоритма[19][20], чтобы построить UniRef90 и UniRef50[20]. Каждый из двух последних кластеров состоит из последовательностей, которые имеют не менее 90 % идентичности и не менее 50 % идентичности, соответственно, с самой длинной найденной последовательностью. В настоящее время покрытие UniRef превышает 4000000 исходных последовательностей. Кластеризация последовательностей значительно уменьшает размер базы данных: UniRef100, UniRef90 и UniRef50 дают уменьшение размера базы данных примерно на ~ 10, 40 и 70 %, соответственно. Снижение избыточности увеличивает скорость поиска подобия и позволяет повысить надежность поиска далеких родственных белков. Записи UniRef содержат сведения о последовательности репрезентативного белка, подсчет членов и общей таксономии кластера, а также регистрационные номера всех присоединяемых записей и ссылок на аннотации в UniProtKB для облегчения биологических исследований. UniRef уже был применен в широких областях исследований, начиная от геномной аннотации до анализа данных протеомики. UniRef доступен с сайта UniREF FTP [21]

UniMes[править | править вики-текст]

UniProt KB содержит записи с известной таксономией источника. Новые разработки привели к обнаружению новых источников для поиска белковых последовательностей. Появление метагеномных данных потребовало создания принципиально нового раздела в UniProt KB, а именно, отдельной базы данных — UniProt метагеномных последовательностей и неизвестных последовательностей из окружающей среды, UniMES (The UniProt Metagenomic and Environmental Sequences database)[22]. Метагеномика (metagenomics) представляет собой масштабный геномный анализ микробов, выделенных из проб из окружающей среды, в отличие от лабораторно выращенных организмов, которые представляют лишь небольшую часть микробного мира. UniMES в настоящее время содержит данные о белковых последовательностях организмов из мирового океана, обеспеченных глобальной океанической экспедицией по сбору проб (Global Ocean Sampling expedition — GOS)[22], которые были первоначально представлены в Международной базе данных нуклеотидных последовательностей (INSDC)[23]. Первоначальный GOS-набор данных состоит из 25 миллионов последовательностей ДНК, в основном из океанических микробов, и почти 6 миллионов предсказанных белков. UniMES объединяет предсказанные белковые последовательности с автоматической классификацией по Interpro, который является интегрированным ресурсом для белковых семейств, доменов и функциональных сайтов. Поэтому UniMES является уникальной базой данных, которая обеспечивает свободный доступ к массиву геномной информации, полученной от экспедиций для отбора проб. Данные пробы из окружающей среды, содержащиеся в этой базе данных, отсутствуют в UniProt базе знаний или UniProt справочных кластерах (UniRef), но интегрированы в UniParc[24]. UniMES доступен на UniProt FTP site в формате FASTA[25].

Доступ к базе данных и обратная связь[править | править вики-текст]

UniProt веб-сайт[26] является точкой первичного доступа к данным и документации, и предлагает, в том числе, такие инструменты: полнотекстовый поиск, текстовый поиск для отдельного поля, поиск подобной последовательности, построение множественного выравнивания, серийный поиск для нескольких последовательностей одновременно и картирование идентификатора в базе. На главной странице есть ссылка на тур по сайту — краткое введение для начинающих пользователей. Полнотекстовый поиск позволяет быстрый и лёгкий поиск без предварительного знания об особенностях организации данных или синтаксиса поиска. Результаты сортируются по степени близости. Там, где это возможно, пользователю предоставляются варианты поиска, чтобы помочь отфильтровать результаты, которые дают слишком много или никакой информации. Более сложные запросы могут быть построены в определенном поле на основе текстового поиска: либо путём многократного конструирования запросов, либо путём ввода запросов вручную в поле запроса, который может быть быстрее и мощнее[27].

В поиске с точки зрения онтологии помогают автозавершения, и результаты такого поиска можно просматривать по сущности онтологий. Вывод наборов результатов, а также записей в базе данных можно настроить следующим образом: столбцы могут быть добавлены или удалены из таблицы результатов, чтобы увидеть более подробную функциональную аннотацию, чем та, которая доступна в выводе по умолчанию. Результаты поиска подобия последовательностей могут быть отфильтрованы по таксономии, чтобы получить быстрый обзор таксономического распределения результатов. Аннотации последовательностей из совпавших записей можно трансформировать в выравнивание последовательностей, чтобы сразу увидеть, сохраняются ли важные позиции. Сайт имеет простую и непротиворечивую URL-схему, что позволяет создавать закладки для всех результатов поисков, чтобы иметь возможность повторить их в последующем. Все наборы результатов можно скачать, чтобы предложить пользователям возможность извлекать индивидуальные наборы данных. Однако, для крупных загрузок отведен низкий приоритет, чтобы они не мешали интерактивным запросам. Поэтому объемные запросы могут быть медленнее по сравнению с загрузками с сервера UniProt FTP. Полные наборы данных рекомендуется загружать с указанного FTP-сервера[28]. Веб-сайт предлагает различные форматы для скачивания (например: обычный текст, XML, RDF, FASTA, GFF), которые зависят от выбранного набора данных. Форматы, ограниченные табуляциями, и данные в Excel-формате могут быть настроены путём выбора нужных столбцов в графическом представлении таблицы результатов. Все данные также доступны в RDF[29], представляющем собой стандарт W3C для публикации в Semantic Web. Как исходные данные, так и результаты поиска можно также получить либо путём запуска программы, либо с помощью простого HTTP (REST) запроса[30], либо через Java API (UniProtJAPI)[31].

Хотя веб-сайт UniProt предоставляет интерфейс запросов для всех данных в UniProt, некоторым пользователям также требуется возможность осуществлять последующий поиск в других базах, связанных с первоначальным поиском. Таким образом, был создан BioMart[32], раздел которого MartView[33] позволяет осуществлять комплексные запросы между UniProt и другими информационными ресурсами, такими как PRIDE, Ensembl и InterPro. Белковый UniProt DAS-сервер[34] обеспечивает доступ к последовательности и аннотации от UniProtKB и UniParc. Чтобы предложить пользователям ещё больше гибкости, предполагается использовать SPARQL[35] как конечную точку для сбора всех данных. Эти данные могут быть связаны с любым удаленным ресурсом, который, в свою очередь, теперь будет иметь конечной точкой SPARQL (см. SPARQL 1.1 — федеративные возможности запросов). Эта новая услуга доступна для бета-тестирования в beta.sparql.uniprot.org/. UniProt находится в свободном доступе для коммерческого и некоммерческого использования (см. для деталей[36]). Свежие выпуски публикуются каждые четыре недели, кроме выпусков для UniMES, который обновляется только тогда, когда обновляются источники исходных данных. Обширная документация о том, как наилучшим образом использовать ресурс UniProt, также доступна[37]. Кроме того, возможно просматривать результаты поиска через facebook[38], twitter и @uniprot). Адреса для вопросов и предложений (см. CONTACT[39]) или help@uniprot.org.

Литература[править | править вики-текст]

  1. Funding for Global Protein Database Will Create One Reliable Resource (http://www.genome.gov/page.cfm?pageID=10005283)
  2. 1 2 3 Apweiler R., Bairoch A., Wu C. H. Protein sequence databases. (англ.) // Current opinion in chemical biology. — 2004. — Vol. 8, no. 1. — P. 76—80. — DOI:10.1016/j.cbpa.2003.12.004. — PMID 15036160. исправить
  3. 1 2 The Universal Protein Resource (UniProt) in 2010. (англ.) // Nucleic acids research. — 2010. — Vol. 38. — P. D142–148. — DOI:10.1093/nar/gkp846. — PMID 19843607. исправить
  4. 1 2 3 O'Donovan C., Martin M. J., Gattiker A., Gasteiger E., Bairoch A., Apweiler R. High-quality protein knowledge resource: SWISS-PROT and TrEMBL. (англ.) // Briefings in bioinformatics. — 2002. — Vol. 3, no. 3. — P. 275—284. — PMID 12230036. исправить
  5. Wu C. H., Yeh L. S., Huang H., Arminski L., Castro-Alvear J., Chen Y., Hu Z., Kourtesis P., Ledley R. S., Suzek B. E., Vinayaka C. R., Zhang J., Barker W. C. The Protein Information Resource. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 345—347. — PMID 12520019. исправить
  6. 1 2 3 Boeckmann B., Bairoch A., Apweiler R., Blatter M. C., Estreicher A., Gasteiger E., Martin M. J., Michoud K., O'Donovan C., Phan I., Pilbout S., Schneider M. The SWISS-PROT protein knowledgebase and its supplement TrEMBL in 2003. (англ.) // Nucleic acids research. — 2003. — Vol. 31, no. 1. — P. 365—370. — PMID 12520024. исправить
  7. 1 2 Bairoch A., Apweiler R. The SWISS-PROT protein sequence data bank and its new supplement TREMBL. (англ.) // Nucleic acids research. — 1996. — Vol. 24, no. 1. — P. 21—25. — PMID 8594581. исправить
  8. Bairoch A. Serendipity in bioinformatics, the tribulations of a Swiss bioinformatician through exciting times! (англ.) // Bioinformatics. — 2000. — Vol. 16, no. 1. — P. 48—64. — PMID 10812477. исправить
  9. Séverine Altairac, « Naissance d’une banque de données: Interview du prof. Amos Bairoch». Protéines à la Une, August 2006. ISSN 1660-9824.
  10. Dayhoff, Margaret O. Atlas of protein sequence and structure. — Silver Spring, Md: National Biomedical Research Foundation, 1965.
  11. UniProtKB/SwissProt release statistics (http://www.expasy.org/sprot/relnotes/relstat.html)
  12. UniProtKB/TrEMBL release statistics (http://www.ebi.ac.uk/uniprot/TrEMBLstats/)
  13. 1 2 How do we manually annotate a UniProtKB entry (http://www.uniprot.org/faq/45)
  14. Apweiler R., Bairoch A., Wu C. H., Barker W. C., Boeckmann B., Ferro S., Gasteiger E., Huang H., Lopez R., Magrane M., Martin M. J., Natale D. A., O'Donovan C., Redaschi N., Yeh L. S. UniProt: the Universal Protein knowledgebase. (англ.) // Nucleic acids research. — 2004. — Vol. 32. — P. D115–119. — DOI:10.1093/nar/gkh131. — PMID 14681372. исправить
  15. Where do UniProtKB sequences come from (http://www.uniprot.org/faq/37)
  16. Leinonen R., Diez F. G., Binns D., Fleischmann W., Lopez R., Apweiler R. UniProt archive. (англ.) // Bioinformatics. — 2004. — Vol. 20, no. 17. — P. 3236—3237. — DOI:10.1093/bioinformatics/bth191. — PMID 15044231. исправить
  17. PRF (http://www.prf.or.jp/index-e.html)
  18. TROME (ftp://ftp.isrec.isb-sib.ch/pub/databases/trome)
  19. 1 2 Suzek B. E., Huang H., McGarvey P., Mazumder R., Wu C. H. UniRef: comprehensive and non-redundant UniProt reference clusters. (англ.) // Bioinformatics. — 2007. — Vol. 23, no. 10. — P. 1282—1288. — DOI:10.1093/bioinformatics/btm098. — PMID 17379688. исправить
  20. 1 2 Li W., Jaroszewski L., Godzik A. Clustering of highly homologous sequences to reduce the size of large protein databases. (англ.) // Bioinformatics. — 2001. — Vol. 17, no. 3. — P. 282—283. — PMID 11294794. исправить
  21. UniREF FTP site (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/uniref/)
  22. 1 2 Yooseph S., Sutton G., Rusch D. B., Halpern A. L., Williamson S. J., Remington K., Eisen J. A., Heidelberg K. B., Manning G., Li W., Jaroszewski L., Cieplak P., Miller C. S., Li H., Mashiyama S. T., Joachimiak M. P., van Belle C., Chandonia J. M., Soergel D. A., Zhai Y., Natarajan K., Lee S., Raphael B. J., Bafna V., Friedman R., Brenner S. E., Godzik A., Eisenberg D., Dixon J. E., Taylor S. S., Strausberg R. L., Frazier M., Venter J. C. The Sorcerer II Global Ocean Sampling expedition: expanding the universe of protein families. (англ.) // Public Library of Science Biology. — 2007. — Vol. 5, no. 3. — P. e16. — DOI:10.1371/journal.pbio.0050016. — PMID 17355171. исправить
  23. Brunak S., Danchin A., Hattori M., Nakamura H., Shinozaki K., Matise T., Preuss D. Nucleotide sequence database policies. (англ.) // Science (New York, N.Y.). — 2002. — Vol. 298, no. 5597. — P. 1333. — PMID 12436968. исправить
  24. The universal protein resource (UniProt). (англ.) // Nucleic acids research. — 2008. — Vol. 36. — P. D190–195. — DOI:10.1093/nar/gkm895. — PMID 18045787. исправить
  25. Uniprot FTP site UniMES (ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/unimes/)
  26. Uniprot Web-site (http://www.uniprot.org)
  27. TEXT SEARCH in UniProt(http://www.uniprot.org/help/text-search)
  28. UniProt full-datasets (ftp://ftp.uniprot.org/pub/databases/uniprot/)
  29. RDF (http://www.w3.org/RDF/)
  30. How can I access resources on this web site programmatically (http://www.uniprot.org/faq/28)
  31. Patient S., Wieser D., Kleen M., Kretschmann E., Jesus Martin M., Apweiler R. UniProtJAPI: a remote API for accessing UniProt data. (англ.) // Bioinformatics. — 2008. — Vol. 24, no. 10. — P. 1321—1322. — DOI:10.1093/bioinformatics/btn122. — PMID 18390879. исправить
  32. BioMart (http://www.biomart.org)
  33. MartView (http://www.ebi.ac.uk/uniprot/biomart/martview)
  34. UniProt-DAS (http://www.ebi.ac.uk/uniprot-das)
  35. SPARQL (http://www.w3.org/TR/rdf-sparql-query)
  36. License (http://www.uniprot.org/help/license)
  37. UniProt HELP (http://www.uniprot.org/help/)
  38. Facebook (http://www.facebook.com/uniprot.org)
  39. CONTACT (http://www.uniprot.org/contact)


Ссылки[править | править вики-текст]