Генная онтология

Материал из Википедии — свободной энциклопедии
(перенаправлено с «Генная Онтология»)
Перейти к: навигация, поиск

«Генная онтология» (англ. Gene Ontology или GO) — биоинформатический проект, посвященный созданию унифицированной терминологии для аннотации генов и генных продуктов всех биологических видов[1].

Целью проекта является поддержание и пополнение определённого списка атрибутов генов и их продуктов, составление аннотаций генов и продуктов, а также разработка инструментов доступа к базе данных проекта.

«Генная онтология» является частью более крупного проекта по классификации — «Открытые биомедицинские онтологии» (OBO)[2].

История и текущее состояние[править | править вики-текст]

Онтологии в информатике используются для формализации определенных областей знаний с помощью системы данных об объектах реального мира и связях между ними. В биологии и смежных дисциплинах возникла проблема отсутствия универсального стандарта терминологии. Термины, выражающие сходные понятия, но применяемые для разных биологических видов, разных областей исследований и даже внутри разных групп учёных могут значительно варьировать, что затрудняет обмен данными. В связи с этим задачей проекта «Генная онтология» стало создание онтологии терминов, отражающих свойства генов и их продуктов и применимых к любым организмам.

«Генная онтология» была создана в 1998 году консорциумом ученых, изучавших геномы трех модельных организмов: Drosophila melanogaster (плодовая мушка), Mus musculus (мышь) и Saccharomyces cerevisiae (пекарские дрожжи)[3]. Затем многие базы данных для других модельных организмов присоединились к Консорциуму GO, тем самым способствуя не только расширению базы аннотаций, но и созданию сервисов для просмотра и применения данных.

Консорциум GO (GOC) — это множество биологических баз данных и исследовательских групп, активно участвующих в проекте «Генной Онтологии»[4]. К нему относятся несколько баз данных для различных модельных организмов, общие белковые базы данных, группы разработчиков программного обеспечения и редакторы «Генной Онтологии».

По состоянию на сентябрь 2011 года «Генная Онтология» содержала более 33 тысяч терминов и около 12 млн аннотаций генных продуктов, применимых к более 360 тыс. живых организмов[5]. В течение нескольких последних лет Консорциум GO внедрил ряд изменений онтологии для увеличения количества, качества и специфичности аннотаций GO. К 2013 году число аннотаций превысило 96 млн. Качество аннотаций было улучшено посредством автоматизированной проверки качества. Также улучшилось содержание и корректность самой «Генной Онтологии». Разработки, которые планируется осуществить в ближайшем будущем, включают в себя реализацию InterMine, открытой базы данных с усовершенствованным интерфейсом поиска для создания GOMine. GOMine будет использоваться в качестве быстрого и гибкого сервиса поиска данных. Также онтология будет расширяться в области исследования клеточного цикла[6].

Структура и термины[править | править вики-текст]

Следует понимать, что «Генная Онтология» описывает комплексные биологические феномены, а не конкретные биологические объекты. База данных «Генной Онтологии» включает три независимых словаря[1]:

  • Молекулярные функции (англ. molecular function) — специфическая активность генного продукта на молекулярном уровне, например, связывание углеводов или АТФазная активность.
  • Биологические процессы (англ. biological process) — сложные явления, необходимые для жизнедеятельности организмов и происходящие благодаря осуществлению последовательности молекулярных функций, например, митоз или биосинтез пуринов.
  • Клеточные компоненты (англ. cellular component) — части клетки или внеклеточного пространства, где осуществляется функция генного продукта, например, ядро или рибосома.

Каждый термин в «Генной онтологии» имеет ряд атрибутов: уникальный цифровой идентификатор, название, словарь, к которому термин принадлежит, и определение. Термины могут иметь синонимы, которые делятся на точно соответствующие значению термина, более широкие, более узкие и имеющие некоторое отношение к термину. Также могут присутствовать такие атрибуты, как ссылки на источники, на другие базы данных и комментарии по значению и использованию термина.

Онтология построена по принципу ориентированного ациклического графа: каждый термин связан с одним или несколькими другими терминами через различного типа отношения. Выделяют следующие типы отношений[1]:

  • «A is a B» — A является частным случаем B,
  • «A part of B» — A является частью B,
  • «B has part A» — B включает A,
  • «A regulates B» — А регулирует В,
  • «A positively regulates B» — А позитивно регулирует В,
  • «A negatively regulates B» — А негативно регулирует В,
  • «A occurs in B» — А встречается при В.

Пример термина GO[7]:

id: GO:0043417
name: negative regulation of skeletal muscle tissue regeneration
namespace: biological_process
def: "Any process that stops, prevents, or reduces the frequency, rate or extent of skeletal muscle regeneration." [GOC:jl]
synonym: "down regulation of skeletal muscle regeneration" EXACT []
synonym: "down-regulation of skeletal muscle regeneration" EXACT []
synonym: "downregulation of skeletal muscle regeneration" EXACT []
synonym: "inhibition of skeletal muscle regeneration" NARROW []
is_a: GO:0043416 ! regulation of skeletal muscle tissue regeneration
is_a: GO:0048640 ! negative regulation of developmental growth
relationship: negatively_regulates GO:0043403 ! skeletal muscle tissue regeneration

В базу данных «Генной Онтологии» постоянно вносятся изменения и дополнения как участниками проекта GO, так и другими исследователями и аннотаторами. Предлагаемые поправки проверяются редакторами онтологии и применяются, где необходимо.

Файл, содержащий всю базу данных[7], может быть получен в различных форматах на официальном сайте «Генной Онтологии», а также термины доступны онлайн с помощью браузера «Генной Онтологии» AmiGO. Также на сайте можно скачать карты соответствия терминов GO другим системам классификации[8].

Аннотации[править | править вики-текст]

Аннотирование геномов нацелено на получение информации о свойствах генных продуктов. В аннотациях GO для этого используются термины «Генной Онтологии». Члены Консорциума GO выкладывают свои аннотации на сайте «Генной Онтологии», где аннотации доступны для прямого скачивания, либо для просмотра в браузере AmiGO[9].

В аннотации гена содержатся следующие данные: название и идентификатор генного продукта; соответствующий термин GO; тип данных, на которых основана аннотация (англ. evidence code); ссылка на источник; а также создатель и дата создания аннотации. Для типов данных, указывающих на достоверность аннотации (evidence code), существует особая онтология, относящаяся к проекту ОBО[10]. Она включает различные методы аннотирования: как осуществляемые вручную, так и автоматические. Например[1]:

  • IDA (Inferred from Direct Assay) — экспериментальные данные.
  • TAS (Traceable Author Statement) — данные из научной публикации.
  • IMP (Inferred from Mutant Phenotype) — данные получены на основе мутантного фенотипа.
  • IGI (Inferred from Genetic Interaction) — на основе взаимодействия генов.
  • IPI (Inferred from Physical Interaction) — на основе физического взаимодействия.
  • RCA (Inferred from Reviewed Computational Analysis) — на основе достоверного вычислительного анализа.
  • ISS (Inferred from Sequence Similarity) — на основе сходства последовательностей.
  • IGC (Inferred from Genomic Context) — на основе геномного контекста.
  • IEP (Inferred from Expression Pattern) — на основе характера экспрессии.
  • NAS (Non-traceable Author Statement) — на основе неопубликованных данных.
  • IEA (Inferred from Electronic Annotation) — на основе автоматического извлечения из других баз аннотаций.
  • IC (Inferred by Curator) — данные приписаны куратором.
  • ND (No biological Data available) — достоверные данные отсутствуют.

По данным на сентябрь 2012 года более 99 % всех аннотаций «Генной Онтологии» были получены автоматическим путем[6]. Поскольку такие аннотации не проверяются вручную, то Консорциум GO рассматривает их как менее достоверные, и лишь часть из них доступна в браузере AmiGO. Полную базу аннотаций можно скачать на сайте «Генной Онтологии».

Сервисы[править | править вики-текст]

Существует множество сервисов, доступных для скачивания или онлайн, которые используют данные, предоставляемые в рамках проекта «Генной Онтологии». Из них Консорциумом GO разрабатываются и поддерживаются два сервиса: AmiGO и OBO-Edit.

AmiGO[11] — это веб-приложение, которое позволяет пользователям запрашивать, находить и визуализировать термины GO и аннотации генных продуктов. Кроме того, приложение содержит инструмент BLAST, сервисы, позволяющие анализировать большие массивы данных и интерфейс для поиска непосредственно в базе данных GO[12]. AmiGO может быть использован онлайн на сайте «Генной Онтологии» для доступа к данным, предоставляемых Консорциумом GO, либо может быть загружен и установлен для локального применения к любой базе данных, построенной по принципу GO. AmiGO является открытым и свободным ПО.

OBO-Edit[13] — это находящийся в открытом доступе редактор онтологий, разработанный и поддерживаемый Консорциумом GO. Он реализован на языке Java и использует подход, основанный на работе с графами, для визуализации и редактирования онтологий. OBO-Edit имеет удобный интерфейс поиска и фильтрации, позволяющий визуализировать и разделять подмножества терминов GO. Интерфейс можно настраивать в соответствии с предпочтениями пользователя. Также OBO-Edit позволяет автоматически создавать новые связи на основе существующих отношений и их свойств. Несмотря на то, что OBO-Edit был разработан для биомедицинских онтологий, он может быть использован для просмотра и редактирования любой онтологии.

См. также[править | править вики-текст]

Литература[править | править вики-текст]

  1. 1 2 3 4 du Plessis L, Skunca N, Dessimoz C (November 2011). «The what, where, how and why of gene ontology — a primer for bioinformaticians». Brief Bioinform. 12 (6): 723–35. DOI:10.1093/bib/bbr002. PMID 21330331.
  2. Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (November 2007). «The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration». Nat. Biotechnol. 25 (11): 1251–5. DOI:10.1038/nbt1346. PMID 17989687.
  3. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (May 2000). «Gene ontology: tool for the unification of biology. The Gene Ontology Consortium». Nat. Genet. 25 (1): 25–9. DOI:10.1038/75556. PMID 10802651.
  4. The GO Consortium.
  5. The Gene Ontology Consortium (January 2012). «The Gene Ontology: enhancements for 2011.». Nucleic Acids Res. 40 (Database issue): D559–64. DOI:10.1093/nar/gkr1028. PMID 22102568.
  6. 1 2 The Gene Ontology Consortium (January 2013). «Gene Ontology annotations and resources.». Nucleic Acids Res. 41 (Database issue): D530–5. DOI:10.1093/nar/gks1050. PMID 23161678.
  7. 1 2 The GO Consortium. База данных "Генной Онтологии" в формате .obo (OBO 1.2 flat file).
  8. The GO Consortium. Mappings of External Classification Systems to GO..
  9. The GO Consortium. Search annotations..
  10. The Open Biological and Biomedical Ontologies: Evidence Codes..
  11. Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S; AmiGO Hub; Web Presence Working Group (January 2008). «AmiGO: Online access to ontology and annotation data.». Bioinformatics 25 (2): 288–289. DOI:10.1093/bioinformatics/btn615. PMID 19033274.
  12. Руководство по работе с AmiGO..
  13. Day-Richter J, Harris MA, Haendel M, Gene Ontology OBO-Edit Working Group, Lewis S (August 2007). «OBO-Edit – an ontology editor for biologists.». Bioinformatics 23 (16): 2198–2200. DOI:10.1093/bioinformatics/btm112. PMID 17545183.

Ссылки[править | править вики-текст]

  • The Gene Ontology — официальный сайт проекта.  (англ.)
  • AmiGO — браузер «Генной Онтологии».  (англ.)