Генная онтология

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

«Генная онтология» (англ. Gene Ontology или GO) — биоинформатический проект, посвященный созданию унифицированной терминологии для аннотации генов и генных продуктов всех биологических видов[1].

Целью проекта является поддержание и пополнение определённого списка атрибутов генов и их продуктов, составление аннотаций генов и продуктов, разработка инструментов доступа к базе данных проекта, а также анализирование экспериментальных данных, используя генную онтологию, в частности, анализ представленности функциональных групп генов. Стоит отметить, что генная онтология использует язык разметки для создания данных (информация о генах,продуктах их жизнедеятельности (РНК или белки), а также их признаках) , легко используемых в вычислительной технике.

«Генная онтология» является частью более крупного проекта по классификации — «Открытые биомедицинские онтологии» (OBO)[2].

История и текущее состояние[править | править вики-текст]

Онтологии в информатике используются для формализации определенных областей знаний с помощью системы данных об объектах реального мира и связях между ними (т. н. база знаний). В биологии и смежных дисциплинах возникла проблема отсутствия универсального стандарта терминологии. Термины, выражающие сходные понятия, но применяемые для разных биологических видов, разных областей исследований и даже внутри разных групп учёных могут значительно варьировать, что затрудняет обмен данными. В связи с этим задачей проекта «Генная онтология» стало создание онтологии терминов, отражающих свойства генов и их продуктов и применимых к любым организмам.

«Генная онтология» была создана в 1998 году консорциумом ученых, изучавших геномы трех модельных организмов: Drosophila melanogaster (плодовая мушка), Mus musculus (мышь) и Saccharomyces cerevisiae (пекарские дрожжи)[3]. Затем многие базы данных для других модельных организмов присоединились к Консорциуму GO, тем самым способствуя не только расширению базы аннотаций, но и созданию сервисов для просмотра и применения данных.

Консорциум GO (GOC) — это множество биологических баз данных и исследовательских групп, активно участвующих в проекте «Генная онтология»[4]. К нему относятся несколько баз данных для различных модельных организмов, общие белковые базы данных, группы разработчиков программного обеспечения и редакторы «Генной онтологии».

«Генная онтология» является масштабным и быстро развивающимся проектом. По состоянию на сентябрь 2011 года «Генная онтология» содержала более 33 тысяч терминов и около 12 млн аннотаций генных продуктов, применимых к более 360 тыс. живых организмов[5]. По истечению 2016 года количество терминов превысило 44 тысячи экземпляров , в то время как количество организмов, аннотированных в данной базе знаний превзошло отметку в 460 тысяч особей. [6]

В течение нескольких последних лет Консорциум GO внедрил ряд изменений онтологии для увеличения количества, качества и специфичности аннотаций GO. К 2013 году число аннотаций превысило 96 млн. Качество аннотаций было улучшено посредством автоматизированной проверки качества. Также улучшилось содержание и корректность самой «Генной онтологии». Разработки, которые планируется осуществить в ближайшем будущем, включают в себя реализацию InterMine, открытой базы данных с усовершенствованным интерфейсом поиска для создания GOMine. GOMine будет использоваться в качестве быстрого и гибкого сервиса поиска данных. Также онтология будет расширяться в области исследования клеточного цикла[7].

Структура и термины[править | править вики-текст]

Следует понимать, что «Генная онтология» описывает комплексные биологические феномены, а не конкретные биологические объекты. База данных «Генной онтологии» включает три независимых словаря[1]:

  • Молекулярные функции (англ. molecular function) — специфическая активность генного продукта на молекулярном уровне, например, связывание углеводов или АТФазная активность.
  • Биологические процессы (англ. biological process) — сложные явления, необходимые для жизнедеятельности организмов и происходящие благодаря осуществлению последовательности молекулярных функций, например, митоз или биосинтез пуринов.
  • Клеточные компоненты (англ. cellular component) — части клетки или внеклеточного пространства, где осуществляется функция генного продукта, например, ядро или рибосома.

Каждый термин в «Генной онтологии» имеет ряд атрибутов: уникальный цифровой идентификатор, название, словарь, к которому термин принадлежит, и определение. Термины могут иметь синонимы, которые делятся на точно соответствующие значению термина, более широкие, более узкие и имеющие некоторое отношение к термину. Также могут присутствовать такие атрибуты, как ссылки на источники, на другие базы данных и комментарии по значению и использованию термина.

Онтология построена по принципу ориентированного ациклического графа: каждый термин связан с одним или несколькими другими терминами через различного типа отношения. Выделяют следующие типы отношений[1]:

  • «A is a B» — A является частным случаем B,
  • «A part of B» — A является частью B,
  • «B has part A» — B включает A,
  • «A regulates B» — А регулирует В,
  • «A positively regulates B» — А позитивно регулирует В,
  • «A negatively regulates B» — А негативно регулирует В,
  • «A occurs in B» — А встречается при В.

Пример термина GO[8]:

id: GO:0043417
name: negative regulation of skeletal muscle tissue regeneration
namespace: biological_process
def: "Any process that stops, prevents, or reduces the frequency, rate or extent of skeletal muscle regeneration." [GOC:jl]
synonym: "down regulation of skeletal muscle regeneration" EXACT []
synonym: "down-regulation of skeletal muscle regeneration" EXACT []
synonym: "downregulation of skeletal muscle regeneration" EXACT []
synonym: "inhibition of skeletal muscle regeneration" NARROW []
is_a: GO:0043416 ! regulation of skeletal muscle tissue regeneration
is_a: GO:0048640 ! negative regulation of developmental growth
relationship: negatively_regulates GO:0043403 ! skeletal muscle tissue regeneration

В базу данных «Генной онтологии» постоянно вносятся изменения и дополнения как участниками проекта GO, так и другими исследователями и аннотаторами. Предлагаемые поправки проверяются редакторами онтологии и применяются, где необходимо.

Файл, содержащий всю базу данных[8], может быть получен в различных форматах на официальном сайте «Генной онтологии», а также термины доступны онлайн с помощью браузера «Генной онтологии» AmiGO. Кроме того, с его помощью возможно извлечение массива данных генных продуктов, относящихся к тому или иному термину. Также на сайте можно скачать карты соответствия терминов GO другим системам классификации[9].

Аннотации[править | править вики-текст]

Аннотирование геномов нацелено на получение информации о свойствах генных продуктов. В аннотациях GO для этого используются термины «Генной онтологии». Члены Консорциума GO выкладывают свои аннотации на сайте «Генной онтологии», где аннотации доступны для прямого скачивания, либо для просмотра в браузере AmiGO[10].

В аннотации гена содержатся следующие данные: название и идентификатор генного продукта; соответствующий термин GO; тип данных, на которых основана аннотация (англ. evidence code); ссылка на источник; а также создатель и дата создания аннотации. Для типов данных, указывающих на достоверность аннотации (evidence code), существует особая онтология, относящаяся к проекту ОВО[11]. Она включает различные методы аннотирования: как осуществляемые вручную, так и автоматические. Например[1]:

  • IDA (Inferred from Direct Assay) — экспериментальные данные.
  • TAS (Traceable Author Statement) — данные из научной публикации.
  • IMP (Inferred from Mutant Phenotype) — данные получены на основе мутантного фенотипа.
  • IGI (Inferred from Genetic Interaction) — на основе взаимодействия генов.
  • IPI (Inferred from Physical Interaction) — на основе физического взаимодействия.
  • RCA (Inferred from Reviewed Computational Analysis) — на основе достоверного вычислительного анализа.
  • ISS (Inferred from Sequence Similarity) — на основе сходства последовательностей.
  • IGC (Inferred from Genomic Context) — на основе геномного контекста.
  • IEP (Inferred from Expression Pattern) — на основе характера экспрессии.
  • NAS (Non-traceable Author Statement) — на основе неопубликованных данных.
  • IEA (Inferred from Electronic Annotation) — на основе автоматического извлечения из других баз аннотаций.
  • IC (Inferred by Curator) — данные приписаны куратором.
  • ND (No biological Data available) — достоверные данные отсутствуют.

По данным на сентябрь 2012 года более 99 % всех аннотаций «Генной онтологии» были получены автоматическим путём[7]. Поскольку такие аннотации не проверяются вручную, то Консорциум GO рассматривает их как менее достоверные, и лишь часть из них доступна в браузере AmiGO. Полную базу аннотаций можно скачать на сайте «Генной онтологии».

AmiGO[править | править вики-текст]

AmiGO[12] — это веб-приложение (сервис GO), которое позволяет пользователям запрашивать, находить и визуализировать термины GO и аннотации генных продуктов. Кроме того, приложение содержит инструмент BLAST, сервисы, позволяющие анализировать большие массивы данных и интерфейс для поиска непосредственно в базе данных GO[13]. AmiGO может быть использован онлайн на сайте «Генной онтологии» для доступа к данным, предоставляемых Консорциумом GO, либо может быть загружен и установлен для локального применения к любой базе данных, построенной по принципу GO. AmiGO 2 является открытым и свободным ПО.

Исследование данных[править | править вики-текст]

Визуализация[править | править вики-текст]

Визуализация [14] представляет возможность пользователю строить граф, характеризующий генную онтологию для конкретного GO термина. Существует два формата ввода данных :

  • Стандартный формат - список id GO терминов (например, GO:1234567), разделенных пробелом.
  • Продвинутый формат - описание узлов в графе в формате JSON (JavaScript Object Notation). В зависимости от предписанного формата может меняться содержимое узла (добавление дополнительных аннотаций, изменение цветов и т.д.)

Пример JSON ввода:

{"GO:0002244":{"title": "foo",
              "body":  "bar",
              "fill":  "#ccccff",
              "font":  "#0000ff",
              "border":"red"},
"GO:0005575":{"title":"alone",
             "body":""},
"GO:0033060":{}}
Визуализация GO термина

Кодирование отношения с помощью цвета:

Отношение Цвет
is_a blue
part_of lightblue
develops_from brown
regulates black
negatively_regulates red
positively_regulates green

Визуализация термина состоит в построении графа от вершины, представляющей исходный GO термин , до корневой вершины, которая представлена названием одного из трех главных словарей: <<биологический процесс>>, <<молекулярная функция>> и <<клеточная компонента>>.

Обзор данных[править | править вики-текст]

Помимо возможности создания графов, отображающих генную онтологию GO термина, в AmiGO также реализованы несколько инструментов, способных дать пользователю представление о данных GO проекта. Среди них:

  • Базовая статистика - информация о данных GO в виде различных гистограмм (например, распределение аннотаций и их характера (экспериментальные/не экспериментальные) относительно различных видов живых организмов). Реализовано с помощью сервиса Plotly.
  • Развернутый браузер (drill-down browser) - позволяет исследовать онтологии и аннотации, двигаясь по иерархии ,начиная от высокого уровня. В данном инструменте возможно использование различных фильтров.
  • Поисковые шаблоны - интерфейс, представляющий из себя боксы для ввода данных и выполнения для них типичных запросов к базе GO.

GOOSE[править | править вики-текст]

GOOSE[15]- среда запросов SQL, реализованная в онлайн режиме и доступная пользователям AmiGO сервиса, для создания наборов данных. Данный сервис использует синтаксис SQL для составления различных запросов в базу GO. Также для снижения нагрузки на систему доступны зеркала EBI (Великобритания, Кембридж), Berkeley BOP и Berkeley BOP (lite) (оба находятся в городе Беркли, штат Калифорния).

Кроме непосредственного написания запроса в ручную возможно использование шаблонов, для частичного упрощения данной задачи. Типичный запрос в базу данных представлен ниже (поиск максимальной глубины дерева для клеточного компоненты):

 SELECT distance as max from graph_path, term 
 WHERE graph_path.term2_id =term.id and 
 term.term_type = 'cellular_component' 
 ORDER BY distance desc
 limit 1; 

База данных в GO имеет сложную структуру и состоит из множества таблиц. Основные базы данных :

  • termdb - база данных, содержащая информацию о GO терминах и отношениях между ними.
  • assocdb - база данных , содержащая GO лексику и аннотации между GO терминами и генными продуктами. Данная БД находится в зависимости от termdb.
  • seqdb - база данных, содержащая GO термины, генные продукты и последовательности , которые аннотированы с этими генными продуктами. Находится в зависимости от termdb и assocdb. Кроме того, реализована БД seqbdlite, в которой отсутствуют IEA аннотации.

Подробную схему базы данных можно найти здесь. Возможны следующие форматы экспорта данных в результате запроса:

  • .rdf-xml
  • .obo-xml
  • .owl - OWL
  • .tables
  • .sql

Анализ данных[править | править вики-текст]

PANTHER[править | править вики-текст]

[PANTHER|PANTHER] (Protein ANalysis THrough Evolutionary Relationships) - это огромная база данных генов/белковых семейств и функционально похожих на них подсемейств, которые могут быть использованы для классификации функционального спектра генных продуктов. PANTHER - это часть GO проекта, главной целью которой является классификация белков и их генов.

Проект PANTHER функционирует не только под взором кураторов, но так же и за счет алгоритмов биоинформатики. Протеины классифицируются в соответствии с их принадлежностью к семействам (и подсемействам),молекулярной функции или биологическому процессу.

Главное применение PANTHER состоит в выяснении функций необъясненных генов любого организма , основанном на их эволюционных взаимоотношениях с генами, о функциях которых есть информация в БД. Используя генные функции, онтологию и статистико- аналитические методы, PANTHER позволяет биологам анализировать большие данные, целые геномы , получаемые с помощью секвенирования или исследования генной экспрессии.

Основные инструменты, доступные на веб-сайте PANTHER:

  • Анализ списка генов:
    • Функциональный анализ генов и их классификация - включает информацию о семействе и подсемействе генов, их молекулярной функции, биологических процессах, в которые они вовлечены, о клеточных компонентах, где их можно обнаружить. Эти данные могут быть представлены как в виде списка, так и в виде круговой диаграммы.
    • Статистические тесты (Overrepresentation test и enrichment test) предназначены для нахождения общих биологических функций генов, поданных на вход пользователем.
  • Исследование онтологии данных, аннотаций между терминами и семействами , подсемействами PANTHER.
  • Поиск белковых последовательностей в библиотеках PANTHER
  • Анализ однонуклеотидных полиморфизмов (cSNP) - оценка вероятности несинонимичной однонуклеотидной мутации к изменению функциональной деятельности гена.

OBO-Edit[править | править вики-текст]

OBO-Edit[16] — это находящийся в открытом доступе редактор онтологий, разработанный и поддерживаемый Консорциумом GO. Он реализован на языке Java и использует подход, основанный на работе с графами, для визуализации и редактирования онтологий. OBO-Edit имеет удобный интерфейс поиска и фильтрации, позволяющий визуализировать и разделять подмножества терминов GO. Интерфейс можно настраивать в соответствии с предпочтениями пользователя. Также OBO-Edit позволяет автоматически создавать новые связи на основе существующих отношений и их свойств. Несмотря на то, что OBO-Edit был разработан для биомедицинских онтологий, он может быть использован для просмотра и редактирования любой онтологии.

См. также[править | править вики-текст]

Литература[править | править вики-текст]

  1. 1 2 3 4 du Plessis L, Skunca N, Dessimoz C (November 2011). «The what, where, how and why of gene ontology — a primer for bioinformaticians». Brief Bioinform. 12 (6): 723–35. DOI:10.1093/bib/bbr002. PMID 21330331.
  2. Smith B, Ashburner M, Rosse C, Bard J, Bug W, Ceusters W, Goldberg LJ, Eilbeck K, Ireland A, Mungall CJ, Leontis N, Rocca-Serra P, Ruttenberg A, Sansone SA, Scheuermann RH, Shah N, Whetzel PL, Lewis S (November 2007). «The OBO Foundry: coordinated evolution of ontologies to support biomedical data integration». Nat. Biotechnol. 25 (11): 1251–5. DOI:10.1038/nbt1346. PMID 17989687.
  3. Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (May 2000). «Gene ontology: tool for the unification of biology. The Gene Ontology Consortium». Nat. Genet. 25 (1): 25–9. DOI:10.1038/75556. PMID 10802651.
  4. The GO Consortium.
  5. The Gene Ontology Consortium (January 2012). «The Gene Ontology: enhancements for 2011.». Nucleic Acids Res. 40 (Database issue): D559–64. DOI:10.1093/nar/gkr1028. PMID 22102568.
  6. The Gene Ontology Consortium (January 2017). «Expansion of the Gene Ontology knowledgebase and resources». Nucleic Acids Res. 45 (D1): D331-D338. DOI:10.1093/nar/gkw1108.
  7. 1 2 The Gene Ontology Consortium (January 2013). «Gene Ontology annotations and resources.». Nucleic Acids Res. 41 (Database issue): D530–5. DOI:10.1093/nar/gks1050. PMID 23161678.
  8. 1 2 The GO Consortium. База данных «Генной онтологии» в формате .obo (OBO 1.2 flat file).
  9. The GO Consortium. Mappings of External Classification Systems to GO..
  10. The GO Consortium. Search annotations..
  11. The Open Biological and Biomedical Ontologies: Evidence Codes..
  12. Carbon S, Ireland A, Mungall CJ, Shu S, Marshall B, Lewis S; AmiGO Hub; Web Presence Working Group (January 2008). «AmiGO: Online access to ontology and annotation data.». Bioinformatics 25 (2): 288–289. DOI:10.1093/bioinformatics/btn615. PMID 19033274.
  13. Руководство по работе с AmiGO..
  14. The GO Consortium. Manual Visualization.
  15. The GO Consortium. Manual GOOSE.
  16. Day-Richter J, Harris MA, Haendel M, Gene Ontology OBO-Edit Working Group, Lewis S (August 2007). «OBO-Edit – an ontology editor for biologists.». Bioinformatics 23 (16): 2198–2200. DOI:10.1093/bioinformatics/btm112. PMID 17545183.

Ссылки[править | править вики-текст]

  • The Gene Ontology — официальный сайт проекта.  (англ.)
  • AmiGO — браузер «Генной онтологии».  (англ.)