STRING: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Новая страница: «{{В инкубаторе}} '''STRING''' (англ. Search Tool for Recurring Instances of Neighboring Genes) – база данных и ве…»
 
Нет описания правки
Строка 1: Строка 1:
{{В инкубаторе}}
{{В инкубаторе}}


{{infobox biodatabase
'''STRING''' (англ. Search Tool for Recurring Instances of Neighboring Genes) – база данных и веб-ресурс для поиска и анализа информации о структурных и функциональных взаимосвязях заданного белка.
|title = STRING
|description = Биоинформатический ресурс об известных и предсказанных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]]
|organism = Все
|laboratory = [http://www.cpr.ku.dk/ CPR], [http://www.embl.org/ EMBL], [http://healthsciences.ku.dk/ KU], [http://www.isb-sib.ch/ SIB], [http://www.biotec.tu-dresden.de/ TUD], [http://www.uzh.ch/index.html UZH]
|released = 2000
|url = [http://www.string-db.org/ STRING]
|version = 10 (2015)
}}

'''STRING''' (''Search Tool for the Retrieval of Interacting Genes/Proteins'') – база данных и веб-ресурс для поиска информации об известных и предсказанных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]]
<ref name="STRING_2015">{{cite journal
|author=D. Szklarczyk at al.
|year=2015
|title=STRING v10: protein–protein interaction networks, integrated over the tree of life
|journal=Nucleic acids research
|volume=43
|pages=D447–D452
|doi=10.1093/nar/gku1003
|pmid=25352553}}</ref>
<ref name="STRING_2013">{{cite journal
|author=A. Franceschini at al.
|year=2013
|title=STRING v9.1: protein-protein interaction networks, with increased coverage and integration
|journal=Nucleic acids research
|volume=41
|pages=D808–D815
|doi=10.1093/nar/gks1094
|pmid=23203871}}</ref>
<ref name="STRING_2011">{{cite journal
|author=D. Szklarczyk at al.
|year=2011
|title=The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored
|journal=Nucleic acids research
|volume=39
|pages=D561–D568
|doi=10.1093/nar/gkq973
|pmid=21045058}}</ref>
<ref name="STRING_2009">{{cite journal
|author=L. Jensen at al.
|year=2009
|title=STRING 8—a global view on proteins and their functional interactions in 630 organisms
|journal=Nucleic acids research
|volume=37
|pages=D412–D416
|doi=10.1093/nar/gkn760
|pmid=18940858}}</ref>
<ref name="STRING_2007">{{cite journal
|author=C. Von Mering at al.
|year=2007
|title=STRING 7—recent developments in the integration and prediction of protein interactions
|journal=Nucleic acids research
|volume=35
|pages=D358–D362
|doi=10.1093/nar/gkl825
|pmid=17098935}}</ref>
<ref name="STRING_2005">{{cite journal
|author=C. Von Mering at al.
|year=2005
|title=STRING: known and predicted protein–protein associations, integrated and transferred across organisms
|journal=Nucleic acids research
|volume=33
|pages=D433–D437
|doi=10.1093/nar/gki005
|pmid=15608232}}</ref>
<ref name="STRING_2003">{{cite journal
|author=C. Von Mering at al.
|year=2003
|title=STRING: a database of predicted functional associations between proteins
|journal=Nucleic acids research
|volume=31
|pages=258–261
|doi=10.1093/nar/gkg034
|pmid=12519996}}</ref>
<ref name="STRING_2000">{{cite journal
|author=B. Snel at al.
|year=2000
|title=STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene
|journal=Nucleic acids research
|volume=28
|pages=3442-3444
|doi=10.1093/nar/28.18.3442
|pmid=10982861}}</ref>.

STRING обобщает информацию из различных источников: экспериментальные данные, данные из статей и предсказания ''de novo''. Версия 10 содержит информацию о взаимодействиях 9 643 763 белков в 2 031 виде организмов, от бактерий и архей до человека. База данных регулярно обновляется и доступна для свободного скачивания.

STRING разработан [[консорциум|консорциумом]] европейских университетов CPR, [[Европейская_молекулярно-биологическая_лаборатория|EMBL]], [[Копенгагенский_университет|KU]], SIB, [[Дрезденский_технический_университет|TUD]] и [[Цюрихский_университет|UZH]].

== Источники данных ==

В STRING основная единица белок-белкового взаимодействия - ''функциональная взаимосвязь'', т.е. специфичная и эффективная функциональная связь между двумя белками, вероятно, способствующая общей биологической цели <ref name="STRING_2015" />.

Для каждой функциональной взаимосвязи STRING рассчитывает оценку достоверности, интегрирующую различные доказательства данной взаимосвязи.<br>
Такой комплексный подход имеет следующие преимущества <ref name="STRING_2005" />:
# На один стабильный набор белков отображаются различные типы доказательств, облегчая сравнительный анализ.
# Известные и предсказанные взаимодействия зачастую частично дополняют друг друга, что ведет к расширению сети взаимодействий.
# Комплексная система оценивания может обеспечить большую достоверность, когда независимые типы доказательств согласуются.
# Предсказание взаимодействий для большого числа организмов облегчает эволюционный анализ.

При расчете оценки достоверности функциональной взаимосвязи, различные доказательства считаются независимыми, что ведет к повышению оценки в том случае, когда данная взаимосвязь подтверждается несколькими типами доказательств. Оценка достоверности рассчитывается по формуле <ref name="STRING_2005" />:<br>
<math>S=1-\prod_{i}(1-S_{i}),</math><br>
где <math>S_{i}</math> - вклад одного типа доказательств.

STRING не содержит информации о механизме [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]], а также о том, в какое время [[Клеточный_цикл|клеточного цикла]] может иметь место данное взаимодействие, как оно зависит от внешних условий и насколько оно тканеспецифично. Напротив, STRING содержит информацию о всех возможных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] в данном организме, в том числе информацию, предсказанную с определенной достоверностью, что делает STRING наиболее полным ресурсом о [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]], доступным на сегодняшний день, и особенно полезным для поиска информации о белках, не изученных экспериментально.

=== Экспериментальные данные ===

STRING итегрирует информацию о [[Белок-белковые_взаимодействия|взаимодействиях белков]] в структурных комплексах и [[Обмен_веществ|метаболических путях]], заимствованную из баз данных BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, [[Генная_онтология|GO]], HPRD, IntAct, [[KEGG|KEGG]], MINT, NCI-Nature Pathway Interaction Database, [[Protein_Data_Bank|PDB]], Reactome, TISSUES <ref name="STRING_2015" /> <ref name="STRING_2011" />.

=== Литературные данные ===

STRING извлекает информацию о [[Белок-белковые_взаимодействия|взаимодействиях белков]] из полных текстов статей из баз данных [[PubMed|PubMed]], SGD, OMIM, FLyBase и из абстрактов статей из базы данных [[MEDLINE|MEDLINE]]. Для этого в текстах производится автоматический поиск статистически значимых совместных упоминаний названий генов и их синонимов (данные о синонимах берутся из Swiss-Prot) с использованием [[Обработка_естественного_языка|обработки естественного языка]]. Для увеличения точности разработана система взвешивания, учитывающая совместное упоминание названий генов в [[Предложение_(лингвистика)|предложениях]], [[Абзац|абзацах]] и [[Научная_литература|полных текстах]] статей <ref name="STRING_2013" />.

=== Предсказания ''de novo'' ===

Темп роста данных о [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] отстает от темпа [[Секвенирование|секвенирования]] [[Геном|геномов]]. STRING стремится дополнить функциональную аннотацию вновь [[Секвенирование|отсеквенированных]] [[Геном|геномов]] путем сравнительного анализа геномного контекста
<ref name="genomic_context">{{cite journal
|author=M. Huynen et al.
|year=2000
|title=Predicting Protein Function by Genomic Context: Quantitative Evaluation and Qualitative Inferences
|journal=Genome research
|volume=10
|pages=1204-1210
|doi=10.1101/gr.10.8.1204
|pmid=10958638}}</ref>
и предсказаний на основании [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологии]] с экспериментально изученными белками. STRING также дает собственную оценку экспериментально изученным [[Белок-белковые_взаимодействия|белок-белковым взаимодействиям]], дополняя информацию о них.

==== Импорт полностью отсеквенированных геномов ====

Начиная с версии 9 (2011), STRING импортирует для анализа полностью [[Секвенирование|отсеквенированные]] [[Геном|геномы]], доступные в базах данных RefSeq и [[Ensembl|Ensembl]], а также на специализированных сайтах <ref name="STRING_2011" />. Импортированные [[Геном|геномы]] предварительно проверяются вручную на предмет полноты и неизбыточности. STRING не хранит информацию о различных [[Изоформа_белка|изоформах белка]], полученных в результате [[Альтернативный_сплайсинг|альтернативного сплайсинга]] или [[Посттрансляционная_модификация|посттрансляционной модификации]]. Напротив, STRING ставит в соответствие одному [[Локус|локусу]] одну [[Изоформа_белка|изоформу белка]] (как правило, наиболее длинную изоформу) <ref name="STRING_2007" />. Такая фильтрация необходима для нормальной работы алгоритмов предсказания [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]].

==== Предсказания на основании ортологии ====

До версии 9 (2011) предсказания на основании ортологии производились с использованием базы данных кластеров ортологичных групп белков (COGs). Начиная с версии 9 (2011) для отнесения белков к [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологам]] используются матрицы сходства белков [[SIMAP@home|SIMAP]]
<ref name="STRING_2011" />
<ref name="simap">{{cite journal
|author=T. Rattei et al.
|year=2010
|title=SIMAP—a comprehensive database of pre-calculated protein sequence similarities, domains, annotations and clusters
|journal=Nucleic acids research
|volume=38
|pages=D223–D226
|doi=10.1093/nar/gkp949
|pmid=19906725}}</ref>.
Экспериментально известное взаимодействие белков в одном организме переносится на [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологичные]] белки в другом организме, и предсказанному таким образом [[Белок-белковые_взаимодействия|белок-белковому взаимодействию]] присваивается определенный вес на основании сравнения с референсом. Референсным считается взаимодествие белков, участвующих в одном [[Обмен_веществ|метаболическом пути]] [[KEGG|KEGG]], поскольку эта база данных курируется вручную и охватывает ряд организмов и функциональных областей. Таким образом, вес, присвоенный предсказанному [[Белок-белковые_взаимодействия|белок-белковому взаимодействию]], соответствует вероятности нахождения данных белков в одном [[Обмен_веществ|метаболическом пути]] [[KEGG|KEGG]].

Начиная с версии 9.1 (2013) предсказания на основании ортологии производятся с учетом [[Таксономия|таксономии]] организма, что позволяет избежать ошибочного отнесения белков к [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологам]] тогда, когда они являются [[Гомология_(биология)#Гомологичные_последовательности_ДНК|паралогами]], которые возникли, например, вследствие [[Дупликация|дупликации]] данного гена в процессе [[Эволюция|эволюции]]. Используется версия [[Таксономия|таксономии]], поддерживаемая NCBI, а также иерархические ортологичные группы белков из базы данных eggNOG
<ref name="eggNOG">{{cite journal
|author=S. Powell et al.
|year=2014
|title=eggNOG v4.0: nested orthology inference across 3686 organisms
|journal=Nucleic acids research
|volume=42
|pages=D231-D239
|doi=10.1093/nar/gkt1253
|pmid=24297252}}</ref>.
Перенос [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]] между организмами на основании ортологии производится последовательно от низших к высшим уровням таксономической иерархии <ref name="STRING_2013" />.

==== Предсказания на основании анализа геномного контекста ====


== Примечания ==
== Примечания ==
<!-- Смотрите в [[Википедия:Сноски]] примеры использования тэгов <ref> </ref> -->
{{примечания}}
{{примечания}}


== Ссылки ==
== Ссылки ==
* [http://www.example.com/ example.com]
* [http://www.string-db.org/ Сайт STRING]


[[Категория:Биоинформатика]]
<!-- Скрывайте категорию, используя [[:Категория вместо [[Категория -->

Версия от 21:48, 4 мая 2015

STRING
Содержимое
Описание Биоинформатический ресурс об известных и предсказанных белок-белковых взаимодействиях
Организмы Все
Контакты
Лаборатория CPR, EMBL, KU, SIB, TUD, UZH
Дата выпуска 2000
Доступность
Сайт STRING
Прочее
Версия 10 (2015)

STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) – база данных и веб-ресурс для поиска информации об известных и предсказанных белок-белковых взаимодействиях [1] [2] [3] [4] [5] [6] [7] [8].

STRING обобщает информацию из различных источников: экспериментальные данные, данные из статей и предсказания de novo. Версия 10 содержит информацию о взаимодействиях 9 643 763 белков в 2 031 виде организмов, от бактерий и архей до человека. База данных регулярно обновляется и доступна для свободного скачивания.

STRING разработан консорциумом европейских университетов CPR, EMBL, KU, SIB, TUD и UZH.

Источники данных

В STRING основная единица белок-белкового взаимодействия - функциональная взаимосвязь, т.е. специфичная и эффективная функциональная связь между двумя белками, вероятно, способствующая общей биологической цели [1].

Для каждой функциональной взаимосвязи STRING рассчитывает оценку достоверности, интегрирующую различные доказательства данной взаимосвязи.
Такой комплексный подход имеет следующие преимущества [6]:

  1. На один стабильный набор белков отображаются различные типы доказательств, облегчая сравнительный анализ.
  2. Известные и предсказанные взаимодействия зачастую частично дополняют друг друга, что ведет к расширению сети взаимодействий.
  3. Комплексная система оценивания может обеспечить большую достоверность, когда независимые типы доказательств согласуются.
  4. Предсказание взаимодействий для большого числа организмов облегчает эволюционный анализ.

При расчете оценки достоверности функциональной взаимосвязи, различные доказательства считаются независимыми, что ведет к повышению оценки в том случае, когда данная взаимосвязь подтверждается несколькими типами доказательств. Оценка достоверности рассчитывается по формуле [6]:

где - вклад одного типа доказательств.

STRING не содержит информации о механизме белок-белковых взаимодействий, а также о том, в какое время клеточного цикла может иметь место данное взаимодействие, как оно зависит от внешних условий и насколько оно тканеспецифично. Напротив, STRING содержит информацию о всех возможных белок-белковых взаимодействиях в данном организме, в том числе информацию, предсказанную с определенной достоверностью, что делает STRING наиболее полным ресурсом о белок-белковых взаимодействиях, доступным на сегодняшний день, и особенно полезным для поиска информации о белках, не изученных экспериментально.

Экспериментальные данные

STRING итегрирует информацию о взаимодействиях белков в структурных комплексах и метаболических путях, заимствованную из баз данных BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO, HPRD, IntAct, KEGG, MINT, NCI-Nature Pathway Interaction Database, PDB, Reactome, TISSUES [1] [3].

Литературные данные

STRING извлекает информацию о взаимодействиях белков из полных текстов статей из баз данных PubMed, SGD, OMIM, FLyBase и из абстрактов статей из базы данных MEDLINE. Для этого в текстах производится автоматический поиск статистически значимых совместных упоминаний названий генов и их синонимов (данные о синонимах берутся из Swiss-Prot) с использованием обработки естественного языка. Для увеличения точности разработана система взвешивания, учитывающая совместное упоминание названий генов в предложениях, абзацах и полных текстах статей [2].

Предсказания de novo

Темп роста данных о белок-белковых взаимодействиях отстает от темпа секвенирования геномов. STRING стремится дополнить функциональную аннотацию вновь отсеквенированных геномов путем сравнительного анализа геномного контекста [9] и предсказаний на основании ортологии с экспериментально изученными белками. STRING также дает собственную оценку экспериментально изученным белок-белковым взаимодействиям, дополняя информацию о них.

Импорт полностью отсеквенированных геномов

Начиная с версии 9 (2011), STRING импортирует для анализа полностью отсеквенированные геномы, доступные в базах данных RefSeq и Ensembl, а также на специализированных сайтах [3]. Импортированные геномы предварительно проверяются вручную на предмет полноты и неизбыточности. STRING не хранит информацию о различных изоформах белка, полученных в результате альтернативного сплайсинга или посттрансляционной модификации. Напротив, STRING ставит в соответствие одному локусу одну изоформу белка (как правило, наиболее длинную изоформу) [5]. Такая фильтрация необходима для нормальной работы алгоритмов предсказания белок-белковых взаимодействий.

Предсказания на основании ортологии

До версии 9 (2011) предсказания на основании ортологии производились с использованием базы данных кластеров ортологичных групп белков (COGs). Начиная с версии 9 (2011) для отнесения белков к ортологам используются матрицы сходства белков SIMAP [3] [10]. Экспериментально известное взаимодействие белков в одном организме переносится на ортологичные белки в другом организме, и предсказанному таким образом белок-белковому взаимодействию присваивается определенный вес на основании сравнения с референсом. Референсным считается взаимодествие белков, участвующих в одном метаболическом пути KEGG, поскольку эта база данных курируется вручную и охватывает ряд организмов и функциональных областей. Таким образом, вес, присвоенный предсказанному белок-белковому взаимодействию, соответствует вероятности нахождения данных белков в одном метаболическом пути KEGG.

Начиная с версии 9.1 (2013) предсказания на основании ортологии производятся с учетом таксономии организма, что позволяет избежать ошибочного отнесения белков к ортологам тогда, когда они являются паралогами, которые возникли, например, вследствие дупликации данного гена в процессе эволюции. Используется версия таксономии, поддерживаемая NCBI, а также иерархические ортологичные группы белков из базы данных eggNOG [11]. Перенос белок-белковых взаимодействий между организмами на основании ортологии производится последовательно от низших к высшим уровням таксономической иерархии [2].

Предсказания на основании анализа геномного контекста

Примечания

  1. 1 2 3 D. Szklarczyk at al. (2015). "STRING v10: protein–protein interaction networks, integrated over the tree of life". Nucleic acids research. 43: D447—D452. doi:10.1093/nar/gku1003. PMID 25352553.
  2. 1 2 3 A. Franceschini at al. (2013). "STRING v9.1: protein-protein interaction networks, with increased coverage and integration". Nucleic acids research. 41: D808—D815. doi:10.1093/nar/gks1094. PMID 23203871.
  3. 1 2 3 4 D. Szklarczyk at al. (2011). "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored". Nucleic acids research. 39: D561—D568. doi:10.1093/nar/gkq973. PMID 21045058.
  4. L. Jensen at al. (2009). "STRING 8—a global view on proteins and their functional interactions in 630 organisms". Nucleic acids research. 37: D412—D416. doi:10.1093/nar/gkn760. PMID 18940858.
  5. 1 2 C. Von Mering at al. (2007). "STRING 7—recent developments in the integration and prediction of protein interactions". Nucleic acids research. 35: D358—D362. doi:10.1093/nar/gkl825. PMID 17098935.
  6. 1 2 3 C. Von Mering at al. (2005). "STRING: known and predicted protein–protein associations, integrated and transferred across organisms". Nucleic acids research. 33: D433—D437. doi:10.1093/nar/gki005. PMID 15608232.
  7. C. Von Mering at al. (2003). "STRING: a database of predicted functional associations between proteins". Nucleic acids research. 31: 258—261. doi:10.1093/nar/gkg034. PMID 12519996.
  8. B. Snel at al. (2000). "STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene". Nucleic acids research. 28: 3442–3444. doi:10.1093/nar/28.18.3442. PMID 10982861.
  9. M. Huynen; et al. (2000). "Predicting Protein Function by Genomic Context: Quantitative Evaluation and Qualitative Inferences". Genome research. 10: 1204–1210. doi:10.1101/gr.10.8.1204. PMID 10958638. {{cite journal}}: Явное указание et al. в: |author= (справка)
  10. T. Rattei; et al. (2010). "SIMAP—a comprehensive database of pre-calculated protein sequence similarities, domains, annotations and clusters". Nucleic acids research. 38: D223—D226. doi:10.1093/nar/gkp949. PMID 19906725. {{cite journal}}: Явное указание et al. в: |author= (справка)
  11. S. Powell; et al. (2014). "eggNOG v4.0: nested orthology inference across 3686 organisms". Nucleic acids research. 42: D231–D239. doi:10.1093/nar/gkt1253. PMID 24297252. {{cite journal}}: Явное указание et al. в: |author= (справка)

Ссылки