STRING: различия между версиями
[непроверенная версия] | [непроверенная версия] |
← Новая страница: «{{В инкубаторе}} '''STRING''' (англ. Search Tool for Recurring Instances of Neighboring Genes) – база данных и ве…» |
Olesyaklm (обсуждение | вклад) Нет описания правки |
||
Строка 1: | Строка 1: | ||
{{В инкубаторе}} |
{{В инкубаторе}} |
||
{{infobox biodatabase |
|||
'''STRING''' (англ. Search Tool for Recurring Instances of Neighboring Genes) – база данных и веб-ресурс для поиска и анализа информации о структурных и функциональных взаимосвязях заданного белка. |
|||
|title = STRING |
|||
|description = Биоинформатический ресурс об известных и предсказанных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] |
|||
|organism = Все |
|||
|laboratory = [http://www.cpr.ku.dk/ CPR], [http://www.embl.org/ EMBL], [http://healthsciences.ku.dk/ KU], [http://www.isb-sib.ch/ SIB], [http://www.biotec.tu-dresden.de/ TUD], [http://www.uzh.ch/index.html UZH] |
|||
|released = 2000 |
|||
|url = [http://www.string-db.org/ STRING] |
|||
|version = 10 (2015) |
|||
}} |
|||
'''STRING''' (''Search Tool for the Retrieval of Interacting Genes/Proteins'') – база данных и веб-ресурс для поиска информации об известных и предсказанных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] |
|||
<ref name="STRING_2015">{{cite journal |
|||
|author=D. Szklarczyk at al. |
|||
|year=2015 |
|||
|title=STRING v10: protein–protein interaction networks, integrated over the tree of life |
|||
|journal=Nucleic acids research |
|||
|volume=43 |
|||
|pages=D447–D452 |
|||
|doi=10.1093/nar/gku1003 |
|||
|pmid=25352553}}</ref> |
|||
<ref name="STRING_2013">{{cite journal |
|||
|author=A. Franceschini at al. |
|||
|year=2013 |
|||
|title=STRING v9.1: protein-protein interaction networks, with increased coverage and integration |
|||
|journal=Nucleic acids research |
|||
|volume=41 |
|||
|pages=D808–D815 |
|||
|doi=10.1093/nar/gks1094 |
|||
|pmid=23203871}}</ref> |
|||
<ref name="STRING_2011">{{cite journal |
|||
|author=D. Szklarczyk at al. |
|||
|year=2011 |
|||
|title=The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored |
|||
|journal=Nucleic acids research |
|||
|volume=39 |
|||
|pages=D561–D568 |
|||
|doi=10.1093/nar/gkq973 |
|||
|pmid=21045058}}</ref> |
|||
<ref name="STRING_2009">{{cite journal |
|||
|author=L. Jensen at al. |
|||
|year=2009 |
|||
|title=STRING 8—a global view on proteins and their functional interactions in 630 organisms |
|||
|journal=Nucleic acids research |
|||
|volume=37 |
|||
|pages=D412–D416 |
|||
|doi=10.1093/nar/gkn760 |
|||
|pmid=18940858}}</ref> |
|||
<ref name="STRING_2007">{{cite journal |
|||
|author=C. Von Mering at al. |
|||
|year=2007 |
|||
|title=STRING 7—recent developments in the integration and prediction of protein interactions |
|||
|journal=Nucleic acids research |
|||
|volume=35 |
|||
|pages=D358–D362 |
|||
|doi=10.1093/nar/gkl825 |
|||
|pmid=17098935}}</ref> |
|||
<ref name="STRING_2005">{{cite journal |
|||
|author=C. Von Mering at al. |
|||
|year=2005 |
|||
|title=STRING: known and predicted protein–protein associations, integrated and transferred across organisms |
|||
|journal=Nucleic acids research |
|||
|volume=33 |
|||
|pages=D433–D437 |
|||
|doi=10.1093/nar/gki005 |
|||
|pmid=15608232}}</ref> |
|||
<ref name="STRING_2003">{{cite journal |
|||
|author=C. Von Mering at al. |
|||
|year=2003 |
|||
|title=STRING: a database of predicted functional associations between proteins |
|||
|journal=Nucleic acids research |
|||
|volume=31 |
|||
|pages=258–261 |
|||
|doi=10.1093/nar/gkg034 |
|||
|pmid=12519996}}</ref> |
|||
<ref name="STRING_2000">{{cite journal |
|||
|author=B. Snel at al. |
|||
|year=2000 |
|||
|title=STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene |
|||
|journal=Nucleic acids research |
|||
|volume=28 |
|||
|pages=3442-3444 |
|||
|doi=10.1093/nar/28.18.3442 |
|||
|pmid=10982861}}</ref>. |
|||
STRING обобщает информацию из различных источников: экспериментальные данные, данные из статей и предсказания ''de novo''. Версия 10 содержит информацию о взаимодействиях 9 643 763 белков в 2 031 виде организмов, от бактерий и архей до человека. База данных регулярно обновляется и доступна для свободного скачивания. |
|||
STRING разработан [[консорциум|консорциумом]] европейских университетов CPR, [[Европейская_молекулярно-биологическая_лаборатория|EMBL]], [[Копенгагенский_университет|KU]], SIB, [[Дрезденский_технический_университет|TUD]] и [[Цюрихский_университет|UZH]]. |
|||
== Источники данных == |
|||
В STRING основная единица белок-белкового взаимодействия - ''функциональная взаимосвязь'', т.е. специфичная и эффективная функциональная связь между двумя белками, вероятно, способствующая общей биологической цели <ref name="STRING_2015" />. |
|||
Для каждой функциональной взаимосвязи STRING рассчитывает оценку достоверности, интегрирующую различные доказательства данной взаимосвязи.<br> |
|||
Такой комплексный подход имеет следующие преимущества <ref name="STRING_2005" />: |
|||
# На один стабильный набор белков отображаются различные типы доказательств, облегчая сравнительный анализ. |
|||
# Известные и предсказанные взаимодействия зачастую частично дополняют друг друга, что ведет к расширению сети взаимодействий. |
|||
# Комплексная система оценивания может обеспечить большую достоверность, когда независимые типы доказательств согласуются. |
|||
# Предсказание взаимодействий для большого числа организмов облегчает эволюционный анализ. |
|||
При расчете оценки достоверности функциональной взаимосвязи, различные доказательства считаются независимыми, что ведет к повышению оценки в том случае, когда данная взаимосвязь подтверждается несколькими типами доказательств. Оценка достоверности рассчитывается по формуле <ref name="STRING_2005" />:<br> |
|||
<math>S=1-\prod_{i}(1-S_{i}),</math><br> |
|||
где <math>S_{i}</math> - вклад одного типа доказательств. |
|||
STRING не содержит информации о механизме [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]], а также о том, в какое время [[Клеточный_цикл|клеточного цикла]] может иметь место данное взаимодействие, как оно зависит от внешних условий и насколько оно тканеспецифично. Напротив, STRING содержит информацию о всех возможных [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] в данном организме, в том числе информацию, предсказанную с определенной достоверностью, что делает STRING наиболее полным ресурсом о [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]], доступным на сегодняшний день, и особенно полезным для поиска информации о белках, не изученных экспериментально. |
|||
=== Экспериментальные данные === |
|||
STRING итегрирует информацию о [[Белок-белковые_взаимодействия|взаимодействиях белков]] в структурных комплексах и [[Обмен_веществ|метаболических путях]], заимствованную из баз данных BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, [[Генная_онтология|GO]], HPRD, IntAct, [[KEGG|KEGG]], MINT, NCI-Nature Pathway Interaction Database, [[Protein_Data_Bank|PDB]], Reactome, TISSUES <ref name="STRING_2015" /> <ref name="STRING_2011" />. |
|||
=== Литературные данные === |
|||
STRING извлекает информацию о [[Белок-белковые_взаимодействия|взаимодействиях белков]] из полных текстов статей из баз данных [[PubMed|PubMed]], SGD, OMIM, FLyBase и из абстрактов статей из базы данных [[MEDLINE|MEDLINE]]. Для этого в текстах производится автоматический поиск статистически значимых совместных упоминаний названий генов и их синонимов (данные о синонимах берутся из Swiss-Prot) с использованием [[Обработка_естественного_языка|обработки естественного языка]]. Для увеличения точности разработана система взвешивания, учитывающая совместное упоминание названий генов в [[Предложение_(лингвистика)|предложениях]], [[Абзац|абзацах]] и [[Научная_литература|полных текстах]] статей <ref name="STRING_2013" />. |
|||
=== Предсказания ''de novo'' === |
|||
Темп роста данных о [[Белок-белковые_взаимодействия|белок-белковых взаимодействиях]] отстает от темпа [[Секвенирование|секвенирования]] [[Геном|геномов]]. STRING стремится дополнить функциональную аннотацию вновь [[Секвенирование|отсеквенированных]] [[Геном|геномов]] путем сравнительного анализа геномного контекста |
|||
<ref name="genomic_context">{{cite journal |
|||
|author=M. Huynen et al. |
|||
|year=2000 |
|||
|title=Predicting Protein Function by Genomic Context: Quantitative Evaluation and Qualitative Inferences |
|||
|journal=Genome research |
|||
|volume=10 |
|||
|pages=1204-1210 |
|||
|doi=10.1101/gr.10.8.1204 |
|||
|pmid=10958638}}</ref> |
|||
и предсказаний на основании [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологии]] с экспериментально изученными белками. STRING также дает собственную оценку экспериментально изученным [[Белок-белковые_взаимодействия|белок-белковым взаимодействиям]], дополняя информацию о них. |
|||
==== Импорт полностью отсеквенированных геномов ==== |
|||
Начиная с версии 9 (2011), STRING импортирует для анализа полностью [[Секвенирование|отсеквенированные]] [[Геном|геномы]], доступные в базах данных RefSeq и [[Ensembl|Ensembl]], а также на специализированных сайтах <ref name="STRING_2011" />. Импортированные [[Геном|геномы]] предварительно проверяются вручную на предмет полноты и неизбыточности. STRING не хранит информацию о различных [[Изоформа_белка|изоформах белка]], полученных в результате [[Альтернативный_сплайсинг|альтернативного сплайсинга]] или [[Посттрансляционная_модификация|посттрансляционной модификации]]. Напротив, STRING ставит в соответствие одному [[Локус|локусу]] одну [[Изоформа_белка|изоформу белка]] (как правило, наиболее длинную изоформу) <ref name="STRING_2007" />. Такая фильтрация необходима для нормальной работы алгоритмов предсказания [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]]. |
|||
==== Предсказания на основании ортологии ==== |
|||
До версии 9 (2011) предсказания на основании ортологии производились с использованием базы данных кластеров ортологичных групп белков (COGs). Начиная с версии 9 (2011) для отнесения белков к [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологам]] используются матрицы сходства белков [[SIMAP@home|SIMAP]] |
|||
<ref name="STRING_2011" /> |
|||
<ref name="simap">{{cite journal |
|||
|author=T. Rattei et al. |
|||
|year=2010 |
|||
|title=SIMAP—a comprehensive database of pre-calculated protein sequence similarities, domains, annotations and clusters |
|||
|journal=Nucleic acids research |
|||
|volume=38 |
|||
|pages=D223–D226 |
|||
|doi=10.1093/nar/gkp949 |
|||
|pmid=19906725}}</ref>. |
|||
Экспериментально известное взаимодействие белков в одном организме переносится на [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологичные]] белки в другом организме, и предсказанному таким образом [[Белок-белковые_взаимодействия|белок-белковому взаимодействию]] присваивается определенный вес на основании сравнения с референсом. Референсным считается взаимодествие белков, участвующих в одном [[Обмен_веществ|метаболическом пути]] [[KEGG|KEGG]], поскольку эта база данных курируется вручную и охватывает ряд организмов и функциональных областей. Таким образом, вес, присвоенный предсказанному [[Белок-белковые_взаимодействия|белок-белковому взаимодействию]], соответствует вероятности нахождения данных белков в одном [[Обмен_веществ|метаболическом пути]] [[KEGG|KEGG]]. |
|||
Начиная с версии 9.1 (2013) предсказания на основании ортологии производятся с учетом [[Таксономия|таксономии]] организма, что позволяет избежать ошибочного отнесения белков к [[Гомология_(биология)#Гомологичные_последовательности_ДНК|ортологам]] тогда, когда они являются [[Гомология_(биология)#Гомологичные_последовательности_ДНК|паралогами]], которые возникли, например, вследствие [[Дупликация|дупликации]] данного гена в процессе [[Эволюция|эволюции]]. Используется версия [[Таксономия|таксономии]], поддерживаемая NCBI, а также иерархические ортологичные группы белков из базы данных eggNOG |
|||
<ref name="eggNOG">{{cite journal |
|||
|author=S. Powell et al. |
|||
|year=2014 |
|||
|title=eggNOG v4.0: nested orthology inference across 3686 organisms |
|||
|journal=Nucleic acids research |
|||
|volume=42 |
|||
|pages=D231-D239 |
|||
|doi=10.1093/nar/gkt1253 |
|||
|pmid=24297252}}</ref>. |
|||
Перенос [[Белок-белковые_взаимодействия|белок-белковых взаимодействий]] между организмами на основании ортологии производится последовательно от низших к высшим уровням таксономической иерархии <ref name="STRING_2013" />. |
|||
==== Предсказания на основании анализа геномного контекста ==== |
|||
== Примечания == |
== Примечания == |
||
<!-- Смотрите в [[Википедия:Сноски]] примеры использования тэгов <ref> </ref> --> |
|||
{{примечания}} |
{{примечания}} |
||
== Ссылки == |
== Ссылки == |
||
* [http://www. |
* [http://www.string-db.org/ Сайт STRING] |
||
[[Категория:Биоинформатика]] |
|||
<!-- Скрывайте категорию, используя [[:Категория вместо [[Категория --> |
Версия от 21:48, 4 мая 2015
Эту статью Инкубатора предлагается удалить. |
STRING | |
---|---|
Содержимое | |
Описание | Биоинформатический ресурс об известных и предсказанных белок-белковых взаимодействиях |
Организмы | Все |
Контакты | |
Лаборатория | CPR, EMBL, KU, SIB, TUD, UZH |
Дата выпуска | 2000 |
Доступность | |
Сайт | STRING |
Прочее | |
Версия | 10 (2015) |
STRING (Search Tool for the Retrieval of Interacting Genes/Proteins) – база данных и веб-ресурс для поиска информации об известных и предсказанных белок-белковых взаимодействиях [1] [2] [3] [4] [5] [6] [7] [8].
STRING обобщает информацию из различных источников: экспериментальные данные, данные из статей и предсказания de novo. Версия 10 содержит информацию о взаимодействиях 9 643 763 белков в 2 031 виде организмов, от бактерий и архей до человека. База данных регулярно обновляется и доступна для свободного скачивания.
STRING разработан консорциумом европейских университетов CPR, EMBL, KU, SIB, TUD и UZH.
Источники данных
В STRING основная единица белок-белкового взаимодействия - функциональная взаимосвязь, т.е. специфичная и эффективная функциональная связь между двумя белками, вероятно, способствующая общей биологической цели [1].
Для каждой функциональной взаимосвязи STRING рассчитывает оценку достоверности, интегрирующую различные доказательства данной взаимосвязи.
Такой комплексный подход имеет следующие преимущества [6]:
- На один стабильный набор белков отображаются различные типы доказательств, облегчая сравнительный анализ.
- Известные и предсказанные взаимодействия зачастую частично дополняют друг друга, что ведет к расширению сети взаимодействий.
- Комплексная система оценивания может обеспечить большую достоверность, когда независимые типы доказательств согласуются.
- Предсказание взаимодействий для большого числа организмов облегчает эволюционный анализ.
При расчете оценки достоверности функциональной взаимосвязи, различные доказательства считаются независимыми, что ведет к повышению оценки в том случае, когда данная взаимосвязь подтверждается несколькими типами доказательств. Оценка достоверности рассчитывается по формуле [6]:
где - вклад одного типа доказательств.
STRING не содержит информации о механизме белок-белковых взаимодействий, а также о том, в какое время клеточного цикла может иметь место данное взаимодействие, как оно зависит от внешних условий и насколько оно тканеспецифично. Напротив, STRING содержит информацию о всех возможных белок-белковых взаимодействиях в данном организме, в том числе информацию, предсказанную с определенной достоверностью, что делает STRING наиболее полным ресурсом о белок-белковых взаимодействиях, доступным на сегодняшний день, и особенно полезным для поиска информации о белках, не изученных экспериментально.
Экспериментальные данные
STRING итегрирует информацию о взаимодействиях белков в структурных комплексах и метаболических путях, заимствованную из баз данных BIND, BioCarta, BioCyc, BioGRID, DIP, DISEASES, GO, HPRD, IntAct, KEGG, MINT, NCI-Nature Pathway Interaction Database, PDB, Reactome, TISSUES [1] [3].
Литературные данные
STRING извлекает информацию о взаимодействиях белков из полных текстов статей из баз данных PubMed, SGD, OMIM, FLyBase и из абстрактов статей из базы данных MEDLINE. Для этого в текстах производится автоматический поиск статистически значимых совместных упоминаний названий генов и их синонимов (данные о синонимах берутся из Swiss-Prot) с использованием обработки естественного языка. Для увеличения точности разработана система взвешивания, учитывающая совместное упоминание названий генов в предложениях, абзацах и полных текстах статей [2].
Предсказания de novo
Темп роста данных о белок-белковых взаимодействиях отстает от темпа секвенирования геномов. STRING стремится дополнить функциональную аннотацию вновь отсеквенированных геномов путем сравнительного анализа геномного контекста [9] и предсказаний на основании ортологии с экспериментально изученными белками. STRING также дает собственную оценку экспериментально изученным белок-белковым взаимодействиям, дополняя информацию о них.
Импорт полностью отсеквенированных геномов
Начиная с версии 9 (2011), STRING импортирует для анализа полностью отсеквенированные геномы, доступные в базах данных RefSeq и Ensembl, а также на специализированных сайтах [3]. Импортированные геномы предварительно проверяются вручную на предмет полноты и неизбыточности. STRING не хранит информацию о различных изоформах белка, полученных в результате альтернативного сплайсинга или посттрансляционной модификации. Напротив, STRING ставит в соответствие одному локусу одну изоформу белка (как правило, наиболее длинную изоформу) [5]. Такая фильтрация необходима для нормальной работы алгоритмов предсказания белок-белковых взаимодействий.
Предсказания на основании ортологии
До версии 9 (2011) предсказания на основании ортологии производились с использованием базы данных кластеров ортологичных групп белков (COGs). Начиная с версии 9 (2011) для отнесения белков к ортологам используются матрицы сходства белков SIMAP [3] [10]. Экспериментально известное взаимодействие белков в одном организме переносится на ортологичные белки в другом организме, и предсказанному таким образом белок-белковому взаимодействию присваивается определенный вес на основании сравнения с референсом. Референсным считается взаимодествие белков, участвующих в одном метаболическом пути KEGG, поскольку эта база данных курируется вручную и охватывает ряд организмов и функциональных областей. Таким образом, вес, присвоенный предсказанному белок-белковому взаимодействию, соответствует вероятности нахождения данных белков в одном метаболическом пути KEGG.
Начиная с версии 9.1 (2013) предсказания на основании ортологии производятся с учетом таксономии организма, что позволяет избежать ошибочного отнесения белков к ортологам тогда, когда они являются паралогами, которые возникли, например, вследствие дупликации данного гена в процессе эволюции. Используется версия таксономии, поддерживаемая NCBI, а также иерархические ортологичные группы белков из базы данных eggNOG [11]. Перенос белок-белковых взаимодействий между организмами на основании ортологии производится последовательно от низших к высшим уровням таксономической иерархии [2].
Предсказания на основании анализа геномного контекста
Примечания
- ↑ 1 2 3 D. Szklarczyk at al. (2015). "STRING v10: protein–protein interaction networks, integrated over the tree of life". Nucleic acids research. 43: D447—D452. doi:10.1093/nar/gku1003. PMID 25352553.
- ↑ 1 2 3 A. Franceschini at al. (2013). "STRING v9.1: protein-protein interaction networks, with increased coverage and integration". Nucleic acids research. 41: D808—D815. doi:10.1093/nar/gks1094. PMID 23203871.
- ↑ 1 2 3 4 D. Szklarczyk at al. (2011). "The STRING database in 2011: functional interaction networks of proteins, globally integrated and scored". Nucleic acids research. 39: D561—D568. doi:10.1093/nar/gkq973. PMID 21045058.
- ↑ L. Jensen at al. (2009). "STRING 8—a global view on proteins and their functional interactions in 630 organisms". Nucleic acids research. 37: D412—D416. doi:10.1093/nar/gkn760. PMID 18940858.
- ↑ 1 2 C. Von Mering at al. (2007). "STRING 7—recent developments in the integration and prediction of protein interactions". Nucleic acids research. 35: D358—D362. doi:10.1093/nar/gkl825. PMID 17098935.
- ↑ 1 2 3 C. Von Mering at al. (2005). "STRING: known and predicted protein–protein associations, integrated and transferred across organisms". Nucleic acids research. 33: D433—D437. doi:10.1093/nar/gki005. PMID 15608232.
- ↑ C. Von Mering at al. (2003). "STRING: a database of predicted functional associations between proteins". Nucleic acids research. 31: 258—261. doi:10.1093/nar/gkg034. PMID 12519996.
- ↑ B. Snel at al. (2000). "STRING: a web-server to retrieve and display the repeatedly occurring neighbourhood of a gene". Nucleic acids research. 28: 3442–3444. doi:10.1093/nar/28.18.3442. PMID 10982861.
- ↑ M. Huynen; et al. (2000). "Predicting Protein Function by Genomic Context: Quantitative Evaluation and Qualitative Inferences". Genome research. 10: 1204–1210. doi:10.1101/gr.10.8.1204. PMID 10958638.
{{cite journal}}
: Явное указание et al. в:|author=
(справка) - ↑ T. Rattei; et al. (2010). "SIMAP—a comprehensive database of pre-calculated protein sequence similarities, domains, annotations and clusters". Nucleic acids research. 38: D223—D226. doi:10.1093/nar/gkp949. PMID 19906725.
{{cite journal}}
: Явное указание et al. в:|author=
(справка) - ↑ S. Powell; et al. (2014). "eggNOG v4.0: nested orthology inference across 3686 organisms". Nucleic acids research. 42: D231–D239. doi:10.1093/nar/gkt1253. PMID 24297252.
{{cite journal}}
: Явное указание et al. в:|author=
(справка)