Анализ взвешенных сетей коэкспрессии генов: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Викификация, дополнение разделов "Применение" и "Программная реализация". Добавлены источники. Необходимо удалить дубликаты источников и подкорректировать ссылки в тексте.
м Корректировка списка литературы
Строка 46: Строка 46:
Для выделения модулей сети используется [[иерархическая кластеризация]] матрицы несходства. Модули генов представляют собой ветви полученной [[Дендрограмма|дендрограммы]]. Для выделения модулей производится обрезка ветвей дендрограммы. Статический способ обрезки, который выделяет разветвления ниже определенного порога как отдельный кластер, производит модули, которые легко выделяются визуально, но не соответствуют строгому определению понятия «модуль».
Для выделения модулей сети используется [[иерархическая кластеризация]] матрицы несходства. Модули генов представляют собой ветви полученной [[Дендрограмма|дендрограммы]]. Для выделения модулей производится обрезка ветвей дендрограммы. Статический способ обрезки, который выделяет разветвления ниже определенного порога как отдельный кластер, производит модули, которые легко выделяются визуально, но не соответствуют строгому определению понятия «модуль».


В WGCNA используется метод динамического обрезания дендрограммы ([[Английский язык|англ.]] ''Dynamic Tree Cut'')<ref>{{Статья|ссылка=https://academic.oup.com/bioinformatics/article/24/5/719/200751|автор=Peter Langfelder, Bin Zhang, Steve Horvath|заглавие=Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut package for R|год=2008-03-01|язык=en|издание=Bioinformatics|том=24|выпуск=5|страницы=719–720|issn=1367-4803|doi=10.1093/bioinformatics/btm563}}</ref>, который представляет собой адаптивный итеративный процесс разбиения и комбинации модулей, и останавливается, когда число модулей остается стабильным. Исходным набором модулей являются большие модули, определяемые статическим способом. Далее происходит рекурсивное разбиение на подмодули на основе наличия паттерна флуктуаций длины ветвей внутри одного исходного модуля. Маленькие модули объединяются с соседними, чтобы избежать чрезмерного дробления.
В WGCNA используется метод динамического обрезания дендрограммы ([[Английский язык|англ.]] ''Dynamic Tree Cut'')<ref name="Langfelder2007" />, который представляет собой адаптивный итеративный процесс разбиения и комбинации модулей, и останавливается, когда число модулей остается стабильным. Исходным набором модулей являются большие модули, определяемые статическим способом. Далее происходит рекурсивное разбиение на подмодули на основе наличия паттерна флуктуаций длины ветвей внутри одного исходного модуля. Маленькие модули объединяются с соседними, чтобы избежать чрезмерного дробления.


Более поздние версии алгоритма используют гибридный динамический ([[Английский язык|англ.]] ''Dynamic Hybrid'') подход, который позволяет более успешно детектировать выбросы в каждом кластере. В качестве зачатков модулей используются ветви, удовлетворяющие следующим критериям:
Более поздние версии алгоритма используют гибридный динамический ([[Английский язык|англ.]] ''Dynamic Hybrid'') подход, который позволяет более успешно детектировать выбросы в каждом кластере. В качестве зачатков модулей используются ветви, удовлетворяющие следующим критериям:
Строка 55: Строка 55:
* Ядро модуля должно быть [[Компонента сильной связности|сильно связано]].
* Ядро модуля должно быть [[Компонента сильной связности|сильно связано]].


После определения таких зачаточных модулей все остальные объекты, не попавшие в модулей на первом шаге, по возможности включаются в состав образованных модулей методом {{Не переведено|Метод k-ближайших медоидов|ближайших медоидов|en|K-medoids}}. Объекты в составе одного итогового модуля могут не находиться рядом на дендрограмме, однако эта несогласованность является обманчивой и следует из ограничений отображения реальных данных в виде дендрограммы<ref>{{Cite web|url=https://peterlangfelder.com/2018/12/30/why-wgcna-modules-dont-always-agree-with-the-dendrogram/|title=Why WGCNA modules don’t always agree with the dendrogram?|author=Peter Langfelder|date=2018-12-31|publisher=Insights from a billion correlations|lang=en|accessdate=2020-04-19}}</ref>.
После определения таких зачаточных модулей все остальные объекты, не попавшие в модулей на первом шаге, по возможности включаются в состав образованных модулей методом {{Не переведено|Метод k-ближайших медоидов|ближайших медоидов|en|K-medoids}}. Объекты в составе одного итогового модуля могут не находиться рядом на дендрограмме, однако эта несогласованность является обманчивой и следует из ограничений отображения реальных данных в виде дендрограммы<ref name="Langfelder2018">{{Cite web|url=https://peterlangfelder.com/2018/12/30/why-wgcna-modules-dont-always-agree-with-the-dendrogram/|title=Why WGCNA modules don’t always agree with the dendrogram?|author=Peter Langfelder|date=2018-12-31|publisher=Insights from a billion correlations|lang=en|accessdate=2020-04-19}}</ref>.


=== Валидация модулей ===
=== Валидация модулей ===
Строка 63: Строка 63:


=== Обобщение профиля экспрессии генов модуля ===
=== Обобщение профиля экспрессии генов модуля ===
Модуль коэкспрессии <math>q</math> представляется собственным геном ([[Английский язык|англ.]] ''eigengene'') <math>E^{(q)}</math>, который является правым сингулярным вектором, соответствующим наибольшему правому сингулярному значению при [[Сингулярное разложение|сингулярном разложении]] матрицы экспрессии генов этого модуля <math>X^{(q)}_{n^{(q)} \times m} =[x^{(q)}_{ij}] </math><ref>{{Статья|ссылка=https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1000117|автор=Steve Horvath, Jun Dong|заглавие=Geometric Interpretation of Gene Coexpression Network Analysis|год=2008-08-15|язык=en|издание=PLOS Computational Biology|том=4|выпуск=8|страницы=e1000117|issn=1553-7358|doi=10.1371/journal.pcbi.1000117}}</ref>.
Модуль коэкспрессии <math>q</math> представляется собственным геном ([[Английский язык|англ.]] ''eigengene'') <math>E^{(q)}</math>, который является правым сингулярным вектором, соответствующим наибольшему правому сингулярному значению при [[Сингулярное разложение|сингулярном разложении]] матрицы экспрессии генов этого модуля <math>X^{(q)}_{n^{(q)} \times m} =[x^{(q)}_{ij}] </math><ref name="Horvath2008" />.


=== Соотнесение модулей с внешними характеристиками ===
=== Соотнесение модулей с внешними характеристиками ===
Строка 83: Строка 83:
В свою очередь, внутримодульная связность гена отражает то, насколько связан или коэкспрессирован рассматриваемый ген по отношению к генам этого модуля. Эта метрика может быть интерпретирована как мера принадлежности к модулю.
В свою очередь, внутримодульная связность гена отражает то, насколько связан или коэкспрессирован рассматриваемый ген по отношению к генам этого модуля. Эта метрика может быть интерпретирована как мера принадлежности к модулю.


Также выделяют метрики <math>kOut = kTotal - kIM</math> и <math>kDiff = kIn - kOut</math>. Высокое среднее значение <math>kIM</math> для генов модуля (даже превышающее среднее значение <math>kTotal</math>) может означать то, что этот модуль является ядром сети и важным с биологической точки зрения в изучаемых условиях. Высокое значение <math>kOut</math>, напротив, означает, что общая связанность больше, чем связанность внутри модуля, то есть гены, входящие в состав этого модуля, стабильны и слабо меняют экспрессию в исследуемых условиях<ref>{{Статья|ссылка=https://doi.org/10.1186/1471-2105-9-559|автор=Peter Langfelder, Steve Horvath|заглавие=WGCNA: an R package for weighted correlation network analysis|год=2008-12-29|издание=BMC Bioinformatics|том=9|выпуск=1|страницы=559|issn=1471-2105|doi=10.1186/1471-2105-9-559}}</ref>.
Также выделяют метрики <math>kOut = kTotal - kIM</math> и <math>kDiff = kIn - kOut</math>. Высокое среднее значение <math>kIM</math> для генов модуля (даже превышающее среднее значение <math>kTotal</math>) может означать то, что этот модуль является ядром сети и важным с биологической точки зрения в изучаемых условиях. Высокое значение <math>kOut</math>, напротив, означает, что общая связанность больше, чем связанность внутри модуля, то есть гены, входящие в состав этого модуля, стабильны и слабо меняют экспрессию в исследуемых условиях<ref name="Langfelder2008" />.


=== Нечёткая мера принадлежности к модулю ===
=== Нечёткая мера принадлежности к модулю ===
Строка 101: Строка 101:
Эта методика часто используется в качестве шага снижения размерности данных в применении к системной генетике, где модули представлены собственными генами<ref name="Chen2008" /><ref name="Plaisier2009" />. Собственные гены модулей могут быть использованы для расчёта корреляции с экспериментальными данными.
Эта методика часто используется в качестве шага снижения размерности данных в применении к системной генетике, где модули представлены собственными генами<ref name="Chen2008" /><ref name="Plaisier2009" />. Собственные гены модулей могут быть использованы для расчёта корреляции с экспериментальными данными.


WGCNA широко применяется в [[Нейробиология|нейробиологии]]<ref name="Voineagu2011" /><ref name="Hawrylycz2012" /> и для анализа геномных данных, включая [[ДНК-микрочип|микрочипы]] ([http://pubs.rsc.org/en/Content/ArticleLanding/2011/MB/C0MB00190B Kadarmideen et al. 2011]), данные [[Транскриптомика одиночных клеток|RNA-Seq отдельной клетки]] ([http://www.biomedcentral.com/1755-8794/7/57 Kogelman et al. 2014])<ref name="Xue2013" /> данные [[Метилирование ДНК|метилирования ДНК]],<ref name="Horvath2012aging" /> [[МикроРНК|миРНК]], подсчет [[Пептиды|пептидов]]<ref name="Shirasaki2012" /> и данные [[Метагеномика|микробиоты]] (секвенирование генов [[16S рРНК]])<ref name="Tong2013" />. Другие области применения включают данные визуализации [[Мозг|мозга]], например данные [[Функциональная магнитно-резонансная томография|функциональной МРТ]]<ref name="Mumford2010" />, анализ [[Онкология|онкологических]] данных, например, выделение подклассов [[Глиома|глиом]] и ассоциированных с ними биомаркеров<ref>{{Статья|ссылка=http://cancerres.aacrjournals.org/cgi/doi/10.1158/0008-5472.CAN-10-2465|автор=A. E. Ivliev, P. A. C. 't Hoen, M. G. Sergeeva|заглавие=Coexpression Network Analysis Identifies Transcriptional Modules Related to Proastrocytic Differentiation and Sprouty Signaling in Glioma|год=2010-12-15|язык=en|издание=Cancer Research|том=70|выпуск=24|страницы=10060–10070|issn=0008-5472, 1538-7445|doi=10.1158/0008-5472.CAN-10-2465}}</ref>, а также данные о работе [[Реснички|ресничек]]<ref>{{Статья|ссылка=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0035618|автор=Alexander E. Ivliev, Peter A. C. 't Hoen, Willeke M. C. van Roon-Mom, Dorien J. M. Peters, Marina G. Sergeeva|заглавие=Exploring the Transcriptome of Ciliated Cells Using In Silico Dissection of Human Tissues|год=2012-04-25|язык=en|издание=PLOS ONE|том=7|выпуск=4|страницы=e35618|issn=1932-6203|doi=10.1371/journal.pone.0035618}}</ref>.
WGCNA широко применяется в [[Нейробиология|нейробиологии]]<ref name="Voineagu2011" /><ref name="Hawrylycz2012" /> и для анализа геномных данных, включая [[ДНК-микрочип|микрочипы]]<ref>{{Статья|ссылка=https://pubs.rsc.org/en/content/articlelanding/2011/mb/c0mb00190b|автор=Haja N. Kadarmideen, Nathan S. Watson-Haigh, Nicholas M. Andronicos|заглавие=Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers|год=2011-01-01|язык=en|издание=Molecular BioSystems|том=7|выпуск=1|страницы=235–246|issn=1742-2051|doi=10.1039/C0MB00190B}}</ref>, данные [[Транскриптомика одиночных клеток|RNA-Seq отдельной клетки]]<ref>{{Статья|ссылка=https://doi.org/10.1186/1755-8794-7-57|автор=Lisette J. A. Kogelman, Susanna Cirera, Daria V. Zhernakova, Merete Fredholm, Lude Franke|заглавие=Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model|год=2014-09-30|издание=BMC Medical Genomics|том=7|выпуск=1|страницы=57|issn=1755-8794|doi=10.1186/1755-8794-7-57}}</ref><ref name="Xue2013" /> данные [[Метилирование ДНК|метилирования ДНК]],<ref name="Horvath2012aging" /> [[МикроРНК|миРНК]], подсчет [[Пептиды|пептидов]]<ref name="Shirasaki2012" /> и данные [[Метагеномика|микробиоты]] (секвенирование генов [[16S рРНК]])<ref name="Tong2013" />. Другие области применения включают данные визуализации [[Мозг|мозга]], например данные [[Функциональная магнитно-резонансная томография|функциональной МРТ]]<ref name="Mumford2010" />, анализ [[Онкология|онкологических]] данных, например, выделение подклассов [[Глиома|глиом]] и ассоциированных с ними биомаркеров<ref name="Ivliev2010">{{Статья|ссылка=http://cancerres.aacrjournals.org/cgi/doi/10.1158/0008-5472.CAN-10-2465|автор=A. E. Ivliev, P. A. C. 't Hoen, M. G. Sergeeva|заглавие=Coexpression Network Analysis Identifies Transcriptional Modules Related to Proastrocytic Differentiation and Sprouty Signaling in Glioma|год=2010-12-15|язык=en|издание=Cancer Research|том=70|выпуск=24|страницы=10060–10070|issn=0008-5472, 1538-7445|doi=10.1158/0008-5472.CAN-10-2465}}</ref>, а также данные о работе [[Реснички|ресничек]]<ref name="Ivliev2012">{{Статья|ссылка=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0035618|автор=Alexander E. Ivliev, Peter A. C. 't Hoen, Willeke M. C. van Roon-Mom, Dorien J. M. Peters, Marina G. Sergeeva|заглавие=Exploring the Transcriptome of Ciliated Cells Using In Silico Dissection of Human Tissues|год=2012-04-25|язык=en|издание=PLOS ONE|том=7|выпуск=4|страницы=e35618|issn=1932-6203|doi=10.1371/journal.pone.0035618}}</ref>.


WGCNA можно применять для [[Метаанализ|метаанализа]] данных, полученных из разных источников<ref>{{Статья|ссылка=http://www.pnas.org/lookup/doi/10.1073/pnas.0914257107|автор=Jeremy A. Miller, Steve Horvath, Daniel H. Geschwind|заглавие=Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways|год=2010-07-13|язык=en|издание=Proceedings of the National Academy of Sciences|том=107|выпуск=28|страницы=12698–12703|issn=0027-8424, 1091-6490|doi=10.1073/pnas.0914257107}}</ref><ref>{{Cite web|url=https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/JMiller/|title=Meta-analyses of data from two (or more) microarray data sets.|publisher=horvath.genetics.ucla.edu|accessdate=2020-04-19}}</ref>.
WGCNA можно применять для [[Метаанализ|метаанализа]] данных, полученных из разных источников<ref name="Miller2010">{{Статья|ссылка=http://www.pnas.org/lookup/doi/10.1073/pnas.0914257107|автор=Jeremy A. Miller, Steve Horvath, Daniel H. Geschwind|заглавие=Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways|год=2010-07-13|язык=en|издание=Proceedings of the National Academy of Sciences|том=107|выпуск=28|страницы=12698–12703|issn=0027-8424, 1091-6490|doi=10.1073/pnas.0914257107}}</ref><ref>{{Cite web|url=https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/JMiller/|title=Meta-analyses of data from two (or more) microarray data sets.|publisher=horvath.genetics.ucla.edu|accessdate=2020-04-19}}</ref>.


== Программная реализация алгоритма ==
== Программная реализация алгоритма ==


=== Пакет программного обеспечения R ===
=== Пакет программного обеспечения R ===
Пакет WGCNA [[R (язык программирования)|программного обеспечения R]]<ref name="Langfelder2008" /> предоставляет функции для осуществления всех элементов анализа взвешенных сетей (построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети)<ref>{{Статья|ссылка=https://doi.org/10.1186/1471-2105-9-559|автор=Peter Langfelder, Steve Horvath|заглавие=WGCNA: an R package for weighted correlation network analysis|год=2008-12-29|издание=BMC Bioinformatics|том=9|выпуск=1|страницы=559|issn=1471-2105|doi=10.1186/1471-2105-9-559}}</ref>. Пакет WGCNA доступен в [[CRAN]], стандартном репозитории пакетов дополнений для R, однако для работы WGCNA необходимы пакеты, доступные в репозитории [[Bioconductor]]. Пакету посвящён отдельный [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/index.html сайт], где опубликованы краткие [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/index.html руководства] с демонстрацией возможностей пакета, а также существует [https://peterlangfelder.com/ блог] одного из авторов метода, в котором публикуются тематические статьи, руководства и новости пакета.
Пакет WGCNA [[R (язык программирования)|программного обеспечения R]]<ref name="Langfelder2008" /> предоставляет функции для осуществления всех элементов анализа взвешенных сетей (построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети). Пакет WGCNA доступен в [[CRAN]], стандартном репозитории пакетов дополнений для R, однако для работы WGCNA необходимы пакеты, доступные в репозитории [[Bioconductor]]. Пакету посвящён отдельный [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/index.html сайт], где опубликованы краткие [https://horvath.genetics.ucla.edu/html/CoexpressionNetwork/Rpackages/WGCNA/Tutorials/index.html руководства] с демонстрацией возможностей пакета, а также существует [https://peterlangfelder.com/ блог] одного из авторов метода, в котором публикуются тематические статьи, руководства и новости пакета.


=== Экспорт результатов для анализа в дочерних программах ===
=== Экспорт результатов для анализа в дочерних программах ===
Строка 119: Строка 119:
{{Примечания|2|refs=<ref name="Zhang2005">Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [http://dibernardo.tigem.it/files/papers/2008/zhangbin-statappsgeneticsmolbio.pdf]</ref>
{{Примечания|2|refs=<ref name="Zhang2005">Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [http://dibernardo.tigem.it/files/papers/2008/zhangbin-statappsgeneticsmolbio.pdf]</ref>


<ref name="Langfelder2007">Langfelder P, Zhang B, Horvath S (2007) Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. Bioinformatics. November/btm563 PMID 18024473 [http://bioinformatics.oxfordjournals.org/content/24/5/719.abstract Bioinformatics]</ref>
<ref name="Ravasz2002">Ravasz E, Somera AL, Mongru DA, Oltvai ZN, Barabasi AL: Hierarchical
organization of modularity in metabolic networks. ''Science'' 2002, 297(5586):1551-1555.</ref>

<ref name="Yip2007">Yip A, Horvath S (2007) Gene network interconnectedness and the generalized topological overlap measure. ''BMC Bioinformatics'' 2007, 8:22 PMID 17250769 PMCID: PMC1797055 [http://www.biomedcentral.com/content/pdf/1471-2105-8-22.pdf BMC Bioinformatics] {{open access}}</ref><ref name="Langfelder2007">Langfelder P, Zhang B, Horvath S (2007) Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. Bioinformatics. November/btm563 PMID 18024473 [http://bioinformatics.oxfordjournals.org/content/24/5/719.abstract Bioinformatics]</ref>


<ref name="Horvath2008">Horvath S, Dong J (2008) Geometric Interpretation of Gene Coexpression Network Analysis. ''PLoS Comput Biol'' 4(8): e1000117 PMID 18704157 PMCID: PMC2446438 [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000117 Plos Comp Biol] {{open access}}</ref>
<ref name="Horvath2008">Horvath S, Dong J (2008) Geometric Interpretation of Gene Coexpression Network Analysis. ''PLoS Comput Biol'' 4(8): e1000117 PMID 18704157 PMCID: PMC2446438 [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1000117 Plos Comp Biol] {{open access}}</ref>

<ref name="Langfelder2007Eigengene">Langfelder P, Horvath S (2007) Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology 2007, 1:54 PMID 18031580 [http://www.biomedcentral.com/1752-0509/1/54/abstract BMC Systems Biology] {{open access}}</ref><ref name="Langfelder2011">Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1001057 PloS Comp Biol] {{open access}}</ref>
<ref name="Langfelder2007Eigengene">Langfelder P, Horvath S (2007) Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology 2007, 1:54 PMID 18031580 [http://www.biomedcentral.com/1752-0509/1/54/abstract BMC Systems Biology] {{open access}}</ref>

<ref name="Langfelder2011">Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 [http://www.ploscompbiol.org/article/info%3Adoi%2F10.1371%2Fjournal.pcbi.1001057 PloS Comp Biol] {{open access}}</ref>


<ref name="Horvath2011">Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 [https://www.springer.com/new+&+forthcoming+titles+(default)/book/978-1-4419-8818-8?changeHeader|Springer website]</ref>
<ref name="Horvath2011">Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 [https://www.springer.com/new+&+forthcoming+titles+(default)/book/978-1-4419-8818-8?changeHeader|Springer website]</ref>
Строка 132: Строка 132:


<ref name="Langfelder2008">Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. ''BMC Bioinformatics'' 2008, 9:559 PMID 19114008 PMCID: PMC2631488 [http://www.biomedcentral.com/1471-2105/9/559 BMC Bioinformatics] {{open access}}</ref>
<ref name="Langfelder2008">Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. ''BMC Bioinformatics'' 2008, 9:559 PMID 19114008 PMCID: PMC2631488 [http://www.biomedcentral.com/1471-2105/9/559 BMC Bioinformatics] {{open access}}</ref>

<ref name="Dong2007">Dong J, Horvath S (2007) Understanding Network Concepts in Modules, BMC Systems Biology 2007, 1:24 PMID 17547772 PMCID: PMC3238286
[http://www.biomedcentral.com/1752-0509/1/24 BMC Systems Biology] {{open access}}</ref>

<ref name="Dong2007">Dong J, Horvath S (2007) Understanding Network Concepts in Modules, BMC Systems Biology 2007, 1:24 PMID 17547772 PMCID: PMC3238286
[http://www.biomedcentral.com/1752-0509/1/24 BMC Systems Biology] {{open access}}</ref>

<!--ref name="Song2013">Song L, Langfelder P, Horvath S (2013) Random generalized linear model: a highly accurate and interpretable ensemble predictor. BMC Bioinformatics 14:5 PMID 23323760 DOI: 10.1186/1471-2105-14-5.[http://www.biomedcentral.com/1471-2105/14/5 |BMC Bioinformatics] {{open access}}</ref-->


<ref name="Ranola2013">Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 [http://www.biomedcentral.com/1752-0509/7/21/ BMC Systems Biology] {{open access}}</ref>
<ref name="Ranola2013">Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 [http://www.biomedcentral.com/1752-0509/7/21/ BMC Systems Biology] {{open access}}</ref>


<ref name="Langfelder2013">Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? ''PLoS ONE'' 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 [http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0061505 PloS One] {{open access}}</ref>
<ref name="Langfelder2013">Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? ''PLoS ONE'' 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 [http://www.plosone.org/article/info%3Adoi%2F10.1371%2Fjournal.pone.0061505 PloS One] {{open access}}</ref>

<ref name="Oldham2012">Oldham MC, Langfelder P, Horvath S (2012) Network methods for describing sample relationships in genomic datasets: application to Huntington's disease. BMC Syst Biol. 2012 Jun 12;6(1):63. PMID 22691535 46(11) 1-17 {{open access}}</ref>

<!--ref name="Oldham2008">Oldham MC, Konopka G, Iwamoto K, Langfelder P, Kato T, Horvath S, Geschwind DH (2008) Functional organization of the transcriptome in human brain. Nature Neuroscience. Nature Neuroscience 11, 1271 - 1282 (2008) doi:10.1038 nn.2207 [http://www.nature.com/neuro/journal/v11/n11/abs/nn.2207.html Nature Neuroscience]</ref-->


<ref name="Chen2008">Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.</ref>
<ref name="Chen2008">Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.</ref>
Строка 163: Строка 151:
<ref name="Tong2013">Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834335/ PMC] {{open access}}</ref>
<ref name="Tong2013">Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3834335/ PMC] {{open access}}</ref>


<ref name="Mumford2010">Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3632300/ PMC]</ref>}}[[Категория:Биоинформатика]]
<ref name="Mumford2010">Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3632300/ PMC]</ref>}}
[[Категория:Биоинформатика]]

Версия от 17:59, 19 апреля 2020

Анализ взвешенной сети корреляций (англ. weighted correlation network analysis), также известный как анализ взвешенной сети коэкспрессии генов (англ. weighted gene coexpression network analysis, WGCNA), это широко используемый, особенно при изучении биологических сетей, метод глубинного анализа данных, основанный на попарных корреляциях между переменными. Метод может быть использован на большинстве многомерных наборов данных, но наиболее широкое распространение он получил в геномике. Метод позволяет определять модули (кластеры коэкспрессирующихся генов), межмодульные хабы и узлы сети относительно принадлежности к модулю, изучать отношения между модулями коэкспрессии и сравнивать топологии различных сетей. WGCNA может быть использован как метод снижения размерности данных (связанный с непрямым факторным анализом), как метод кластеризации, как метод отбора признаков (например, для скрининга генов).

История

Метод WGCNA был разработан Стивом Хорватом[англ.], профессором Калифорнийского университета в Лос-Анджелесе и членами (в том числе бывшими) его лаборатории (в частности, Питером Лангфелдером, Бином Чжаноми и Джуном Донгом). Большая часть метода появилась в ходе прикладных исследований. В частности, взвешенные корреляционные сети были разработаны в рамках совместных дискуссий с исследователями рака Полом Мишелем, Стэнли Ф. Нельсоном, и нейробиологами Дэниэлем Гешвиндом и Майклом Олдхэмом[1].

Алгоритм работы

Построение первичной сети

Исходные данные представляют собой матрицу экспрессии генов в нескольких образцах , где — число генов, — число образцов. Для построения сети коэкспрессии для каждой пары генов вычисляется параметр сходства, , который должен лежать в . по умолчанию равен абсолютному значению коэффициента корреляции Пирсона

,

где профили коэкспрессии генов и состоят из экспрессии генов i и j среди множества образцов. Для достижения большей устойчивости к выбросам можно использовать “урезанный” коэффициент корреляции, а для того, чтобы сохранить знак коэффициента можно использовать простое преобразование корреляции: , так как использование абсолютного значения корреляции может привести к потере биологически значимой информации, поскольку при этом нельзя различить репрессию и активацию генов. Получается матрица сходства .

Фильтрация ребер по весу с применением мягкого безмасштабного критерия

Для вычисления матрицы смежности сети по матрице сходства необходима функция смежности, которая отображает интервал в интервал . Традиционной функцией смежности является сигнум-функция с жестким порогом:

Такая жесткая фильтрация ребер применяется при построении невзвешенных сетей, а результат согласован с интуитивным пониманием концепции сети (связность узла совпадает с числом связанных с ним соседей). Однако такой подход часто приводит к потере информации: например, если установить , то между узлами с параметром сходства 0.79 не будет никакой связи. Таким образом такие сети очень чувствительны к выбору гиперпараметра.

Взвешенные сети лишены этого недостатка. В алгоритме WGCNA в качестве функции смежности используется степенная функция:

Значение определяется с помощью топологического критерия безмасштабности сети для целочисленных значений . Для разных целочисленных значений строится линейная модель зависимости логарифма доли вершин сети со степенью от логарифма степени . Выбирается наименьшее значение , при котором коэффициент детерминации соответствующей линейной модели превосходит 0.8.

«Мягкая» матрица смежности позволяет лишь проранжировать узлы сети согласно силе их связи с рассматриваемым узлом. Если необходимо определить ограниченный список соседей, вводится порог по силе связи. Такой способ «мягкой» фильтрации ребер сети и называется взвешиванием сети.

Сглаживание взвешенной сети

Для определения модулей сети и удаления шума производится операция сглаживания сети. Сначала вычисляется матрица топологического сходства (topological overlap measure) :

,

где — элемент матрицы смежности, , .

равна , если узел с меньшим числом соседей связан с узлом с бо́льшим числом соседей и все соседи узла являются соседями узла . равна , если узлы и не связаны и не имеют общих соседей. Так как , то и . Топологическое сходство двух узлов отражает их относительную внутрисвязанность.

На основе матрицы топологического сходства строится матрица несходства :

.

Модули сети выделяются согласно матрице несходства.

Иерархическая кластеризация и выделение модулей

Для выделения модулей сети используется иерархическая кластеризация матрицы несходства. Модули генов представляют собой ветви полученной дендрограммы. Для выделения модулей производится обрезка ветвей дендрограммы. Статический способ обрезки, который выделяет разветвления ниже определенного порога как отдельный кластер, производит модули, которые легко выделяются визуально, но не соответствуют строгому определению понятия «модуль».

В WGCNA используется метод динамического обрезания дендрограммы (англ. Dynamic Tree Cut)[2], который представляет собой адаптивный итеративный процесс разбиения и комбинации модулей, и останавливается, когда число модулей остается стабильным. Исходным набором модулей являются большие модули, определяемые статическим способом. Далее происходит рекурсивное разбиение на подмодули на основе наличия паттерна флуктуаций длины ветвей внутри одного исходного модуля. Маленькие модули объединяются с соседними, чтобы избежать чрезмерного дробления.

Более поздние версии алгоритма используют гибридный динамический (англ. Dynamic Hybrid) подход, который позволяет более успешно детектировать выбросы в каждом кластере. В качестве зачатков модулей используются ветви, удовлетворяющие следующим критериям:

  • Содержат не менее установленного порога дочерних листьев (объектов);
  • Объекты, расположенные слишком далеко от модуля исключаются из него, даже если они принадлежат одной дочерней ветви на дендрограмме;
  • Каждый модуль должен быть различимым от его окружения;
  • Ядро модуля должно быть сильно связано.

После определения таких зачаточных модулей все остальные объекты, не попавшие в модулей на первом шаге, по возможности включаются в состав образованных модулей методом ближайших медоидов[англ.]. Объекты в составе одного итогового модуля могут не находиться рядом на дендрограмме, однако эта несогласованность является обманчивой и следует из ограничений отображения реальных данных в виде дендрограммы[3].

Валидация модулей

Для валидации модулей используется бутстрэп-анализ на неполных выборках образцов. Дальнейшему анализу подвергаются только те модули, которые были обнаружены в большом числе бутстрэп-реплик.

Интерпретация результатов

Обобщение профиля экспрессии генов модуля

Модуль коэкспрессии представляется собственным геном (англ. eigengene) , который является правым сингулярным вектором, соответствующим наибольшему правому сингулярному значению при сингулярном разложении матрицы экспрессии генов этого модуля [4].

Соотнесение модулей с внешними характеристиками

Для определения значимости влияния экспрессии одного гена на проявление черты можно использовать модуль коэффициента корреляции или p-value соответствующего корреляционного или регрессионного анализа . Для определения значимости влияния экспрессии генов модуля используются разные величины:

  • Среднее значение модулей коэффициентов корреляции между экспрессиями генов и проявления черты по данному модулю ;
  • Модуль коэффициента корреляции собственного гена и проявления черты и соответствующий p-value регрессионного анализа.

Чем больше величина значимости, тем более значимым является данный ген или модуль генов для проявления данной черты .

Взаимодействие модулей

Для оценки взаимодействия (коэкспрессии) модулей используются как попарные корреляции между собственными генами модулей, так и построение мета-сети на основе матрицы коэкспрессии собственных генов модулей и выделение мета-модулей в этой мета-сети, в том числе с использованием информации о проявлении черт для определения значимости модулей.

Выделение важных генов

Одним из ключевых моментов в анализе построенной сети является выделение центральных узлов (хабов) — генов, которые высоко скоррелированы со многими другими генами сети. Две метрики связности узла: стандартная и топологическая — могут быть вычислены как по всей сети (полносетевая связность, англ. whole-network connectivity), так и только по генам того же модуля (внутримодальная связность, англ. intramodular connectivity). Стандартная и топологическая полносетевая и внутримодальная связности обозначаются как , , и , соответственно.

Использование внутримодульной связности (нормированной на максимальное значение связности внутри модуля) является более предпочтительным по сравнению с полносетевой связностью при сравнении генов из различных модулей, так как сильно связный ген но из маленького по размеру, но важного модуля может иметь гораздо меньшее значение полносетевой связности по сравнению с геном, имеющим среднюю степень связности из большого по размеру, но не очень важного модуля.

В свою очередь, внутримодульная связность гена отражает то, насколько связан или коэкспрессирован рассматриваемый ген по отношению к генам этого модуля. Эта метрика может быть интерпретирована как мера принадлежности к модулю.

Также выделяют метрики и . Высокое среднее значение для генов модуля (даже превышающее среднее значение ) может означать то, что этот модуль является ядром сети и важным с биологической точки зрения в изучаемых условиях. Высокое значение , напротив, означает, что общая связанность больше, чем связанность внутри модуля, то есть гены, входящие в состав этого модуля, стабильны и слабо меняют экспрессию в исследуемых условиях[5].

Нечёткая мера принадлежности к модулю

Бинарная мера принадлежности к модулю может быть не самой подходящей мерой для ряда применений. Непрерывная величина может служить нечёткой мерой принадлежности гена к модулю. Такой величиной может быть или мера связности, основанная на собственных векторах модулей, . Последняя определяется как корреляция гена и собственного гена модуля : . Высокое значение (близкое к или ) говорит о сильной связанности гена и модуля , значение, близкое к , говорит о том, что ген не принадлежит модулю . Метрики и связанны между собой: внутримодальные хабы обладают тенденцией иметь высокое значение для соответствующего модуля.

Сравнение взвешенных и невзвешенных сетей корреляций

Взвешенная корреляционная сеть может рассматриваться как частный случай взвешенной сети, сети зависимостей или корреляционной сети. Анализ взвешенных корреляционных сетей имеет следующие достоинства:

  • Построение сети (на основе мягкого порога коэффициента корреляции) сохраняет непрерывный характер исходной информации о корреляции. Например, взвешенные корреляционные сети, построенные на основе корреляций между числовыми переменными не требуют выбора жесткого порога. Дихотомическое деление информации и (жесткий) выбор порога может привести к потере информации[1];
  • Взвешенные корреляционные сети облегчают геометрическую интерпретацию на основе угловой интерпретации корреляции[4];
  • Полученная статистика сети может быть использована для улучшения результатов стандартных методов глубокого анализа данных, таких как кластерный анализ, так как меры несхожести зачастую могут быть преобразованы во взвешенные сети[6][4];
  • WGCNA предоставляет обширные статистические данные о консервативности модулей, которые могут быть использованы для количественного представления возможности встретить их в другом состоянии. Также статистика консервативности модулей позволяет исследовать различия между модульной структурой сетей[7];
  • Взвешенные и корреляционные сети часто можно аппроксимировать «факторизуемыми» сетями[8]. Таких приближений бывает сложно добиться для разреженных, невзвешенных сетей. Таким образом, взвешенные (корреляционные) сети позволяют использовать экономную параметризацию (в терминах модулей и принадлежности к модулям)[9] [8].

Применение

WGCNA широко применяется для анализа данных об экспрессии генов, например для поиска межмодульных хабов[10][11].

Эта методика часто используется в качестве шага снижения размерности данных в применении к системной генетике, где модули представлены собственными генами[12][13]. Собственные гены модулей могут быть использованы для расчёта корреляции с экспериментальными данными.

WGCNA широко применяется в нейробиологии[14][15] и для анализа геномных данных, включая микрочипы[16], данные RNA-Seq отдельной клетки[17][18] данные метилирования ДНК,[19] миРНК, подсчет пептидов[20] и данные микробиоты (секвенирование генов 16S рРНК)[21]. Другие области применения включают данные визуализации мозга, например данные функциональной МРТ[22], анализ онкологических данных, например, выделение подклассов глиом и ассоциированных с ними биомаркеров[23], а также данные о работе ресничек[24].

WGCNA можно применять для метаанализа данных, полученных из разных источников[25][26].

Программная реализация алгоритма

Пакет программного обеспечения R

Пакет WGCNA программного обеспечения R[5] предоставляет функции для осуществления всех элементов анализа взвешенных сетей (построение модулей, выбор генов хабов, статистика консервативности модулей, дифференциальный анализ сети, статистика сети). Пакет WGCNA доступен в CRAN, стандартном репозитории пакетов дополнений для R, однако для работы WGCNA необходимы пакеты, доступные в репозитории Bioconductor. Пакету посвящён отдельный сайт, где опубликованы краткие руководства с демонстрацией возможностей пакета, а также существует блог одного из авторов метода, в котором публикуются тематические статьи, руководства и новости пакета.

Экспорт результатов для анализа в дочерних программах

Пакет содержит функции для визуализации полученных сетей в VisANT и Cytoscape. Также разработан пакет anRichment для расширенной функциональной аннотации генов в модулях, выделенных WGCNA.

iterativeWGCNA

Существует расширение базового пакета R под названием iterativeWGCNA, реализованное на языке Python. Расширение позволяет усилить устойчивость детектируемых модулей и уменьшить потерю информации. Для этого гены, не попавшие в модули, а также гены со слабым значением связности к своим модулям снова подвергаются WGCNA-анализу и для них заново определяются модули[27].

Список литературы

  1. 1 2 Zhang B, Horvath S (2005) A General Framework for Weighted Gene Co-Expression Network Analysis", Statistical Applications in Genetics and Molecular Biology: Vol. 4: No. 1, Article 17 PMID 16646834 [1]
  2. Langfelder P, Zhang B, Horvath S (2007) Defining clusters from a hierarchical cluster tree: the Dynamic Tree Cut library for R. Bioinformatics. November/btm563 PMID 18024473 Bioinformatics
  3. Peter Langfelder. Why WGCNA modules don’t always agree with the dendrogram? (англ.). Insights from a billion correlations (31 декабря 2018). Дата обращения: 19 апреля 2020.
  4. 1 2 3 Horvath S, Dong J (2008) Geometric Interpretation of Gene Coexpression Network Analysis. PLoS Comput Biol 4(8): e1000117 PMID 18704157 PMCID: PMC2446438 Plos Comp Biol публикация в открытом доступе
  5. 1 2 Langfelder P, Horvath S (2008) WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 2008, 9:559 PMID 19114008 PMCID: PMC2631488 BMC Bioinformatics публикация в открытом доступе
  6. Langfelder P, Horvath S (2007) Eigengene networks for studying the relationships between co-expression modules. BMC Systems Biology 2007, 1:54 PMID 18031580 BMC Systems Biology публикация в открытом доступе
  7. Langfelder P, Luo R, Oldham MC, Horvath S (2011) Is my network module preserved and reproducible? PloS Comp Biol. 7(1): e1001057 PMID 21283776 PMCID:PMC3024255 PloS Comp Biol публикация в открытом доступе
  8. 1 2 Ranola JM, Langfelder P, Lange K, Horvath S Cluster and propensity based approximation of a network. BMC Syst Biol. 2013 Mar 14;7(1):21 PMID 23497424 BMC Systems Biology публикация в открытом доступе
  9. Horvath S (2011). Weighted Network Analysis: Applications in Genomics and Systems Biology. Springer Book. 1st Edition., 2011, XXII, 414 p Hardcover ISBN 978-1-4419-8818-8 website
  10. Langfelder P, Mischel PS, Horvath S (2013) When Is Hub Gene Selection Better than Standard Meta-Analysis? PLoS ONE 8(4): e61505. doi:10.1371/journal.pone.0061505 PMCID: PMC3629234 PloS One публикация в открытом доступе
  11. Horvath S, Zhang B, Carlson M, Lu KV, Zhu S, Felciano RM, Laurance MF, Zhao W, Shu, Q, Lee Y, Scheck AC, Liau LM, Wu H, Geschwind DH, Febbo PG, Kornblum HI, Cloughesy TF, Nelson SF, Mischel PS (2006) "Analysis of Oncogenic Signaling Networks in Glioblastoma Identifies ASPM as a Novel Molecular Target", PNAS November 14, 2006 vol. 103 no. 46 17402-17407
  12. Chen Y, Zhu J, Lum PY, Yang X, Pinto S, MacNeil DJ, Zhang C, Lamb J, Edwards S, Sieberts SK, Leonardson A, Castellini LW, Wang S, Champy MF, Zhang B, Emilsson V, Doss S, Ghazalpour A, Horvath S, Drake TA, Lusis AJ, Schadt EE. Variations in DNA elucidate molecular networks that cause disease. Nature. 2008 Mar 27;452(7186):429-35.
  13. Plaisier CL, Horvath S, Huertas-Vazquez A, Cruz-Bautista I, Herrera MF, Tusie-Luna T, Aguilar-Salinas C, Pajukanta P (2009) A systems genetics approach implicates USF1, FADS3 and other causal candidate genes for familial combined hyperlipidemia. PloS Genetics;5(9):e1000642 публикация в открытом доступе
  14. Voineagu I, Wang X, Johnston P, Lowe JK, Tian Y, Horvath S, Mill J, Cantor R, Blencowe BJ, Geschwind DH (2011) Transcriptomic analysis of autistic brain reveals convergent molecular pathology. Nature. PMID 21614001
  15. Hawrylycz MJ, Lein ES, Guillozet-Bongaarts AL, Shen EH, Ng L, Miller JA, van de Lagemaat LN, Smith KA, Ebbert A, Riley ZL, Abajian C, Beckmann CF, Bernard A, Bertagnolli D, Boe AF, Cartagena PM, Chakravarty MM, Chapin M, Chong J, Dalley RA, Daly BD, Dang C, Datta S, et al, Koch C, Grant SG, Jones AR (2012) An anatomically comprehensive atlas of the adult human brain transcriptome. Nature. 2012 Sep 20;489(7416):391-9. doi: 10.1038 nature11405. PMID 22996553 Nature
  16. Haja N. Kadarmideen, Nathan S. Watson-Haigh, Nicholas M. Andronicos. Systems biology of ovine intestinal parasite resistance: disease gene modules and biomarkers (англ.) // Molecular BioSystems. — 2011-01-01. — Vol. 7, iss. 1. — P. 235–246. — ISSN 1742-2051. — doi:10.1039/C0MB00190B.
  17. Lisette J. A. Kogelman, Susanna Cirera, Daria V. Zhernakova, Merete Fredholm, Lude Franke. Identification of co-expression gene networks, regulatory genes and pathways for obesity based on adipose tissue RNA Sequencing in a porcine model // BMC Medical Genomics. — 2014-09-30. — Т. 7, вып. 1. — С. 57. — ISSN 1755-8794. — doi:10.1186/1755-8794-7-57.
  18. Xue Z, Huang K, Cai C, Cai L, Jiang CY, Feng Y, Liu Z, Zeng Q, Cheng L, Sun YE, Liu JY, Horvath S, Fan G. (2013) Genetic programs in human and mouse early embryos revealed by single-cell RNA?sequencing. Nature. 2013 Jul 28. doi: 10.1038/nature12364 PMID 23892778 Nature
  19. Horvath S, Zhang Y, Langfelder P, Kahn RS, Boks MP, van Eijk K, van den Berg LH, Ophoff RA. Aging effects on DNA methylation modules in human brain and blood tissue. Genome Biol. 2012 Oct 3;13(10):R97. PMID 23034122 Genome Biology
  20. Shirasaki DI, Greiner ER, Al-Ramahi I, Gray M, Boontheung P, Geschwind DH, Botas J, Coppola G, Horvath S, Loo JA, Yang XW. (2012) Network organization of the huntingtin proteomic interactome in Mammalian brain. Neuron. 2012 Jul 12;75(1):41-57. PMID 22794259 Neuron
  21. Tong M, Li X, Wegener Parfrey L, Roth B, Ippoliti A, Wei B, Borneman J, McGovern DP, Frank DN, Li E, Horvath S, Knight R, Braun J (2013) A modular organization of the human intestinal mucosal microbiota and its association with inflammatory bowel disease. PLoS One. 2013 Nov 19;8(11):e80702. doi: 10.1371/journal.pone.0080702. PMID 24260458 PMC публикация в открытом доступе
  22. Mumford JA, Horvath S, Oldham MC, Langfelder P, Geschwind DH, Poldrack RA (2010) Detecting network modules in fMRI time series: A weighted network analysis approach. Neuroimage. 2010 Oct 1;52(4):1465-1476. Epub 2010 May 27.PMID 20553896. PMC
  23. A. E. Ivliev, P. A. C. 't Hoen, M. G. Sergeeva. Coexpression Network Analysis Identifies Transcriptional Modules Related to Proastrocytic Differentiation and Sprouty Signaling in Glioma (англ.) // Cancer Research. — 2010-12-15. — Vol. 70, iss. 24. — P. 10060–10070. — ISSN 1538-7445 0008-5472, 1538-7445. — doi:10.1158/0008-5472.CAN-10-2465.
  24. Alexander E. Ivliev, Peter A. C. 't Hoen, Willeke M. C. van Roon-Mom, Dorien J. M. Peters, Marina G. Sergeeva. Exploring the Transcriptome of Ciliated Cells Using In Silico Dissection of Human Tissues (англ.) // PLOS ONE. — 2012-04-25. — Vol. 7, iss. 4. — P. e35618. — ISSN 1932-6203. — doi:10.1371/journal.pone.0035618.
  25. Jeremy A. Miller, Steve Horvath, Daniel H. Geschwind. Divergence of human and mouse brain transcriptome highlights Alzheimer disease pathways (англ.) // Proceedings of the National Academy of Sciences. — 2010-07-13. — Vol. 107, iss. 28. — P. 12698–12703. — ISSN 1091-6490 0027-8424, 1091-6490. — doi:10.1073/pnas.0914257107.
  26. Meta-analyses of data from two (or more) microarray data sets. horvath.genetics.ucla.edu. Дата обращения: 19 апреля 2020.
  27. Emily Greenfest-Allen, Jean-Philippe Cartailler, Mark A. Magnuson, Christian J. Stoeckert. iterativeWGCNA: iterative refinement to improve module detection from WGCNA co-expression networks (англ.) // bioRxiv. — 2017-12-14. — P. 234062. — doi:10.1101/234062.