Транскриптомные технологии: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
Minina (обсуждение | вклад) |
Minina (обсуждение | вклад) Нет описания правки |
||
Строка 8: | Строка 8: | ||
== История == |
== История == |
||
[[Файл:Transcriptomics technique publications over time.svg|thumb|300px|Количество публикаций, касающихся РНК-Seq (чёрный), микрочипов (красный), экспрессируемых меток последовательностей (синий) и сериального/кэпового анализа экспрессии генов (жёлтый) с 1990 года по 2016 год<ref>{{Cite web|url=http://dan.corlan.net/medline-trend.html|title=Medline trend: automated yearly statistics of PubMed results for any query|website=dan.corlan.net|access-date=2016-10-05}}</ref>]] |
[[Файл:Transcriptomics technique publications over time.svg|thumb|300px|Количество публикаций, касающихся РНК-Seq (чёрный), микрочипов (красный), экспрессируемых меток последовательностей (синий) и сериального/кэпового анализа экспрессии генов (жёлтый) с 1990 года по 2016 год<ref>{{Cite web|url=http://dan.corlan.net/medline-trend.html|title=Medline trend: automated yearly statistics of PubMed results for any query|website=dan.corlan.net|access-date=2016-10-05}}</ref>]] |
||
Первая попытка получения части человеческого транскриптома была предпринята в 1991 году; в ходе этого исследования были получены [[Нуклеотидная последовательность|последовательности]] 609 [[мРНК]] из [[Головной мозг человека|мозга человека]]. В 2008 году были опубликованы два человеческих транскриптома, состоящих из миллионов последовательностей, происходящих от транскриптов 16 тысяч генов. К 2015 году были опубликованы транскриптомы сотен людей. Получение транскриптомов индивидуумов с тем или иным заболеванием, разных тканей и даже [[Транскриптомика одиночных клеток|одиночных клеток]] в настоящее время является рутинной процедурой. Бурное развитие транскриптомики было возможно благодаря быстрому развитию новых экономичных технологий с повышенной чувствительностью. |
Первая попытка получения части человеческого транскриптома была предпринята в 1991 году; в ходе этого исследования были получены [[Нуклеотидная последовательность|последовательности]] 609 [[мРНК]] из [[Головной мозг человека|мозга человека]]<ref name="ref2047873"/>. В 2008 году были опубликованы два человеческих транскриптома, состоящих из миллионов последовательностей, происходящих от транскриптов 16 тысяч генов<ref name="#18978789">{{cite pmid|18978789}}</ref><ref name="#18599741">{{cite pmid|18599741}}</ref>. К 2015 году были опубликованы транскриптомы сотен людей<ref name="#24037378">{{cite pmid|24037378}}</ref><ref name="#25954002">{{cite pmid|25954002}}</ref>. Получение транскриптомов индивидуумов с тем или иным заболеванием, разных тканей и даже [[Транскриптомика одиночных клеток|одиночных клеток]] в настоящее время является рутинной процедурой<ref name="#25954002" /><ref name="#24524133">{{cite pmid|26000846}}</ref>. Бурное развитие транскриптомики было возможно благодаря быстрому развитию новых экономичных технологий с повышенной чувствительностью<ref name="#23290152">{{cite pmid|23290152}}</ref><ref name="#19015660">{{cite pmid|19015660}}</ref><ref name="#21191423">{{cite pmid|21191423}}</ref><ref name="#19715439">{{cite pmid|19715439}}</ref>. |
||
=== До транскриптомики === |
=== До транскриптомики === |
||
Исследования отдельных транскриптов проводились ещё за несколько десятилетий до того, как методы транскриптомики стали общедоступны. В конце 1970-х были получены {{нп5|Библиотека кДНК|библиотеки РНК|en|cDNA library}} и конвертированы в [[Комплементарность (биология)|комплементарную]] [[ДНК]] ([[Комплементарная ДНК|кДНК]]) с помощью [[Обратная транскриптаза|обратной транскриптазы]] для [[бабочки]] ''{{нп5|Antheraea polyphemus||en|Antheraea polyphemus}}''. В 1980-х с помощью низкопроизводительного [[Секвенирование ДНК по Сэнгеру|секвенирования по Сэнгеру]] были получены последовательности случайных транскриптов; так появились так называемые {{нп5|экспрессируемые метки последовательностей||en|Expressed sequence tag}} ({{lang-en|expressed sequence tags, EST}}). Метод секвенирования по Сэнгеру доминировал до появления технологий высокопроизводительного секвенирования, например, секвенирования синтезом ([[Метод Illumina/Solexa|Solexa/Illumina]]). EST стали активно использоваться в 1990-х как эффективный метод определения генного состава организма без {{нп5|Полногеномное секвенирование|полногеномного секвенирования|en|Whole genome sequencing}}. Количество отдельных транскриптов оценивалось с помощью [[нозерн-блот]]ов, {{нп5|Обратный нозерн-блот|обратных нозерн-блотов|en|Reverse northern blot}} и [[Полимеразная цепная реакция в реальном времени|количественной ПЦР]] с [[Обратная транскрипция|обратной транскрипцией]] (RT-qPCR). Однако эти методы очень трудоёмки и охватывают лишь крошечную долю целого транскриптома. |
Исследования отдельных транскриптов проводились ещё за несколько десятилетий до того, как методы транскриптомики стали общедоступны. В конце 1970-х были получены {{нп5|Библиотека кДНК|библиотеки РНК|en|cDNA library}} и конвертированы в [[Комплементарность (биология)|комплементарную]] [[ДНК]] ([[Комплементарная ДНК|кДНК]]) с помощью [[Обратная транскриптаза|обратной транскриптазы]] для [[бабочки]] ''{{нп5|Antheraea polyphemus||en|Antheraea polyphemus}}''<ref name="#519770">{{cite pmid|519770 }}</ref>. В 1980-х с помощью низкопроизводительного [[Секвенирование ДНК по Сэнгеру|секвенирования по Сэнгеру]] были получены последовательности случайных транскриптов; так появились так называемые {{нп5|экспрессируемые метки последовательностей||en|Expressed sequence tag}} ({{lang-en|expressed sequence tags, EST}})<ref name="ref2047873">{{cite pmid|6956902}}</ref><ref name="#6687628">{{cite pmid|6687628}}</ref><ref name="#9448457" />. Метод секвенирования по Сэнгеру доминировал до появления технологий высокопроизводительного секвенирования, например, секвенирования синтезом ([[Метод Illumina/Solexa|Solexa/Illumina]]). EST стали активно использоваться в 1990-х как эффективный метод определения генного состава организма без {{нп5|Полногеномное секвенирование|полногеномного секвенирования|en|Whole genome sequencing}}<ref name="#9448457">{{cite pmid|9448457}}</ref>. Количество отдельных транскриптов оценивалось с помощью [[нозерн-блот]]ов, {{нп5|Обратный нозерн-блот|обратных нозерн-блотов|en|Reverse northern blot}} и [[Полимеразная цепная реакция в реальном времени|количественной ПЦР]] с [[Обратная транскрипция|обратной транскрипцией]] (RT-qPCR)<ref name="#414220">{{cite pmid|414220}}</ref><ref name="#2479917">{{cite pmid|2479917}}</ref>. Однако эти методы очень трудоёмки и охватывают лишь крошечную долю целого транскриптома<ref name="#19715439" />. |
||
=== Первые попытки === |
=== Первые попытки === |
||
Слово «транскриптом» ({{lang-en|transcriptome}}) было |
Слово «транскриптом» ({{lang-en|transcriptome}}) было введено в употребление в 1990-х годах<ref name="#10022985">{{cite pmid|10022985}}</ref><ref name="#9008165">{{cite pmid|9008165}}</ref>. В 1995 году появился первый транскриптомный метод, основанный на секвенировании — {{нп5|сериальный анализ экспрессии генов||en|Serial analysis of gene expression}} ({{lang-en|serial analysis of gene expression (SAGE)}}), который заключался в секвенировании по Сэнгеру соединённых фрагментов случайных транскриптов. Количество транскриптов оценивалось по числу совпадений с фрагментами известных генов<ref name="#7570003">{{cite pmid|7570003}}</ref>. Вскоре появился вариант SAGE, использующий вместо секвенирования по Сэнгеру технологии секвенирования нового поколения — цифровой анализ экспрессии генов ({{lang-en|digital gene expression analysis}})<ref name="#23290152" /><ref name="#9331369">{{cite pmid|9331369}}</ref>. Однако эти методы практически полностью были вытеснены методами высокопроизводительного секвенирования целых транскриптов, которые давали дополнительную информацию о транскрипте, например, сведения о [[сплайсинг]]овых вариантах<ref name="#23290152" />. |
||
=== Развитие современных методов === |
=== Развитие современных методов === |
||
Строка 59: | Строка 59: | ||
|> 99 %<ref name="#17961233">{{cite pmid|17961233}}</ref><ref name="#15846360">{{cite pmid|15846360}}</ref> |
|> 99 %<ref name="#17961233">{{cite pmid|17961233}}</ref><ref name="#15846360">{{cite pmid|15846360}}</ref> |
||
|} |
|} |
||
Превалирующие современные методы — микрочипы и РНК-Seq — появились в середине 1990-х и 2000-х. Публикации по микрочипам, которые измеряли относительное содержание определённых транскриптов за счёт их [[Гибридизация ДНК|гибридизации]] с комплементарными пробами, нанесёнными на микрочип, появились в 1995 году. Метод микрочипов позволял одновременно исследовать тысячи транскриптов, и за счёт этого позволял снизить стоимость исследования транскриптома в расчёте на ген и сэкономить усилия. До конца 2000-х лучшими методами транскрипционного профилинга были пятновые олигонуклеотидные чипы ({{lang-en|spotted oligonucleotide arrays}}) и микрочипы {{нп5|Affymetrix||en|Affymetrix}} с высокой плотностью. В течение этого периода времени было создано множество чипов, покрывающих известные гены [[Модельные организмы|модельных]] и [[Экономика|экономически]] важных организмов. Улучшения технологий создания микрочипов привели к увеличению специфичности проб и количества генов, которые можно проанализировать с помощью одного чипа. Благодаря новым методам детекции флуоресценции стало возможным точно определять наличие и количество даже транскриптов, синтезируемых на низком уровне. |
Превалирующие современные методы — микрочипы и РНК-Seq — появились в середине 1990-х и 2000-х<ref name="#23290152" /><ref name="#11287436">{{cite pmid|11287436}}</ref>. Публикации по микрочипам, которые измеряли относительное содержание определённых транскриптов за счёт их [[Гибридизация ДНК|гибридизации]] с комплементарными пробами, нанесёнными на микрочип, появились в 1995 году<ref name="#7569999">{{cite pmid|7569999}}</ref><ref name="#17644526">{{cite pmid|17644526}}</ref>. Метод микрочипов позволял одновременно исследовать тысячи транскриптов, и за счёт этого позволял снизить стоимость исследования транскриптома в расчёте на ген и сэкономить усилия<ref name=pmid12117754>{{cite pmid|12117754}}</ref>. До конца 2000-х лучшими методами транскрипционного профилинга были пятновые олигонуклеотидные чипы ({{lang-en|spotted oligonucleotide arrays}}) и микрочипы {{нп5|Affymetrix||en|Affymetrix}} с высокой плотностью<ref name="#19715439" /><ref name="#11287436" />. В течение этого периода времени было создано множество чипов, покрывающих известные гены [[Модельные организмы|модельных]] и [[Экономика|экономически]] важных организмов. Улучшения технологий создания микрочипов привели к увеличению специфичности проб и количества генов, которые можно проанализировать с помощью одного чипа. Благодаря новым методам детекции флуоресценции стало возможным точно определять наличие и количество даже транскриптов, синтезируемых на низком уровне<ref name="#17644526" /><ref>{{cite book | first1 = Geoffrey J. | last1 = McLachlan | first2 = Kim-Anh | last2 = Do | author2-link = Kim-Anh Do | last3 = Ambroise | first3 = Christopher| name-list-format = vanc | title = Analyzing Microarray Gene Expression Data |date=2005|publisher=John Wiley & Sons|location=Hoboken|isbn=978-0-471-72612-8}}{{page needed|date=June 2017}}</ref>. |
||
РНК-Seq подразумевает секвенирование кДНК, соответствующей транскриптам, причём численность отдельных фрагментов кДНК определяется численностью соответствующих транскриптов. Огромное влияние на РНК-Seq оказало развитие методов секвенирования нового поколения. Первым транскриптомным методом стало {{нп5|масштабное параллельное секвенирование сигнатур||en|Massively parallel signature sequencing}} ({{lang-en|Massively parallel signature sequencing (MPSS)}}), в основе которого лежало образование коротких последовательностей длиной от 16 до 20 [[Спаренные основания|пар оснований]] (п. о.) |
РНК-Seq подразумевает секвенирование кДНК, соответствующей транскриптам, причём численность отдельных фрагментов кДНК определяется численностью соответствующих транскриптов. Огромное влияние на РНК-Seq оказало развитие методов секвенирования нового поколения<ref name="#23290152" /><ref name="#21191423" />. Первым транскриптомным методом стало {{нп5|масштабное параллельное секвенирование сигнатур||en|Massively parallel signature sequencing}} ({{lang-en|Massively parallel signature sequencing (MPSS)}}), в основе которого лежало образование коротких последовательностей длиной от 16 до 20 [[Спаренные основания|пар оснований]] (п. о.) в ходе сложной последовательности гибридизаций<ref name="#10835600">{{cite pmid|10835600}}</ref>. В 2004 году с помощью этого метода была оценена экспрессия 10 тысяч генов [[растения]] ''[[Arabidopsis thaliana]]''<ref name="#15247925">{{cite pmid|15247925}}</ref>. Первая работа, посвящённая РНК-Seq, была опубликована в 2006 году. В ходе этого исследования с помощью технологии {{нп5|454 Life Sciences||en|454 Life Sciences}} была определена последовательность ста тысяч транскриптов<ref name="#17010196">{{cite pmid|17010196}}</ref>. Полученного покрытия было достаточно для оценки относительного количества отдельных транскриптов. Популярность РНК-Seq значительно повысилась после 2008 года, когда технологии Illumina/Solexa позволили секвенировать один миллиард транскриптов<ref name="#18599741" /><ref name="#19015660" /><ref name="#18516045">{{cite pmid|18516045}}</ref><ref name="#18488015">{{cite pmid|18488015}}</ref>. Благодаря этим данным сейчас возможно количественно оценивать и сравнивать транскриптомы разных людей<ref>{{cite pmid|18599741}}</ref>. |
||
== Получение данных == |
== Получение данных == |
||
Получение данных о транскриптах возможно двумя принципиально различающимися путями: секвенированием отдельных транскриптов (EST или РНК-Seq) или гибридизацией транскриптов на упорядоченный чип нуклеотидных последовательностей (микрочип). |
Получение данных о транскриптах возможно двумя принципиально различающимися путями: секвенированием отдельных транскриптов (EST или РНК-Seq) или гибридизацией транскриптов на упорядоченный чип нуклеотидных последовательностей (микрочип)<ref name="#25149683"/>. |
||
=== Выделение РНК === |
=== Выделение РНК === |
||
Для всех транскриптомных методов необходимо выделить РНК из исследуемого организма. Несмотря на огромное разнообразие биологических систем, методика выделения РНК во всех случаях примерно одна и та же. Она включает разрушение клеток и тканей, разрушение [[Рибонуклеазы|РНКаз]] при помощи {{нп5|Хаотропные агенты|хаотропных|en|Chaotropic agent}} [[Соли|солей]], разрушение [[Макромолекулы|макромолекул]] и комплексов, содержащих [[нуклеотиды]], отделение РНК от ненужных [[Биомолекулы|биомолекул]], включая ДНК, концентрирование РНК при помощи {{нп5|Преципитация этанолом|преципитации этанолом|en|Ethanol precipitation}} из раствора и очищение с помощью специальных {{нп5|Очистка нуклеиновых кислот с помощью колонок|колонок|en|Spin column-based nucleic acid purification}}. Выделенную РНК также можно дополнительно обработать [[Дезоксирибонуклеаза|ДНКазой]], чтобы разрушить остатки ДНК. Обычно необходимо концентрирование мРНК, поскольку 98 % выделенной РНК приходится на [[рРНК]]. Концентрирование можно произвести с помощью методов, использующих наличие у мРНК [[Полиаденилирование|поли(А)-хвоста]], или путём удаления рРНК с помощью специфических проб. На результаты эксперимента может повлиять разрушенная РНК. Например, если отбирать мРНК из повреждённых РНК, то отобранные молекулы могут быть лишены [[Направленность|5'-концов]] и привести к искажению данных. Чтобы избежать разрушения РНК, перед выделением РНК образец обычно подвергают {{нп5|Быстрое замораживание|быстрому замораживанию|en|Snap freezing}}. |
Для всех транскриптомных методов необходимо выделить РНК из исследуемого организма. Несмотря на огромное разнообразие биологических систем, методика выделения РНК во всех случаях примерно одна и та же. Она включает разрушение клеток и тканей, разрушение [[Рибонуклеазы|РНКаз]] при помощи {{нп5|Хаотропные агенты|хаотропных|en|Chaotropic agent}} [[Соли|солей]]<ref name="#2440339">{{cite pmid|2440339}}</ref>, разрушение [[Макромолекулы|макромолекул]] и комплексов, содержащих [[нуклеотиды]], отделение РНК от ненужных [[Биомолекулы|биомолекул]], включая ДНК, концентрирование РНК при помощи {{нп5|Преципитация этанолом|преципитации этанолом|en|Ethanol precipitation}} из раствора и очищение с помощью специальных {{нп5|Очистка нуклеиновых кислот с помощью колонок|колонок|en|Spin column-based nucleic acid purification}}<ref name="#2440339" /><ref name="#17406285">{{cite pmid|17406285}}</ref>. Выделенную РНК также можно дополнительно обработать [[Дезоксирибонуклеаза|ДНКазой]], чтобы разрушить остатки ДНК<ref name="#1699561">{{cite pmid|1699561}}</ref>. Обычно необходимо концентрирование мРНК, поскольку 98 % выделенной РНК приходится на [[рРНК]]<ref name="#9664454">{{cite pmid|9664454}}</ref>. Концентрирование можно произвести с помощью методов, использующих наличие у мРНК [[Полиаденилирование|поли(А)-хвоста]], или путём удаления рРНК с помощью специфических проб<ref name="#24888378">{{cite pmid|24888378}}</ref>. На результаты эксперимента может повлиять разрушенная РНК. Например, если отбирать мРНК из повреждённых РНК, то отобранные молекулы могут быть лишены [[Направленность|5'-концов]] и привести к искажению данных. Чтобы избежать разрушения РНК, перед выделением РНК образец обычно подвергают {{нп5|Быстрое замораживание|быстрому замораживанию|en|Snap freezing}}<ref name="#17406285" />. |
||
=== Экспрессируемые метки последовательностей === |
=== Экспрессируемые метки последовательностей === |
||
Экспрессируемые метки последовательностей (EST) — это короткие нуклеотидные последовательности, полученные из целого транскрипта. Поскольку EST можно получить без какой-либо специфики относительно организма, из которого выделена РНК, их можно получить из смеси организмов или образцов, взятых из окружающей среды. Хотя в настоящее время чаще всего используется высокопроизводительное секвенирование, {{нп5|Библиотека (биология)|библиотеки|en|Library (biology)}} EST активно использовали при разработке первых микрочипов. Например, микрочип [[Ячмень|ячменя]] был получен из 350 тысяч предварительно секвенированных EST. |
Экспрессируемые метки последовательностей (EST) — это короткие нуклеотидные последовательности, полученные из целого транскрипта. Поскольку EST можно получить без какой-либо специфики относительно организма, из которого выделена РНК, их можно получить из смеси организмов или образцов, взятых из окружающей среды<ref name="#9448457" />. Хотя в настоящее время чаще всего используется высокопроизводительное секвенирование, {{нп5|Библиотека (биология)|библиотеки|en|Library (biology)}} EST активно использовали при разработке первых микрочипов. Например, микрочип [[Ячмень|ячменя]] был получен из 350 тысяч предварительно секвенированных EST<ref name="#15020760">{{cite pmid|15020760}}</ref>. |
||
=== Сериальный и кэповый анализ экспрессии генов (SAGE/CAGE) === |
=== Сериальный и кэповый анализ экспрессии генов (SAGE/CAGE) === |
||
[[Файл:Summary of SAGE.svg|thumb|500px|Схема SAGE. Из организма выделяется мРНК, переводится в двуцепочечную ДНК (синий) посредством обратной транскрипции. Далее ДНК расщепляется рестриктазами (в точках ‘X’ и ‘X’+11) с образованием 11-нуклеотидных меток. Далее они [[Конкатенация|конкатенируются]] и секвенируются с помощью метода Сэнгера с длинными прочтениями (метки разных оттенков синего соответствуют разным генам). Далее последовательности подвергают деконволюции и определяют частоту встречаемости каждой метки. Частота метки свидетельствует об интенсивности экспрессии соответствующего гена<ref name="Lowe_2017">{{cite pmid|28545146}}</ref>]] |
[[Файл:Summary of SAGE.svg|thumb|500px|Схема SAGE. Из организма выделяется мРНК, переводится в двуцепочечную ДНК (синий) посредством обратной транскрипции. Далее ДНК расщепляется рестриктазами (в точках ‘X’ и ‘X’+11) с образованием 11-нуклеотидных меток. Далее они [[Конкатенация|конкатенируются]] и секвенируются с помощью метода Сэнгера с длинными прочтениями (метки разных оттенков синего соответствуют разным генам). Далее последовательности подвергают деконволюции и определяют частоту встречаемости каждой метки. Частота метки свидетельствует об интенсивности экспрессии соответствующего гена<ref name="Lowe_2017">{{cite pmid|28545146}}</ref>]] |
||
Сериальный анализ экспрессии генов является дальнейшим развитием технологии EST с большей выработкой меток. Он также позволяет провести некоторый количественный анализ численности транскриптов. РНК сначала переводится в кДНК, затем она разрезается на метки длиной 11 нуклеотидов с помощью [[Рестриктаза|рестриктаз]], которые вносят разрывы в определённые последовательности ДНК. Полученные метки сшивают по типу «голова к хвосту» в длинные фрагменты длиной более 500 нуклеотидов, которые секвенируют с помощью низкопроизводительных, но дающих длинные {{нп5|Прочтение (биология)|прочтения|en|Read (biology)}} методов, таких как секвенирование по Сэнгеру. Далее последовательности снова делят на 11-нуклеотидные кусочки с помощью специальных компьютерных программ ([[Обратная свёртка|деконволюция]]). Если референсный геном недоступен, то полученные метки можно непосредственно использовать в качестве диагностических маркеров, которые в случае болезни экспрессируются иначе, чем в здоровом организме. |
Сериальный анализ экспрессии генов является дальнейшим развитием технологии EST с большей выработкой меток. Он также позволяет провести некоторый количественный анализ численности транскриптов. РНК сначала переводится в кДНК, затем она разрезается на метки длиной 11 нуклеотидов с помощью [[Рестриктаза|рестриктаз]], которые вносят разрывы в определённые последовательности ДНК. Полученные метки сшивают по типу «голова к хвосту» в длинные фрагменты длиной более 500 нуклеотидов, которые секвенируют с помощью низкопроизводительных, но дающих длинные {{нп5|Прочтение (биология)|прочтения|en|Read (biology)}} методов, таких как секвенирование по Сэнгеру. Далее последовательности снова делят на 11-нуклеотидные кусочки с помощью специальных компьютерных программ ([[Обратная свёртка|деконволюция]])<ref name="#7570003" />. Если референсный геном недоступен, то полученные метки можно непосредственно использовать в качестве диагностических маркеров, которые в случае болезни экспрессируются иначе, чем в здоровом организме<ref name="#7570003" />. |
||
[[Кэп-анализ экспрессии генов (CAGE)|Кэповый анализ экспрессии генов]] ({{lang-en|cap analysis gene expression, CAGE}}) представляет собой вариант SAGE, при котором в качестве меток берутся только 5'-концевые последовательности мРНК. Поэтому, когда метки [[Выравнивание последовательностей|выравниваются]] на референсный геном, можно идентифицировать точки начала транскрипции генов. Этот метод активно используется для анализа [[промотор]]ов и для [[Клонирование ДНК|клонирования]] полноразмерных кДНК. |
[[Кэп-анализ экспрессии генов (CAGE)|Кэповый анализ экспрессии генов]] ({{lang-en|cap analysis gene expression, CAGE}}) представляет собой вариант SAGE, при котором в качестве меток берутся только 5'-концевые последовательности мРНК. Поэтому, когда метки [[Выравнивание последовательностей|выравниваются]] на референсный геном, можно идентифицировать точки начала транскрипции генов. Этот метод активно используется для анализа [[промотор]]ов и для [[Клонирование ДНК|клонирования]] полноразмерных кДНК<ref name="#14663149">{{cite pmid|14663149}}</ref>. |
||
SAGE и CAGE дают информацию о большем количестве генов, чем секвенирование отдельных EST, однако пробоподготовка и анализ данных в этих методах существенно сложнее. |
SAGE и CAGE дают информацию о большем количестве генов, чем секвенирование отдельных EST, однако пробоподготовка и анализ данных в этих методах существенно сложнее<ref name="#14663149" />. |
||
=== Микрочипы === |
=== Микрочипы === |
||
[[Файл:Summary of RNA Microarray.svg|thumb|500px|Схема работы микрочипов. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). Далее ДНК фрагментируется и флуоресцентно метится (оранжевый). Меченые фрагменты связываются с комплементарными олигонуклеотидными пробами на микрочипе, и интенсивность флуоресценции в каждой ячейке свидетельствует о численности соответствующего гена<ref name="Lowe_2017" />]] |
[[Файл:Summary of RNA Microarray.svg|thumb|500px|Схема работы микрочипов. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). Далее ДНК фрагментируется и флуоресцентно метится (оранжевый). Меченые фрагменты связываются с комплементарными олигонуклеотидными пробами на микрочипе, и интенсивность флуоресценции в каждой ячейке свидетельствует о численности соответствующего гена<ref name="Lowe_2017" />]] |
||
==== Принципы и преимущества ==== |
==== Принципы и преимущества ==== |
||
Микрочип состоит из коротких [[олигонуклеотид]]ов (проб), которые прикреплены в ячейках сетки на стеклянной подложке. Многочисленность транскриптов определяется на основании гибридизации {{нп5|Флуоресцентная метка|флуоресцентно-меченных|en|Fluorescent tag}} транскриптов с этими пробами. {{нп5|Флуориметр|Интенсивность флуоресценции|en|Fluorometer}} в каждой ячейке свидетельствует о численности транскрипта, гибридизующегося с данной пробой. |
Микрочип состоит из коротких [[олигонуклеотид]]ов (проб), которые прикреплены в ячейках сетки на стеклянной подложке<ref name=pmid24479125>{{cite pmid|24479125}}</ref>. Многочисленность транскриптов определяется на основании гибридизации {{нп5|Флуоресцентная метка|флуоресцентно-меченных|en|Fluorescent tag}} транскриптов с этими пробами<ref name="#17095434">{{cite pmid|17095434}}</ref>. {{нп5|Флуориметр|Интенсивность флуоресценции|en|Fluorometer}} в каждой ячейке свидетельствует о численности транскрипта, гибридизующегося с данной пробой<ref name="#17095434" />. |
||
Для создания микрочипа необходимо знать, хотя бы частично, [[геном]] исследуемого организма, например, в виде аннотированной последовательности или библиотеки EST; это необходимо для создания проб. |
Для создания микрочипа необходимо знать, хотя бы частично, [[геном]] исследуемого организма, например, в виде аннотированной последовательности или библиотеки EST; это необходимо для создания проб<ref name="pmid12117754" />. |
||
==== Методы ==== |
==== Методы ==== |
||
Микрочипы, использующиеся в транскриптомике, можно подразделить на два типа: пятновые чипы с низкой плотностью и чипы высокой плотности с короткими пробами. Пятновые чипы низкой плотности обычно представляют собой стеклянную основу, на которую нанесены пико[[литр]]овые капли, содержащие разные фрагменты очищенной кДНК. Эти пробы длинее, чем в чипах с короткими пробами, и с их помощью нельзя выявить события [[Альтернативный сплайсинг|альтернативного сплайсинга]]. В пятновых чипах используются два типа [[Флюорофор|флуорофоров]], которыми метят экспериментальные и контрольные образцы, а относительная многочисленность высчитывается из интенсивности флуоресценции. Чипы высокой плотности используют только одну флуоресцентную метку, и каждый образец гибридизуется и детектируется отдельно. Чипы высокой плотности распространялись компанией Affymetrix GeneChip. В этих чипах каждому транскрипту соответствует несколько 25-нуклеотидных проб. Компания NimbleGen производит чипы высокой плотности при помощи {{нп5|Безмасковая литография|безмасковой литографии|en|Maskless lithography}}, которая позволяла получать чипы разного строения. Один чип содержит сотни тысяч проб длиной от 45 до 85 нуклеотидов, которые гибридизуются с образцом, меченным флуоресцентной меткой одного вида. |
Микрочипы, использующиеся в транскриптомике, можно подразделить на два типа: пятновые чипы с низкой плотностью и чипы высокой плотности с короткими пробами<ref name=pmid12117754/>. Пятновые чипы низкой плотности обычно представляют собой стеклянную основу, на которую нанесены пико[[литр]]овые капли, содержащие разные фрагменты очищенной кДНК<ref name="#15978318">{{cite pmid|15978318}}</ref>. Эти пробы длинее, чем в чипах с короткими пробами, и с их помощью нельзя выявить события [[Альтернативный сплайсинг|альтернативного сплайсинга]]. В пятновых чипах используются два типа [[Флюорофор|флуорофоров]], которыми метят экспериментальные и контрольные образцы, а относительная многочисленность высчитывается из интенсивности флуоресценции<ref name="#8796352">{{cite pmid|8796352}}</ref>. Чипы высокой плотности используют только одну флуоресцентную метку, и каждый образец гибридизуется и детектируется отдельно<ref name="#9634850">{{cite pmid|9634850}}</ref>. Чипы высокой плотности распространялись компанией Affymetrix GeneChip. В этих чипах каждому транскрипту соответствует несколько 25-нуклеотидных проб<ref name="#12582260">{{cite pmid|12582260}}</ref>. Компания NimbleGen производит чипы высокой плотности при помощи {{нп5|Безмасковая литография|безмасковой литографии|en|Maskless lithography}}, которая позволяла получать чипы разного строения. Один чип содержит сотни тысяч проб длиной от 45 до 85 нуклеотидов, которые гибридизуются с образцом, меченным флуоресцентной меткой одного вида<ref name="#16075461">{{cite pmid|16075461}}</ref>. |
||
=== РНК-Seq === |
=== РНК-Seq === |
||
[[Файл:Summary of RNA-Seq.svg|thumb|500px|Схема РНК-Seq. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). ДНК секвенируется при помощи высокопроизводительных методов с короткими прочтениями. Далее прочтения выравниваются на референсный геном, благодаря чем выявляются транскрибирующиеся участки генома. С помощью полученных данных можно установить, какие гены экспрессируются, какова интенсивность их экспрессии, а также наличие альтернативного сплайсинга<ref name="Lowe_2017" />]] |
[[Файл:Summary of RNA-Seq.svg|thumb|500px|Схема РНК-Seq. Из организма выделяется зрелая мРНК (красный) и путём обратной транскрипции переводится в двуцепочечную ДНК (синий). ДНК секвенируется при помощи высокопроизводительных методов с короткими прочтениями. Далее прочтения выравниваются на референсный геном, благодаря чем выявляются транскрибирующиеся участки генома. С помощью полученных данных можно установить, какие гены экспрессируются, какова интенсивность их экспрессии, а также наличие альтернативного сплайсинга<ref name="Lowe_2017" />]] |
||
==== Принципы и преимущества ==== |
==== Принципы и преимущества ==== |
||
РНК-Seq представляет собой сочетание высокопроизводительного секвенирования с вычислительными методами оценки численности отдельных транскриптов в экстракте РНК. Обычно получаются последовательности длиной около 100 пар оснований (п. о.), однако в зависимости от метода секвенирования их длина может составлять от 30 п. о. до 10 тысяч п. о. РНК-Seq обеспечивает глубокое покрытие транскриптома множеством коротких фрагментов, благодаря которому возможно при помощи вычислительных методов реконструировать исходные транскрипты, выравнивая прочтения на референсный геном или друг на друга ([[De novo сборка транскриптома|сборка ''de novo'']]). С помощью РНК-Seq можно рассчитать количество как многочисленных, так и малочисленных РНК, так как динамический диапазон метода составляет 5 порядков. В этом заключается главное преимущество РНК-Seq перед микрочипами. Кроме того, для РНК-Seq требуется очень мало исследуемой РНК, чем для микрочипов — нанограммы против микрограммов. Благодаря этому РНК-Seq в сочетании с линейной [[Амплификация (молекулярная биология)|амплификацией]] кДНК позволяет исследовать очень небольшие клеточные структуры вплоть до отдельных клеток. Теоретически верхнего предела количественной оценки в РНК-Seq не существует, и для прочтений длиной 100 п. о. фоновый шум в неповторяющихся участках очень низок. |
РНК-Seq представляет собой сочетание высокопроизводительного секвенирования с вычислительными методами оценки численности отдельных транскриптов в экстракте РНК<ref name="#19015660" />. Обычно получаются последовательности длиной около 100 пар оснований (п. о.), однако в зависимости от метода секвенирования их длина может составлять от 30 п. о. до 10 тысяч п. о. РНК-Seq обеспечивает глубокое покрытие транскриптома множеством коротких фрагментов, благодаря которому возможно при помощи вычислительных методов реконструировать исходные транскрипты, выравнивая прочтения на референсный геном или друг на друга ([[De novo сборка транскриптома|сборка ''de novo'']])<ref name="#23290152" />. С помощью РНК-Seq можно рассчитать количество как многочисленных, так и малочисленных РНК, так как динамический диапазон метода составляет 5 порядков. В этом заключается главное преимущество РНК-Seq перед микрочипами. Кроме того, для РНК-Seq требуется очень мало исследуемой РНК, чем для микрочипов — нанограммы против микрограммов. Благодаря этому РНК-Seq в сочетании с линейной [[Амплификация (молекулярная биология)|амплификацией]] кДНК позволяет исследовать очень небольшие клеточные структуры вплоть до отдельных клеток<ref name="#22939981">{{cite pmid|22939981}}</ref><ref>{{cite pmid|29494575}}</ref>. Теоретически верхнего предела количественной оценки в РНК-Seq не существует, и для прочтений длиной 100 п. о. фоновый шум в неповторяющихся участках очень низок<ref name="#19015660" />. |
||
С помощью РНК-Seq можно идентифицировать гены в геноме или установить, какие гены активны в данный момент времени. На основании количества прочтений можно точно установить относительный уровень экспрессии генов. Методология РНК-Seq постоянно совершенствуется, преимущественно за счёт улучшения технологий секвенирования, которые повышают производительность и точность метода, а также выдают прочтения всё большей длины. Со времени первых публикаций в 2006 и 2008 |
С помощью РНК-Seq можно идентифицировать гены в геноме или установить, какие гены активны в данный момент времени. На основании количества прочтений можно точно установить относительный уровень экспрессии генов. Методология РНК-Seq постоянно совершенствуется, преимущественно за счёт улучшения технологий секвенирования, которые повышают производительность и точность метода, а также выдают прочтения всё большей длины<ref>{{Cite doi|10.1126/science.opms.p1500095}}</ref>. Со времени первых публикаций в 2006 и 2008 годах<ref name="#17010196" /><ref name="#18451266">{{cite pmid|18451266}}</ref> РНК-Seq интенсивно внедрялся в исследования, и к 2015 году догнал микрочипы, став вторым доминирующим транскриптомным методом<ref name="#25633159">{{cite pmid|25633159}}</ref>. |
||
Попытки получения транскриптомных данных для отдельных клеток стимулировали совершенствование методов приготовления библиотек для РНК-Seq, что значительно увеличило чувствительность технологии. На данный момент получен ряд транскриптомов единичных клеток, и даже появились методы РНК-Seq ''[[in situ]]'', в которых транскриптомы отдельных клеток были получены непосредственно в [[Фиксация (гистология)|фиксированных]] тканях. |
Попытки получения транскриптомных данных для отдельных клеток стимулировали совершенствование методов приготовления библиотек для РНК-Seq, что значительно увеличило чувствительность технологии. На данный момент получен ряд транскриптомов единичных клеток, и даже появились методы РНК-Seq ''[[in situ]]'', в которых транскриптомы отдельных клеток были получены непосредственно в [[Фиксация (гистология)|фиксированных]] тканях<ref name="#24578530">{{cite pmid|24578530}}</ref>. |
||
==== Методы ==== |
==== Методы ==== |
||
РНК-Seq появился вместе с бурным развитием нескольких методов высокопроизводительного секвенирования. Однако стадии секвенирования выделенных РНК предшествуют несколько этапов пробоподготовки, которые различаются в разных методах. Методы различаются способами концентрирования транскриптов, фрагментации, амплификации, способом секвенирования (одноконцевое или парноконцевое), а также тем, сохраняется ли информация об исходной цепи. |
РНК-Seq появился вместе с бурным развитием нескольких методов высокопроизводительного секвенирования<ref name="#18846087">{{cite pmid|18846087}}</ref>. Однако стадии секвенирования выделенных РНК предшествуют несколько этапов пробоподготовки, которые различаются в разных методах. Методы различаются способами концентрирования транскриптов, фрагментации, амплификации, способом секвенирования (одноконцевое или парноконцевое), а также тем, сохраняется ли информация об исходной цепи<ref name="#18846087" />. |
||
Чувствительность РНК-Seq в конкретном эксперименте можно повысить за счёт концентрирования интересующих классов РНК и удаления остальных. мРНК можно отделить с помощью олигонуклеотидных проб, которые связываются с их поли(А)-хвостами. Удалить неинформативные и чрезвычайно многочисленные рРНК можно с помощью гибридизующихся проб, созданных специально для рРНК данного [[таксон]]а (например, [[Млекопитающие|млекопитающих]] или растений). Однако вместе с рРНК с помощью такого подхода можно удалить и другие РНК, что может исказить картину эксперимента. [[Малые РНК]], например, [[микроРНК]], можно выделить на основании их размера из [[Агароза|агарозного]] геля после {{нп5|Электрофорез в агарозном геле|электрофореза|en|Agarose gel electrophoresis}}. |
Чувствительность РНК-Seq в конкретном эксперименте можно повысить за счёт концентрирования интересующих классов РНК и удаления остальных. мРНК можно отделить с помощью олигонуклеотидных проб, которые связываются с их поли(А)-хвостами. Удалить неинформативные и чрезвычайно многочисленные рРНК можно с помощью гибридизующихся проб, созданных специально для рРНК данного [[таксон]]а (например, [[Млекопитающие|млекопитающих]] или растений). Однако вместе с рРНК с помощью такого подхода можно удалить и другие РНК, что может исказить картину эксперимента. [[Малые РНК]], например, [[микроРНК]], можно выделить на основании их размера из [[Агароза|агарозного]] геля после {{нп5|Электрофорез в агарозном геле|электрофореза|en|Agarose gel electrophoresis}}<ref name="#24981968">{{cite pmid|24981968}}</ref>. |
||
Поскольку мРНК, как правило, длиннее, чем единичные прочтения в большинстве методов высокопроизводительного секвенирования, обычно перед секвенированием транскрипты {{нп5|Фрагментация ДНК|фрагментируют|en|DNA fragmentation}}. Метод фрагментации лежит в основе создания библиотеки для секвенирования. Фрагментацию можно проводить путём [[Химия|химического]] [[гидролиз]]а, распыления, обработки [[ультразвук]]ом ({{нп5|Соникация|соникации|en|Sonication}}) или [[Обратная транскрипция|обратной транскрипции]] с использованием терминирующих нуклеотидов. Кроме того, фрагментацию и добавление меток к кДНК можно осуществить одновременно при помощи [[Транспозаза|транспозаз]]. |
Поскольку мРНК, как правило, длиннее, чем единичные прочтения в большинстве методов высокопроизводительного секвенирования, обычно перед секвенированием транскрипты {{нп5|Фрагментация ДНК|фрагментируют|en|DNA fragmentation}}<ref name="#22140562">{{cite pmid|22140562}}</ref>. Метод фрагментации лежит в основе создания библиотеки для секвенирования. Фрагментацию можно проводить путём [[Химия|химического]] [[гидролиз]]а, распыления, обработки [[ультразвук]]ом ({{нп5|Соникация|соникации|en|Sonication}}) или [[Обратная транскрипция|обратной транскрипции]] с использованием терминирующих нуклеотидов<ref name="#22140562" />. Кроме того, фрагментацию и добавление меток к кДНК можно осуществить одновременно при помощи [[Транспозаза|транспозаз]]<ref>{{cite pmid|26116762}}</ref>. |
||
В ходе пробоподготовки для секвенирования фрагменты кДНК, соответствующие транскриптам, можно размножить с помощью [[Полимеразная цепная реакция|ПЦР]] так, чтобы повысить численность молекул, содержащих необходимые 3'- и 5'-концевые {{нп5|Адаптер (молекулярная биология)|адаптеры|en|Adapter (genetics)}}. Стадия амплификации также необходима перед секвенированием образцов с очень низким содержанием РНК. Нижним пределом количества РНК, которое пригодно для секвенирования, является 50 пикограмм. Чтобы оценить качество библиотеки и секвенирования ([[GC-состав]], длина фрагментов, предпочтение фрагментов с определённым положением в транскрипте), можно использовать контрольные {{нп5|РНК-spike in||en|RNA spike-in}}. {{нп5|Уникальные идентификаторы молекул||en|Unique molecular identifier}} ({{lang-en|unique molecular identifiers, UMI}}) — это короткие случайные последовательности, которые используются для индивидуального мечения фрагментов при приготовлении бибилиотеки таким образом, чтобы после добавления идентификатора каждый фрагмент |
В ходе пробоподготовки для секвенирования фрагменты кДНК, соответствующие транскриптам, можно размножить с помощью [[Полимеразная цепная реакция|ПЦР]] так, чтобы повысить численность молекул, содержащих необходимые 3'- и 5'-концевые {{нп5|Адаптер (молекулярная биология)|адаптеры|en|Adapter (genetics)}}<ref name="#27156886">{{cite pmid|27156886}}</ref>. Стадия амплификации также необходима перед секвенированием образцов с очень низким содержанием РНК. Нижним пределом количества РНК, которое пригодно для секвенирования, является 50 пикограмм<ref name="#25649271">{{cite pmid|25649271}}</ref>. Чтобы оценить качество библиотеки и секвенирования ([[GC-состав]], длина фрагментов, предпочтение фрагментов с определённым положением в транскрипте), можно использовать контрольные {{нп5|РНК-spike in||en|RNA spike-in}}<ref name="#21816910">{{cite pmid|21816910}}</ref>. {{нп5|Уникальные идентификаторы молекул||en|Unique molecular identifier}} ({{lang-en|unique molecular identifiers, UMI}}) — это короткие случайные последовательности, которые используются для индивидуального мечения фрагментов при приготовлении бибилиотеки таким образом, чтобы после добавления идентификатора каждый фрагмент был уникален<ref name="#22101854">{{cite pmid|22101854}}</ref>. С помощью UMI можно измерить численность транскриптов в абсолютной шкале, чтобы скорректировать отклонения, возникшие при создании библиотеки, перед амплификацией, а также чтобы точно оценить количество ДНК в исходном образце. UMI особенно удобны для РНК-Seq одиночных клеток, в которых исходное количество РНК очень мало и требует неспецифичной амплификации<ref name="#19349980">{{cite pmid|19349980}}</ref><ref name="#24363023">{{cite pmid|24363023}}</ref><ref name="#24531970">{{cite pmid|24531970}}</ref>. |
||
После пробоподготовки молекулы транскриптов (точнее, соответствующих им кДНК) можно секвенировать в одном направлении (одноконцевое прочтение) или в обоих (парноконцевое прочтение). Одноконцевое секвенирование, как правило, быстрее и дешевле, и в большинстве случаев его достаточно для количественной оценки уровней экспрессии генов. Парноконцевое секвенирование позволяет получить более точные выравнивания и [[Сборка генома|сборки]], что очень важно для аннотации генов и описания [[Изоформа белка|изоформ]] транскриптов. Методы РНК-Seq, специфичные по отношению к цепи, сохраняют сведения о цепи ДНК, с которой был транскрибирован каждый транскрипт. Без этой информации прочтения можно выровнять на [[локус]], однако будет неясно, в каком направлении происходит транскрипция гена. Одноцепочечный РНК-Seq удобен для определения направления транскрипции {{нп5|Перекрывающиеся гены|перекрывающихся генов|en|Overlapping gene}}, расположенных на разных цепях, что позволяет сделать предсказание генов у немодельных организмов более точным. |
После пробоподготовки молекулы транскриптов (точнее, соответствующих им кДНК) можно секвенировать в одном направлении (одноконцевое прочтение) или в обоих (парноконцевое прочтение). Одноконцевое секвенирование, как правило, быстрее и дешевле, и в большинстве случаев его достаточно для количественной оценки уровней экспрессии генов. Парноконцевое секвенирование позволяет получить более точные выравнивания и [[Сборка генома|сборки]], что очень важно для аннотации генов и описания [[Изоформа белка|изоформ]] транскриптов<ref name="#19015660" />. Методы РНК-Seq, специфичные по отношению к цепи, сохраняют сведения о цепи ДНК, с которой был транскрибирован каждый транскрипт. Без этой информации прочтения можно выровнять на [[локус]], однако будет неясно, в каком направлении происходит транскрипция гена. Одноцепочечный РНК-Seq удобен для определения направления транскрипции {{нп5|Перекрывающиеся гены|перекрывающихся генов|en|Overlapping gene}}, расположенных на разных цепях, что позволяет сделать предсказание генов у немодельных организмов более точным<ref name="#20711195">{{cite pmid|20711195}}</ref>. |
||
{| class="wikitable sortable" |
{| class="wikitable sortable" |
||
Строка 157: | Строка 157: | ||
<small>NCBI SRA – {{нп5|архив прочтений последовательностей||en|Sequence Read Archive}} [[Национальный центр биотехнологической информации|Национального центра биотехнологической информации]] ([[США]])</small> |
<small>NCBI SRA – {{нп5|архив прочтений последовательностей||en|Sequence Read Archive}} [[Национальный центр биотехнологической информации|Национального центра биотехнологической информации]] ([[США]])</small> |
||
Поскольку в настоящий момент РНК-Seq включает перевод РНК в кДНК в ходе обратной транскрипции, платформы для последующего секвенирования одинаковы и для транскриптомных, и для геномных данных. По этой причине развитие РНК-Seq в значительной мере определяется усовершенствованием методов секвенирования ДНК. Однако всё большее распространение получает непосредственное секвенирование РНК при помощи [[Нанопоровое секвенирование|нанопор]]. С помощью нанопорового секвенирования в РНК можно обнаружить модифицированные [[Азотистые основания|основания]], которые нельзя было выявить при секвенировании кДНК, кроме того, для этого метода не нужна амплификация, которая вносит дополнительные искажения. |
Поскольку в настоящий момент РНК-Seq включает перевод РНК в кДНК в ходе обратной транскрипции, платформы для последующего секвенирования одинаковы и для транскриптомных, и для геномных данных. По этой причине развитие РНК-Seq в значительной мере определяется усовершенствованием методов секвенирования ДНК<ref name="#22829749">{{cite pmid|22829749}}</ref><ref name="#22522955">{{cite pmid|22522955}}</ref><ref name="#27184599">{{cite pmid|27184599}}</ref>. Однако всё большее распространение получает непосредственное секвенирование РНК при помощи [[Нанопоровое секвенирование|нанопор]]<ref>{{cite pmid|29334379}}</ref><ref name="#26076426">{{cite pmid|26076426}}</ref>. С помощью нанопорового секвенирования в РНК можно обнаружить модифицированные [[Азотистые основания|основания]], которые нельзя было выявить при секвенировании кДНК, кроме того, для этого метода не нужна амплификация, которая вносит дополнительные искажения<ref name="#21191423" /><ref name="#19776739">{{cite pmid|19776739}}</ref>. |
||
Чувствительность и точность РНК-Seq определяются числом прочтений, полученных с каждого образца. Для достаточного покрытия транскриптома необходимо очень много прочтений, что позволяет обнаружить даже малочисленные транскрипты. Дополнительные сложности создаёт этап секвенирования, дающего прочтения ограниченной длины, различной точности и качества. Более того, организмы каждого вида имеют разное количество генов, поэтому для эффективной сборки транскриптома для каждого вида необходимо разное число прочтений. На ранних этапах это количество определялось эмпирически, однако с развитием технологий необходимое покрытие стало возможным предсказывать вычислительными методами. Наиболее эффективным способом улучшения точности выявления дифференциальной экспрессии низкоэкспрессируемых генов является не увеличение числа прочтений, а увеличение {{нп5|Реплика (биология)|копий|en|Replicate (biology)}}. В настоящий момент [[Энциклопедия элементов ДНК]] рекомендует 70-кратное покрытие [[экзом]]а для обычного РНК-Seq и до 500-кратного покрытия для обнаружения редких транскриптов и изоформ. |
Чувствительность и точность РНК-Seq определяются числом прочтений, полученных с каждого образца<ref name="#23961961" /><ref name="#26813401" />. Для достаточного покрытия транскриптома необходимо очень много прочтений, что позволяет обнаружить даже малочисленные транскрипты. Дополнительные сложности создаёт этап секвенирования, дающего прочтения ограниченной длины, различной точности и качества. Более того, организмы каждого вида имеют разное количество генов, поэтому для эффективной сборки транскриптома для каждого вида необходимо разное число прочтений. На ранних этапах это количество определялось эмпирически, однако с развитием технологий необходимое покрытие стало возможным предсказывать вычислительными методами. Наиболее эффективным способом улучшения точности выявления дифференциальной экспрессии низкоэкспрессируемых генов является не увеличение числа прочтений, а увеличение {{нп5|Реплика (биология)|копий|en|Replicate (biology)}}<ref name="#24020486">{{cite pmid|24020486}}</ref>. В настоящий момент [[Энциклопедия элементов ДНК]] рекомендует 70-кратное покрытие [[экзом]]а для обычного РНК-Seq и до 500-кратного покрытия для обнаружения редких транскриптов и изоформ<ref name=pmid22955616>{{cite pmid|22955616}}</ref><ref name="#26527727">{{cite pmid|26527727}}</ref><ref>{{Cite web|url=http://www.encodeproject.org|title=ENCODE: Encyclopedia of DNA Elements|website=encodeproject.org}}</ref>. |
||
== Анализ данных == |
== Анализ данных == |
||
Методы транскриптомики позволяют проводить параллельные эксперименты со множеством образцов, поэтому для получения результатов как с помощью РНК-Seq, так и с помощью микрочипов необходима серьёзная {{нп5|обработка данных||en|Data processing}} вычислительными методами. Данные с микрочипов представляют собой изображения с высоким [[Разрешение (оптика)|разрешением]], поэтому обработка данных выключает {{нп5|выявление свойств||en|Feature detection (computer vision)}} ({{lang-en|feature detection}}) и [[спектральный анализ]]. Изображения, полученные с микрочипов, достигают размера 750 [[Мегабайт|Мб]], в то время как обработанные данные занимают 60 Мб. Множество коротких проб, соответствующих одному и тому же транскрипту, могут позволить определить [[экзон]]-[[интрон]]ную структуру гена, поэтому для определения достоверности финального сигнала необходимы [[Статистическое моделирование|статистические модели]]. В ходе экспериментов РНК-Seq получаются миллиарды коротких последовательностей ДНК, которые необходимо выровнять на референсный геном, включающий миллионы или миллиарды п. о. Сборка транскриптома ''de novo'' требует построения весьма сложных {{нп5|Граф последовательности|графов последовательностей|en|Sequence graph}}. Операции обработки данных РНК-Seq требуют многократного повторения, поэтому для них могут удобны [[Параллельные вычислительные системы|параллелизованные вычисления]], однако с использованием современных [[алгоритм]]ов обработку данных простых транскриптомных экспериментов, не требующих сборки ''de novo'', можно осуществить даже на обычном [[Персональный компьютер|персональном компьютере]]. Человеческий транскриптом можно достаточно точно собрать из 300 миллионов 100-нуклеотидных прочтений, полученных с помощью РНК-Seq. Для хранения такого объема данных в сжатом {{нп5|Формат FASTQ|формате FASTQ|en|FASTQ format}} требуется 1,8 [[Гигабайт|Гб]] [[Компьютерная память|дискового пространства]] на образец. Обработанные численные значения для каждого гена занимают ещё меньше памяти, сопоставимо с обработанными данными с микрочипов. Данные о последовательностях можно хранить в публичных данных, таких как SRA (от {{lang-en|sequence read archive}} — архив прочтений последовательностей). Набор данных РНК-Seq можно загрузить в [[База данных|базу данных]] Gene Expression Omnibus. |
Методы транскриптомики позволяют проводить параллельные эксперименты со множеством образцов, поэтому для получения результатов как с помощью РНК-Seq, так и с помощью микрочипов необходима серьёзная {{нп5|обработка данных||en|Data processing}} вычислительными методами<ref name="#25605792" /><ref name="#19910308" /><ref name="#25633503" /><ref>{{Cite book|url=https://link.springer.com/chapter/10.1007/0-387-29362-0_23|title=Bioinformatics and Computational Biology Solutions Using R and Bioconductor|last=Smyth|first=G. K.|date=2005|publisher=Springer, New York, NY|isbn=9780387251462|series=Statistics for Biology and Health|pages=397–420|language=en|doi=10.1007/0-387-29362-0_23}}</ref>. Данные с микрочипов представляют собой изображения с высоким [[Разрешение (оптика)|разрешением]], поэтому обработка данных выключает {{нп5|выявление свойств||en|Feature detection (computer vision)}} ({{lang-en|feature detection}}) и [[спектральный анализ]]<ref>{{Cite book|url=https://www.worldcat.org/oclc/437246554|title=Microarray Technology in Practice.|last=Steve.|first=Russell,|date=2008|publisher=Elsevier|others=Meadows, Lisa A.|isbn=9780080919768|location=Burlington|oclc=437246554}}</ref>. Изображения, полученные с микрочипов, достигают размера 750 [[Мегабайт|Мб]], в то время как обработанные данные занимают 60 Мб. Множество коротких проб, соответствующих одному и тому же транскрипту, могут позволить определить [[экзон]]-[[интрон]]ную структуру гена, поэтому для определения достоверности финального сигнала необходимы [[Статистическое моделирование|статистические модели]]. В ходе экспериментов РНК-Seq получаются миллиарды коротких последовательностей ДНК, которые необходимо выровнять на референсный геном, включающий миллионы или миллиарды п. о. Сборка транскриптома ''de novo'' требует построения весьма сложных {{нп5|Граф последовательности|графов последовательностей|en|Sequence graph}}<ref name="#23845962" />. Операции обработки данных РНК-Seq требуют многократного повторения, поэтому для них могут удобны [[Параллельные вычислительные системы|параллелизованные вычисления]], однако с использованием современных [[алгоритм]]ов обработку данных простых транскриптомных экспериментов, не требующих сборки ''de novo'', можно осуществить даже на обычном [[Персональный компьютер|персональном компьютере]]<ref name="Pertea_2015" />. Человеческий транскриптом можно достаточно точно собрать из 300 миллионов 100-нуклеотидных прочтений, полученных с помощью РНК-Seq<ref name="#23961961">{{cite pmid|23961961}}</ref><ref name="#26813401">{{cite pmid|26813401}}</ref>. Для хранения такого объема данных в сжатом {{нп5|Формат FASTQ|формате FASTQ|en|FASTQ format}} требуется 1,8 [[Гигабайт|Гб]] [[Компьютерная память|дискового пространства]] на образец. Обработанные численные значения для каждого гена занимают ещё меньше памяти, сопоставимо с обработанными данными с микрочипов. Данные о последовательностях можно хранить в публичных данных, таких как SRA (от {{lang-en|sequence read archive}} — архив прочтений последовательностей)<ref name="#22009675">{{cite pmid|22009675}}</ref>. Набор данных РНК-Seq можно загрузить в [[База данных|базу данных]] Gene Expression Omnibus<ref name="#11752295" />. |
||
=== Обработка изображений === |
=== Обработка изображений === |
||
[[Файл:Microarray_and_sequencing_flow_cell.svg|thumb|300x300px|Микрочип и проточная ячейка для секвенирования (РНК-Seq). Обработка изображений при использовании микрочипов и РНК-Seq различается. В микрочипе каждое пятно соответствует определённой олигонуклеотидной пробе, и интенсивность флуоресценции соответствует численности определённого транскрипта (Affymetrix). В ячейке для высокопроизводительного секвенирования пятно соответствует одному нуклеотиду, секвенированному в данный момент времени, и цвет флуоресценции соответствует виду нуклеотида (Illumina Hiseq). В различных видах этих методов может быть использовано большее или меньшее количество цветов<ref name="Lowe_2017" /><ref>{{Cite doi|10.1023/B:VLSI.0000042488.08307.ad}}</ref>]] |
[[Файл:Microarray_and_sequencing_flow_cell.svg|thumb|300x300px|Микрочип и проточная ячейка для секвенирования (РНК-Seq). Обработка изображений при использовании микрочипов и РНК-Seq различается. В микрочипе каждое пятно соответствует определённой олигонуклеотидной пробе, и интенсивность флуоресценции соответствует численности определённого транскрипта (Affymetrix). В ячейке для высокопроизводительного секвенирования пятно соответствует одному нуклеотиду, секвенированному в данный момент времени, и цвет флуоресценции соответствует виду нуклеотида (Illumina Hiseq). В различных видах этих методов может быть использовано большее или меньшее количество цветов<ref name="Lowe_2017" /><ref>{{Cite doi|10.1023/B:VLSI.0000042488.08307.ad}}</ref>]] |
||
[[Обработка изображений]], полученных с микрочипов, должна сохранять {{нп5|Регулярная сеть|регулярную сеть|en|Regular grid}} ячеек изображения и независимо количественно оценивать [[Сила света|интенсивность]] флуоресценции в каждой ячейке. Необходимо также выявлять {{нп5|артефакты изображений||en|Visual artifact}} и исключать их из финального анализа. Интенсивность флуоресценции свидетельствует о представленности каждой последовательности, поскольку последовательность пробы в каждой ячейке известна. |
[[Обработка изображений]], полученных с микрочипов, должна сохранять {{нп5|Регулярная сеть|регулярную сеть|en|Regular grid}} ячеек изображения и независимо количественно оценивать [[Сила света|интенсивность]] флуоресценции в каждой ячейке. Необходимо также выявлять {{нп5|артефакты изображений||en|Visual artifact}} и исключать их из финального анализа. Интенсивность флуоресценции свидетельствует о представленности каждой последовательности, поскольку последовательность пробы в каждой ячейке известна<ref name="PetrovShams2004">{{cite doi|10.1023/B:VLSI.0000042488.08307.ad}}</ref>. |
||
Первые этапы РНК-Seq также включают схожую обработку изображений, однако перевод изображений в данных о последовательностях производится автоматически специальными программами. Результатом секвенирования синтезом по технологии Illumina является совокупность кластеров, расположенных на поверхности проточной ячейки. В ходе каждого цикла секвенирования изображение каждой проточной ячейки снимается до четырёх раз, причём один запуск включает десятки или сотни циклов. Кластеры проточных ячеек аналогичны пятнам в микрочипах, и на ранних этапах секвенирования они должны быть правильно определены. При [[Пиросеквенирование|пиросеквенировании]] (компания {{нп5|Roche Applied Science|Roche|en|Roche Applied Science}}) интенсивность испускаемого [[свет]]а соответствует количеству одинаковых нуклеотидов в гомо[[полимер]]ном участке. Существует множество вариаций перечисленных методов, и каждая предполагает использование разных профилей ошибок для получающихся данных. |
Первые этапы РНК-Seq также включают схожую обработку изображений, однако перевод изображений в данных о последовательностях производится автоматически специальными программами. Результатом секвенирования синтезом по технологии Illumina является совокупность кластеров, расположенных на поверхности проточной ячейки<ref>{{cite book |title=High-Throughput Next Generation Sequencing|last=Kwon|first=Young Min|last2=Ricke|first2=Steven | name-list-format = vanc |publisher=SpringerLink|year=|isbn=|location=|pages= |doi=10.1007/978-1-61779-089-8}}</ref>. В ходе каждого цикла секвенирования изображение каждой проточной ячейки снимается до четырёх раз, причём один запуск включает десятки или сотни циклов. Кластеры проточных ячеек аналогичны пятнам в микрочипах, и на ранних этапах секвенирования они должны быть правильно определены. При [[Пиросеквенирование|пиросеквенировании]] (компания {{нп5|Roche Applied Science|Roche|en|Roche Applied Science}}) интенсивность испускаемого [[свет]]а соответствует количеству одинаковых нуклеотидов в гомо[[полимер]]ном участке. Существует множество вариаций перечисленных методов, и каждая предполагает использование разных профилей ошибок для получающихся данных<ref name="#21576222">{{cite pmid|21576222}}</ref>. |
||
=== Анализ данных РНК-Seq === |
=== Анализ данных РНК-Seq === |
||
В ходе экспериментов РНК-Seq получается огромный объём прочтений, которые необходимо обработать для получения полезной информации. Анализ данных, как правило, включает использование комбинаций различных [[Биоинформатика|биоинформатических]] программ, которые необходимо подбирать сообразно эксперименту и целям. Процесс обработки данных можно разбить на четыре этапа: контроль качества, выравнивание, количественный анализ и дифференциальная экспрессия. Наиболее популярные программы для обработки данных РНК-Seq запускаются из [[Интерфейс командной строки|командной строки]] в среде [[Unix]] или [[R (язык программирования)|R]]/[[Bioconductor]]. |
В ходе экспериментов РНК-Seq получается огромный объём прочтений, которые необходимо обработать для получения полезной информации. Анализ данных, как правило, включает использование комбинаций различных [[Биоинформатика|биоинформатических]] программ, которые необходимо подбирать сообразно эксперименту и целям. Процесс обработки данных можно разбить на четыре этапа: контроль качества, выравнивание, количественный анализ и дифференциальная экспрессия<ref name="#23481128">{{cite pmid|23481128}}</ref>. Наиболее популярные программы для обработки данных РНК-Seq запускаются из [[Интерфейс командной строки|командной строки]] в среде [[Unix]] или [[R (язык программирования)|R]]/[[Bioconductor]]<ref name="#25633503">{{cite pmid|25633503}}</ref>. |
||
==== Контроль качества ==== |
==== Контроль качества ==== |
||
Прочтения небезупречны, поэтому необходимо определить точность прочтения каждого основания в последовательности. Прочтения, прошедшие контроль качества, гарантированно имеют высокую точность определения каждого основания, их GC-состав соответствует ожидаемому распределению, в них нет перепредставленности коротких [[Мотив (молекулярная биология)|мотивов]] и редки [[Дупликация|дупликации]]. Существует несколько программ для анализа качества, например, FastQC и FaQCs. Низкокачественные прочтения или удаляются, или специальным образом помечаются, что учитывается при дальнейшем анализе. |
Прочтения небезупречны, поэтому необходимо определить точность прочтения каждого основания в последовательности. Прочтения, прошедшие контроль качества, гарантированно имеют высокую точность определения каждого основания, их GC-состав соответствует ожидаемому распределению, в них нет перепредставленности коротких [[Мотив (молекулярная биология)|мотивов]] и редки [[Дупликация|дупликации]]<ref name="#26813401" /> . Существует несколько программ для анализа качества, например, FastQC и FaQCs. Низкокачественные прочтения или удаляются, или специальным образом помечаются, что учитывается при дальнейшем анализе<ref>{{Cite web|url=http://www.bioinformatics.babraham.ac.uk/projects/fastqc/|title=FastQC: A Quality Control tool for High Throughput Sequence Data|first=|date=|website=|publisher=Babraham Bioinformatics|publication-date=2010|archive-url=|archive-date=|dead-url=|access-date=2017-05-23 | vauthors = Andrews S }}</ref><ref name="#25408143">{{cite pmid|25408143}}</ref. |
||
==== Выравнивание ==== |
==== Выравнивание ==== |
||
Чтобы связать численность прочтений с определённым геном, прочтения необходимо выровнять на референсный геном или друг на друга, если референсный геном неизвестен (сборка транскриптома ''de novo''). Основными требованиями, которым должны удовлетворять программы для выравнивания, является скорость, позволяющая за приемлемое время выровнять миллиарды коротких прочтений, определённая гибкость, чтобы выявлять случаи сплайсинга [[Эукариоты|эукариотических]] мРНК, а также правильно выбирать расположение прочтений, соответствующих нескольким местам в геноме. Программы постоянно совершенствуются в соответствии с перечисленными требованиями, а увеличение длины прочтений снижает вероятность неоднозначного выравнивания. {{нп5|Европейский институт биоинформатики||en|European Bioinformatics Institute}} (EBI) поддерживает список доступных в данный момент инструментов для выравнивания прочтений, полученных при высокопроизводительном секвенировании. |
Чтобы связать численность прочтений с определённым геном, прочтения необходимо выровнять на референсный геном или друг на друга, если референсный геном неизвестен (сборка транскриптома ''de novo'')<ref name="#23222703" /><ref name="#24532719" />. Основными требованиями, которым должны удовлетворять программы для выравнивания, является скорость, позволяющая за приемлемое время выровнять миллиарды коротких прочтений, определённая гибкость, чтобы выявлять случаи сплайсинга [[Эукариоты|эукариотических]] мРНК, а также правильно выбирать расположение прочтений, соответствующих нескольким местам в геноме. Программы постоянно совершенствуются в соответствии с перечисленными требованиями, а увеличение длины прочтений снижает вероятность неоднозначного выравнивания. {{нп5|Европейский институт биоинформатики||en|European Bioinformatics Institute}} (EBI) поддерживает список доступных в данный момент инструментов для выравнивания прочтений, полученных при высокопроизводительном секвенировании<ref name="#23060614">{{cite pmid|23060614}}</ref>. |
||
Выравнивание первичных эукариотических транскриптов на референсный геном требует особое обращение с интронами, которых нет в зрелых мРНК. Программы для выравнивания коротких прочтений могут создавать особые выравнивания, предназначенные специально для идентификации сайтов сплайсинга на основе канонических последовательностей сайтов сплайсинга. Идентификация сайтов сплайсинга предотвращает их ошибочное выравнивание или отбраковывание, позволяя выровнять на референсный геном большее количество прочтений и увеличивая качество количественных оценок экспрессии генов. Поскольку {{нп5|регуляция экспрессии генов||en|Regulation of gene expression}} может осуществляться на уровне изоформ мРНК, выравнивания, учитывающие сплайсинг, позволяют обнаружить изменения в численности тех или иных изоформ, что было бы невозможно с помощью обычного анализа. |
Выравнивание первичных эукариотических транскриптов на референсный геном требует особое обращение с интронами, которых нет в зрелых мРНК<ref>{{cite pmid|19289445}}</ref>. Программы для выравнивания коротких прочтений могут создавать особые выравнивания, предназначенные специально для идентификации сайтов сплайсинга на основе канонических последовательностей сайтов сплайсинга. Идентификация сайтов сплайсинга предотвращает их ошибочное выравнивание или отбраковывание, позволяя выровнять на референсный геном большее количество прочтений и увеличивая качество количественных оценок экспрессии генов. Поскольку {{нп5|регуляция экспрессии генов||en|Regulation of gene expression}} может осуществляться на уровне изоформ мРНК, выравнивания, учитывающие сплайсинг, позволяют обнаружить изменения в численности тех или иных изоформ, что было бы невозможно с помощью обычного анализа<ref name="#20436464">{{cite pmid|20436464}}</ref>. |
||
Для сборки транскриптома ''de novo'' производится выравнивание прочтений друг на друга, что позволяет реконструировать полноразмерные транскрипты без использования референсного генома. Сложностями сборки ''de novo'' являются необходимость больших вычислительных мощностей, чем для сборки на основе референсного генома, дополнительной проверки вариантов и фрагментов генов и дополнительной аннотации собранных транскриптов. Первые метрики, предназначенные для оценки качества сборки транскриптома, такие как [[Оценки качества сборки генома|N50]], были признаны ошибочными, и в данный момент доступны усовершенствованные методы оценки. Метрики, основанные на аннотации, хорошо подходят для оценки степени сборки генома. Транскриптом, собранный ''de novo'', может быть использован в качестве референсного при выравнивании последовательностей и количественном анализе экспрессии генов. |
Для сборки транскриптома ''de novo'' производится выравнивание прочтений друг на друга, что позволяет реконструировать полноразмерные транскрипты без использования референсного генома<ref name="#20211242">{{cite pmid|20211242}}</ref>. Сложностями сборки ''de novo'' являются необходимость больших вычислительных мощностей, чем для сборки на основе референсного генома, дополнительной проверки вариантов и фрагментов генов и дополнительной аннотации собранных транскриптов. Первые метрики, предназначенные для оценки качества сборки транскриптома, такие как [[Оценки качества сборки генома|N50]], были признаны ошибочными<ref name="#23837739">{{cite pmid|23837739}}</ref>, и в данный момент доступны усовершенствованные методы оценки. Метрики, основанные на аннотации, хорошо подходят для оценки степени сборки генома. Транскриптом, собранный ''de novo'', может быть использован в качестве референсного при выравнивании последовательностей и количественном анализе экспрессии генов<ref name="#27252236">{{cite pmid|27252236}}</ref><ref name="#25608678">{{cite pmid|25608678}}</ref>. |
||
{| class="wikitable sortable" |
{| class="wikitable sortable" |
||
Строка 255: | Строка 255: | ||
==== Количественный анализ ==== |
==== Количественный анализ ==== |
||
[[Файл:Transcriptomes_heatmap_example.svg|thumb|428x428px|Тепловая карта, отображающая наличие одинаковых паттернов экспрессии в различных образцах. Каждая колонка отображает данные измерений изменений экспрессии генов в единичном образце. Относительная экспрессия генов показана цветом: высокая (красный), средняя (белый) и низкая (синий). Гены и образцы с одинаковой экспрессиией можно автоматически сгруппировать (левое и верхнее деревья). Образцы могут соответствовать разным индивидуумам, тканям, условиям среды и состоянию здоровья. В данном примере в образцах 1, 2 и 3 экспрессия набора генов 1 высокая, а набора 2 — низкая<ref name="Lowe_2017" /><ref>{{cite pmid|20195258}}</ref>]] |
[[Файл:Transcriptomes_heatmap_example.svg|thumb|428x428px|Тепловая карта, отображающая наличие одинаковых паттернов экспрессии в различных образцах. Каждая колонка отображает данные измерений изменений экспрессии генов в единичном образце. Относительная экспрессия генов показана цветом: высокая (красный), средняя (белый) и низкая (синий). Гены и образцы с одинаковой экспрессиией можно автоматически сгруппировать (левое и верхнее деревья). Образцы могут соответствовать разным индивидуумам, тканям, условиям среды и состоянию здоровья. В данном примере в образцах 1, 2 и 3 экспрессия набора генов 1 высокая, а набора 2 — низкая<ref name="Lowe_2017" /><ref>{{cite pmid|20195258}}</ref>]] |
||
Количественный анализ выравниваний прочтений может быть произведён на уровне гена, экзона и транскрипта. Типичным результатом анализа является количество прочтений для каждого элемента анализа (гена, экзона или транскрипта). Например, для генов она выдаётся в формате [[GFF (формат файла)|general feature format (GFF)]]. Количество прочтений для генов и экзонов можно определить при помощи разных программ, например, HTSeq. Анализ на уровне транскрипта более сложен и требует привлечения вероятностных методов для оценки численности транскрипта на основании коротких прочтений; например, это может выполнить программа cufflinks. Прочтения, одинаково хорошо ложащиеся на разные места в геноме должны быть идентифицированы и удалены, либо выровнены на одно из возможных мест, либо на наиболее вероятное из них. Некоторые методы оценки вовсе не предполагают выравнивания прочтения на референсный геном. Например, метод, используемый в программе kallisto, объединяет псевдовыравнивание и количественный анализ в один шаг, который идёт на два порядка быстрее, чем методы программ tophat и cufflinks, и требует меньших вычислительных затрат. |
Количественный анализ выравниваний прочтений может быть произведён на уровне гена, экзона и транскрипта. Типичным результатом анализа является количество прочтений для каждого элемента анализа (гена, экзона или транскрипта). Например, для генов она выдаётся в формате [[GFF (формат файла)|general feature format (GFF)]]. Количество прочтений для генов и экзонов можно определить при помощи разных программ, например, HTSeq<ref name="#25260700">{{cite pmid|25260700}}</ref>. Анализ на уровне транскрипта более сложен и требует привлечения вероятностных методов для оценки численности транскрипта на основании коротких прочтений; например, это может выполнить программа cufflinks<ref name="#20436464" />. Прочтения, одинаково хорошо ложащиеся на разные места в геноме должны быть идентифицированы и удалены, либо выровнены на одно из возможных мест, либо на наиболее вероятное из них. Некоторые методы оценки вовсе не предполагают выравнивания прочтения на референсный геном. Например, метод, используемый в программе kallisto, объединяет псевдовыравнивание и количественный анализ в один шаг, который идёт на два порядка быстрее, чем методы программ tophat и cufflinks, и требует меньших вычислительных затрат<ref name="#27043002">{{cite pmid|27043002}}</ref>. |
||
==== Дифференциальная экспрессия ==== |
==== Дифференциальная экспрессия ==== |
||
Когда для каждого транскрипта получены количественные данные, с помощью их [[Статистика|статистического анализа]], моделирования и нормализации анализируется дифференциальная экспрессия генов. Большинство программ, которые её анализируют, берут на вход таблицу из названий генов и числа транскриптов для каждого из них, но некоторые программы, например, cuffdiff, в качестве входных данных получает выравнивание прочтений в {{нп5|BAM (формат файла)|формате BAM|en|Binary Alignment Map}} (от {{lang-en|Binary Alignment Map}} — карта попарных выравниваний). На выход программы выдают список генов с результатами попарных [[Проверка статистических гипотез|статистических тестов]], проверяющих значимость различий в экспрессии между экспериментальными и контрольными данными. |
Когда для каждого транскрипта получены количественные данные, с помощью их [[Статистика|статистического анализа]], моделирования и нормализации анализируется дифференциальная экспрессия генов<ref name="#23222703" />. Большинство программ, которые её анализируют, берут на вход таблицу из названий генов и числа транскриптов для каждого из них, но некоторые программы, например, cuffdiff, в качестве входных данных получает выравнивание прочтений в {{нп5|BAM (формат файла)|формате BAM|en|Binary Alignment Map}} (от {{lang-en|Binary Alignment Map}} — карта попарных выравниваний). На выход программы выдают список генов с результатами попарных [[Проверка статистических гипотез|статистических тестов]], проверяющих значимость различий в экспрессии между экспериментальными и контрольными данными<ref>{{cite pmid|19505943}}</ref>. |
||
{| class="wikitable" |
{| class="wikitable" |
||
Строка 288: | Строка 288: | ||
=== Подтверждение === |
=== Подтверждение === |
||
Результаты транскриптомного анализа можно подтвердить с помощью других методов, например, количественной ПЦР (qPCR). Экспрессия генов измеряется относительно стандартной экспрессии изучаемого гена и контрольных генов. Принцип измерения в qПЦР такой же, что и в РНК-Seq, а именно, значение для данного гена рассчитывается на основе концентрации участка-мишени в исследуемом образце. Однако qПЦР подходит только для {{нп5|Ампликон|ампликонов|en|Amplicon}}, меньших 300 п. о. и расположенных вблизи 3'-конца кодирующей области. Если необходимо проверить данные по изоформам транскрипта, с помощью тщательного анализа выравниваний прочтений РНК-Seq можно определить, каким участкам должны соответствовать [[праймер]]ы для qПЦР, чтобы сделать различия наиболее явными. Измерение экспрессии контрольных генов наряду с исследуемыми даёт стабильные референсные данные. Проверка данных РНК-Seq с помощью контрольной ПЦР показала, что разные варианты РНК-Seq, в целом, дают схожие данные. |
Результаты транскриптомного анализа можно подтвердить с помощью других методов, например, количественной ПЦР (qPCR)<ref name="#21498551">{{cite pmid|21498551}}</ref>. Экспрессия генов измеряется относительно стандартной экспрессии изучаемого гена и контрольных генов. Принцип измерения в qПЦР такой же, что и в РНК-Seq, а именно, значение для данного гена рассчитывается на основе концентрации участка-мишени в исследуемом образце. Однако qПЦР подходит только для {{нп5|Ампликон|ампликонов|en|Amplicon}}, меньших 300 п. о. и расположенных вблизи 3'-конца кодирующей области<ref name="#20011106">{{cite pmid|20011106}}</ref>. Если необходимо проверить данные по изоформам транскрипта, с помощью тщательного анализа выравниваний прочтений РНК-Seq можно определить, каким участкам должны соответствовать [[праймер]]ы для qПЦР, чтобы сделать различия наиболее явными<ref name="#12184808">{{cite pmid|12184808}}</ref>. Измерение экспрессии контрольных генов наряду с исследуемыми даёт стабильные референсные данные. Проверка данных РНК-Seq с помощью контрольной ПЦР показала, что разные варианты РНК-Seq, в целом, дают схожие данные<ref name="#18451266" /><ref name="#19056941">{{cite pmid|19056941}}</ref><ref name="#20368969">{{cite pmid|20368969}}</ref>. |
||
Для анализа транскриптомных данных очень важна информация о функциях изучаемых генов. Наблюдаемые паттерны экспрессии генов можно связать с определённым [[фенотип]]ом при помощи экспериментов по [[Нокдаун гена|нокдауну]] изучаемых генов и {{нп5|Синтетическое спасение|синтетическому спасению|en|Synthetic rescue}}. |
Для анализа транскриптомных данных очень важна информация о функциях изучаемых генов. Наблюдаемые паттерны экспрессии генов можно связать с определённым [[фенотип]]ом при помощи экспериментов по [[Нокдаун гена|нокдауну]] изучаемых генов и {{нп5|Синтетическое спасение|синтетическому спасению|en|Synthetic rescue}}ref name="Govind_2009">{{cite pmid|19224247}}</ref>. |
||
== Применение == |
== Применение == |
||
=== Диагностика и профилирование заболеваний === |
=== Диагностика и профилирование заболеваний === |
||
Транскриптомные технологии нашли применение в различных областях [[Биомедицина|биомедицины]], в частности, в [[Медицинская диагностика|диагностике]] и профилировании заболеваний. С помощью РНК-Seq стало возможным обнаружение сайтов начала транскрипции, использования альтернативных промоторов и новых вариантов альтернативного сплайсинга. Поскольку геномные {{нп5|регуляторные элементы||en|Regulatory sequence}} играют важную роль в [[патогенез]]е многих заболеваний, определение их вариантов чрезвычайно важно для интерпретации данных |
Транскриптомные технологии нашли применение в различных областях [[Биомедицина|биомедицины]], в частности, в [[Медицинская диагностика|диагностике]] и профилировании заболеваний<ref name="#19015660" />. С помощью РНК-Seq стало возможным обнаружение сайтов начала транскрипции, использования альтернативных промоторов и новых вариантов альтернативного сплайсинга. Поскольку геномные {{нп5|регуляторные элементы||en|Regulatory sequence}} играют важную роль в [[патогенез]]е многих заболеваний, определение их вариантов чрезвычайно важно для интерпретации данных [[Полногеномный поиск ассоциаций|полногеномного поиска ассоциаций]]<ref name="#22739340">{{cite pmid|22739340}}</ref>. С помощью РНК-Seq можно обнаруживать однонуклеотидные полиморфизмы, связанные с болезнями, случаи [[Аллель|аллелеспецифичной]] экспрессии, {{нп5|слияние генов||en|Fusion gene}}, которые позволяют пролить свет на генетические основы развития заболеваний<ref name="#26781813">{{cite pmid|26781813}}</ref>. |
||
С помощью РНК-Seq можно получить информацию о транскрипции эндогенных [[ретротранспозон]]ов, которые могут влиять на транскрипцию соседних генов посредством разнообразных [[Эпигенетика|эпигенетических]] механизмов, что может привести к развитию болезней. Важной потенциальной сферой применения РНК-Seq является исследование молекулярных основ нарушений [[Иммунная система|иммунной системы]], потому что этот метод позволяет разделить популяции [[Иммунные клетки|иммунных клеток]] разных типов и секвенировать репертуары [[Т-клеточный рецептор|T-]] и [[B-клеточный рецептор|B-клеточных рецепторов]] пациентов. |
С помощью РНК-Seq можно получить информацию о транскрипции эндогенных [[ретротранспозон]]ов, которые могут влиять на транскрипцию соседних генов посредством разнообразных [[Эпигенетика|эпигенетических]] механизмов, что может привести к развитию болезней<ref name="#17363976">{{cite pmid|17363976}}</ref>. Важной потенциальной сферой применения РНК-Seq является исследование молекулярных основ нарушений [[Иммунная система|иммунной системы]], потому что этот метод позволяет разделить популяции [[Иммунные клетки|иммунных клеток]] разных типов и секвенировать репертуары [[Т-клеточный рецептор|T-]] и [[B-клеточный рецептор|B-клеточных рецепторов]] пациентов<ref name="#26551575">{{cite pmid|26551575}}</ref><ref name="#26996076">{{cite pmid|26996076}}</ref>. |
||
=== Транскриптомы человека и его патогенов === |
=== Транскриптомы человека и его патогенов === |
||
С помощью РНК-Seq можно находить изменения в экспрессии генов у человеческих [[патоген]]ов, что может помочь идентифицировать новые {{нп5|факторы вирулентности||en|Virulence factor}}, предсказывать [[Антибиотикорезистентность|устойчивость к антибиотикам]], а также понять детали {{нп5|Взаимодействие патогена и хозяина|взаимодействия патогена с иммунной системой хозяина|en|Host–pathogen interaction}}. С помощью РНК-Seq можно разработать оптимизированные меры {{нп5|Контроль над инфекцией|контроля над инфекцией|en|Infection control}}, а также направленные [[Персонализированная медицина|индивидуальные стратегии лечения]]. |
С помощью РНК-Seq можно находить изменения в экспрессии генов у человеческих [[патоген]]ов, что может помочь идентифицировать новые {{нп5|факторы вирулентности||en|Virulence factor}}, предсказывать [[Антибиотикорезистентность|устойчивость к антибиотикам]], а также понять детали {{нп5|Взаимодействие патогена и хозяина|взаимодействия патогена с иммунной системой хозяина|en|Host–pathogen interaction}}<ref name="#18284925">{{cite pmid|18284925}}</ref><ref name="#25517437">{{cite pmid|25517437}}</ref>. С помощью РНК-Seq можно разработать оптимизированные меры {{нп5|Контроль над инфекцией|контроля над инфекцией|en|Infection control}}, а также направленные [[Персонализированная медицина|индивидуальные стратегии лечения]]<ref name="#26996076" />. |
||
Транскриптомный анализ можно проводить и для хозяина, и для патогена. С помощью двойного РНК-Seq можно одновременно построить профили экспрессии генов и хозяина, и патогена в ходе всего [[Инфекция|инфекционного процесса]]. Такой подход позволяет изучать динамический [[иммунный ответ]] и [[Вид (биология)|межвидовые]] {{нп5|генные регуляторные сети||en|Gene regulatory network}} для обоих взаимодействующих организмов с момента начального контакта до инвазии и финальной персистенции патогена или его разрушения иммунной системой хозяина. |
Транскриптомный анализ можно проводить и для хозяина, и для патогена. С помощью двойного РНК-Seq можно одновременно построить профили экспрессии генов и хозяина, и патогена в ходе всего [[Инфекция|инфекционного процесса]]. Такой подход позволяет изучать динамический [[иммунный ответ]] и [[Вид (биология)|межвидовые]] {{нп5|генные регуляторные сети||en|Gene regulatory network}} для обоих взаимодействующих организмов с момента начального контакта до инвазии и финальной персистенции патогена или его разрушения иммунной системой хозяина<ref name="#22890146">{{cite pmid|22890146}}</ref><ref name="#25914674">{{cite pmid|25914674}}</ref>. |
||
=== Ответы на условия окружающей среды === |
=== Ответы на условия окружающей среды === |
||
Транскриптомика позволяет идентифицировать гены и [[Метаболический путь|метаболические пути]], ответственные за ответ и противодействие стрессам, связанных с [[Биотические факторы окружающей среды|биотическими]] и [[Абиотические факторы|абиотическими факторами]] внешней среды. Благодаря неспецифичным методам транскриптомики, с её помощью можно находить новые генные сети даже в сложных системах. Например, сравнительный анализ нескольких линий [[Нут (растение)|нута]] на различных стадиях развития позволил идентифицировать транскрипционные профили, связанные со стрессами, вызванными засухой и повышенной солёностью; в частности, была показана роль изоформ транскриптов {{нп5|Apetala 2|AP2|en|Apetala 2}}-{{нп5|EREBP||en|Ethylene-responsive element binding protein}}. Изучение экспрессии генов при формировании биоплёнок патогенными [[Дрожжи|дрожжами]] ''[[Candida albicans]]'' позволило выявить набор совместно регулируемых генов, критически важных для образования и поддержания [[Биоплёнка|биоплёнки]]. |
Транскриптомика позволяет идентифицировать гены и [[Метаболический путь|метаболические пути]], ответственные за ответ и противодействие стрессам, связанных с [[Биотические факторы окружающей среды|биотическими]] и [[Абиотические факторы|абиотическими факторами]] внешней среды<ref name="#26759178" /><ref name="Govind_2009" />. Благодаря неспецифичным методам транскриптомики, с её помощью можно находить новые генные сети даже в сложных системах. Например, сравнительный анализ нескольких линий [[Нут (растение)|нута]] на различных стадиях развития позволил идентифицировать транскрипционные профили, связанные со стрессами, вызванными засухой и повышенной солёностью; в частности, была показана роль изоформ транскриптов {{нп5|Apetala 2|AP2|en|Apetala 2}}-{{нп5|EREBP||en|Ethylene-responsive element binding protein}}<ref name="#26759178">{{cite pmid|26759178}}</ref>. Изучение экспрессии генов при формировании биоплёнок патогенными [[Дрожжи|дрожжами]] ''[[Candida albicans]]'' позволило выявить набор совместно регулируемых генов, критически важных для образования и поддержания [[Биоплёнка|биоплёнки]]<ref name="#15075282">{{cite pmid|15075282}}</ref>. |
||
Транскриптомное профилирование даёт ценнейшую информацию о механизмах лекарственной [[Резистентность (биология)|устойчивост]]и. Анализ более тысячи {{нп5|Генетический изолят|изолятов|en|Genetic isolate}} малярийного плазмодия ''[[Plasmodium falciparum]]'' показал, что устойчивость к [[артемизинин]]у изолятов из [[Юго-Восточная Азия|Юго-Восточной Азии]] связана с повышенной активностью {{нп5|Ответ на неуложенные белки|ответа на неуложенные белки|en|Unfolded protein response}} и с более медленным прохождением внутри[[эритроцит]]арной стадии [[Жизненный цикл (биология)|жизненного цикла]]. |
Транскриптомное профилирование даёт ценнейшую информацию о механизмах лекарственной [[Резистентность (биология)|устойчивост]]и. Анализ более тысячи {{нп5|Генетический изолят|изолятов|en|Genetic isolate}} [[Малярия|малярийного]] плазмодия ''[[Plasmodium falciparum]]''<ref name="Rich et al">{{cite pmid|19666593}}</ref> показал, что устойчивость к [[артемизинин]]у изолятов из [[Юго-Восточная Азия|Юго-Восточной Азии]] связана с повышенной активностью {{нп5|Ответ на неуложенные белки|ответа на неуложенные белки|en|Unfolded protein response}} и с более медленным прохождением внутри[[эритроцит]]арной стадии [[Жизненный цикл (биология)|жизненного цикла]]<ref name="#25502316">{{cite pmid|25502316}}</ref>. |
||
=== Аннотация функций генов === |
=== Аннотация функций генов === |
||
Одно из применений транскриптомных технологий заключается в определении функций генов, а также аллелей, ответственных за конкретный фенотип. Транскриптомика [[экотип]]ов растения ''[[Arabidopsis]]'', которые {{нп5|Гипераккумуляция|гипераккумулируют|en|Hyperaccumulator}} [[металлы]], показала связь с этим фенотипом генов, отвечающих за проникновение металлов в организм, толерантность и [[гомеостаз]]. Объединение данных РНК-Seq, полученных для разных тканей, позволило усовершенствовать аннотацию функций генов у коммерчески важных организмов, например, [[Огурец|огурца]], или видов, находящихся под угрозой исчезновения, таких как [[коала]]. |
Одно из применений транскриптомных технологий заключается в определении функций генов, а также аллелей, ответственных за конкретный фенотип. Транскриптомика [[экотип]]ов растения ''[[Arabidopsis]]'', которые {{нп5|Гипераккумуляция|гипераккумулируют|en|Hyperaccumulator}} [[металлы]], показала связь с этим фенотипом генов, отвечающих за проникновение металлов в организм, толерантность и [[гомеостаз]]<ref name="#19192189">{{cite pmid|19192189}}</ref>. Объединение данных РНК-Seq, полученных для разных тканей, позволило усовершенствовать аннотацию функций генов у коммерчески важных организмов, например, [[Огурец|огурца]]<ref name="#22047402">{{cite pmid|22047402}}</ref>, или видов, находящихся под угрозой исчезновения, таких как [[коала]]<ref name="#25214207">{{cite pmid|25214207}}</ref>. |
||
Сборка прочтений РНК-Seq не зависит от референсного генома, поэтому этот метод идеально подходит для изучения экспрессии генов у немодельных организмов, для которых ещё нет готовых геномных данных. Например, база данных однонуклеотидных полиморфизмов, которая использовалась в программах по размножению [[Псевдотсуга Мензиса|псевдотсуги Мензиса]], была создана при транскриптомном анализе ''de novo'' при отсутствии секвенированного генома. Схожим образом гены, участвующие в развитии [[Сердце|сердечной]], [[Мышечная ткань|мышечной]] и [[Нервная ткань|нервной]] тканей у [[омар]]а, были идентифицированы путём сравнения транскриптомов разных тканей без использования последовательности генома. РНК-Seq также можно использовать для обнаружения ранее неизвестных {{нп5|Кодирующая область|белоккодирующих областей|en|Coding region}} в уже секвенированных геномах. |
Сборка прочтений РНК-Seq не зависит от референсного генома<ref name="#21572440">{{cite pmid|21572440}}</ref>, поэтому этот метод идеально подходит для изучения экспрессии генов у немодельных организмов, для которых ещё нет готовых геномных данных. Например, база данных однонуклеотидных полиморфизмов, которая использовалась в программах по размножению [[Псевдотсуга Мензиса|псевдотсуги Мензиса]], была создана при транскриптомном анализе ''de novo'' при отсутствии секвенированного генома<ref name="#23445355">{{cite pmid|23445355}}</ref>. Схожим образом гены, участвующие в развитии [[Сердце|сердечной]], [[Мышечная ткань|мышечной]] и [[Нервная ткань|нервной]] тканей у [[омар]]а, были идентифицированы путём сравнения транскриптомов разных тканей без использования последовательности генома. РНК-Seq также можно использовать для обнаружения ранее неизвестных {{нп5|Кодирующая область|белоккодирующих областей|en|Coding region}} в уже секвенированных геномах<ref name="#26772543">{{cite pmid|26772543}}</ref>. |
||
=== Некодирующие РНК === |
=== Некодирующие РНК === |
||
Обычно транскриптомика рассматривает только мРНК клетки. Однако те же методы можно применить и к [[Некодирующие РНК|некодирующим РНК]], которые участвуют в [[Трансляция (биология)|трансляции]], [[Репликация ДНК|репликации геномной ДНК]], сплайсинге и [[Регуляция транскрипции|регуляции транскрипции]]. Многие из этих некодирующих РНК связаны с развитием болезней, в том числе [[Рак (заболевание)|рака]], [[Сердечно-сосудистые заболевания|сердечно-сосудистых заболеваний]] и {{нп5|Заболевания нервной системы|заболеваний нервной системы|en|Nervous system disease}}. |
Обычно транскриптомика рассматривает только мРНК клетки. Однако те же методы можно применить и к [[Некодирующие РНК|некодирующим РНК]], которые участвуют в [[Трансляция (биология)|трансляции]], [[Репликация ДНК|репликации геномной ДНК]], сплайсинге и [[Регуляция транскрипции|регуляции транскрипции]]<ref name="#1883196">{{cite pmid|1883196}}</ref><ref name="#16943439">{{cite pmid|16943439}}</ref><ref name="#16357227">{{cite pmid|16357227}}</ref><ref name="#15851066">{{cite pmid|15851066}}</ref>. Многие из этих некодирующих РНК связаны с развитием болезней, в том числе [[Рак (заболевание)|рака]], [[Сердечно-сосудистые заболевания|сердечно-сосудистых заболеваний]] и {{нп5|Заболевания нервной системы|заболеваний нервной системы|en|Nervous system disease}}<ref name="#22094949">{{cite pmid|22094949}}</ref>. |
||
== Базы данных транскриптомов == |
== Базы данных транскриптомов == |
||
При изучении транскриптомов создаются огромные объёмы данных, которые потенциально могут быть использованы и в других проектах. Поэтому сырые или обработанные данные размещают в публичных базах данных, чтобы сделать их доступными для всего научного сообщества. Например, по состоянию на 2018 год база данных Gene Expression Omnibus содержит данные миллионов экспериментов. |
При изучении транскриптомов создаются огромные объёмы данных, которые потенциально могут быть использованы и в других проектах. Поэтому сырые или обработанные данные размещают в публичных базах данных, чтобы сделать их доступными для всего научного сообщества. Например, по состоянию на 2018 год база данных Gene Expression Omnibus содержит данные миллионов экспериментов<ref>{{Cite web|url=https://www.ncbi.nlm.nih.gov/geo/|title=Gene Expression Omnibus|last=|first=|date=|website=www.ncbi.nlm.nih.gov|language=|archive-url=|archive-date=|dead-url=|access-date=2018-03-26}}</ref. |
||
{| class="wikitable sortable" |
{| class="wikitable sortable" |
||
Строка 362: | Строка 362: | ||
[[Категория:Биоинформатика]] |
[[Категория:Биоинформатика]] |
||
[[Категория:Методы молекулярной биологии]] |
|||
[[Категория:Экспрессия генов]] |
Версия от 17:27, 21 августа 2018
Эту страницу в данный момент активно редактирует участник Minina. |
Транскрипто́мные техноло́гии (англ. Transcriptomics technologies) — методы, разработанные для изучения транскриптома (то есть совокупности всех РНК-транскриптов) организма. В состав транскриптома входят все транскрипты, которые присутствовали в клетке на момент выделения РНК[англ.]. Исследуя транскриптом, можно установить, какие клеточные процессы были активны в данный момент времени.
Первые попытки изучения транскриптома были предприняты в начале 1990-х. Благодаря развитию новых технологий в конце 1990-х транскриптомика стала важной биологической наукой. В настоящий момент в транскриптомике есть два основополагающих метода: микрочипы, позволяющие выявить наличие и количество определённых транскриптов, и секвенирование РНК (РНК-Seq), в котором используются методы секвенирования нового поколения для получения последовательностей всех транскриптов. С улучшением методик количество данных, получаемых в ходе одного транскриптомного эксперимента, увеличивалось. В связи с этим методы анализа данных также совершенствовались, чтобы обеспечить точный и эффективный анализ возрастающего объёма данных. Транскриптомные базы данных постоянно растут и становятся всё более полезными для исследователей. Это связано с тем, что правильная интерпретация данных, полученных в ходе транскриптомного эксперимента, практически невозможна без опоры на предшествующие исследования.
Измерение уровня экспрессии определённых генов в клетках разных тканей и при разных условиях или же в разные моменты времени даёт информацию о регуляторных механизмах, связанных с экспрессией генов. С помощью этих данных могут быть определены функции ранее неаннотированных[англ.] генов. Анализ транскриптомов позволяет выявить различия в экспрессии определённых генов у разных организмов, что может быть особенно полезно для понимания молекулярных основ заболеваний человека.
История
Первая попытка получения части человеческого транскриптома была предпринята в 1991 году; в ходе этого исследования были получены последовательности 609 мРНК из мозга человека[2]. В 2008 году были опубликованы два человеческих транскриптома, состоящих из миллионов последовательностей, происходящих от транскриптов 16 тысяч генов[3][4]. К 2015 году были опубликованы транскриптомы сотен людей[5][6]. Получение транскриптомов индивидуумов с тем или иным заболеванием, разных тканей и даже одиночных клеток в настоящее время является рутинной процедурой[6][7]. Бурное развитие транскриптомики было возможно благодаря быстрому развитию новых экономичных технологий с повышенной чувствительностью[8][9][10][11].
До транскриптомики
Исследования отдельных транскриптов проводились ещё за несколько десятилетий до того, как методы транскриптомики стали общедоступны. В конце 1970-х были получены библиотеки РНК[англ.] и конвертированы в комплементарную ДНК (кДНК) с помощью обратной транскриптазы для бабочки Antheraea polyphemus[англ.][12]. В 1980-х с помощью низкопроизводительного секвенирования по Сэнгеру были получены последовательности случайных транскриптов; так появились так называемые экспрессируемые метки последовательностей[англ.] (англ. expressed sequence tags, EST)[2][13][14]. Метод секвенирования по Сэнгеру доминировал до появления технологий высокопроизводительного секвенирования, например, секвенирования синтезом (Solexa/Illumina). EST стали активно использоваться в 1990-х как эффективный метод определения генного состава организма без полногеномного секвенирования[англ.][14]. Количество отдельных транскриптов оценивалось с помощью нозерн-блотов, обратных нозерн-блотов[англ.] и количественной ПЦР с обратной транскрипцией (RT-qPCR)[15][16]. Однако эти методы очень трудоёмки и охватывают лишь крошечную долю целого транскриптома[11].
Первые попытки
Слово «транскриптом» (англ. transcriptome) было введено в употребление в 1990-х годах[17][18]. В 1995 году появился первый транскриптомный метод, основанный на секвенировании — сериальный анализ экспрессии генов[англ.] (англ. serial analysis of gene expression (SAGE)), который заключался в секвенировании по Сэнгеру соединённых фрагментов случайных транскриптов. Количество транскриптов оценивалось по числу совпадений с фрагментами известных генов[19]. Вскоре появился вариант SAGE, использующий вместо секвенирования по Сэнгеру технологии секвенирования нового поколения — цифровой анализ экспрессии генов (англ. digital gene expression analysis)[8][20]. Однако эти методы практически полностью были вытеснены методами высокопроизводительного секвенирования целых транскриптов, которые давали дополнительную информацию о транскрипте, например, сведения о сплайсинговых вариантах[8].
Развитие современных методов
РНК-Seq | Микрочипы | |
---|---|---|
Производительность[англ.] | От 1 дня до 1 недели на эксперимент[9] | 1–2 дня на эксперимент[9] |
Необходимое количество РНК | Низкое ~ 1 нг тотальной РНК[23] | Высокое ~ 1 мкг РНК[24] |
Трудоёмкость | Высокая (пробоподготовка и анализ данных)[9][21] | Низкая[9][21] |
Предшествующая информация | Не требуется, хотя наличие референсного генома[англ.]/транскриптома упрощает работу[21] | Для создания проб[англ.] необходим референсный геном/транскриптом[21] |
Точность количественной оценки[англ.]* | ~ 90% (ограничена покрытием[англ.] последовательностей)[25] | > 90% (ограничена точностью детекции флуоресценции)[25] |
Разрешение последовательностей | Может детектировать однонуклеотидные полиморфизмы и сплайсинговые варианты (ограничение — точность секвенирования (~ 99%))[25] | Специализированные микрочипы могут детектировать сплайсинговые варианты (ограничение — создание проб и кросс-гибридизация)[25] |
Чувствительность | 1 транскрипт на миллион (приблизительно, ограничение — покрытие последовательности)[25] | 1 транскрипт на тысячу (приблизительно, ограничено детекцией флуоресценции)[25] |
Динамический диапазон | 100000 : 1 (ограничен покрытием последовательности)[26] | 1000 : 1 (ограничено насыщением флуоресценции)[26] |
Техническая воспроизводимость | > 99 %[27][28] | > 99 %[29][30] |
Превалирующие современные методы — микрочипы и РНК-Seq — появились в середине 1990-х и 2000-х[8][31]. Публикации по микрочипам, которые измеряли относительное содержание определённых транскриптов за счёт их гибридизации с комплементарными пробами, нанесёнными на микрочип, появились в 1995 году[32][33]. Метод микрочипов позволял одновременно исследовать тысячи транскриптов, и за счёт этого позволял снизить стоимость исследования транскриптома в расчёте на ген и сэкономить усилия[34]. До конца 2000-х лучшими методами транскрипционного профилинга были пятновые олигонуклеотидные чипы (англ. spotted oligonucleotide arrays) и микрочипы Affymetrix[англ.] с высокой плотностью[11][31]. В течение этого периода времени было создано множество чипов, покрывающих известные гены модельных и экономически важных организмов. Улучшения технологий создания микрочипов привели к увеличению специфичности проб и количества генов, которые можно проанализировать с помощью одного чипа. Благодаря новым методам детекции флуоресценции стало возможным точно определять наличие и количество даже транскриптов, синтезируемых на низком уровне[33][35].
РНК-Seq подразумевает секвенирование кДНК, соответствующей транскриптам, причём численность отдельных фрагментов кДНК определяется численностью соответствующих транскриптов. Огромное влияние на РНК-Seq оказало развитие методов секвенирования нового поколения[8][10]. Первым транскриптомным методом стало масштабное параллельное секвенирование сигнатур[англ.] (англ. Massively parallel signature sequencing (MPSS)), в основе которого лежало образование коротких последовательностей длиной от 16 до 20 пар оснований (п. о.) в ходе сложной последовательности гибридизаций[36]. В 2004 году с помощью этого метода была оценена экспрессия 10 тысяч генов растения Arabidopsis thaliana[37]. Первая работа, посвящённая РНК-Seq, была опубликована в 2006 году. В ходе этого исследования с помощью технологии 454 Life Sciences[англ.] была определена последовательность ста тысяч транскриптов[38]. Полученного покрытия было достаточно для оценки относительного количества отдельных транскриптов. Популярность РНК-Seq значительно повысилась после 2008 года, когда технологии Illumina/Solexa позволили секвенировать один миллиард транскриптов[4][9][39][40]. Благодаря этим данным сейчас возможно количественно оценивать и сравнивать транскриптомы разных людей[41].
Получение данных
Получение данных о транскриптах возможно двумя принципиально различающимися путями: секвенированием отдельных транскриптов (EST или РНК-Seq) или гибридизацией транскриптов на упорядоченный чип нуклеотидных последовательностей (микрочип)[21].
Выделение РНК
Для всех транскриптомных методов необходимо выделить РНК из исследуемого организма. Несмотря на огромное разнообразие биологических систем, методика выделения РНК во всех случаях примерно одна и та же. Она включает разрушение клеток и тканей, разрушение РНКаз при помощи хаотропных[англ.] солей[42], разрушение макромолекул и комплексов, содержащих нуклеотиды, отделение РНК от ненужных биомолекул, включая ДНК, концентрирование РНК при помощи преципитации этанолом[англ.] из раствора и очищение с помощью специальных колонок[англ.][42][43]. Выделенную РНК также можно дополнительно обработать ДНКазой, чтобы разрушить остатки ДНК[44]. Обычно необходимо концентрирование мРНК, поскольку 98 % выделенной РНК приходится на рРНК[45]. Концентрирование можно произвести с помощью методов, использующих наличие у мРНК поли(А)-хвоста, или путём удаления рРНК с помощью специфических проб[46]. На результаты эксперимента может повлиять разрушенная РНК. Например, если отбирать мРНК из повреждённых РНК, то отобранные молекулы могут быть лишены 5'-концов и привести к искажению данных. Чтобы избежать разрушения РНК, перед выделением РНК образец обычно подвергают быстрому замораживанию[англ.][43].
Экспрессируемые метки последовательностей
Экспрессируемые метки последовательностей (EST) — это короткие нуклеотидные последовательности, полученные из целого транскрипта. Поскольку EST можно получить без какой-либо специфики относительно организма, из которого выделена РНК, их можно получить из смеси организмов или образцов, взятых из окружающей среды[14]. Хотя в настоящее время чаще всего используется высокопроизводительное секвенирование, библиотеки[англ.] EST активно использовали при разработке первых микрочипов. Например, микрочип ячменя был получен из 350 тысяч предварительно секвенированных EST[47].
Сериальный и кэповый анализ экспрессии генов (SAGE/CAGE)
Сериальный анализ экспрессии генов является дальнейшим развитием технологии EST с большей выработкой меток. Он также позволяет провести некоторый количественный анализ численности транскриптов. РНК сначала переводится в кДНК, затем она разрезается на метки длиной 11 нуклеотидов с помощью рестриктаз, которые вносят разрывы в определённые последовательности ДНК. Полученные метки сшивают по типу «голова к хвосту» в длинные фрагменты длиной более 500 нуклеотидов, которые секвенируют с помощью низкопроизводительных, но дающих длинные прочтения[англ.] методов, таких как секвенирование по Сэнгеру. Далее последовательности снова делят на 11-нуклеотидные кусочки с помощью специальных компьютерных программ (деконволюция)[19]. Если референсный геном недоступен, то полученные метки можно непосредственно использовать в качестве диагностических маркеров, которые в случае болезни экспрессируются иначе, чем в здоровом организме[19].
Кэповый анализ экспрессии генов (англ. cap analysis gene expression, CAGE) представляет собой вариант SAGE, при котором в качестве меток берутся только 5'-концевые последовательности мРНК. Поэтому, когда метки выравниваются на референсный геном, можно идентифицировать точки начала транскрипции генов. Этот метод активно используется для анализа промоторов и для клонирования полноразмерных кДНК[49].
SAGE и CAGE дают информацию о большем количестве генов, чем секвенирование отдельных EST, однако пробоподготовка и анализ данных в этих методах существенно сложнее[49].
Микрочипы
Принципы и преимущества
Микрочип состоит из коротких олигонуклеотидов (проб), которые прикреплены в ячейках сетки на стеклянной подложке[50]. Многочисленность транскриптов определяется на основании гибридизации флуоресцентно-меченных[англ.] транскриптов с этими пробами[51]. Интенсивность флуоресценции[англ.] в каждой ячейке свидетельствует о численности транскрипта, гибридизующегося с данной пробой[51].
Для создания микрочипа необходимо знать, хотя бы частично, геном исследуемого организма, например, в виде аннотированной последовательности или библиотеки EST; это необходимо для создания проб[34].
Методы
Микрочипы, использующиеся в транскриптомике, можно подразделить на два типа: пятновые чипы с низкой плотностью и чипы высокой плотности с короткими пробами[34]. Пятновые чипы низкой плотности обычно представляют собой стеклянную основу, на которую нанесены пиколитровые капли, содержащие разные фрагменты очищенной кДНК[52]. Эти пробы длинее, чем в чипах с короткими пробами, и с их помощью нельзя выявить события альтернативного сплайсинга. В пятновых чипах используются два типа флуорофоров, которыми метят экспериментальные и контрольные образцы, а относительная многочисленность высчитывается из интенсивности флуоресценции[53]. Чипы высокой плотности используют только одну флуоресцентную метку, и каждый образец гибридизуется и детектируется отдельно[54]. Чипы высокой плотности распространялись компанией Affymetrix GeneChip. В этих чипах каждому транскрипту соответствует несколько 25-нуклеотидных проб[55]. Компания NimbleGen производит чипы высокой плотности при помощи безмасковой литографии[англ.], которая позволяла получать чипы разного строения. Один чип содержит сотни тысяч проб длиной от 45 до 85 нуклеотидов, которые гибридизуются с образцом, меченным флуоресцентной меткой одного вида[56].
РНК-Seq
Принципы и преимущества
РНК-Seq представляет собой сочетание высокопроизводительного секвенирования с вычислительными методами оценки численности отдельных транскриптов в экстракте РНК[9]. Обычно получаются последовательности длиной около 100 пар оснований (п. о.), однако в зависимости от метода секвенирования их длина может составлять от 30 п. о. до 10 тысяч п. о. РНК-Seq обеспечивает глубокое покрытие транскриптома множеством коротких фрагментов, благодаря которому возможно при помощи вычислительных методов реконструировать исходные транскрипты, выравнивая прочтения на референсный геном или друг на друга (сборка de novo)[8]. С помощью РНК-Seq можно рассчитать количество как многочисленных, так и малочисленных РНК, так как динамический диапазон метода составляет 5 порядков. В этом заключается главное преимущество РНК-Seq перед микрочипами. Кроме того, для РНК-Seq требуется очень мало исследуемой РНК, чем для микрочипов — нанограммы против микрограммов. Благодаря этому РНК-Seq в сочетании с линейной амплификацией кДНК позволяет исследовать очень небольшие клеточные структуры вплоть до отдельных клеток[23][57]. Теоретически верхнего предела количественной оценки в РНК-Seq не существует, и для прочтений длиной 100 п. о. фоновый шум в неповторяющихся участках очень низок[9].
С помощью РНК-Seq можно идентифицировать гены в геноме или установить, какие гены активны в данный момент времени. На основании количества прочтений можно точно установить относительный уровень экспрессии генов. Методология РНК-Seq постоянно совершенствуется, преимущественно за счёт улучшения технологий секвенирования, которые повышают производительность и точность метода, а также выдают прочтения всё большей длины[58]. Со времени первых публикаций в 2006 и 2008 годах[38][59] РНК-Seq интенсивно внедрялся в исследования, и к 2015 году догнал микрочипы, став вторым доминирующим транскриптомным методом[60].
Попытки получения транскриптомных данных для отдельных клеток стимулировали совершенствование методов приготовления библиотек для РНК-Seq, что значительно увеличило чувствительность технологии. На данный момент получен ряд транскриптомов единичных клеток, и даже появились методы РНК-Seq in situ, в которых транскриптомы отдельных клеток были получены непосредственно в фиксированных тканях[61].
Методы
РНК-Seq появился вместе с бурным развитием нескольких методов высокопроизводительного секвенирования[62]. Однако стадии секвенирования выделенных РНК предшествуют несколько этапов пробоподготовки, которые различаются в разных методах. Методы различаются способами концентрирования транскриптов, фрагментации, амплификации, способом секвенирования (одноконцевое или парноконцевое), а также тем, сохраняется ли информация об исходной цепи[62].
Чувствительность РНК-Seq в конкретном эксперименте можно повысить за счёт концентрирования интересующих классов РНК и удаления остальных. мРНК можно отделить с помощью олигонуклеотидных проб, которые связываются с их поли(А)-хвостами. Удалить неинформативные и чрезвычайно многочисленные рРНК можно с помощью гибридизующихся проб, созданных специально для рРНК данного таксона (например, млекопитающих или растений). Однако вместе с рРНК с помощью такого подхода можно удалить и другие РНК, что может исказить картину эксперимента. Малые РНК, например, микроРНК, можно выделить на основании их размера из агарозного геля после электрофореза[англ.][63].
Поскольку мРНК, как правило, длиннее, чем единичные прочтения в большинстве методов высокопроизводительного секвенирования, обычно перед секвенированием транскрипты фрагментируют[англ.][64]. Метод фрагментации лежит в основе создания библиотеки для секвенирования. Фрагментацию можно проводить путём химического гидролиза, распыления, обработки ультразвуком (соникации[англ.]) или обратной транскрипции с использованием терминирующих нуклеотидов[64]. Кроме того, фрагментацию и добавление меток к кДНК можно осуществить одновременно при помощи транспозаз[65].
В ходе пробоподготовки для секвенирования фрагменты кДНК, соответствующие транскриптам, можно размножить с помощью ПЦР так, чтобы повысить численность молекул, содержащих необходимые 3'- и 5'-концевые адаптеры[англ.][66]. Стадия амплификации также необходима перед секвенированием образцов с очень низким содержанием РНК. Нижним пределом количества РНК, которое пригодно для секвенирования, является 50 пикограмм[67]. Чтобы оценить качество библиотеки и секвенирования (GC-состав, длина фрагментов, предпочтение фрагментов с определённым положением в транскрипте), можно использовать контрольные РНК-spike in[англ.][68]. Уникальные идентификаторы молекул[англ.] (англ. unique molecular identifiers, UMI) — это короткие случайные последовательности, которые используются для индивидуального мечения фрагментов при приготовлении бибилиотеки таким образом, чтобы после добавления идентификатора каждый фрагмент был уникален[69]. С помощью UMI можно измерить численность транскриптов в абсолютной шкале, чтобы скорректировать отклонения, возникшие при создании библиотеки, перед амплификацией, а также чтобы точно оценить количество ДНК в исходном образце. UMI особенно удобны для РНК-Seq одиночных клеток, в которых исходное количество РНК очень мало и требует неспецифичной амплификации[70][71][72].
После пробоподготовки молекулы транскриптов (точнее, соответствующих им кДНК) можно секвенировать в одном направлении (одноконцевое прочтение) или в обоих (парноконцевое прочтение). Одноконцевое секвенирование, как правило, быстрее и дешевле, и в большинстве случаев его достаточно для количественной оценки уровней экспрессии генов. Парноконцевое секвенирование позволяет получить более точные выравнивания и сборки, что очень важно для аннотации генов и описания изоформ транскриптов[9]. Методы РНК-Seq, специфичные по отношению к цепи, сохраняют сведения о цепи ДНК, с которой был транскрибирован каждый транскрипт. Без этой информации прочтения можно выровнять на локус, однако будет неясно, в каком направлении происходит транскрипция гена. Одноцепочечный РНК-Seq удобен для определения направления транскрипции перекрывающихся генов[англ.], расположенных на разных цепях, что позволяет сделать предсказание генов у немодельных организмов более точным[73].
Платформа | Коммерческий релиз | Типичная длина прочтения | Максимальная производительность одного запуска | Точность единичного прочтения | Запуски РНК-Seq, размещённые в базе NCBI SRA по состоянию на октябрь 2016 года. RNA-Seq runs deposited in the NCBI SRA (Oct 2016)[76] |
---|---|---|---|---|---|
454 Life Sciences | 2005 | 700 п. о. | 0,7 миллиардов п. о. | 99,9 % | 3548 |
Illumina | 2006 | 50–300 п. о. | 900 миллиардов п. о. | 99,9 % | 362903 |
SOLiD | 2008 | 50 п. о. | 320 миллиардов п. о. | 99,9 % | 7032 |
Ion Torrent | 2010 | 400 п. о. | 30 миллиардов п. о. | 98 % | 1953 |
PacBio[англ.] | 2011 | 10000 п. о. | 2 миллиардов п. о. | 87 % | 160 |
NCBI SRA – архив прочтений последовательностей[англ.] Национального центра биотехнологической информации (США)
Поскольку в настоящий момент РНК-Seq включает перевод РНК в кДНК в ходе обратной транскрипции, платформы для последующего секвенирования одинаковы и для транскриптомных, и для геномных данных. По этой причине развитие РНК-Seq в значительной мере определяется усовершенствованием методов секвенирования ДНК[75][77][78]. Однако всё большее распространение получает непосредственное секвенирование РНК при помощи нанопор[79][80]. С помощью нанопорового секвенирования в РНК можно обнаружить модифицированные основания, которые нельзя было выявить при секвенировании кДНК, кроме того, для этого метода не нужна амплификация, которая вносит дополнительные искажения[10][81].
Чувствительность и точность РНК-Seq определяются числом прочтений, полученных с каждого образца[82][83]. Для достаточного покрытия транскриптома необходимо очень много прочтений, что позволяет обнаружить даже малочисленные транскрипты. Дополнительные сложности создаёт этап секвенирования, дающего прочтения ограниченной длины, различной точности и качества. Более того, организмы каждого вида имеют разное количество генов, поэтому для эффективной сборки транскриптома для каждого вида необходимо разное число прочтений. На ранних этапах это количество определялось эмпирически, однако с развитием технологий необходимое покрытие стало возможным предсказывать вычислительными методами. Наиболее эффективным способом улучшения точности выявления дифференциальной экспрессии низкоэкспрессируемых генов является не увеличение числа прочтений, а увеличение копий[англ.][84]. В настоящий момент Энциклопедия элементов ДНК рекомендует 70-кратное покрытие экзома для обычного РНК-Seq и до 500-кратного покрытия для обнаружения редких транскриптов и изоформ[85][86][87].
Анализ данных
Методы транскриптомики позволяют проводить параллельные эксперименты со множеством образцов, поэтому для получения результатов как с помощью РНК-Seq, так и с помощью микрочипов необходима серьёзная обработка данных[англ.] вычислительными методами[88][89][90][91]. Данные с микрочипов представляют собой изображения с высоким разрешением, поэтому обработка данных выключает выявление свойств[англ.] (англ. feature detection) и спектральный анализ[92]. Изображения, полученные с микрочипов, достигают размера 750 Мб, в то время как обработанные данные занимают 60 Мб. Множество коротких проб, соответствующих одному и тому же транскрипту, могут позволить определить экзон-интронную структуру гена, поэтому для определения достоверности финального сигнала необходимы статистические модели. В ходе экспериментов РНК-Seq получаются миллиарды коротких последовательностей ДНК, которые необходимо выровнять на референсный геном, включающий миллионы или миллиарды п. о. Сборка транскриптома de novo требует построения весьма сложных графов последовательностей[англ.][93]. Операции обработки данных РНК-Seq требуют многократного повторения, поэтому для них могут удобны параллелизованные вычисления, однако с использованием современных алгоритмов обработку данных простых транскриптомных экспериментов, не требующих сборки de novo, можно осуществить даже на обычном персональном компьютере[94]. Человеческий транскриптом можно достаточно точно собрать из 300 миллионов 100-нуклеотидных прочтений, полученных с помощью РНК-Seq[82][83]. Для хранения такого объема данных в сжатом формате FASTQ[англ.] требуется 1,8 Гб дискового пространства на образец. Обработанные численные значения для каждого гена занимают ещё меньше памяти, сопоставимо с обработанными данными с микрочипов. Данные о последовательностях можно хранить в публичных данных, таких как SRA (от англ. sequence read archive — архив прочтений последовательностей)[95]. Набор данных РНК-Seq можно загрузить в базу данных Gene Expression Omnibus[96].
Обработка изображений
Обработка изображений, полученных с микрочипов, должна сохранять регулярную сеть[англ.] ячеек изображения и независимо количественно оценивать интенсивность флуоресценции в каждой ячейке. Необходимо также выявлять артефакты изображений[англ.] и исключать их из финального анализа. Интенсивность флуоресценции свидетельствует о представленности каждой последовательности, поскольку последовательность пробы в каждой ячейке известна[98].
Первые этапы РНК-Seq также включают схожую обработку изображений, однако перевод изображений в данных о последовательностях производится автоматически специальными программами. Результатом секвенирования синтезом по технологии Illumina является совокупность кластеров, расположенных на поверхности проточной ячейки[99]. В ходе каждого цикла секвенирования изображение каждой проточной ячейки снимается до четырёх раз, причём один запуск включает десятки или сотни циклов. Кластеры проточных ячеек аналогичны пятнам в микрочипах, и на ранних этапах секвенирования они должны быть правильно определены. При пиросеквенировании (компания Roche[англ.]) интенсивность испускаемого света соответствует количеству одинаковых нуклеотидов в гомополимерном участке. Существует множество вариаций перечисленных методов, и каждая предполагает использование разных профилей ошибок для получающихся данных[100].
Анализ данных РНК-Seq
В ходе экспериментов РНК-Seq получается огромный объём прочтений, которые необходимо обработать для получения полезной информации. Анализ данных, как правило, включает использование комбинаций различных биоинформатических программ, которые необходимо подбирать сообразно эксперименту и целям. Процесс обработки данных можно разбить на четыре этапа: контроль качества, выравнивание, количественный анализ и дифференциальная экспрессия[101]. Наиболее популярные программы для обработки данных РНК-Seq запускаются из командной строки в среде Unix или R/Bioconductor[90].
Контроль качества
Прочтения небезупречны, поэтому необходимо определить точность прочтения каждого основания в последовательности. Прочтения, прошедшие контроль качества, гарантированно имеют высокую точность определения каждого основания, их GC-состав соответствует ожидаемому распределению, в них нет перепредставленности коротких мотивов и редки дупликации[83] . Существует несколько программ для анализа качества, например, FastQC и FaQCs. Низкокачественные прочтения или удаляются, или специальным образом помечаются, что учитывается при дальнейшем анализе[102]Ошибка в сносках?: Отсутствует закрывающий тег </ref>
.
Выравнивание первичных эукариотических транскриптов на референсный геном требует особое обращение с интронами, которых нет в зрелых мРНК[103]. Программы для выравнивания коротких прочтений могут создавать особые выравнивания, предназначенные специально для идентификации сайтов сплайсинга на основе канонических последовательностей сайтов сплайсинга. Идентификация сайтов сплайсинга предотвращает их ошибочное выравнивание или отбраковывание, позволяя выровнять на референсный геном большее количество прочтений и увеличивая качество количественных оценок экспрессии генов. Поскольку регуляция экспрессии генов?! может осуществляться на уровне изоформ мРНК, выравнивания, учитывающие сплайсинг, позволяют обнаружить изменения в численности тех или иных изоформ, что было бы невозможно с помощью обычного анализа[104].
Для сборки транскриптома de novo производится выравнивание прочтений друг на друга, что позволяет реконструировать полноразмерные транскрипты без использования референсного генома[105]. Сложностями сборки de novo являются необходимость больших вычислительных мощностей, чем для сборки на основе референсного генома, дополнительной проверки вариантов и фрагментов генов и дополнительной аннотации собранных транскриптов. Первые метрики, предназначенные для оценки качества сборки транскриптома, такие как N50, были признаны ошибочными[106], и в данный момент доступны усовершенствованные методы оценки. Метрики, основанные на аннотации, хорошо подходят для оценки степени сборки генома. Транскриптом, собранный de novo, может быть использован в качестве референсного при выравнивании последовательностей и количественном анализе экспрессии генов[107][108].
Программа | Дата релиза | Дата последнего обновления | Вычислительная эффективность | Сильные и слабые стороны |
---|---|---|---|---|
Velvet-Oases[109][110] | 2008 | 2011 | Низкая, один поток выполнения, необходимо много памяти с произвольным доступом | Первый сборщик коротких прочтений. В настоящее время почти не используется. |
SOAPdenovo-trans[111] | 2011 | 2014 | Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом | Один из первых сборщиков коротких прочтений. Адаптирован для сборки транскриптомов. |
Trans-ABySS[112] | 2010 | 2016 | Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом | Предназначена для коротких прочтений, но может быть использована и для сложных транскриптомов. Доступна MPI-параллельная версия для вычислительных кластеров. |
Trinity[113][93] | 2011 | 2017 | Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом | Предназначена для коротких прочтений. Можно использовать для сложных транскриптомов, но требуется много памяти. |
miraEST[114] | 1999 | 2016 | Средняя, несколько потоков выполнения, умеренная необходимость в памяти с произвольным доступом | Может обрабатывать повторяющиеся последовательности, комбинирует несколько форматов данных секвенирования, совместима с большим числом платформ секвенирования. |
Newbler[115] | 2004 | 2012 | Низкая, один поток выполнения, необходимо много памяти с произвольным доступом | Специализирована на устранении ошибок секвенаторов 454 Roche, связанных с гомополимерными последовательностями. |
CLC genomics workbench[116] | 2008 | 2014 | Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом | Имеет графический интерфейс, может комбинировать различные технологии секвенирования. Не специализирована для транскриптомов, перед использованием необходимо приобрести лицензию. |
SPAdes[117] | 2012 | 2017 | Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом | Предназначена для транскриптомных экспериментов с единичными клетками. |
RSEM[118] | 2011 | 2017 | Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом | Может оценивать частоту альтернативно сплайсированных транскриптов. Удобна в использовании. |
StringTie[94] | 2015 | 2018 | Высокая, несколько потоков выполнения, низкая необходимость памяти с произвольным доступом | Может использовать комбинацию методов сборки на основе референсного генома и de novo для идентификации транскриптов. |
Количественный анализ
Количественный анализ выравниваний прочтений может быть произведён на уровне гена, экзона и транскрипта. Типичным результатом анализа является количество прочтений для каждого элемента анализа (гена, экзона или транскрипта). Например, для генов она выдаётся в формате general feature format (GFF). Количество прочтений для генов и экзонов можно определить при помощи разных программ, например, HTSeq[120]. Анализ на уровне транскрипта более сложен и требует привлечения вероятностных методов для оценки численности транскрипта на основании коротких прочтений; например, это может выполнить программа cufflinks[104]. Прочтения, одинаково хорошо ложащиеся на разные места в геноме должны быть идентифицированы и удалены, либо выровнены на одно из возможных мест, либо на наиболее вероятное из них. Некоторые методы оценки вовсе не предполагают выравнивания прочтения на референсный геном. Например, метод, используемый в программе kallisto, объединяет псевдовыравнивание и количественный анализ в один шаг, который идёт на два порядка быстрее, чем методы программ tophat и cufflinks, и требует меньших вычислительных затрат[121].
Дифференциальная экспрессия
Когда для каждого транскрипта получены количественные данные, с помощью их статистического анализа, моделирования и нормализации анализируется дифференциальная экспрессия генов[122]. Большинство программ, которые её анализируют, берут на вход таблицу из названий генов и числа транскриптов для каждого из них, но некоторые программы, например, cuffdiff, в качестве входных данных получает выравнивание прочтений в формате BAM[англ.] (от англ. Binary Alignment Map — карта попарных выравниваний). На выход программы выдают список генов с результатами попарных статистических тестов, проверяющих значимость различий в экспрессии между экспериментальными и контрольными данными[123].
Программа | Среда | Специализация |
---|---|---|
Cuffdiff2[122] | Основанные на Unix | Анализ транскриптов, направленный на обнаружение событий альтернативного сплайсинга мРНК |
EdgeR[89] | R/Bioconductor | Любые количественные геномные данные |
DEseq2[124] | R/Bioconductor | Разные типы данных |
Limma/Voom[88] | R/Bioconductor | Microarray or RNA-Seq data, flexible experiment design |
Ballgown[125] | R/Bioconductor | Эффективное и чувствительное отыскание транскриптов |
Подтверждение
Результаты транскриптомного анализа можно подтвердить с помощью других методов, например, количественной ПЦР (qPCR)[126]. Экспрессия генов измеряется относительно стандартной экспрессии изучаемого гена и контрольных генов. Принцип измерения в qПЦР такой же, что и в РНК-Seq, а именно, значение для данного гена рассчитывается на основе концентрации участка-мишени в исследуемом образце. Однако qПЦР подходит только для ампликонов[англ.], меньших 300 п. о. и расположенных вблизи 3'-конца кодирующей области[127]. Если необходимо проверить данные по изоформам транскрипта, с помощью тщательного анализа выравниваний прочтений РНК-Seq можно определить, каким участкам должны соответствовать праймеры для qПЦР, чтобы сделать различия наиболее явными[128]. Измерение экспрессии контрольных генов наряду с исследуемыми даёт стабильные референсные данные. Проверка данных РНК-Seq с помощью контрольной ПЦР показала, что разные варианты РНК-Seq, в целом, дают схожие данные[59][129][130].
Для анализа транскриптомных данных очень важна информация о функциях изучаемых генов. Наблюдаемые паттерны экспрессии генов можно связать с определённым фенотипом при помощи экспериментов по нокдауну изучаемых генов и синтетическому спасению[англ.]ref name="Govind_2009">Govind G., Harshavardhan V. T., Patricia J. K., Dhanalakshmi R., Senthil Kumar M., Sreenivasulu N., Udayakumar M. Identification and functional validation of a unique set of drought induced genes preferentially expressed in response to gradual water stress in peanut. (англ.) // Molecular Genetics And Genomics : MGG. — 2009. — June (vol. 281, no. 6). — P. 591—605. — doi:10.1007/s00438-009-0432-z. — PMID 19224247. </ref>.
Применение
Диагностика и профилирование заболеваний
Транскриптомные технологии нашли применение в различных областях биомедицины, в частности, в диагностике и профилировании заболеваний[9]. С помощью РНК-Seq стало возможным обнаружение сайтов начала транскрипции, использования альтернативных промоторов и новых вариантов альтернативного сплайсинга. Поскольку геномные регуляторные элементы[англ.] играют важную роль в патогенезе многих заболеваний, определение их вариантов чрезвычайно важно для интерпретации данных полногеномного поиска ассоциаций[131]. С помощью РНК-Seq можно обнаруживать однонуклеотидные полиморфизмы, связанные с болезнями, случаи аллелеспецифичной экспрессии, слияние генов[англ.], которые позволяют пролить свет на генетические основы развития заболеваний[132].
С помощью РНК-Seq можно получить информацию о транскрипции эндогенных ретротранспозонов, которые могут влиять на транскрипцию соседних генов посредством разнообразных эпигенетических механизмов, что может привести к развитию болезней[133]. Важной потенциальной сферой применения РНК-Seq является исследование молекулярных основ нарушений иммунной системы, потому что этот метод позволяет разделить популяции иммунных клеток разных типов и секвенировать репертуары T- и B-клеточных рецепторов пациентов[134][135].
Транскриптомы человека и его патогенов
С помощью РНК-Seq можно находить изменения в экспрессии генов у человеческих патогенов, что может помочь идентифицировать новые факторы вирулентности[англ.], предсказывать устойчивость к антибиотикам, а также понять детали взаимодействия патогена с иммунной системой хозяина[англ.][136][137]. С помощью РНК-Seq можно разработать оптимизированные меры контроля над инфекцией[англ.], а также направленные индивидуальные стратегии лечения[135].
Транскриптомный анализ можно проводить и для хозяина, и для патогена. С помощью двойного РНК-Seq можно одновременно построить профили экспрессии генов и хозяина, и патогена в ходе всего инфекционного процесса. Такой подход позволяет изучать динамический иммунный ответ и межвидовые генные регуляторные сети[англ.] для обоих взаимодействующих организмов с момента начального контакта до инвазии и финальной персистенции патогена или его разрушения иммунной системой хозяина[138][139].
Ответы на условия окружающей среды
Транскриптомика позволяет идентифицировать гены и метаболические пути, ответственные за ответ и противодействие стрессам, связанных с биотическими и абиотическими факторами внешней среды[140][141]. Благодаря неспецифичным методам транскриптомики, с её помощью можно находить новые генные сети даже в сложных системах. Например, сравнительный анализ нескольких линий нута на различных стадиях развития позволил идентифицировать транскрипционные профили, связанные со стрессами, вызванными засухой и повышенной солёностью; в частности, была показана роль изоформ транскриптов AP2[англ.]-EREBP[англ.][140]. Изучение экспрессии генов при формировании биоплёнок патогенными дрожжами Candida albicans позволило выявить набор совместно регулируемых генов, критически важных для образования и поддержания биоплёнки[142].
Транскриптомное профилирование даёт ценнейшую информацию о механизмах лекарственной устойчивости. Анализ более тысячи изолятов[англ.] малярийного плазмодия Plasmodium falciparum[143] показал, что устойчивость к артемизинину изолятов из Юго-Восточной Азии связана с повышенной активностью ответа на неуложенные белки[англ.] и с более медленным прохождением внутриэритроцитарной стадии жизненного цикла[144].
Аннотация функций генов
Одно из применений транскриптомных технологий заключается в определении функций генов, а также аллелей, ответственных за конкретный фенотип. Транскриптомика экотипов растения Arabidopsis, которые гипераккумулируют[англ.] металлы, показала связь с этим фенотипом генов, отвечающих за проникновение металлов в организм, толерантность и гомеостаз[145]. Объединение данных РНК-Seq, полученных для разных тканей, позволило усовершенствовать аннотацию функций генов у коммерчески важных организмов, например, огурца[146], или видов, находящихся под угрозой исчезновения, таких как коала[147].
Сборка прочтений РНК-Seq не зависит от референсного генома[113], поэтому этот метод идеально подходит для изучения экспрессии генов у немодельных организмов, для которых ещё нет готовых геномных данных. Например, база данных однонуклеотидных полиморфизмов, которая использовалась в программах по размножению псевдотсуги Мензиса, была создана при транскриптомном анализе de novo при отсутствии секвенированного генома[148]. Схожим образом гены, участвующие в развитии сердечной, мышечной и нервной тканей у омара, были идентифицированы путём сравнения транскриптомов разных тканей без использования последовательности генома. РНК-Seq также можно использовать для обнаружения ранее неизвестных белоккодирующих областей?! в уже секвенированных геномах[149].
Некодирующие РНК
Обычно транскриптомика рассматривает только мРНК клетки. Однако те же методы можно применить и к некодирующим РНК, которые участвуют в трансляции, репликации геномной ДНК, сплайсинге и регуляции транскрипции[150][151][152][153]. Многие из этих некодирующих РНК связаны с развитием болезней, в том числе рака, сердечно-сосудистых заболеваний и заболеваний нервной системы[англ.][154].
Базы данных транскриптомов
При изучении транскриптомов создаются огромные объёмы данных, которые потенциально могут быть использованы и в других проектах. Поэтому сырые или обработанные данные размещают в публичных базах данных, чтобы сделать их доступными для всего научного сообщества. Например, по состоянию на 2018 год база данных Gene Expression Omnibus содержит данные миллионов экспериментовОшибка в сносках?: Отсутствует закрывающий тег </ref>
|NCBI
|Микрочипы, РНК-Seq
|Первая база данных транскриптомов, полученных из разных источников. Первая ввела стандарты MIAME[англ.] и MINSEQE, которые регламентируют необходимые метаданные для эксперимента, чтобы он был хорошо интерпретируем и воспроизводим[155][156].
|-
|ArrayExpress[157]
|ENA[англ.]
|Микрочипы
|Импортирует наборы данных из Gene Expression Omnibus и подчиняется ей. Обработанные данные и метаданные экспериментов хранятся в ArrayExpress, а сырые прочтения — в ENA. Соответствует стандартам MIAME и MINSEQE[155][156].
|-
|Expression Atlas[англ.][158]
|EBI
|Микрочипы, РНК-Seq
|Содержит данные о тканеспецифичной экспрессии генов у животных и растений. Содержит данные вторичных анализов и их визуализацию, использует термины Gene Ontology, домены InterPro[англ.] и метаболические пути. Содержит ссылки на данные по многочисленности белков, если они имеются.
|-
|Genevestigator[англ.][159]
|Частное курирование
|Микрочипы, РНК-Seq
|Содержит справочные пояснения к публично доступным транскриптомным данным, в основном касающиеся медицины и биологии растений. Данные отдельных экспериментов нормализованы, что позволяет сравнивать экспрессию генов в различных экспериментах. Для полного доступа необходимо приобрести лицензию, бесплатно доступна лишь часть базы.
|-
|RefEx[160]
|DDBJ
|Все
|Транскриптомы, полученные из 40 различных органов человека, мыши и крысы. Данные по экспрессии генов визуализированы в виде тепловой карты, наложенной на трёхмерную модель анатомической структуры.
|-
|NONCODE[161]
|noncode.org
|РНК-Seq
|Некодирующие РНК (кроме тРНК и рРНК)
|}
Примечания
- ↑ Medline trend: automated yearly statistics of PubMed results for any query . dan.corlan.net. Дата обращения: 5 октября 2016.
- ↑ 1 2 Sutcliffe J. G., Milner R. J., Bloom F. E., Lerner R. A. Common 82-nucleotide sequence unique to brain RNA. (англ.) // Proceedings Of The National Academy Of Sciences Of The United States Of America. — 1982. — August (vol. 79, no. 16). — P. 4942—4946. — PMID 6956902.
- ↑ Pan Qun, Shai O., Lee L. J., Frey B. J., Blencowe B. J. Deep Surveying of Alternative Splicing Complexity in the Human Transcriptome by High-Throughput Sequencing // Nature Genetics. — 2008. — Vol. 40, no. 12. — P. 1413—1415. — doi:10.1038/ng.259. — PMID 18978789.
- ↑ 1 2 Sultan M., Schulz M. H., Richard H., Magen A., Klingenhoff A., Scherf M., Seifert M., Borodina T., Soldatov A., Parkhomchuk D., Schmidt D., O'Keeffe S., Haas S., Vingron M., Lehrach H., Yaspo M. L. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. (англ.) // Science (New York, N.Y.). — 2008. — 15 August (vol. 321, no. 5891). — P. 956—960. — doi:10.1126/science.1160342. — PMID 18599741.
- ↑ Lappalainen T., Sammeth M., Friedländer M. R., 't Hoen P. A., Monlong J., Rivas M. A., Gonzàlez-Porta M., Kurbatova N., Griebel T., Ferreira P. G., Barann M., Wieland T., Greger L., van Iterson M., Almlöf J., Ribeca P., Pulyakhina I., Esser D., Giger T., Tikhonov A., Sultan M., Bertier G., MacArthur D. G., Lek M., Lizano E., Buermans H. P., Padioleau I., Schwarzmayr T., Karlberg O., Ongen H., Kilpinen H., Beltran S., Gut M., Kahlem K., Amstislavskiy V., Stegle O., Pirinen M., Montgomery S. B., Donnelly P., McCarthy M. I., Flicek P., Strom T. M., Lehrach H., Schreiber S., Sudbrak R., Carracedo A., Antonarakis S. E., Häsler R., Syvänen A. C., van Ommen G. J., Brazma A., Meitinger T., Rosenstiel P., Guigó R., Gut I. G., Estivill X., Dermitzakis E. T. Transcriptome and genome sequencing uncovers functional variation in humans. (англ.) // Nature. — 2013. — 26 September (vol. 501, no. 7468). — P. 506—511. — doi:10.1038/nature12531. — PMID 24037378.
- ↑ 1 2 Melé M., Ferreira P. G., Reverter F., DeLuca D. S., Monlong J., Sammeth M., Young T. R., Goldmann J. M., Pervouchine D. D., Sullivan T. J., Johnson R., Segrè A. V., Djebali S., Niarchou A., GTEx Consortium., Wright F. A., Lappalainen T., Calvo M., Getz G., Dermitzakis E. T., Ardlie K. G., Guigó R. Human genomics. The human transcriptome across tissues and individuals. (англ.) // Science (New York, N.Y.). — 2015. — 8 May (vol. 348, no. 6235). — P. 660—665. — doi:10.1126/science.aaa0355. — PMID 25954002.
- ↑ Kolodziejczyk A. A., Kim J. K., Svensson V., Marioni J. C., Teichmann S. A. The technology and biology of single-cell RNA sequencing. (англ.) // Molecular Cell. — 2015. — 21 May (vol. 58, no. 4). — P. 610—620. — doi:10.1016/j.molcel.2015.04.005. — PMID 26000846.
- ↑ 1 2 3 4 5 6 McGettigan P. A. Transcriptomics in the RNA-seq era. (англ.) // Current Opinion In Chemical Biology. — 2013. — February (vol. 17, no. 1). — P. 4—11. — doi:10.1016/j.cbpa.2012.12.008. — PMID 23290152.
- ↑ 1 2 3 4 5 6 7 8 9 10 11 Wang Z., Gerstein M., Snyder M. RNA-Seq: a revolutionary tool for transcriptomics. (англ.) // Nature Reviews. Genetics. — 2009. — January (vol. 10, no. 1). — P. 57—63. — doi:10.1038/nrg2484. — PMID 19015660.
- ↑ 1 2 3 Ozsolak F., Milos P. M. RNA sequencing: advances, challenges and opportunities. (англ.) // Nature Reviews. Genetics. — 2011. — February (vol. 12, no. 2). — P. 87—98. — doi:10.1038/nrg2934. — PMID 21191423.
- ↑ 1 2 3 Morozova O., Hirst M., Marra M. A. Applications of new sequencing technologies for transcriptome analysis. (англ.) // Annual Review Of Genomics And Human Genetics. — 2009. — Vol. 10. — P. 135—151. — doi:10.1146/annurev-genom-082908-145957. — PMID 19715439.
- ↑ Sim G. K., Kafatos F. C., Jones C. W., Koehler M. D., Efstratiadis A., Maniatis T. Use of a cDNA library for studies on evolution and developmental expression of the chorion multigene families. (англ.) // Cell. — 1979. — December (vol. 18, no. 4). — P. 1303—1316. — PMID 519770.
- ↑ Putney S. D., Herlihy W. C., Schimmel P. A new troponin T and cDNA clones for 13 different muscle proteins, found by shotgun sequencing. (англ.) // Nature. — 1983. — 21 April (vol. 302, no. 5910). — P. 718—721. — PMID 6687628.
- ↑ 1 2 3 Marra M. A., Hillier L., Waterston R. H. Expressed sequence tags--ESTablishing bridges between genomes. (англ.) // Trends In Genetics : TIG. — 1998. — January (vol. 14, no. 1). — P. 4—7. — doi:10.1016/S0168-9525(97)01355-3. — PMID 9448457.
- ↑ Alwine J. C., Kemp D. J., Stark G. R. Method for detection of specific RNAs in agarose gels by transfer to diazobenzyloxymethyl-paper and hybridization with DNA probes. (англ.) // Proceedings Of The National Academy Of Sciences Of The United States Of America. — 1977. — December (vol. 74, no. 12). — P. 5350—5354. — PMID 414220.
- ↑ Becker-André M., Hahlbrock K. Absolute mRNA quantification using the polymerase chain reaction (PCR). A novel approach by a PCR aided transcript titration assay (PATTY). (англ.) // Nucleic Acids Research. — 1989. — 25 November (vol. 17, no. 22). — P. 9437—9446. — PMID 2479917.
- ↑ Piétu G., Mariage-Samson R., Fayein N. A., Matingou C., Eveno E., Houlgatte R., Decraene C., Vandenbrouck Y., Tahi F., Devignes M. D., Wirkner U., Ansorge W., Cox D., Nagase T., Nomura N., Auffray C. The Genexpress IMAGE knowledge base of the human brain transcriptome: a prototype integrated resource for functional and computational genomics. (англ.) // Genome Research. — 1999. — February (vol. 9, no. 2). — P. 195—209. — PMID 10022985.
- ↑ Velculescu V. E., Zhang L., Zhou W., Vogelstein J., Basrai M. A., Bassett Jr. D. E., Hieter P., Vogelstein B., Kinzler K. W. Characterization of the yeast transcriptome. (англ.) // Cell. — 1997. — 24 January (vol. 88, no. 2). — P. 243—251. — PMID 9008165.
- ↑ 1 2 3 Velculescu V. E., Zhang L., Vogelstein B., Kinzler K. W. Serial analysis of gene expression. (англ.) // Science (New York, N.Y.). — 1995. — 20 October (vol. 270, no. 5235). — P. 484—487. — PMID 7570003.
- ↑ Audic S., Claverie J. M. The significance of digital gene expression profiles. (англ.) // Genome Research. — 1997. — October (vol. 7, no. 10). — P. 986—995. — PMID 9331369.
- ↑ 1 2 3 4 5 6 Mantione K. J., Kream R. M., Kuzelova H., Ptacek R., Raboch J., Samuel J. M., Stefano G. B. Comparing bioinformatic gene expression profiling methods: microarray and RNA-Seq. (англ.) // Medical Science Monitor Basic Research. — 2014. — 23 August (vol. 20). — P. 138—142. — PMID 25149683.
- ↑ Zhao S., Fung-Leung W. P., Bittner A., Ngo K., Liu X. Comparison of RNA-Seq and microarray in transcriptome profiling of activated T cells. (англ.) // PloS One. — 2014. — Vol. 9, no. 1. — P. e78644—78644. — doi:10.1371/journal.pone.0078644. — PMID 24454679.
- ↑ 1 2 Hashimshony T., Wagner F., Sher N., Yanai I. CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification. (англ.) // Cell Reports. — 2012. — 27 September (vol. 2, no. 3). — P. 666—673. — doi:10.1016/j.celrep.2012.08.003. — PMID 22939981.
- ↑ Stears R. L., Getts R. C., Gullans S. R. A novel, sensitive detection system for high-density microarrays using dendrimer technology. (англ.) // Physiological Genomics. — 2000. — 9 August (vol. 3, no. 2). — P. 93—99. — doi:10.1152/physiolgenomics.2000.3.2.93. — PMID 11015604.
- ↑ 1 2 3 4 5 6 Illumina RNA-Seq Data Comparison with Gene Expression Microarrays . European Pharmaceutical Review.
- ↑ 1 2 Black M. B., Parks B. B., Pluta L., Chu T. M., Allen B. C., Wolfinger R. D., Thomas R. S. Comparison of microarrays and RNA-seq for gene expression analyses of dose-response experiments. (англ.) // Toxicological Sciences : An Official Journal Of The Society Of Toxicology. — 2014. — February (vol. 137, no. 2). — P. 385—403. — doi:10.1093/toxsci/kft249. — PMID 24194394.
- ↑ Marioni J. C., Mason C. E., Mane S. M., Stephens M., Gilad Y. RNA-seq: an assessment of technical reproducibility and comparison with gene expression arrays. (англ.) // Genome Research. — 2008. — September (vol. 18, no. 9). — P. 1509—1517. — doi:10.1101/gr.079558.108. — PMID 18550803.
- ↑ SEQC/MAQC-III Consortium. A comprehensive assessment of RNA-seq accuracy, reproducibility and information content by the Sequencing Quality Control Consortium. (англ.) // Nature Biotechnology. — 2014. — September (vol. 32, no. 9). — P. 903—914. — doi:10.1038/nbt.2957. — PMID 25150838.
- ↑ Chen J. J., Hsueh H. M., Delongchamp R. R., Lin C. J., Tsai C. A. Reproducibility of microarray data: a further analysis of microarray quality control (MAQC) data. (англ.) // BMC Bioinformatics. — 2007. — 25 October (vol. 8). — P. 412—412. — doi:10.1186/1471-2105-8-412. — PMID 17961233.
- ↑ Larkin J. E., Frank B. C., Gavras H., Sultana R., Quackenbush J. Independence and reproducibility across microarray platforms. (англ.) // Nature Methods. — 2005. — May (vol. 2, no. 5). — P. 337—344. — doi:10.1038/nmeth757. — PMID 15846360.
- ↑ 1 2 Nelson N. J. Microarrays have arrived: gene expression tool matures. (англ.) // Journal Of The National Cancer Institute. — 2001. — 4 April (vol. 93, no. 7). — P. 492—494. — PMID 11287436.
- ↑ Schena M., Shalon D., Davis R. W., Brown P. O. Quantitative monitoring of gene expression patterns with a complementary DNA microarray. (англ.) // Science (New York, N.Y.). — 1995. — Vol. 270, no. 5235. — P. 467—470. — PMID 7569999.
- ↑ 1 2 Pozhitkov A. E., Tautz D., Noble P. A. Oligonucleotide microarrays: widely applied--poorly understood. (англ.) // Briefings In Functional Genomics & Proteomics. — 2007. — June (vol. 6, no. 2). — P. 141—148. — doi:10.1093/bfgp/elm014. — PMID 17644526.
- ↑ 1 2 3 Heller M. J. DNA microarray technology: devices, systems, and applications. (англ.) // Annual Review Of Biomedical Engineering. — 2002. — Vol. 4. — P. 129—153. — doi:10.1146/annurev.bioeng.4.020702.153438. — PMID 12117754.
- ↑ McLachlan, Geoffrey J. Analyzing Microarray Gene Expression Data / Geoffrey J. McLachlan, Kim-Anh Do, Christopher Ambroise. — Hoboken : John Wiley & Sons, 2005. — ISBN 978-0-471-72612-8.Ошибка: некорректно задана дата установки (исправьте через подстановку шаблона)
- ↑ Brenner S., Johnson M., Bridgham J., Golda G., Lloyd D. H., Johnson D., Luo S., McCurdy S., Foy M., Ewan M., Roth R., George D., Eletr S., Albrecht G., Vermaas E., Williams S. R., Moon K., Burcham T., Pallas M., DuBridge R. B., Kirchner J., Fearon K., Mao J., Corcoran K. Gene expression analysis by massively parallel signature sequencing (MPSS) on microbead arrays. (англ.) // Nature Biotechnology. — 2000. — June (vol. 18, no. 6). — P. 630—634. — doi:10.1038/76469. — PMID 10835600.
- ↑ Meyers B. C., Vu T. H., Tej S. S., Ghazal H., Matvienko M., Agrawal V., Ning J., Haudenschild C. D. Analysis of the transcriptional complexity of Arabidopsis thaliana by massively parallel signature sequencing. (англ.) // Nature Biotechnology. — 2004. — August (vol. 22, no. 8). — P. 1006—1011. — doi:10.1038/nbt992. — PMID 15247925.
- ↑ 1 2 Bainbridge M. N., Warren R. L., Hirst M., Romanuik T., Zeng T., Go A., Delaney A., Griffith M., Hickenbotham M., Magrini V., Mardis E. R., Sadar M. D., Siddiqui A. S., Marra M. A., Jones S. J. Analysis of the prostate cancer cell line LNCaP transcriptome using a sequencing-by-synthesis approach. (англ.) // BMC Genomics. — 2006. — 29 September (vol. 7). — P. 246—246. — doi:10.1186/1471-2164-7-246. — PMID 17010196.
- ↑ Mortazavi A., Williams B. A., McCue K., Schaeffer L., Wold B. Mapping and quantifying mammalian transcriptomes by RNA-Seq. (англ.) // Nature Methods. — 2008. — July (vol. 5, no. 7). — P. 621—628. — doi:10.1038/nmeth.1226. — PMID 18516045.
- ↑ Wilhelm B. T., Marguerat S., Watt S., Schubert F., Wood V., Goodhead I., Penkett C. J., Rogers J., Bähler J. Dynamic repertoire of a eukaryotic transcriptome surveyed at single-nucleotide resolution. (англ.) // Nature. — 2008. — 26 June (vol. 453, no. 7199). — P. 1239—1243. — doi:10.1038/nature07002. — PMID 18488015.
- ↑ Sultan M., Schulz M. H., Richard H., Magen A., Klingenhoff A., Scherf M., Seifert M., Borodina T., Soldatov A., Parkhomchuk D., Schmidt D., O'Keeffe S., Haas S., Vingron M., Lehrach H., Yaspo M. L. A global view of gene activity and alternative splicing by deep sequencing of the human transcriptome. (англ.) // Science (New York, N.Y.). — 2008. — 15 August (vol. 321, no. 5891). — P. 956—960. — doi:10.1126/science.1160342. — PMID 18599741.
- ↑ 1 2 Chomczynski P., Sacchi N. Single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extraction. (англ.) // Analytical Biochemistry. — 1987. — April (vol. 162, no. 1). — P. 156—159. — doi:10.1006/abio.1987.9999. — PMID 2440339.
- ↑ 1 2 Chomczynski P., Sacchi N. The single-step method of RNA isolation by acid guanidinium thiocyanate-phenol-chloroform extraction: twenty-something years on. (англ.) // Nature Protocols. — 2006. — Vol. 1, no. 2. — P. 581—585. — doi:10.1038/nprot.2006.83. — PMID 17406285.
- ↑ Grillo M., Margolis F. L. Use of reverse transcriptase polymerase chain reaction to monitor expression of intronless genes. (англ.) // BioTechniques. — 1990. — September (vol. 9, no. 3). — P. 262—264. — PMID 1699561.
- ↑ Bryant S., Manning D. L. Isolation of messenger RNA. (англ.) // Methods In Molecular Biology (Clifton, N.J.). — 1998. — Vol. 86. — P. 61—64. — doi:10.1385/0-89603-494-1:61. — PMID 9664454.
- ↑ Zhao W., He X., Hoadley K. A., Parker J. S., Hayes D. N., Perou C. M. Comparison of RNA-Seq by poly (A) capture, ribosomal RNA depletion, and DNA microarray for expression profiling. (англ.) // BMC Genomics. — 2014. — 2 June (vol. 15). — P. 419—419. — doi:10.1186/1471-2164-15-419. — PMID 24888378.
- ↑ Close T. J., Wanamaker S. I., Caldo R. A., Turner S. M., Ashlock D. A., Dickerson J. A., Wing R. A., Muehlbauer G. J., Kleinhofs A., Wise R. P. A new resource for cereal genomics: 22K barley GeneChip comes of age. (англ.) // Plant Physiology. — 2004. — March (vol. 134, no. 3). — P. 960—968. — doi:10.1104/pp.103.034462. — PMID 15020760.
- ↑ 1 2 3 4 5 Lowe R., Shirley N., Bleackley M., Dolan S., Shafee T. Transcriptomics technologies. (англ.) // PLoS Computational Biology. — 2017. — May (vol. 13, no. 5). — P. e1005457—1005457. — doi:10.1371/journal.pcbi.1005457. — PMID 28545146.
- ↑ 1 2 Shiraki T., Kondo S., Katayama S., Waki K., Kasukawa T., Kawaji H., Kodzius R., Watahiki A., Nakamura M., Arakawa T., Fukuda S., Sasaki D., Podhajska A., Harbers M., Kawai J., Carninci P., Hayashizaki Y. Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage. (англ.) // Proceedings Of The National Academy Of Sciences Of The United States Of America. — 2003. — 23 December (vol. 100, no. 26). — P. 15776—15781. — doi:10.1073/pnas.2136655100. — PMID 14663149.
- ↑ Romanov V., Davidoff S. N., Miles A. R., Grainger D. W., Gale B. K., Brooks B. D. A critical comparison of protein microarray fabrication technologies. (англ.) // The Analyst. — 2014. — 21 March (vol. 139, no. 6). — P. 1303—1326. — doi:10.1039/c3an01577g. — PMID 24479125.
- ↑ 1 2 Barbulovic-Nad I., Lucente M., Sun Y., Zhang M., Wheeler A. R., Bussmann M. Bio-microarray fabrication techniques--a review. (англ.) // Critical Reviews In Biotechnology. — 2006. — October (vol. 26, no. 4). — P. 237—259. — doi:10.1080/07388550600978358. — PMID 17095434.
- ↑ Auburn R. P., Kreil D. P., Meadows L. A., Fischer B., Matilla S. S., Russell S. Robotic spotting of cDNA and oligonucleotide microarrays. (англ.) // Trends In Biotechnology. — 2005. — July (vol. 23, no. 7). — P. 374—379. — doi:10.1016/j.tibtech.2005.04.002. — PMID 15978318.
- ↑ Shalon D., Smith S. J., Brown P. O. A DNA microarray system for analyzing complex DNA samples using two-color fluorescent probe hybridization. (англ.) // Genome Research. — 1996. — July (vol. 6, no. 7). — P. 639—645. — PMID 8796352.
- ↑ Lockhart D. J., Dong H., Byrne M. C., Follettie M. T., Gallo M. V., Chee M. S., Mittmann M., Wang C., Kobayashi M., Horton H., Brown E. L. Expression monitoring by hybridization to high-density oligonucleotide arrays. (англ.) // Nature Biotechnology. — 1996. — December (vol. 14, no. 13). — P. 1675—1680. — doi:10.1038/nbt1296-1675. — PMID 9634850.
- ↑ Irizarry R. A., Bolstad B. M., Collin F., Cope L. M., Hobbs B., Speed T. P. Summaries of Affymetrix GeneChip probe level data. (англ.) // Nucleic Acids Research. — 2003. — 15 February (vol. 31, no. 4). — P. e15—15. — PMID 12582260.
- ↑ Selzer R. R., Richmond T. A., Pofahl N. J., Green R. D., Eis P. S., Nair P., Brothman A. R., Stallings R. L. Analysis of chromosome breakpoints in neuroblastoma at sub-kilobase resolution using fine-tiling oligonucleotide array CGH. (англ.) // Genes, Chromosomes & Cancer. — 2005. — November (vol. 44, no. 3). — P. 305—319. — doi:10.1002/gcc.20243. — PMID 16075461.
- ↑ Svensson V., Vento-Tormo R., Teichmann S. A. Exponential scaling of single-cell RNA-seq in the past decade. (англ.) // Nature Protocols. — 2018. — April (vol. 13, no. 4). — P. 599—604. — doi:10.1038/nprot.2017.149. — PMID 29494575.
- ↑ Tachibana Chris. Transcriptomics today: Microarrays, RNA-seq, and more (англ.) // Science. — 2015. — 31 July. — ISSN 0036-8075. — doi:10.1126/science.opms.p1500095.
- ↑ 1 2 Nagalakshmi U., Wang Z., Waern K., Shou C., Raha D., Gerstein M., Snyder M. The transcriptional landscape of the yeast genome defined by RNA sequencing. (англ.) // Science (New York, N.Y.). — 2008. — 6 June (vol. 320, no. 5881). — P. 1344—1349. — doi:10.1126/science.1158441. — PMID 18451266.
- ↑ Su Z., Fang H., Hong H., Shi L., Zhang W., Zhang W., Zhang Y., Dong Z., Lancashire L. J., Bessarabova M., Yang X., Ning B., Gong B., Meehan J., Xu J., Ge W., Perkins R., Fischer M., Tong W. An investigation of biomarkers derived from legacy microarray data for their utility in the RNA-seq era. (англ.) // Genome Biology. — 2014. — 3 December (vol. 15, no. 12). — P. 523—523. — doi:10.1186/s13059-014-0523-y. — PMID 25633159.
- ↑ Lee J. H., Daugharthy E. R., Scheiman J., Kalhor R., Yang J. L., Ferrante T. C., Terry R., Jeanty S. S., Li C., Amamoto R., Peters D. T., Turczyk B. M., Marblestone A. H., Inverso S. A., Bernard A., Mali P., Rios X., Aach J., Church G. M. Highly multiplexed subcellular RNA sequencing in situ. (англ.) // Science (New York, N.Y.). — 2014. — 21 March (vol. 343, no. 6177). — P. 1360—1363. — doi:10.1126/science.1250212. — PMID 24578530.
- ↑ 1 2 Shendure J., Ji H. Next-generation DNA sequencing. (англ.) // Nature Biotechnology. — 2008. — October (vol. 26, no. 10). — P. 1135—1145. — doi:10.1038/nbt1486. — PMID 18846087.
- ↑ Lahens N. F., Kavakli I. H., Zhang R., Hayer K., Black M. B., Dueck H., Pizarro A., Kim J., Irizarry R., Thomas R. S., Grant G. R., Hogenesch J. B. IVT-seq reveals extreme bias in RNA sequencing. (англ.) // Genome Biology. — 2014. — 30 June (vol. 15, no. 6). — P. 86—86. — doi:10.1186/gb-2014-15-6-r86. — PMID 24981968.
- ↑ 1 2 Knierim E., Lucke B., Schwarz J. M., Schuelke M., Seelow D. Systematic comparison of three methods for fragmentation of long-range PCR products for next generation sequencing. (англ.) // PloS One. — 2011. — Vol. 6, no. 11. — P. e28240—28240. — doi:10.1371/journal.pone.0028240. — PMID 22140562.
- ↑ Routh A., Head S. R., Ordoukhanian P., Johnson J. E. ClickSeq: Fragmentation-Free Next-Generation Sequencing via Click Ligation of Adaptors to Stochastically Terminated 3'-Azido cDNAs. (англ.) // Journal Of Molecular Biology. — 2015. — 14 August (vol. 427, no. 16). — P. 2610—2616. — doi:10.1016/j.jmb.2015.06.011. — PMID 26116762.
- ↑ Parekh S., Ziegenhain C., Vieth B., Enard W., Hellmann I. The impact of amplification on differential expression analyses by RNA-seq. (англ.) // Scientific Reports. — 2016. — 9 May (vol. 6). — P. 25533—25533. — doi:10.1038/srep25533. — PMID 27156886.
- ↑ Shanker S., Paulson A., Edenberg H. J., Peak A., Perera A., Alekseyev Y. O., Beckloff N., Bivens N. J., Donnelly R., Gillaspy A. F., Grove D., Gu W., Jafari N., Kerley-Hamilton J. S., Lyons R. H., Tepper C., Nicolet C. M. Evaluation of commercially available RNA amplification kits for RNA sequencing using very low input amounts of total RNA. (англ.) // Journal Of Biomolecular Techniques : JBT. — 2015. — April (vol. 26, no. 1). — P. 4—18. — doi:10.7171/jbt.15-2601-001. — PMID 25649271.
- ↑ Jiang L., Schlesinger F., Davis C. A., Zhang Y., Li R., Salit M., Gingeras T. R., Oliver B. Synthetic spike-in standards for RNA-seq experiments. (англ.) // Genome Research. — 2011. — September (vol. 21, no. 9). — P. 1543—1551. — doi:10.1101/gr.121095.111. — PMID 21816910.
- ↑ Kivioja T., Vähärautio A., Karlsson K., Bonke M., Enge M., Linnarsson S., Taipale J. Counting absolute numbers of molecules using unique molecular identifiers. (англ.) // Nature Methods. — 2011. — 20 November (vol. 9, no. 1). — P. 72—74. — doi:10.1038/nmeth.1778. — PMID 22101854.
- ↑ Tang F., Barbacioru C., Wang Y., Nordman E., Lee C., Xu N., Wang X., Bodeau J., Tuch B. B., Siddiqui A., Lao K., Surani M. A. mRNA-Seq whole-transcriptome analysis of a single cell. (англ.) // Nature Methods. — 2009. — May (vol. 6, no. 5). — P. 377—382. — doi:10.1038/nmeth.1315. — PMID 19349980.
- ↑ Islam S., Zeisel A., Joost S., La Manno G., Zajac P., Kasper M., Lönnerberg P., Linnarsson S. Quantitative single-cell RNA-seq with unique molecular identifiers. (англ.) // Nature Methods. — 2014. — February (vol. 11, no. 2). — P. 163—166. — doi:10.1038/nmeth.2772. — PMID 24363023.
- ↑ Jaitin D. A., Kenigsberg E., Keren-Shaul H., Elefant N., Paul F., Zaretsky I., Mildner A., Cohen N., Jung S., Tanay A., Amit I. Massively parallel single-cell RNA-seq for marker-free decomposition of tissues into cell types. (англ.) // Science (New York, N.Y.). — 2014. — 14 February (vol. 343, no. 6172). — P. 776—779. — doi:10.1126/science.1247651. — PMID 24531970.
- ↑ Levin J. Z., Yassour M., Adiconis X., Nusbaum C., Thompson D. A., Friedman N., Gnirke A., Regev A. Comprehensive comparative analysis of strand-specific RNA sequencing methods. (англ.) // Nature Methods. — 2010. — September (vol. 7, no. 9). — P. 709—715. — doi:10.1038/nmeth.1491. — PMID 20711195.
- ↑ Quail M. A., Smith M., Coupland P., Otto T. D., Harris S. R., Connor T. R., Bertoni A., Swerdlow H. P., Gu Y. A tale of three next generation sequencing platforms: comparison of Ion Torrent, Pacific Biosciences and Illumina MiSeq sequencers. (англ.) // BMC genomics. — 2012. — Vol. 13. — P. 341. — doi:10.1186/1471-2164-13-341. — PMID 22827831.
- ↑ 1 2 Liu L., Li Y., Li S., Hu N., He Y., Pong R., Lin D., Lu L., Law M. Comparison of next-generation sequencing systems. (англ.) // Journal Of Biomedicine & Biotechnology. — 2012. — Vol. 2012. — P. 251364—251364. — doi:10.1155/2012/251364. — PMID 22829749.
- ↑ SRA . Дата обращения: 6 октября 2016.
- ↑ Loman N. J., Misra R. V., Dallman T. J., Constantinidou C., Gharbia S. E., Wain J., Pallen M. J. Performance comparison of benchtop high-throughput sequencing platforms. (англ.) // Nature Biotechnology. — 2012. — May (vol. 30, no. 5). — P. 434—439. — doi:10.1038/nbt.2198. — PMID 22522955.
- ↑ Goodwin S., McPherson J. D., McCombie W. R. Coming of age: ten years of next-generation sequencing technologies. (англ.) // Nature Reviews. Genetics. — 2016. — 17 May (vol. 17, no. 6). — P. 333—351. — doi:10.1038/nrg.2016.49. — PMID 27184599.
- ↑ Garalde D. R., Snell E. A., Jachimowicz D., Sipos B., Lloyd J. H., Bruce M., Pantic N., Admassu T., James P., Warland A., Jordan M., Ciccone J., Serra S., Keenan J., Martin S., McNeill L., Wallace E. J., Jayasinghe L., Wright C., Blasco J., Young S., Brocklebank D., Juul S., Clarke J., Heron A. J., Turner D. J. Highly parallel direct RNA sequencing on an array of nanopores. (англ.) // Nature Methods. — 2018. — March (vol. 15, no. 3). — P. 201—206. — doi:10.1038/nmeth.4577. — PMID 29334379.
- ↑ Loman N. J., Quick J., Simpson J. T. A complete bacterial genome assembled de novo using only nanopore sequencing data. (англ.) // Nature Methods. — 2015. — August (vol. 12, no. 8). — P. 733—735. — doi:10.1038/nmeth.3444. — PMID 26076426.
- ↑ Ozsolak F., Platt A. R., Jones D. R., Reifenberger J. G., Sass L. E., McInerney P., Thompson J. F., Bowers J., Jarosz M., Milos P. M. Direct RNA sequencing. (англ.) // Nature. — 2009. — 8 October (vol. 461, no. 7265). — P. 814—818. — doi:10.1038/nature08390. — PMID 19776739.
- ↑ 1 2 Hart S. N., Therneau T. M., Zhang Y., Poland G. A., Kocher J. P. Calculating sample size estimates for RNA sequencing data. (англ.) // Journal Of Computational Biology : A Journal Of Computational Molecular Cell Biology. — 2013. — December (vol. 20, no. 12). — P. 970—978. — doi:10.1089/cmb.2012.0283. — PMID 23961961.
- ↑ 1 2 3 Conesa A., Madrigal P., Tarazona S., Gomez-Cabrero D., Cervera A., McPherson A., Szcześniak M. W., Gaffney D. J., Elo L. L., Zhang X., Mortazavi A. A survey of best practices for RNA-seq data analysis. (англ.) // Genome Biology. — 2016. — 26 January (vol. 17). — P. 13—13. — doi:10.1186/s13059-016-0881-8. — PMID 26813401.
- ↑ Rapaport F., Khanin R., Liang Y., Pirun M., Krek A., Zumbo P., Mason C. E., Socci N. D., Betel D. Comprehensive evaluation of differential gene expression analysis methods for RNA-seq data. (англ.) // Genome Biology. — 2013. — Vol. 14, no. 9. — P. 95—95. — doi:10.1186/gb-2013-14-9-r95. — PMID 24020486.
- ↑ An integrated encyclopedia of DNA elements in the human genome. (англ.) // Nature. — 2012. — Vol. 489, no. 7414. — P. 57—74. — doi:10.1038/nature11247. — PMID 22955616.
- ↑ Sloan C. A., Chan E. T., Davidson J. M., Malladi V. S., Strattan J. S., Hitz B. C., Gabdank I., Narayanan A. K., Ho M., Lee B. T., Rowe L. D., Dreszer T. R., Roe G., Podduturi N. R., Tanaka F., Hong E. L., Cherry J. M. ENCODE data at the ENCODE portal. (англ.) // Nucleic Acids Research. — 2016. — 4 January (vol. 44, no. D1). — P. D726—732. — doi:10.1093/nar/gkv1160. — PMID 26527727.
- ↑ ENCODE: Encyclopedia of DNA Elements . encodeproject.org.
- ↑ 1 2 Ritchie M. E., Phipson B., Wu D., Hu Y., Law C. W., Shi W., Smyth G. K. limma powers differential expression analyses for RNA-sequencing and microarray studies. (англ.) // Nucleic Acids Research. — 2015. — 20 April (vol. 43, no. 7). — P. e47—47. — doi:10.1093/nar/gkv007. — PMID 25605792.
- ↑ 1 2 Robinson M. D., McCarthy D. J., Smyth G. K. edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. (англ.) // Bioinformatics. — 2010. — 1 January (vol. 26, no. 1). — P. 139—140. — doi:10.1093/bioinformatics/btp616. — PMID 19910308.
- ↑ 1 2 Huber W., Carey V. J., Gentleman R., Anders S., Carlson M., Carvalho B. S., Bravo H. C., Davis S., Gatto L., Girke T., Gottardo R., Hahne F., Hansen K. D., Irizarry R. A., Lawrence M., Love M. I., MacDonald J., Obenchain V., Oleś A. K., Pagès H., Reyes A., Shannon P., Smyth G. K., Tenenbaum D., Waldron L., Morgan M. Orchestrating high-throughput genomic analysis with Bioconductor. (англ.) // Nature Methods. — 2015. — February (vol. 12, no. 2). — P. 115—121. — doi:10.1038/nmeth.3252. — PMID 25633503.
- ↑ Smyth, G. K. Bioinformatics and Computational Biology Solutions Using R and Bioconductor : [англ.]. — Springer, New York, NY, 2005. — P. 397–420. — ISBN 9780387251462. — doi:10.1007/0-387-29362-0_23.
- ↑ Steve., Russell,. Microarray Technology in Practice.. — Burlington : Elsevier, 2008. — ISBN 9780080919768.
- ↑ 1 2 Haas B. J., Papanicolaou A., Yassour M., Grabherr M., Blood P. D., Bowden J., Couger M. B., Eccles D., Li B., Lieber M., MacManes M. D., Ott M., Orvis J., Pochet N., Strozzi F., Weeks N., Westerman R., William T., Dewey C. N., Henschel R., LeDuc R. D., Friedman N., Regev A. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis. (англ.) // Nature Protocols. — 2013. — August (vol. 8, no. 8). — P. 1494—1512. — doi:10.1038/nprot.2013.084. — PMID 23845962.
- ↑ 1 2 Pertea M., Pertea G. M., Antonescu C. M., Chang T. C., Mendell J. T., Salzberg S. L. StringTie enables improved reconstruction of a transcriptome from RNA-seq reads. (англ.) // Nature Biotechnology. — 2015. — March (vol. 33, no. 3). — P. 290—295. — doi:10.1038/nbt.3122. — PMID 25690850.
- ↑ Kodama Y., Shumway M., Leinonen R., International Nucleotide Sequence Database Collaboration. The Sequence Read Archive: explosive growth of sequencing data. (англ.) // Nucleic Acids Research. — 2012. — January (vol. 40). — P. D54—56. — doi:10.1093/nar/gkr854. — PMID 22009675.
- ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносок#11752295
не указан текст - ↑ Petrov Anton, Shams Soheil. Microarray Image Processing and Quality Control (англ.) // The Journal of VLSI Signal Processing-Systems for Signal, Image, and Video Technology. — 2004. — November (vol. 38, no. 3). — P. 211—226. — ISSN 0922-5773. — doi:10.1023/B:VLSI.0000042488.08307.ad.
- ↑ Petrov Anton, Shams Soheil. Microarray Image Processing and Quality Control (англ.) // The Journal of VLSI Signal Processing-Systems for Signal, Image, and Video Technology. — 2004. — November (vol. 38, no. 3). — P. 211—226. — ISSN 0922-5773. — doi:10.1023/B:VLSI.0000042488.08307.ad.
- ↑ Kwon, Young Min. High-Throughput Next Generation Sequencing / Young Min Kwon, Steven Ricke. — SpringerLink. — doi:10.1007/978-1-61779-089-8.
- ↑ Nakamura K., Oshima T., Morimoto T., Ikeda S., Yoshikawa H., Shiwa Y., Ishikawa S., Linak M. C., Hirai A., Takahashi H., Altaf-Ul-Amin M., Ogasawara N., Kanaya S. Sequence-specific error profile of Illumina sequencers. (англ.) // Nucleic Acids Research. — 2011. — July (vol. 39, no. 13). — P. e90—90. — doi:10.1093/nar/gkr344. — PMID 21576222.
- ↑ Van Verk M. C., Hickman R., Pieterse C. M., Van Wees S. C. RNA-Seq: revelation of the messengers. (англ.) // Trends In Plant Science. — 2013. — April (vol. 18, no. 4). — P. 175—179. — doi:10.1016/j.tplants.2013.02.001. — PMID 23481128.
- ↑ FastQC: A Quality Control tool for High Throughput Sequence Data . Babraham Bioinformatics. Дата обращения: 23 мая 2017.
- ↑ Trapnell C., Pachter L., Salzberg S. L. TopHat: discovering splice junctions with RNA-Seq. (англ.) // Bioinformatics. — 2009. — Vol. 25, no. 9. — P. 1105—1111. — doi:10.1093/bioinformatics/btp120. — PMID 19289445.
- ↑ 1 2 Trapnell C., Williams B. A., Pertea G., Mortazavi A., Kwan G., van Baren M. J., Salzberg S. L., Wold B. J., Pachter L. Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation. (англ.) // Nature Biotechnology. — 2010. — May (vol. 28, no. 5). — P. 511—515. — doi:10.1038/nbt.1621. — PMID 20436464.
- ↑ Miller J. R., Koren S., Sutton G. Assembly algorithms for next-generation sequencing data. (англ.) // Genomics. — 2010. — June (vol. 95, no. 6). — P. 315—327. — doi:10.1016/j.ygeno.2010.03.001. — PMID 20211242.
- ↑ O'Neil S. T., Emrich S. J. Assessing De Novo transcriptome assembly metrics for consistency and utility. (англ.) // BMC Genomics. — 2013. — 9 July (vol. 14). — P. 465—465. — doi:10.1186/1471-2164-14-465. — PMID 23837739.
- ↑ Smith-Unna R., Boursnell C., Patro R., Hibberd J. M., Kelly S. TransRate: reference-free quality assessment of de novo transcriptome assemblies. (англ.) // Genome Research. — 2016. — August (vol. 26, no. 8). — P. 1134—1144. — doi:10.1101/gr.196469.115. — PMID 27252236.
- ↑ Li B., Fillmore N., Bai Y., Collins M., Thomson J. A., Stewart R., Dewey C. N. Evaluation of de novo transcriptome assemblies from RNA-Seq data. (англ.) // Genome Biology. — 2014. — 21 December (vol. 15, no. 12). — P. 553—553. — doi:10.1186/s13059-014-0553-5. — PMID 25608678.
- ↑ Zerbino D. R., Birney E. Velvet: algorithms for de novo short read assembly using de Bruijn graphs. (англ.) // Genome Research. — 2008. — May (vol. 18, no. 5). — P. 821—829. — doi:10.1101/gr.074492.107. — PMID 18349386.
- ↑ Schulz M. H., Zerbino D. R., Vingron M., Birney E. Oases: robust de novo RNA-seq assembly across the dynamic range of expression levels. (англ.) // Bioinformatics. — 2012. — 15 April (vol. 28, no. 8). — P. 1086—1092. — doi:10.1093/bioinformatics/bts094. — PMID 22368243.
- ↑ Xie Y., Wu G., Tang J., Luo R., Patterson J., Liu S., Huang W., He G., Gu S., Li S., Zhou X., Lam T. W., Li Y., Xu X., Wong G. K., Wang J. SOAPdenovo-Trans: de novo transcriptome assembly with short RNA-Seq reads. (англ.) // Bioinformatics. — 2014. — 15 June (vol. 30, no. 12). — P. 1660—1666. — doi:10.1093/bioinformatics/btu077. — PMID 24532719.
- ↑ Robertson G., Schein J., Chiu R., Corbett R., Field M., Jackman S. D., Mungall K., Lee S., Okada H. M., Qian J. Q., Griffith M., Raymond A., Thiessen N., Cezard T., Butterfield Y. S., Newsome R., Chan S. K., She R., Varhol R., Kamoh B., Prabhu A. L., Tam A., Zhao Y., Moore R. A., Hirst M., Marra M. A., Jones S. J., Hoodless P. A., Birol I. De novo assembly and analysis of RNA-seq data. (англ.) // Nature Methods. — 2010. — November (vol. 7, no. 11). — P. 909—912. — doi:10.1038/nmeth.1517. — PMID 20935650.
- ↑ 1 2 Grabherr M. G., Haas B. J., Yassour M., Levin J. Z., Thompson D. A., Amit I., Adiconis X., Fan L., Raychowdhury R., Zeng Q., Chen Z., Mauceli E., Hacohen N., Gnirke A., Rhind N., di Palma F., Birren B. W., Nusbaum C., Lindblad-Toh K., Friedman N., Regev A. Full-length transcriptome assembly from RNA-Seq data without a reference genome. (англ.) // Nature Biotechnology. — 2011. — 15 May (vol. 29, no. 7). — P. 644—652. — doi:10.1038/nbt.1883. — PMID 21572440.
- ↑ Chevreux B., Pfisterer T., Drescher B., Driesel A. J., Müller W. E., Wetter T., Suhai S. Using the miraEST assembler for reliable and automated mRNA transcript assembly and SNP detection in sequenced ESTs. (англ.) // Genome Research. — 2004. — June (vol. 14, no. 6). — P. 1147—1159. — doi:10.1101/gr.1917404. — PMID 15140833.
- ↑ Margulies M., Egholm M., Altman W. E., Attiya S., Bader J. S., Bemben L. A., Berka J., Braverman M. S., Chen Y. J., Chen Z., Dewell S. B., Du L., Fierro J. M., Gomes X. V., Godwin B. C., He W., Helgesen S., Ho C. H., Irzyk G. P., Jando S. C., Alenquer M. L., Jarvie T. P., Jirage K. B., Kim J. B., Knight J. R., Lanza J. R., Leamon J. H., Lefkowitz S. M., Lei M., Li J., Lohman K. L., Lu H., Makhijani V. B., McDade K. E., McKenna M. P., Myers E. W., Nickerson E., Nobile J. R., Plant R., Puc B. P., Ronan M. T., Roth G. T., Sarkis G. J., Simons J. F., Simpson J. W., Srinivasan M., Tartaro K. R., Tomasz A., Vogt K. A., Volkmer G. A., Wang S. H., Wang Y., Weiner M. P., Yu P., Begley R. F., Rothberg J. M. Genome sequencing in microfabricated high-density picolitre reactors. (англ.) // Nature. — 2005. — 15 September (vol. 437, no. 7057). — P. 376—380. — doi:10.1038/nature03959. — PMID 16056220.
- ↑ Kumar S., Blaxter M. L. Comparing de novo assemblers for 454 transcriptome data. (англ.) // BMC Genomics. — 2010. — 16 October (vol. 11). — P. 571—571. — doi:10.1186/1471-2164-11-571. — PMID 20950480.
- ↑ Bankevich A., Nurk S., Antipov D., Gurevich A. A., Dvorkin M., Kulikov A. S., Lesin V. M., Nikolenko S. I., Pham S., Prjibelski A. D., Pyshkin A. V., Sirotkin A. V., Vyahhi N., Tesler G., Alekseyev M. A., Pevzner P. A. SPAdes: a new genome assembly algorithm and its applications to single-cell sequencing. (англ.) // Journal Of Computational Biology : A Journal Of Computational Molecular Cell Biology. — 2012. — May (vol. 19, no. 5). — P. 455—477. — doi:10.1089/cmb.2012.0021. — PMID 22506599.
- ↑ Li B., Dewey C. N. RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome. (англ.) // BMC Bioinformatics. — 2011. — 4 August (vol. 12). — P. 323—323. — doi:10.1186/1471-2105-12-323. — PMID 21816040.
- ↑ Gehlenborg N., O'Donoghue S. I., Baliga N. S., Goesmann A., Hibbs M. A., Kitano H., Kohlbacher O., Neuweger H., Schneider R., Tenenbaum D., Gavin A. C. Visualization of omics data for systems biology. (англ.) // Nature Methods. — 2010. — March (vol. 7, no. 3 Suppl). — P. 56—68. — doi:10.1038/nmeth.1436. — PMID 20195258.
- ↑ Anders S., Pyl P. T., Huber W. HTSeq--a Python framework to work with high-throughput sequencing data. (англ.) // Bioinformatics. — 2015. — 15 January (vol. 31, no. 2). — P. 166—169. — doi:10.1093/bioinformatics/btu638. — PMID 25260700.
- ↑ Bray N. L., Pimentel H., Melsted P., Pachter L. Near-optimal probabilistic RNA-seq quantification. (англ.) // Nature Biotechnology. — 2016. — May (vol. 34, no. 5). — P. 525—527. — doi:10.1038/nbt.3519. — PMID 27043002.
- ↑ 1 2 Trapnell C., Hendrickson D. G., Sauvageau M., Goff L., Rinn J. L., Pachter L. Differential analysis of gene regulation at transcript resolution with RNA-seq. (англ.) // Nature Biotechnology. — 2013. — January (vol. 31, no. 1). — P. 46—53. — doi:10.1038/nbt.2450. — PMID 23222703.
- ↑ Li H., Handsaker B., Wysoker A., Fennell T., Ruan J., Homer N., Marth G., Abecasis G., Durbin R., 1000 Genome Project Data Processing Subgroup. The Sequence Alignment/Map format and SAMtools. (англ.) // Bioinformatics. — 2009. — 15 August (vol. 25, no. 16). — P. 2078—2079. — doi:10.1093/bioinformatics/btp352. — PMID 19505943.
- ↑ Love M. I., Huber W., Anders S. Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2. (англ.) // Genome Biology. — 2014. — Vol. 15, no. 12. — P. 550—550. — doi:10.1186/s13059-014-0550-8. — PMID 25516281.
- ↑ Frazee A. C., Pertea G., Jaffe A. E., Langmead B., Salzberg S. L., Leek J. T. Ballgown bridges the gap between transcriptome assembly and expression analysis. (англ.) // Nature Biotechnology. — 2015. — March (vol. 33, no. 3). — P. 243—246. — doi:10.1038/nbt.3172. — PMID 25748911.
- ↑ Fang Z., Cui X. Design and validation issues in RNA-seq experiments. (англ.) // Briefings In Bioinformatics. — 2011. — May (vol. 12, no. 3). — P. 280—287. — doi:10.1093/bib/bbr004. — PMID 21498551.
- ↑ Ramsköld D., Wang E. T., Burge C. B., Sandberg R. An abundance of ubiquitously expressed genes revealed by tissue transcriptome sequence data. (англ.) // PLoS Computational Biology. — 2009. — December (vol. 5, no. 12). — P. e1000598—1000598. — doi:10.1371/journal.pcbi.1000598. — PMID 20011106.
- ↑ Vandesompele J., De Preter K., Pattyn F., Poppe B., Van Roy N., De Paepe A., Speleman F. Accurate normalization of real-time quantitative RT-PCR data by geometric averaging of multiple internal control genes. (англ.) // Genome Biology. — 2002. — 18 June (vol. 3, no. 7). — P. 0034—0034. — PMID 12184808.
- ↑ Core L. J., Waterfall J. J., Lis J. T. Nascent RNA sequencing reveals widespread pausing and divergent initiation at human promoters. (англ.) // Science (New York, N.Y.). — 2008. — 19 December (vol. 322, no. 5909). — P. 1845—1848. — doi:10.1126/science.1162228. — PMID 19056941.
- ↑ Camarena L., Bruno V., Euskirchen G., Poggio S., Snyder M. Molecular mechanisms of ethanol-induced pathogenesis revealed by RNA-sequencing. (англ.) // PLoS Pathogens. — 2010. — 1 April (vol. 6, no. 4). — P. e1000834—1000834. — doi:10.1371/journal.ppat.1000834. — PMID 20368969.
- ↑ Costa V., Aprile M., Esposito R., Ciccodicola A. RNA-Seq and human complex diseases: recent accomplishments and future perspectives. (англ.) // European Journal Of Human Genetics : EJHG. — 2013. — February (vol. 21, no. 2). — P. 134—142. — doi:10.1038/ejhg.2012.129. — PMID 22739340.
- ↑ Khurana E., Fu Y., Chakravarty D., Demichelis F., Rubin M. A., Gerstein M. Role of non-coding sequence variants in cancer. (англ.) // Nature Reviews. Genetics. — 2016. — February (vol. 17, no. 2). — P. 93—108. — doi:10.1038/nrg.2015.17. — PMID 26781813.
- ↑ Slotkin R. K., Martienssen R. Transposable elements and the epigenetic regulation of the genome. (англ.) // Nature Reviews. Genetics. — 2007. — April (vol. 8, no. 4). — P. 272—285. — doi:10.1038/nrg2072. — PMID 17363976.
- ↑ Proserpio V., Mahata B. Single-cell technologies to study the immune system. (англ.) // Immunology. — 2016. — February (vol. 147, no. 2). — P. 133—140. — doi:10.1111/imm.12553. — PMID 26551575.
- ↑ 1 2 Byron S. A., Van Keuren-Jensen K. R., Engelthaler D. M., Carpten J. D., Craig D. W. Translating RNA sequencing into clinical diagnostics: opportunities and challenges. (англ.) // Nature Reviews. Genetics. — 2016. — May (vol. 17, no. 5). — P. 257—271. — doi:10.1038/nrg.2016.10. — PMID 26996076.
- ↑ Wu H. J., Wang A. H., Jennings M. P. Discovery of virulence factors of pathogenic bacteria. (англ.) // Current Opinion In Chemical Biology. — 2008. — February (vol. 12, no. 1). — P. 93—101. — doi:10.1016/j.cbpa.2008.01.023. — PMID 18284925.
- ↑ Suzuki S., Horinouchi T., Furusawa C. Prediction of antibiotic resistance by gene expression profiles. (англ.) // Nature Communications. — 2014. — 17 December (vol. 5). — P. 5792—5792. — doi:10.1038/ncomms6792. — PMID 25517437.
- ↑ Westermann A. J., Gorski S. A., Vogel J. Dual RNA-seq of pathogen and host. (англ.) // Nature Reviews. Microbiology. — 2012. — September (vol. 10, no. 9). — P. 618—630. — doi:10.1038/nrmicro2852. — PMID 22890146.
- ↑ Durmuş S., Çakır T., Özgür A., Guthke R. A review on computational systems biology of pathogen-host interactions. (англ.) // Frontiers In Microbiology. — 2015. — Vol. 6. — P. 235—235. — doi:10.3389/fmicb.2015.00235. — PMID 25914674.
- ↑ 1 2 Garg R., Shankar R., Thakkar B., Kudapa H., Krishnamurthy L., Mantri N., Varshney R. K., Bhatia S., Jain M. Transcriptome analyses reveal genotype- and developmental stage-specific molecular responses to drought and salinity stresses in chickpea. (англ.) // Scientific Reports. — 2016. — 13 January (vol. 6). — P. 19228—19228. — doi:10.1038/srep19228. — PMID 26759178.
- ↑ Ошибка в сносках?: Неверный тег
<ref>
; для сносокGovind_2009
не указан текст - ↑ García-Sánchez S., Aubert S., Iraqui I., Janbon G., Ghigo J. M., d'Enfert C. Candida albicans biofilms: a developmental state associated with specific and stable gene expression patterns. (англ.) // Eukaryotic Cell. — 2004. — April (vol. 3, no. 2). — P. 536—545. — PMID 15075282.
- ↑ Rich S. M., Leendertz F. H., Xu G., LeBreton M., Djoko C. F., Aminake M. N., Takang E. E., Diffo J. L., Pike B. L., Rosenthal B. M., Formenty P., Boesch C., Ayala F. J., Wolfe N. D. The origin of malignant malaria. (англ.) // Proceedings Of The National Academy Of Sciences Of The United States Of America. — 2009. — 1 September (vol. 106, no. 35). — P. 14902—14907. — doi:10.1073/pnas.0907740106. — PMID 19666593.
- ↑ Mok S., Ashley E. A., Ferreira P. E., Zhu L., Lin Z., Yeo T., Chotivanich K., Imwong M., Pukrittayakamee S., Dhorda M., Nguon C., Lim P., Amaratunga C., Suon S., Hien T. T., Htut Y., Faiz M. A., Onyamboko M. A., Mayxay M., Newton P. N., Tripura R., Woodrow C. J., Miotto O., Kwiatkowski D. P., Nosten F., Day N. P., Preiser P. R., White N. J., Dondorp A. M., Fairhurst R. M., Bozdech Z. Drug resistance. Population transcriptomics of human malaria parasites reveals the mechanism of artemisinin resistance. (англ.) // Science (New York, N.Y.). — 2015. — 23 January (vol. 347, no. 6220). — P. 431—435. — doi:10.1126/science.1260403. — PMID 25502316.
- ↑ Verbruggen N., Hermans C., Schat H. Molecular mechanisms of metal hyperaccumulation in plants. (англ.) // The New Phytologist. — 2009. — March (vol. 181, no. 4). — P. 759—776. — doi:10.1111/j.1469-8137.2008.02748.x. — PMID 19192189.
- ↑ Li Z., Zhang Z., Yan P., Huang S., Fei Z., Lin K. RNA-Seq improves annotation of protein-coding genes in the cucumber genome. (англ.) // BMC Genomics. — 2011. — 2 November (vol. 12). — P. 540—540. — doi:10.1186/1471-2164-12-540. — PMID 22047402.
- ↑ Hobbs M., Pavasovic A., King A. G., Prentis P. J., Eldridge M. D., Chen Z., Colgan D. J., Polkinghorne A., Wilkins M. R., Flanagan C., Gillett A., Hanger J., Johnson R. N., Timms P. A transcriptome resource for the koala (Phascolarctos cinereus): insights into koala retrovirus transcription and sequence diversity. (англ.) // BMC Genomics. — 2014. — 11 September (vol. 15). — P. 786—786. — doi:10.1186/1471-2164-15-786. — PMID 25214207.
- ↑ Howe G. T., Yu J., Knaus B., Cronn R., Kolpak S., Dolan P., Lorenz W. W., Dean J. F. A SNP resource for Douglas-fir: de novo transcriptome assembly and SNP detection and validation. (англ.) // BMC Genomics. — 2013. — 28 February (vol. 14). — P. 137—137. — doi:10.1186/1471-2164-14-137. — PMID 23445355.
- ↑ McGrath L. L., Vollmer S. V., Kaluziak S. T., Ayers J. De novo transcriptome assembly for the lobster Homarus americanus and characterization of differential gene expression across nervous system tissues. (англ.) // BMC Genomics. — 2016. — 16 January (vol. 17). — P. 63—63. — doi:10.1186/s12864-016-2373-3. — PMID 26772543.
- ↑ Noller H. F. Ribosomal RNA and translation. (англ.) // Annual Review Of Biochemistry. — 1991. — Vol. 60. — P. 191—227. — doi:10.1146/annurev.bi.60.070191.001203. — PMID 1883196.
- ↑ Christov C. P., Gardiner T. J., Szüts D., Krude T. Functional requirement of noncoding Y RNAs for human chromosomal DNA replication. (англ.) // Molecular and cellular biology. — 2006. — Vol. 26, no. 18. — P. 6993—7004. — doi:10.1128/MCB.01060-06. — PMID 16943439.
- ↑ Kishore S., Stamm S. The snoRNA HBII-52 regulates alternative splicing of the serotonin receptor 2C. (англ.) // Science (New York, N.Y.). — 2006. — 13 January (vol. 311, no. 5758). — P. 230—232. — doi:10.1126/science.1118265. — PMID 16357227.
- ↑ Hüttenhofer A., Schattner P., Polacek N. Non-coding RNAs: hope or hype? (англ.) // Trends In Genetics : TIG. — 2005. — May (vol. 21, no. 5). — P. 289—297. — doi:10.1016/j.tig.2005.03.007. — PMID 15851066.
- ↑ Esteller M. Non-coding RNAs in human disease. (англ.) // Nature Reviews. Genetics. — 2011. — 18 November (vol. 12, no. 12). — P. 861—874. — doi:10.1038/nrg3074. — PMID 22094949.
- ↑ 1 2 Brazma A., Hingamp P., Quackenbush J., Sherlock G., Spellman P., Stoeckert C., Aach J., Ansorge W., Ball C. A., Causton H. C., Gaasterland T., Glenisson P., Holstege F. C., Kim I. F., Markowitz V., Matese J. C., Parkinson H., Robinson A., Sarkans U., Schulze-Kremer S., Stewart J., Taylor R., Vilo J., Vingron M. Minimum information about a microarray experiment (MIAME)-toward standards for microarray data. (англ.) // Nature Genetics. — 2001. — December (vol. 29, no. 4). — P. 365—371. — doi:10.1038/ng1201-365. — PMID 11726920.
- ↑ 1 2 Brazma A. Minimum Information About a Microarray Experiment (MIAME)--successes, failures, challenges. (англ.) // TheScientificWorldJournal. — 2009. — 29 May (vol. 9). — P. 420—423. — doi:10.1100/tsw.2009.57. — PMID 19484163.
- ↑ Kolesnikov N., Hastings E., Keays M., Melnichuk O., Tang Y. A., Williams E., Dylag M., Kurbatova N., Brandizi M., Burdett T., Megy K., Pilicheva E., Rustici G., Tikhonov A., Parkinson H., Petryszak R., Sarkans U., Brazma A. ArrayExpress update--simplifying data submissions. (англ.) // Nucleic Acids Research. — 2015. — January (vol. 43). — P. D1113—1116. — doi:10.1093/nar/gku1057. — PMID 25361974.
- ↑ Petryszak R., Keays M., Tang Y. A., Fonseca N. A., Barrera E., Burdett T., Füllgrabe A., Fuentes A. M., Jupp S., Koskinen S., Mannion O., Huerta L., Megy K., Snow C., Williams E., Barzine M., Hastings E., Weisser H., Wright J., Jaiswal P., Huber W., Choudhary J., Parkinson H. E., Brazma A. Expression Atlas update--an integrated database of gene and protein expression in humans, animals and plants. (англ.) // Nucleic Acids Research. — 2016. — 4 January (vol. 44, no. D1). — P. D746—752. — doi:10.1093/nar/gkv1045. — PMID 26481351.
- ↑ Hruz T., Laule O., Szabo G., Wessendorp F., Bleuler S., Oertle L., Widmayer P., Gruissem W., Zimmermann P. Genevestigator v3: a reference expression database for the meta-analysis of transcriptomes. (англ.) // Advances In Bioinformatics. — 2008. — Vol. 2008. — P. 420747—420747. — doi:10.1155/2008/420747. — PMID 19956698.
- ↑ Mitsuhashi N., Fujieda K., Tamura T., Kawamoto S., Takagi T., Okubo K. BodyParts3D: 3D structure database for anatomical concepts. (англ.) // Nucleic Acids Research. — 2009. — January (vol. 37). — P. D782—785. — doi:10.1093/nar/gkn613. — PMID 18835852.
- ↑ Zhao Y., Li H., Fang S., Kang Y., Wu W., Hao Y., Li Z., Bu D., Sun N., Zhang M. Q., Chen R. NONCODE 2016: an informative and valuable data source of long non-coding RNAs. (англ.) // Nucleic Acids Research. — 2016. — 4 January (vol. 44, no. D1). — P. D203—208. — doi:10.1093/nar/gkv1252. — PMID 26586799.