Кэп-анализ экспрессии генов (CAGE)

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Кэп-анализ экспрессии генов (англ. CAGE, cap analysis gene expression) — это технология, используемая в молекулярной биологии для получения и прочтения коротких (обычно длиной 27 нуклеотидов) участков последовательности 5’-конца кэпированных РНК эукариот. Далее проводится картирование секвенированных последовательностей на готовый геном, что позволяет уточнить 5'-границы транскрибируемых областей, а также провести количественный анализ экспрессии. Методика была разработана и опубликована в 2003 году, после чего активно совершенствовалась.[1] Метод активно используется в исследовательском проекте по функциональной аннотации геномов млекопитающих (англ. FANTOM — Functional Annotation of the Mammalian Genome)[2]

Images.png Внешние изображения
Схема обновленного эксперимента
Image-silk.png Рис. 1. Иллюстрация возможностей CAGE[3]

Актуальность метода[править | править вики-текст]

Биологический аспект[править | править вики-текст]

Для транскрипции необходимо, чтобы РНК-полимераза связалась с ДНК. Место связывания РНК-полимеразы прокариот, состоящей из 5 субъединиц (ββ′α2ω), определяется σ-фактором, который специфически распознает последовательность ДНК. У бактерий отсутствует Кэп, поэтому метод CAGE к ним применить невозможно. Вместо этого используется то, что на 5'-конце РНК находится трифосфат, который способен защитить РНК от 5'-экзонуклеаз. РНК нарезают на фрагменты эндонуклеазами, а затем обрабатывают 5'-экзонуклеазами, убирая с их помощью все 5'-незащищенные РНК.[4]

У бактерий транскрипция инициируется как правило на -10 и -35 нуклеотидов до точки начала транскрипции.[5] Для транскрипции архей и эукариот необходима преинициация с участием транскрипционных факторов. У эукариот области связывания транскрипционных факторов расположены на -30, -70 и -90 нуклеотидов выше от старта транскрипции и задают базовый уровень транскрипции, кроме того существует множество активаторов и репрессоров транскрипции, которые участвуют в регуляции ее скорости. [6] Сложность системы инициации транскрипции затрудняет точное предсказание сайта начала транскрипции по последовательности ДНК.

Images.png Внешние изображения
Поддержка ридами участков секвенируемой РНК при RNA-seq не одинакова
Image-silk.png Рис. 2. Зависимость количества ридов от их положения на РНК при различных методиках RNA-seq

Используемый для поиска транскрибируемых участков RNA-seq основан на современных методах секвенирования с последующим картированием ридов на геном. С одной стороны, чем более протяженный участок мы можем отсеквенировать, тем проще будет собирать риды. С другой стороны, чем длиннее риды, тем меньше вероятность каждого из них попасть на край транскрипта. В результате при любой технологии секвенирования обычно возникают отклонения в количестве ридов на концах транскрибируемой области (см. Рис. 2.), и четкой границы с точностью до одного нуклеотида на обоих концах РНК определить не удается. Для решения проблемы определения точки начала транскрипции у эукариот был создан метод CAGE и последующие его модификации.

Технологические тонкости[править | править вики-текст]

Сравнение методов RNA-seq и CAGE показывает, что оба метода дают почти одинаковые количественные оценки экспрессии генов[7]. Это подтверждает высокую эффективность метода CAGE еще и для количественного анализа экспрессии. Современные методы CAGE позволяют секвенировать последовательности старта транскрипции:

  1. быстро,
  2. в малом объеме образца,
  3. используя малое количество РНК,
  4. не проводя ряд стадий основного протокола, например амплификацию ПЦР,
  5. не используя часть реактивов базового протокола,
  6. цена метода снижается.

Ограничения CAGE[править | править вики-текст]

Ограничения метода происходят из его преимуществ. Метод создан для анализа 5'-концевых участков РНК, претерпевших процесс кэпирования, поэтому протокол селективно избавляется от всех остальных РНК:

  • транскрибированные РНК-полимеразами I и III последовательности не анализируются.
  • CAGE не применяется к РНК прокариот.
  • Большинство разработанных протоколов не работают с РНК короче ~100 нуклеотидов, такие РНК вымываются в ходе очистки.

Базовый протокол эксперимента[1][8][править | править вики-текст]

Images.png Внешние изображения
Иллюстрация эксперимента
Image-silk.png Рис. 3. Схема предложенного разработчиками протокола [1]
  1. Синтез полной кДНК обратной транскриптазой с олиго-Т праймером, комплементарным полиаденилированному 3’-концу мРНК. Получение полных мРНК-кДНК гибридов.
  2. Обработка реагентом "CAP Trapper"[9], специфично взаимодействующим с двумя соседними гидроксильными группами КЭПа, и проводящего биотинилирование.
  3. Очистка КЕП-содержащих дуплексов с использованием стрептавидиновых носителей.
  4. Гидролиз мРНК, получение одноцепочечной полной кДНК.
  5. Прикрепление к 5'-концу 1-го биотинилированного линкера, включающего в себя сайт узнавания эндонуклеазы рестрикции XmaJI и сайт узнавания рестриктазы класса II MmeI.
  6. Лигирование 1-го линкера с одноцепочечной кДНК и синтез второй цепи кДНК (до сайта полиаденилирования).
  7. Обработка эндонулеазой рестрикции MmeI. Рестриктаза MmeI способна делать разрез двухцепочечной нуклеиновой кислоты, отступив 20/18 нуклеотидов. Эта ее особенность используется, чтобы избавиться от большей части кДНК, сохранив примерно 20 нуклеотидов, соответствующих 5'-концу мРНК.
  8. Лигирование с противоположной стороны 2-го биотинилированного линкера, содержащего сайт узнавания XbaI.
  9. Полимеразная цепная реакция (увеличение числа копий).
  10. Обработка рестриктазами XmaJI и XbaI (получение фрагментов по 32 нуклеотида, из которых 20 — последовательность с 5'-конца мРНК).
  11. Очистка стрептавидином (избавляемся от фрагментов линкеров).
  12. Получение конкатемеров лигированием липких GATC концов, возникших после обработки рестриктазами.
  13. Создание библиотеки клонов и секвенирование по Сэнгеру.
  14. Картирование фрагментов на собранный геном.

Развитие технологии[править | править вики-текст]

Images.png Внешние изображения
Схема обновленного эксперимента
Image-silk.png Рис. 4. Схема нового протокола CAGE[10]

В 2011 году, в связи с задействованием технологии в ENCODE, был переосмыслен протокол CAGE для секвенирования платформами нового поколения[10]. Так, теперь:

  • в реакции обратной транскрипции используется фермент, не имеющий рибонуклеазной активности,

— обратная транскриптаза SuperScript II (Rnase Н — активность практически уничтожена мутагенезом)[11] заменена на PrimeScript (отсутствует активность Rnase Н, кроме того хорошо работает с GC-богатой РНК и РНК с богатой вторичной структурой, обладает более высокой точностью)[12].

  • вместо олиго-Т праймера теперь используются праймеры, содержащие случайную последовательность длиной 15 нт и сайт эндонуклеазы EcoP15I,

— случайные праймеры были впервые предложены в 2006 году [13] и позволяют работать с слабополиаденилированной и неполиаденилированной РНК.

  • перед биотинилированием смесь обрабатывается рибонуклеазами,

— увеличивает качество очистки целевой РНК

  • биотинилируются как кэп, так и 3'-конец, которые разделяют вместе с полученными кДНК в результате нагревания до 65°С,
  • стрептавидином экстрагируются димеры кДНК и РНК с биотинил-кэпом,

— благодаря обработке РНКазами не экстрагируются неполные с 5'-конца РНК

  • одноцепочечные кДНК лигируют со специально подготовленными димерами маркированных линкеров, неспособными соединяться друг с другом,
  • после лигирования кДНК с димерами линкеров смесь обрабатывают специальной фосфатазой, работающей при низких температурах,

— увеличивает точность метода

  • синтеза второй цепи кДНК при участии биотинил-праймеров,
  • Обработка эндонуклеазой EcoP15I и очистка целевых последовательностей стрептавидином,

— эндонуклеаза EcoP15I впервые была использована в nanoCAGE (Plessy et al., 2010),[14] и позволяет увеличить читаемое число нуклеотидов с 20 до 27, увеличив таким образом однозначность картирования последовательностей на геном.

  • лигирование со 2-м линкером, комплеметарным 3'-концевым праймерам секвенирования,
  • ПЦР (необходимый этап при создании библиотеки клонов и дальнейшего секвенирования) содержат 5'- и 3'-концевые последовательности праймеров секвенирования

Основанные на принципах CAGE протоколы[править | править вики-текст]

DeepCAGE[15][править | править вики-текст]

В DeepCAGE (Valen et al., 2008) для прочтения конкатемеров (см. базовый протокол) впервые были применены методы 454-секвенирования[en]нового поколения (NGS)”.

  • метод устарел по сравнению с более поздними протоколами.

nanoCAGE[14][править | править вики-текст]

В nanoCAGE (Plessy et al., 2010) вместо использования реагента "CAP Trapper" был применен подход со сменой матрицы для анализа меньших количеств РНК в образце. Также впервые удалось увеличить длину последовательностей до 27 нуклеотидов за счет использования эндонуклеазы EcoP15I и отказаться от образования конкатемеров, читая последовательности напрямую на NGS-платформе Solexa[en] (сейчас часть Illumina).

CAGEscan[14][править | править вики-текст]

В CAGEscan (Plessy et al., 2010) те же авторы предлагают методику, где:

  • Не используется стадия ферментативного отрезания 5'-тегов.
  • 5'-концы кДНК секвенируются в обе стороны, чтобы соединить данные о новых промоторах со старыми аннотациями.

HeliScopeCAGE[16][править | править вики-текст]

В HeliScopeCAGE (Kanamori-Katayama et al., 2011) базовый протокол модифицируется, чтобы пропустить стадию разрезания 5'-концевых участков, 5'-кэпированные РНК секвенируются без ПЦР с использованием платформы HeliScope[en] (секвенирует индивидуальные молекулы). Протокол автоматизирован Itoh et al.[17] в 2012 году.

Усовершенствованный CAGE протокол[10][править | править вики-текст]

См. раздел "Развитие технологии".

  • За счет EcoP15I увеличена точность картирования последовательностей
  • секвенирование на платформе Illumina-Solexa

RAMPAGE[18][править | править вики-текст]

В 2013, Batut et al. совместили использование исходного реагента "CAP Тrapper", смену матрицы (nanoCAGE) и обработку 5′-фосфат-зависимыми экзонуклеазами для максимизации специфичности промотора.

nAnTi-CAGE[19][править | править вики-текст]

В 2014, Murata et al.создали протокол для Illumina, не использующий ни ПЦР, ни отрезание 5'-концевых участков последовательностей.

Анализ[править | править вики-текст]

Результатом кэп-анализа экспрессии генов является набор последовательностей секвенированных областей, следующих за сайтами старта транскрипции, и их уровень экспрессии. Граница начала транскрипции определяется с точностью до одного нуклеотида. Окружение сайта начала транскрипции обычно включают в себя регуляторные элементы, контролирующие экспрессию генов. Таким образом, становится возможным сопоставление уровня экспрессии с различных точек инициации транскрипции, выявление и анализ мотивов в прилегающих к ним областях для поиска и качественного описания энхансеров и репрессоров.

Благодаря CAGE стало возможным картировать сайты стартов транскрипции и промоторы для мРНК с низким уровнем экспрессии.[20] Также удалось доказать, что транскрипция часто начинается не строго с определенной позиции, а существует распределение: острое (где предпочтителен один старт и вариации незначительны) или широкое (когда явного пика не существует, и транскрипция может начинаться на участке в десятки и даже сотни нуклеотидов).[21] В результате разное начало инициации транскрипции может влиять на функцию РНК/белка и открывает возможность для дополнительной регуляции.

При анализе результатов CAGE надо учитывать отклонение в получаемых библиотеках в сторону добавления лишних гуанозинов на 5'-конец.[21] Это происходит из-за проскальзывания обратной транскриптазы и даже используется в ряде протоколов, использующих "смену матрицы".[14] [22]

Примечания[править | править вики-текст]

  1. 1 2 3 "Cap analysis gene expression for high-throughput analysis of transcriptional starting point and identification of promoter usage". Proc Natl Acad Sci USA. 100(26): 15776–81. 2003-12-23. doi:10.1073/pnas.2136655100. PMC 307644. PMID 14663149.
  2. The Catalytic Site Atlas at The European Bioinformatics Institute
  3. Technologies | Omics Science Center
  4. Pavel V. Mazin, Gleb Y. Fisunov, Alexey Y. Gorbachev, Kristina Y. Kapitskaya, Ilya A. Altukhov, Tatiana A. Semashko, Dmitry G. Alexeev and Vadim M. Govorun; "Transcriptome analysis reveals novel regulatory mechanisms in a genome-reduced bacterium" Nucleic Acids Res. 2014 Dec 1;42(21):13254-68. doi: 10.1093/nar/gku976.
  5. Raven Peter H. Biology. — 9th. — New York: McGraw-Hill, 2011. — P. 278–301. — ISBN 978-0-07-353222-6.
  6. Basic Medical Biochemistry, 4th edition, Marks. Chapter 14
  7. "Comparison of CAGE and RNA-seq transcriptome profiling using clonally amplified and single-molecule next-generation sequencing". Genome Res. 2014 Apr;24(4):708-17. doi: 10.1101/gr.156232.113. PMID 24676093.
  8. "CAGE: cap analysis of gene expression". Nature Methods 3, 211 - 222 (2006) doi:10.1038/nmeth0306-211
  9. (1996) «High-efficiency full-length cDNA cloning by biotinylated CAP trapper.». Genomics 37 (3): 327–36. DOI:10.1006/geno.1996.0567. PMID 8938445. Проверено 2013-10-16.
  10. 1 2 3 Hazuki Takahashi, Timo Lassmann, Mitsuyoshi Murata & Piero Carninci 5′ end–centered expression profiling using cap-analysis gene expression and next-generation sequencing // Nature Protocols. — 2012. — Vol. 7. — № 3. — С. 542-561. — DOI:10.1038/nprot.2012.005
  11. SuperScript II
  12. PrimeScript
  13. (2006) «CAGE: cap analysis of gene expression.». Nat Methods. 3 (3): 211–22. DOI:10.1038/nmeth0306-211. PMID 16489339. Проверено 2013-10-16.
  14. 1 2 3 4 (2010) «Linking promoters to functional transcripts in small samples with nanoCAGE and CAGEscan.». Nat Methods. 7 (7): 528–34. DOI:10.1038/nmeth.1470. PMID 20543846. Проверено 2013-10-16.
  15. (2009) «Genome-wide detection and analysis of hippocampus core promoters using DeepCAGE.». Genome Res. 19 (2): 255–265. DOI:10.1101/gr.084541.108. PMID 19074369. Проверено 2013-10-16.
  16. (2011) «Unamplified cap analysis of gene expression on a single-molecule sequencer.». Genome Res. 21 (7): 1150–9. DOI:10.1101/gr.115469.110. PMID 21596820. Проверено 2013-10-16.
  17. (2012) «Automated workflow for preparation of cDNA for cap analysis of gene expression on a single molecule sequencer.». PLoS ONE 7 (1): e30809. DOI:10.1371/journal.pone.0030809. PMID 22303458. Проверено 2013-10-16.
  18. (2013) «High-fidelity promoter profiling reveals widespread alternative promoter usage and transposon-driven developmental gene expression.». Genome Res. 23 (1): 169–80. DOI:10.1101/gr.139618.112. PMID 22936248. Проверено 2013-10-16.
  19. (2014) «Detecting Expressed Genes Using CAGE». Methods Mol Biol. 1164: 67–85. DOI:10.1007/978-1-4939-0805-9_7. PMID 24927836. Проверено 2014-08-13.
  20. "Deep cap analysis gene expression (CAGE): genome-wide identification of promoters, quantification of their expression, and network inference". BioTechniques 44:627-632 (25th Anniversary Issue, April 2008) doi 10.2144/000112802
  21. 1 2 Zhao, Xiaobei (2011). "Systematic Clustering of Transcription Start Site Landscapes". PLoS ONE doi:10.1371/journal.pone.0023409.
  22. Islam S, Kjallquist U, Moliner A, Zajac P, Fan JB, et al. (2011) Characterization of the single-cell transcriptional landscape by highly multiplex RNA-seq. Genome Res.

Ссылки[править | править вики-текст]

CAGE — страница на сайте научно-исследовательского центра RIKEN