Количественный анализ экспрессии генов

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Количественный анализ экспрессии генов — анализ транскриптома, измерение транскрипционной активности гена, с помощью определения количества его продукта, матричной РНК (мРНК), универсальной для большей части генов.

При этом конечный продукт экспрессии генов как правило белки, а не мРНК.

Методы[править | править вики-текст]

Для измерения количества мРНК разработаны надежные методы: количественная ПЦР в реальном времени (qPCR), применяют для анализа уровня экспрессии нескольких генов; сравнительная геномная гибридизация на чипах (CGH), позволяет видеть количественные изменения экспрессии генов прямо на хромосомах; микрочипы, с их помощью можно получать данные по уровню экспресии большого количества генов; высокопроизводительное параллельное секвенирование РНК (RNA-Seq).

Количественный анализ экспрессии с помощью RNA-Seq[править | править вики-текст]

В результате секвенирования РНК создается библиотека ридов. Длина рида варьируется от 25 до 200 нуклеотидов. Затем риды картируются (или выравниваются) на референсный геном. Риды могут выравниваться сразу на несколько областей генома или на разные изоформы одного гена. Технология позволяет измерять лишь относительное количество транскрипта в клетке. Самый простой подход — рассматривать только однозначно выравненные риды на аннотированные модели генов. В этом случае величина RPKM[1] (reads per kilobase per million mapped reads) является подходящей количественной мерой экспрессии транскрипта:

RPKM = \frac{X}{(\frac{l}{10^3})\cdot(\frac{N}{10^6})} ,

где X — количество ридов, попавших на транскрипт, l — длина транскрипта, N — общее количество ридов. Эта формула является оценкой максимального правдоподобия при полиномиальной модели картирования ридов на транскрипты[2]

Однако многие риды не могут быть однозначно картированы. Например, при дупликациях гена. Также информация о структуре генов (альтернативный сплайсинг, альтернативные промотеры, разные сайты полиаденилирования) в высших эукариотах недостаточно изучена даже в модельных организмах. Поэтому используют подходы, позволяющие картирование с установлением точек сплайсинга[3] и последующей сборкой транскриптома[4].

В настоящее время существует большое разнообразие моделей вычисления количества транскрипта. Основные свойства, которые разделяют модели:

  • генеративная модель картирования ридов: используют полиномиальное, пуассоновское, отрицательное биномиальное, обобщенное пуассоновское. Известно, что генеративные модели на основе полиномиального, пуассоновского и отрицательного биномиально приводят к одинаковым оценкам количества транскрипта[2].
  • учитывают «мульти-риды»: мульти-рид это рид, который может относиться как к разным изоформам одного гена, так и к разным транскриптам разных генов.
  • учитывают парные риды: парные риды — концы секвенированных фрагментов — представляют ценную информацию, при их анализе необходимо оценивать распределение длин фрагментов. В случае парных ридов вводится мера FPKM (fragments per kilobase per million mapped reads)
  • учитывают систематические позиционные отклонения: покрытие транскрипта неравномерно
  • учитывют систематические отклонения в зависимости от контекста последовательности: концы ридов неслучайны, это означает предпочтения при фрагментации РНК.

В настоящее время существуют широкий спектр программ для количественного анализа экспрессии генов: Cufflinks, MISO, Scripture, ALEXA-Seq, rSeq, IsoInfer,MMSEQ, HTSeq.

HTSeq[править | править вики-текст]

Простой подход, при котором считается количество ридов, которые пересекаются с данным геном. При этом в программе заложено различные определения факта пересечения рида с геном. Далее экспрессию можно определять через RPKM.

Cufflinks[править | править вики-текст]

Основные шаги работы алгоритма[4]:

  • картирование библиотеки кДНК на геном для построние сплайсируемого выравнивания. Используется программа TopHat.
  • на основании выравнивания строят граф с парными ридами кДНК в вершинах, ребро проводится, если два парных рида могут находиться в одном транскрипте
  • На основании графа восстанавливаются возможные изоформы (как минимальное покрытие графа)
  • риды картируются на построенные транскрипты. В рамках статистической модели, вероятность принадлежности рида изоформе пропорциональна количеству транскрипта, строится функция максимального правдоподобия наблюдать данные риды на восстановленных транскриптах.
  • максимум функции правдоподобия отвечает искомому количеству транскриптов
MISO[править | править вики-текст]

В основе статистическая модель для оценки количества изоформ гена.

Систематические ошибки и воспроизводимость[править | править вики-текст]

В результате секвенирования РНК происходят систематические ошибки, которые могут значительно влиять на оценку экспрессии. Некоторые ошибки — неслучайное и неравномерное по длине фрагментирование — получается до некоторой степени учитывать[5]. Однако многие биохимические особенности не удается обнаружить. Так, считается, что формирование вторичных структур РНК может создавать неравномерность покрытия.

Существует два вида реплик: технические и биологические. Технические реплики предполагают секвенирование одного и того же биологического материала несколько раз. Биологические реплики предполагают секвенирование различного биологичекого материала. Из отсеквенированных фрагментов прочитывается лишь небольшая часть. Часть ридов, относящихся к фиксированному гену, будет несколько отличаться для образца и небольшой рассматриваемой части ввиду случайного выбора этой части. Если часть ридов данного гена в образце равна p, то часть ридов, попавших на ген подчиняется биномиальному распределению или распределению Пуассона со средним p. Для оценки этой части p нужны технические реплики. В случае биологических реплик, вариация в экспрессии не объясняется распределением Пуассона. В этому случае используется отрицательное биномиальное или обобщенное пуассоновское распределения. При этом сохраняется допущение, что вариация зависит от среднего экспрессии. Ввиду малого количества биологических реплик, вариация оценивается с помощью различных регрессионных методов.

Анализ экспрессии генов с помощью ДНК-микрочипов[править | править вики-текст]

Микрочип, содержащий около 40 000 проб

ДНК-микрочип представляет собой небольшую поверхность, на которую нанесены фрагменты одноцепочечной ДНК с известной последовательностью. Эти фрагменты выступают в роли зондов, с которыми гибридизуются комплементарные им цепи ДНК из исследуемого образца. Существует два различных типа ДНК-микрочипов — олигонуклеотидные микрочипы и кДНК-микрочипы.

С помощью кДНК-микрочипов удобно исследовать изменения в уровнях экспрессии генов в случаях, например, различных заболеваний. Из двух образцов клеток (контрольного и исследуемого) выделяется РНК, из которой обратной транскрипцией получают кДНК. Каждая из полученных проб окрашивается каким-либо красителем (обычно используются Cy3 и Cy5). Меченые образцы наносятся на микрочип одновременно, и после отмывки негибридизовавшихся молекул производится измерение флуоресценции с помощью сканирующего конфокального микроскопа.

При подготовке образца для анализа на олигонуклеотидном микрочипе на матрице полученной кДНК в присутствии метки (например, биотина или флюоресцеина) синтезируется кРНК. В условиях повышенной температуры меченая кРНК гибридизуется с зондами на микрочипе. Для нормализации, значения о связывании с мутированнм олигонуклеотидом вычитаются из получившихся при анализе данных. Более того, поскольку для каждого гена создается примерно 25 различных зондов, итоговые значения для них высчитываются как среднее нормализованных интенсивностей всех этих проб.

Гибридизация на микрочипах, безусловно, является очень сильным методом для одновременной оценки уровней экспрессии всех генов в исследуемом образце. Однако, природа данной техники исследования такова, что для получения достоверных качественных и количественных данных требуется аккуратный анализ полученных в эксперименте значений. Необходимо нормировать данные и максимально повысить соотношение сигнал/шум, поскольку изменения профилей экспрессии в сравниваемых образцах могут быть невелики.

Перед началом обработки данные представляют собой цифровое изображение интенсивностей флуоресценций различных каналов. В первую очередь проводится вычитание флуоресценции подложки из флуоресценции каждой конкретной пробы. Возможны два варианта — либо для каждой пробы высчитывается флуоресценция подложки непосредственно радом с ней, либо считают среднюю флуоресценции подложки на всем микрочипе. Первый вариант правильнее, поскольку флуоресценция различных участком микрочипа может отличаться.

Вслед за вычитанием фона проводится нормировка интенсивностей флуоресценции красок. Флуоресценция красок и их слияние с зондами зависит от последовательности гена, условий проведения каждой конкретной гибридизации, качества микрочипа и от условий и длительности их хранения. Нормализацию проводят либо основываясь на флуоресценции проб, соответствующим генам домашнего хозяйства, либо внося на микрочип и в образец известное количество экзогенной, несвойственной исследуемым клеткам мРНК. Для получения более достоверных значений на разные области одного микрочипа наносятся одинаковые образцы ДНК. Индекс качества для микрочипа определяется уровнем различия значений данных для идентичных образцов в разных пробах.

Однако, несмотря на все это, получаемые в экспериментах данные не являются количественной оценкой эксрессии генов. Получаемые для одного гена результаты могут варьировать от лаборатории к лаборатории и от одного микрочипа к другому. Подобные эксперименты позволяют оценить качественные изменения профилей экспрессии в различных образцах.

Применение[править | править вики-текст]

Ранее ученые классифицировали различные типы рака основываясь лишь на том, какой орган был поражен. С помощью ДНК-микрочипов станет возможным классифицировать опухоли по паттернам активности генов в клетках. Это позволит разрабатывать лекарства, предназначенные для конкретного вида ракового заболевания. Кроме того, анализ профилей экспрессии в обработанных и необработанных лекарством клетках позволит ученым понять, как именно препарат влияет на клетки. Кроме того, зачастую в исследуемом образце опухоли присутствуют клетки разных клонов, которые могут значительно отличаться по профилю экспрессии генов. Оценка уровня экспрессии генов отдельных единичных клеток злокачественного новообразования позволит точнее прогнозировать дальнейшее развитие опухоли и ее метастазов.

В лабораторных исследованиях методы количественного анализа экспрессии генов находят применение в ряде опытов, связанных с изучением экспрессий различных генов. В экспериментах, где клетки содержались в каких-либо условиях, отличных от нормальных, в большинстве своем обнаруживаются изменения в профилях экспрессии генов. Результаты подобных исследований проливают свет на механизмы клеточного ответа на изменения окружающей среды. Также уровни экспрессии генов активно меняются в ходе эмбрионального и постэмбрионального развитий, когда на смену одним белкам приходят другие, регулирующие процессы роста и формирования организма. Совместные изменения уровней экспрессии нескольких генов при смене каких-либо параметров могут говорить о взаимодействии продуктов этих генов в клетке.

Сравнение экспрессии генов[править | править вики-текст]

Сравнение экспрессии генов (анализ дифференциальной эскпрессии) — важный инструмент характеристики и понимания молекулярных основ вариации фенотипа в биологии, включая заболевания, выявления генов прямо или косвенно регулируемых некоторым белком, молекулой РНК, веществом — первый шаг к определению важных игроков в регуляторных сетях.

Выделяют три уровня анализа экспрессии генов с возрастающей сложностью[6]:

  • Первый — определение изменения экспрессии отдельного гена в зависимости от условий эксперимента (обработки образца).
  • Второй — анализ кластеров генов по общей функициональности, взаимодействию, совместной регуляции и т. д. Здесь используют такие методы сокращение размерности и способы визуализации, как метод главных компонент и кластеризация (иерархическая и k-средних). Анализируют последовательности ДНК для нахождения регуляторных районов, мотивов.
  • Третий — уровень системной биологии, где целью является выявление и понимание сетей взаимодействия генов и белков, отвечающих наблюдаемым результатам измерения.

Анализ изменения экпрессии можно рассматривать как кластеризацию генов на «изменившиеся» и «неизменившиеся».

Источники вариации[править | править вики-текст]

Анализ изменения экспрессии генов осложняется вариацией, создаваемой большим количеством сложно взаимодействующих факторов, действующих на разных уровнях и на различных этапах эксперимента. Выделяют биологические и экспериментальные источники вариации. К другим источником относят вариации при изготовлении микрочипов, различия в технологиях получения и обработки изображения, выделения сигналов и обработки данных[6].

Биологические[править | править вики-текст]

Считают, что наибольший вклад вносят биологические различия индивидуальных уровней экспрессии генов в различных клетках и популяциях клеток. Различия обнаруживают не только между клиническими образцами (содержащими клетки различных типов), но даже между образцами моноклональных «идентичных» культур, содержащихся в «идентичных» условиях. Эти различия объясняют влиянием микроокружения (например, содержание питательных веществ, градиент температуры), различиями в фазе роста клеток в культуре, периодами быстрого изменения экспрессии генов и многими другими случайными воздействиями, неподдающимися контролю, такими как случайное распределение небольшого количества молекул транскрипционных факторов (экпрессия определенных генов может существенно зависеть от нескольких молекул)[6].

На сохранность РНК влияет наличие вторичной структуры транскрипта[6].

Экспериментальные (подготовка образца)[править | править вики-текст]

Существенное значение имеет стандартизация всех этапов подготовки обазцов (например, изменение температурного режима, состава питательных веществ даже при кратковременном центрифугировании живых клеток может вызвать изменение профиля экпрессии)[6].

Для подготовки образцов бактерий важное значение имеет быстрый круговорот РНК (порядка секунд)[6].

Наилучшей стратегией подготовки образца мРНК считают минимальное время обработки при условиях, «замораживающих» уровень мРНК на уровне в момент взятия образца, и ингибирование активности РНКаз[6].

Нормализация[править | править вики-текст]

При сравнении профилей экспрессии генов образцов применяют нормализацию, учитывающую источники экспериментальной и биологической вариации:

  • количество клеток в образце
  • общую эффективность выделения РНК
  • эффективность выделения и мечения молекул РНК (от последовательности)
  • эффективность гибридизации
  • точность и чувствительность измерения сигнала

Систематические (считают одинаково воздействующими на сравниваемые образцы):

  • различия в нуклетидном составе последовательностей могут приводит к различиям в представленности фрагментов в библиотеке анализируемого образца
  • для генов большей длины картируется больше фрагментов
  • при изготовлении библиотеки кДНК с поли-Т праймера представленность фрагментов возрастает от начала к концу гена

Часто вместо значений количества картируемых фрагментов используют величины RPKM — Read Per Kilobase per Million mapped reads либо FPKM — Fragments Per Kilobase per Million mapped reads.

Простые подходы к нормализации учитывают лишь суммарное количество фрагментов сравниваемых образцов. При этом малое количество генов повысивших экспрессию приведет к ложному выявлению значительного количества генов снизивших экпрессию.

Методы[править | править вики-текст]

Все методы нормализации предполагают, что большая часть генов в сравнимаемых образцах экспрессируется одинаково и доля генов снизивших экспрессию (downregulated) более или менее равна доле повысивших (upregulated).

TMM (Trimmed Mean of M-values) и использумый в пакете DESeq

Парное сравнение[править | править вики-текст]

Для каждого гена проверяют изменилась ли его экспрессия. Предполагают, что данные являются набором повторных измерений для каждого гена x_1^c;...;x_{n_c}^c и x_1^t;...;x_{n_t}^t, представляющих измеренный уровень экспрессии или его логарифм в исследуемом (treatment) и контрольном (control) образцах.

При анализе данных, полученных с использованием микрочипов, полученные измерения трактуют как непрерывные величины (лог-нормальное распределение). При анализе данных RNA-Seq, получаемые значения количества картируемых фрагментов натуральные, для анализа случайную величину принимают распределенной по Пуассону, как обратное биномиальное и даже бета-биномиальное.

Фиксированный порог относительного изменения экспрессии[править | править вики-текст]

В ранних работах использовали подход при котором ген считался дифференциально экспрессируемым, если относительное изменение его экспрессии превысило некоторый порог (обычно 2).

Недостатком такого подхода является, что он не учитывает значимость наблюдаемого изменения в различных областях спектра уровня экспрессии (изменение 2/1 вероятнее следствие шума, чем изменение 2000/1000).

Простой t-тест[править | править вики-текст]

t-тест — хорошо известный критерий оценки равенства средних с учетом вариации. Рассчитывают нормализованное расстояние, используя выборочные средние m_c и m_t контрольного и исследуемого образцов соответственно и их дисперсии s_c^2 и s_t^2, по формуле

t=\frac{\left( m_c - m_t \right)}{\sqrt{ \frac{s_c^2}{n_c}+ \frac{s_t^2}{n_t}}} ,

где m={\sum_i x_i}/{n} и  s^2 = {\sum_i {(x_i - m)}^2}/{n-1} . Известно что распределение t близко к распределению Стьюдента с количеством степеней свободы f, где

 f=\frac{\left [ \left ( s_c^2/n_c \right ) + \left ( s_t^2/n_t \right )\right ]^2}{ \frac{\left ( s_c^2/n_c \right )^2}{n_c-1} + \frac{\left ( s_t^2/n_t \right )^2}{n_t-1} }.

При превышении t некоторого порога, зависящего от выбранного уровня значимости, ген считают изменившим экспрессию.

Так как в t-тесте расстояние нормализуют выборочным стандартным отклонением, его применение предпочтительнее, чем использование фиксированного порога относительного изменения экспрессии.

Основная проблема применения t-теста заключена в малом количестве повторностей измерения n_c и n_t вследствие дороговизны или сложности эксперимента.

Регуляризованный t-тест[править | править вики-текст]

Значения логарифма экспресии генов моделируют как независимые нормальные распределения, параметризуемые соответствующими средними и дисперсиями.


P\left ( D \right | \mu, \sigma^2) \approx \prod_{i=1}^{n}{ N\left ( x_i, \mu, \sigma^2 \right ) } 
= C\left ( \sigma^2 \right )^{-n/2}
e^{-\sum_{i}{(x_i - \mu)^2}/2\sigma^2}=

= C\left ( \sigma^2 \right )^{-n/2}
e^{-\left ( n(m-\mu)^2) +(n-1)s^2) \right )/2\sigma^2}
,
где C — константа для нормализации распределения.

Для  \mu и  \sigma принимают априорные вероятности  P(\sigma^2)  — scaled inverse gamma и P(\mu|\sigma^2) = N\left ( \mu; \mu_0, \sigma^2/\lambda_0 \right )  — распределено нормально.

Показано, что существует взаимоотношение между значением и вариацией экспрессии. При близких значениях экспрессии наблюдают близкие значения вариации экспрессии (Картинка???). Таким образом возможно приложение априорного знания в Байесовой статистике для получения лучших оценок вариации экспрессии отдельного гена, используя значения измеренного уровня экпрессии значительного числа других генов с близким уровнем экпрессии из того же эксперимента.

 
P\left ( \mu, \sigma^2 | D, \alpha \right ) = 
N\left ( \mu; \mu_n, \sigma^2 \right )I(\sigma^2;\nu_n, \sigma_n^2),

где
 \mu_n = \frac{\lambda_0}{\lambda_0 + n}\mu_0 + \frac{n}{\lambda_0 + n}m ,  \lambda_n = \lambda_0 + n ,  \nu_n = \nu_0 + n ,
 \nu_n\sigma_n^2 = \nu_0\sigma_0^2 + (n-1)s^2+\frac{\lambda_{0}n}{\lambda_0+n}{(m - \mu_0)}^2

Для точечных оценок используют среднее апостериорной оценки (MP) либо моду (MAP — maximum a posteriori).

В гибкой реализации, фоновую дисперсию экспрессии гена вычисляют, принимая во внимание гены, соседствующие с рассматриваемым, например 100 генов попадающие в симметричное окно по уровню экспрессии.

Хотя этот метод не исключает необходимости повторностей измерений, его использование позволяет значительно сократить число ложно-положительных находок даже при небольшом количестве повторов[7].

Оценка вероятности дифференциальной экспрессии[править | править вики-текст]

PPDE — Posterior Probability of Differential Expression

По причине зашумленности и вариабельности измеряемых данных ожидают получение ложно-положительных и ложно-отрицательных находок дифференциально экспрессирующихся генов.

Интуитивным способом оценки уровня ложно-положительных находок является сравнение измерений полученных с одного контрольного образца, при этом экспрессия генов не должна измениться[8].

Предложена также более формальная вычислительная реализация такого подхода: априорные знания основываются на наблюдении, что в случае отсутствия изменений экпрессии генов p-value по каждому гену должно быть распределено равномерно между 0 и 1 (доля генов ниже любого значения p равна p и доля выше равна 1-p). В случае наличия изменений распределение значений p-value для генов будет «стягиваться» больше к 0 чем к 1, то есть будет подмножество дифференциально экпрессирующихся генов с «значимыми» p-value. Это распределение моделируют взвешенной комбинацией равномерного и неравномерного распределений. Для каждого гена рассчитывают вероятность его ассоциации с неравномерным распределением — PPDE[9].

При моделировании используют смесь бета-распределений[9], где равномерное является частным случаем.


P(p)=\sum_{i=0}^{K}{\lambda_i}\beta(p;r_i,s_i)

Обычно используют EM-алгоритм для определения весов \lambda_i в смеси.

Апостериорную вероятность дифференциальной экспрессии расчитывают

 PPDE = P(change|P) = 
\frac{\sum_{i=1}^{K}{\lambda_i\beta(p;r_i,s_i)}}{\sum_{i=0}^{K}{\lambda_i\beta(p;r_i,s_i)}} = 
\frac{\sum_{i=1}^{K}{\lambda_i\beta(p;r_i,s_i)}}{\lambda_0 + \sum_{i=1}^{K}{\lambda_i\beta(p;r_i,s_i)}}

Часто в реализации предполагают, что значения p-value получены из распределения t-test как новые данные и строят вероятностную модель с ними.

Алгоритмы[править | править вики-текст]

Исходными данными методов/программ анализа дифференциально экспрессирующихся генов являются матрицы, содержащие данные о количестве фрагментов, картированных на ген/экзон для каждого образца в эксперименте RNA-Seq. В основном данные отсчетов используются прямо (baySeq [10] , EBSeq [11], ShrinkSeq [12], edgeR [13], DESeq [14], NBPSeq [15] и TSPM [16]), но существуют алгоритмы, преобразующие отсчеты и использующие алгоритмы, предназначенные для анализа данных, полученных гибридизационными микрочипами ( NOISeq [17] и SAMseq [18]).

Значительно ускорить обработку данных по РНК позволяют "легкие алгоритмы" Sailfish[19]

Модели[править | править вики-текст]

Параметрические[править | править вики-текст]

Признано, что для анализа дифференциальной экспрессии критично получение надежной оценки параметра дисперсии для каждого гена, в этом направлении сосредоточено много усилий. Получение этой оценки осложнено малым размером выборки в большинстве экспрементов RNA-seq, что мотивирует разделение информации между генами для получения более точных оценок. Первым предположением было принять, что параметр дисперсии одинаков для всех генов, что позволяло оценивать его, используя все имеющиеся данные методом условного максимального правдоподобия. DESeq, edgeR, NBPSeq используют разделение данных генов для оценки дисперсии, различия заключаются в способе. В edgeR используют подход менее ограничивающий подход — дисперсию определяют для каждого гена, но индвидуальные оценки «стягивают» к общей дисперсии методом взвешенного правдоподобия.

Большая часть параметрических моделей (baySeq, DESeq, edgeR и NBPSeq) использует модель обратного биномиального распределения для объяснения избытка дисперсии.

TSPM (Two-Stage Poisson Model) основана на модели Пуассона для отсчетов, расширенной с помощью подхода квази-правдоподобия для описания избытка дисперсии данных. Первым шагом каждый ген тестируют индивидуально на наличие избыточной дисперсии, чтобы решить какую из двух модель использовать для анализа дифференциальной экпрессии.

Тестирование дифференциальной экпрессии основано на асимптотической статистике, которая предполагает, что общее количество фрагментов для каждого гена не слишком мало. Авторы рекомендуют отбрасывать гены, для которых общее число фрагментов менее 10. Также важно присутствие в данных генов без избыточной дисперсии.

ShrinkSeq позволяет пользователю выбрать из набора распределений, включая обратное биномиальное и обратное биномиальное с избыточным числом нулевых значений.

DESeq, edgeR, NBPSeq используют классический подход проверки гипотезы. baySeq, EBSeq, ShrinkSeq используют байесову статистику.

В DESeq и NBPSeq получают оценки дисперсии, моделируя наблюдаемую зависимость между средним и дисперсией локальной или праметрической регрессией. В NBPSeq используют полученные значения дисперсии, в DESeq используют консервативный подход — выбирают наибольшее значение дисперсии (из оценки с разделением информации о других генах и оценки дисперсии для индивидуального гена). В edgeR, DESeq и NBPSeq значимость дифференциальной экпрессии тестируют разновидностью точного теста (для сравнения двух групп) либо обобщенной линейной моделью.

В baySeq пользователь задает коллекцию моделей, разбивающих образцы (гены???) на группы. В группе предполагают одинаковые параметры основного распределения. Затем оценивают апостериорную вероятность каждой модели для каждого из генов. Информация из всего набора генов используется для формирования эмпирического априорного распределения для параметров обратного биномиального распределения.

EBSeq использует подобный подход, но предполагает параметрическую форму априорного распределения параметров, с гиперпараметрами, разделяемыми между всеми генами и оцениваемыми по данным.

Непараметрические[править | править вики-текст]

В NOISeq и SAMSeq — непараметрические методы, не предполагают какого-либо распределения для данных.

SAMSeq основан на статистике Вилкоксона, усредненной по нескольким оценкам данных с использованием пермутаций, для оценки FDR (false discovery rate). Эти оценки испольуют для определения q-value для каждого гена.

В NOISeq определяют распределение крастности изменения и различия абсолютных значений экспрессии между образцами при различных условиях и сравнивают это распределение с полученным при сравнении образцов при одних условиях (называют «распределением шума»). Кратко, для каждого гена рассчитывают статистику, определяемую как доля точек из распределения шума, соответствующих более низкой кротности изменения и разности абсолютных значений экспрессии, чем полученные для интересующего гена в исходных данных.

Множественное сравнение[править | править вики-текст]

При сравнение экспрессии генов в нескольких экспериментах либо проводят множественные попарные сравнения, либо используют модели, в которых сравниваются группы экспериментов и т. п. В случае, когда рассматривается Κ воздействий (например, лечение), Τ0…Τκ-1, на экспрессию генов, можно использовать несколько принципиально отличающих планов сравнения.

  1. Непрямое сравнение — попарные сравнения каждого эксперимента (Τ0…Τκ-1) с контролем;
  2. Прямое сравнение — попарное сравнение серий экспериментов, например T0 c T1, T1 с T2 и т. д.
  3. Сравнение всех возможных пар[20],[21]

При сравнение большого количества экспериментов необходимо использовать поправку на множественное сравнение (FDR, FWER, adjusted p-value или другие)[22], чтобы исключить возможность случайного получить значимое различие в экспрессии генов.

Использование только попарных сравнений при анализе большого количества групп экспериментов (факторов) не оптимально, поскольку требует значительных временных затрат. В подобных случаях более рационально использовать модели, учитывающие воздействия нескольких факторов.

  • При сравнении эффектов действия одного фактора возможно использовать линейную модель (linear model). В данной модели предполагается нормальное распределение экспрессии генов, используется, как правило, для анализа микрочиповых данных. Для каждого гена создается подходящая линейная модель и через нее рассчитывается изменение уровня экспрессии гена (fold change, log-fold change и другие статистики), а также стандартная ошибка. Значимость изменения уровня экспрессии генов определяется с помощью дисперсионного анализа (ANOVA). Далее возможно определить работа каких генов изменяется под действием изучаемого фактора. При анализе нескольких групп используются реплики (повторы) экспериментов для определения уровней внутригрупповой дисперсии, что позволяет учитывать технические факторы. Такая модель используется, например, в пакете программ limma Bioconductor.
  • Обобщенная линейная модель (Generalized Linear Model, GLM), является усложнением линейной модели, ее можно использовать для различных распределений данных (нормальное, биномиальное, экспоненциальное, Пуассона, гамма…). В качестве факторов можно рассматривать как непрерывные величины, так и дискретные.[23] Например, с помощью данной модели возможно анализировать данные RNA-Seq. Значимость дифференциальной экспрессии определяется с помощью функции правдоподобия. Подобный анализ можно проводить в пакетах программ edgeR, DESeq и многих других.
  • Однофакторная дисперсионная модель (one-way ANOVA test) позволяет анализировать несколько независимых экспериментов (более трех), при этом возможно выявить дифференциально экспрессирующиеся гены между любой парой выборок. Этот анализ удобен, если заранее не известно между какими выборками/экспериментами будет отличие, а также тем, что его результат не связан со способом определения групп. Фактически, данный анализ осуществляется через попарное сравнение уровней экспрессии всех генов и выявляет все пары между которыми разница ненулевая.
  • Многомерная обобщенная линейная модель (multivariate general linear model) позволяет анализировать несколько зависимых групп экспериментов (в отличие от описанных выше моделей). Например, учитывать взаимосвязь экспрессии генов в двух разных тканях мозга.

Дизайн мультифакторных сравнений[править | править вики-текст]

Эксперименты, в которых рассматривается воздействие нескольких факторов, используются практически те же математические подходы (регрессионный анализ, байесовская статистика), что и при однофакторном анализе, но более сложный дизайн групповых сравнений. Вот некоторые из них.

  • Вложенная модель (иерархическая)- подход, пример мультифакторной модели. В подобной модели некоторые факторы можно рассматривать иерархически. Например, учитывать несколько категорий (состояние, степень воздействия, пол, и т. п.), каждый объект можно классифицировать по данным признакам и далее проводить сравнение между интересующими группами.
  • Временные ряды (Time series) — подход, при которой в течение эксперимента измеряют уровень экспрессии через определенные промежутки времени, рассматривают не только непрерывно распределенные, но и дискретные параметры. Например, с помощью подобной модели можно изучать динамику изменения работы генов в ответ на какие-либо условия.
  • Аддитивная модель — подход, при котором изучается один и тот же объект (особь, линия) до и после воздействия, а далее сравниваются для каждого организма по отдельности и далее сопоставляется с группой организмов. Такая модель является частым случаем блокирования (Blocking), идеи о сравнении максимально схожих (по нескольким факторам) образцов[24].

Примечания[править | править вики-текст]

  1. A Mortazavi, BA Williams, K McCue, L Schaeffer, and B Wold (2008). «Mapping and quantifying mammalian transcriptomes by RNA-Seq». Nature Methods (5): 621-628. PMID 18516045.
  2. 1 2 Pachter (2011). «MODELS FOR TRANSCRIPT QUANTIFICATION FROM RNA-SEQ».
  3. Trapnell C, Pachter L, Salzberg SL (2009). «TopHat: discovering splice junctions with RNA-Seq». Bioinformatics (9): 1105-1111. PMID 19289445.
  4. Roberts A, Trapnell C, Donaghey J, Rinn JL, Pachter L (2011). «Improving RNA-Seq expression estimates by correcting for fragment bias.». Genome Biology 12 (3): 280-287. PMID 21498551.
  5. 1 2 3 4 5 6 7 G. Wesley Hatfield, She-pin Hung and Pierre Baldi (2003). «Differential analysis of DNA microarray gene expression data». Molecular Microbiology 47 (4): 871–877. PMID 12581345.
  6. Pierre Baldi and Anthony D. Long (2001). «A Bayesian framework for the analysis of microarray expression data: regularized t-test and statistical inferences of gene changes». BIOINFORMATICS 17 (6): 509-519. PMID 11395427.
  7. Arfin SM et all. (2000). «Global gene expression profiling in Escherichia coli K12. The effects of integration host factor». J Biol Chem 275 (38): 29672-84. PMID 10871608.
  8. 1 2 David B. Allison (2002). «A mixture model approach for the analysis of microarray gene expression data». Computational Statistics & Data Analysis 39 (1): 1-20. DOI:10.1016/S0167-9473(01)00046-9.
  9. Thomas J Hardcastle and Krystyna A Kelly (2010). «baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data». BMC Bioinformatics 11. DOI:10.1186/1471-2105-11-422.
  10. Ning Leng, John A. Dawson, James A. Thomson, Victor Ruotti, Anna I. Rissman, Bart M.G. Smits, Jill D. Haag, Michael N. Gould, Ron M. Stewart and Christina Kendziorski (2012). «EBSeq: an empirical bayes hierarchical model for inference in RNA-seq experiments.». University of Wisconsin: Tech. Rep. 226, Department of Biostatistics and Medical Informatics.
  11. Mark A. Van De Wiel, Gwenaël G.R. Leday, Luba Pardo, Håvard Rue, Aad W. Van Der Vaart, Wessel N. Van Wieringen (2012). «Bayesian analysis of RNA sequencing data by estimating multiple shrinkage priors». Biostatistics 14 (1): 113-128. PMID 22988280.
  12. Mark D. Robinson, Davis J. McCarthy and Gordon K. Smyth (2010). «EdgeR: a bioconductor package for differential expression analysis of digital gene expression data». Bioinformatics 26 (1): 139-140. PMID 19910308.
  13. Simon Anders, Wolfgang Huber (2010). «Differential expression analysis for sequence count data». Genome Biology 11. PMID 20979621.
  14. Yanming Di, Daniel W. Schafer, Jason S. Cumbie and Jeff H. Chang (2011). «The NBP negative binomial model for assessing differential gene expression from RNA-seq». Statistical Applications in Genetics and Molecular Biology 10.
  15. Paul L. Auer and Rebecca W. Doerge (2011). «A two-stage poisson model for testing RNA-seq data». Statistical Applications in Genetics and Molecular Biology 10.
  16. Sonia Tarazona, Fernando García-Alcalde, Joaquin Dopazo, Alberto Ferrer and Ana Conesa (2011). «Differential expression in RNA-seq: a matter of depth». Genome Research 21: 2213-2223. DOI:10.1101/gr.124321.111.
  17. Li J and Tibshirani R. (2011). «Finding consistent patterns: a nonparametric approach for identifying differential expression in RNA-seq data». Statistical Methods in Medical REsearch. PMID 22127579.
  18. Rob Patro, Stephen M Mount, Carl Kingsford.(2014) Sailfish enables alignment-free isoform quantification from RNA-seq reads using lightweight algorithms. Nature Biotechnology, DOI:10.1038/nbt.2862
  19. Yang Y.H. , Speed T.P. (2003) «Design and Analysis of Comparative Microarray Experiments». Statistical Analysis of Gene Expression Microarray Data. Chapman & Hall., New York, 35-92. ISBN 1-58488-327-8
  20. Smyth, G. K. (2004). «Linear models and empirical Bayes methods for assessing differential expression in microarray experiments». Statistical Applications in Genetics and Molecular Biology 3. DOI:10.2202/1544-6115.1027.
  21. Sandrine Dudoit, Juliet Popper Shaffer and Jennifer C. Boldrick (2003). «Multiple Hypothesis Testing in Microarray Experiments». Statistical Science 18: 71–103.
  22. Nelder J., Wedderburn R. (1972). «Generalized Linear Models». [Journal of the Royal Statistical Society]. Series A (General) (Blackwell Publishing) 135 (3): 370–384. DOI:10.2307/2344614.
  23. Robinson MD, McCarthy DJ, Smyth GK. (2010). «edgeR: a Bioconductor package for differential expression analysis of digital gene expression data». Bioinformatics 26: 139–140. DOI:10.1093/bioinformatics/btp616.

Ссылки[править | править вики-текст]