Анализ выживаемости

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Анализ выживаемости (от анг. Survival analysis)  — это класс статистических моделей, позволяющих оценить вероятность наступления события.

Введение[править | править вики-текст]

Данная группа статистических методов получила соответствующее название вследствие их изначально широкого применения в медицинских исследованиях для оценки продолжительности жизни при изучении эффективности методов лечения. Позднее данные методы стали применяться в страховой сфере а так же в социальных науках.[1]

Анализ выживаемости занимается моделированием процессов наступления терминальных (критических) событий для элементов той или иной совокупности (изначально - "смерти" для элементов совокупности живых существ). Так в рамках медицинских исследований анализ выживаемости может отвечать на такие вопросы как: Какова будет доля выживших среди пациентов, спустя некоторое время после применённых техник лечения? Какие темпы смертности будут наблюдаться среди выживших? Какие факторы воздействуют на увеличение или уменьшение шансов на выживание?

Для ответа на соответствующие вопросы необходимо иметь возможность чётко определить "время жизни" элемента (период пребывания элемента в совокупности до наступления терминального события). Здесь, в случае с биологическим выживанием «смерть» однозначна, но в иных случаях наступление терминального события не всегда возможно локализовать в отдельном моменте времени.

В целом анализ выживаемости представляет собой построение моделей, описывающих данные о времени наступления события. Так как живой организм может умереть лишь один раз, то традиционно в рамках данного подхода рассматриваются лишь единичные и единовременные терминальные события.

Цензурирование переменных[править | править вики-текст]

Анализ данных методами анализа выживаемости может быть осуществлён только для цензурированных данных. Наблюдения называются цензурированными, если интересующая нас зависимая переменная представляет момент наступления терминального события, а длительность исследования ограничена по времени.

Механизмы цензурирования[править | править вики-текст]

Фиксированное цензурирование[править | править вики-текст]

При фиксированном цензурировании выборка из n объектов наблюдается в течении фиксированного времени. Число объектов, для которых наступает терминальное событие, или число смертей, случайно, но общая продолжительность исследования фиксирована. Каждый объект имеет максимально возможный период наблюдения i, i = 1,..., n, который может варьироваться от одного объекта к другому, однако фиксирован заранее. Вероятность того, что объект i будет жив в конце своего периода наблюдения, равна S(i), а общее число смертей является случайным.

Случайное цензурирование[править | править вики-текст]

При случайном цензурировании выборка из n объектов наблюдается так долго, сколько необходимо, чтобы d объектов испытали событие. В этой схеме число смертей d, которое определяет точность исследования, фиксировано заранее и его можно использовать в качестве параметра. Недостатком данного подходя является то, что в этом случае общая продолжительность исследования случайна и не может быть точно известна заранее.

Направления Цензурирования[править | править вики-текст]

При цензурировании можно указать направление, в котором производится цензурирование.

Правосторонее цензурирование[править | править вики-текст]

Цензурирование справа имеет место, если исследователь знает, в какой момент эксперимент был начат и что он заканчится в момент времени, расположенный справа от точки начала эксперимента.

Левостороннее цензурирование[править | править вики-текст]

Если исследователь не имеет информации когда эксперимент был начат (так, например, в биомедицинских исследованиях может быть известно, когда пациент поступил в госпиталь и что он выжил в течение определенного времени, однако при этом может отсутствовать информация, когда симптомы его заболевания впервые проявились)то имеет место левое цензурирование.

Цензурирование однократное и многократное[править | править вики-текст]

Однократное цензурирование происходит в один момент времени (эксперимент заканчивается спустя некоторое фиксированное время). С другой стороны, в биомедицинских исследованиях естественным образом возникает многократное цензурирование, например, когда пациенты выписываются из госпиталя, пройдя курс лечения в различных объемах (или разной продолжительности), и исследователь знает лишь, что пациент дожил до соответствующего момента цензурирования.

Анализ таблиц выживаемости[править | править вики-текст]

Данные таблицы можно рассматривать как "расширенные" таблицы частот. Область возможных времен наступления критических событий (смертей, отказов и др.) разбивается на некоторое число временных отрезков (моментов времени). Для момента времени вычисляется число и доля объектов, которые в начале рассматриваемого интервала находились в составе элементов изучаемой совокупности (были "живы"), число и долю элементов, которые совокупность покинули ("умерли") а также число и долю элементов, которые были изъяты или цензурированы в каждом интервале.

Вычисляемые параметры[править | править вики-текст]

Функция выживания[править | править вики-текст]

Анализируемый объект в функции выживания традиционно условно обозначается как S, он описывается следующей функцией:

S(t) = P(T > t)

где t - это некоторое время, в ходе которого проводилось наблюдение за совокупностью, T является случайной величиной обозначающей момент "смерти" (покидания объектом совокупности), и "P" означает вероятность "смерти" в заданном временном интервале. То есть, функция выживаемости описывает вероятность "смерти" некоторое время спустя после момента t.

Обычно предполагается, что S(0) = 1, хотя это значение может быть и меньше чем 1, если есть возможность немедленной смерти или неудачи.

При условии, что если u ≥ t, то функция выживания должна быть: S(u) ≤ S(t),. Это свойство вытекает из того, что условие T > u подразумевает T > t . По сути здесь подразумевается, что выживание для боле позднего периода возможно только после выживания в ходе более раннего периода. Обычно предполагается, что функция выживания стремится к нулю при бесконечном возрастании переменной времени. S(t) → 0 при t → .

Также при анализе выживаемости используют кумулятивную функцию распределения F(t) и её производную - функцию плотности распределения f(t).

Кумулятивная функция распределения (КФР) имеет вид

F(t) = P(T \le t) = 1-S(t)

и описывает вероятность того, что терминальное событие наступило к моменту времени t.

Функция плотности распределения (ФПР) имеет вид

f(t)=F'(t)=dF(t)/dt

данная функция показывает частоту наступления терминального события в момент времени t.

Плотность вероятности[править | править вики-текст]

Это оценка вероятности выбывания из совокупности ("смерти") в соответствующем интервале, определяемая таким образом:

Fi = (Pi-Pi+1) /hi

где Fi - оценка вероятности отказа в i-ом интервале, Pi - кумулятивная доля выживших объектов (функция выживания) к началу i-го интервала, hi - ширина i-ого интервала.

Функция риска (интенсивности отказов)[править | править вики-текст]

Функция риска определяется как вероятность того, что элемент, оставшийся в совокупности к началу соответствующего интервала, покинет совокупность ("умрёт") в течение этого интервала. Оценка функции интенсивности вычисляется следующим образом:

λ(t)dt = lim dt→ 0 P{t<T≤t+dt|T>t}/dt

Числитель данного выражения - условная вероятность того. что событие произойдёт в интервале (t, t+dt), если оно не произошло ранее, а знаменатель - ширина интервала.

Медиана ожидаемого времени жизни[править | править вики-текст]

Это точка на временной оси, в которой кумулятивная функция выживания равна 0.5. Другие процентили (например, 25- и 75-процентиль или квартили) кумулятивной функции выживания вычисляются по такому же принципу.

Подгонка модели[править | править вики-текст]

Модели выживаемости могут быть содержательно представлены в виде моделей линейной регрессии, поскольку все из перечисленных выше семейств распределений могут быть сведены к линейным с помощью подходящих преобразований. В данном случае время жизни будет являться зависимой переменной. Зная параметрическое семейство распределений, можно вычислить функцию правдоподобия по имеющимся данным и найти ее максимум. Такие оценки называются оценками максимального правдоподобия. При весьма общих предположениях эти оценки совпадают с оценками наименьших квадратов. Аналогичным образом находится максимум функции правдоподобия при нулевой гипотезе, т.е. для модели, допускающей различные интенсивности на разных интервалах. Сформулированная гипотеза может быть проверена, например, с помощью критерия отношения правдоподобия, статистика которого имеет (по крайней мере, асимптотически) хи-квадрат распределение.

Используемые семейства распределений[править | править вики-текст]

В общем случае таблица времен жизни дает хорошее представление о распределении отказов или смертей объектов во времени. Однако для прогноза часто необходимо знать форму рассматриваемой функции выживания.

В рамках анализа выживаемости для построения моделей наиболее часто используются следующие семейства распределений:

Множительные оценки Каплана—Мейера[править | править вики-текст]

Для цензурированных, но не группированных наблюдений времён жизни функцию выживания можно оценить непосредственно (без таблицы времени жизни). Допустим, существует база данных, в которой каждое наблюдение содержит точно один временной интервал. Перемножая вероятности выживания в каждом интервале, получим следующую формулу для функции выживания:

S(t) = Пjt= 1 [(n-j)/(n-j+1)]σ( j )

В этом выражении S(t) — оценка функции выживания,
n — общее число событий (времён окончания),
j — порядковый (хронологически) номер отдельного события,
σ(j) равно 1, если j-ое событие означает отказ (смерть), и равно 0, если j-ое событие означает потерю наблюдения (цензурирование),
Пjt= 1 означает произведение по всем наблюдениям j, завершившимся к моменту t.

Данная оценка функции выживания, называемая множительной оценкой, впервые была предложена Капланом и Мейером (1958).

Примечания[править | править вики-текст]

Источники[править | править вики-текст]

1. Statsoft. Электронный учебник по статистике. Анализ выживаемости. http://www.statsoft.ru/home/textbook/default.htm

2. STATISTICA 6. Статистический анализ данных. Второе издание. М.: Бином, 2009. Халафян А.А. ГЛАВА 14 Анализ выживаемости. http://www.hr-portal.ru/statistica/gl14/gl14.php#1

3. Эконометрический ликбез: некоторые вопросы микроэконометрики. «Квантиль» №5 (сентябрь 2008). http://quantile.ru/05/05-Issue.pdf

4. http://en.wikipedia.org/wiki/Survival_analysis