Пробит-регрессия

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая MyWikiNik (обсуждение | вклад) в 16:14, 17 июля 2012 (→‎Оценка параметров). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Про́бит-регре́ссия (модель) (англ. Probit model) — вид нелинейной регрессии, в которой зависимая переменная является бинарной (может принимать два значения), основанная на использовании нормального распределения (в отличие от аналогичной логит-регрессии, основанной на логистическом распределении).

Начало использованию функции нормального распределения для описания зависимости «доза — эффект» следует отнести, по-видимому, к работе английского математика J. W. Trevan который показал, что интенсивность клеточного ответа на данную дозу лекарственного вещества подчиняется распределению Гаусса[1].
Честер Блисс (Chester Ittner Bliss (1899—1979)) предложил метод облегчающий вычисления. В его статье, посвящённой количественному анализу смертельного действия ядов на примере действия никотина на щавелевую тлю (Aphis rumicis L.), впервые и используется термин «probit» как производное от probability unit[2]. Начиная с этой работы, метод пробит анализа особенно популярен в токсикологии, хотя используется и в других областях. Смысл оригинального термина, а также его последующих модификаций утратил актуальность с развитием вычислительной техники. Сегодня «пробит» по смыслу равен квантили нормального распределения, однако живое словоупотребление ограничивается, пожалуй, словосочетаниями «пробит регрессия» и «пробит анализ».

Математическая модель

Пусть переменная Y является бинарной, то есть может принимать только два значения, которые для упрощения положим равными 1 и 0. Например, Y может означать наличие/отсутствие каких либо условий, успех или провал чего-либо, ответ да/нет в опросе и т.д. Пусть также имеется вектор регрессоров X, которые оказывают влияние на Y. Регрессионная модель имеет дело с условным по факторам математическим ожиданием зависимой переменной, которая в данном случае равна вероятности того, что зависимая переменная равна 1:

В пробит модели предполагается, что последняя вероятность определяется нормальным распределением, таким образом пробит-модель имеет вид:

где - интегральная функция распределения (CDF) стандартного нормального распределения. - неизвестные параметры, которые требуется оценить.

Основанием для использования такой модели является предположение о наличии некоторой скрытой (не наблюдаемой) переменной Y*, в зависимости от значений которой наблюдаемая переменная Y принимает значение 0 или единица:

Предполагается, что скрытая переменная зависит от факторов в смысле обычной линейной регрессии , где случайная ошибка имеет стандартное нормальное распределение. Тогда

Оценка параметров

Оценка производится методом максимального правдоподобия. Пусть имеется выборка объема n факторов X и зависимой переменной Y. Логарифмическая функция правдоподобия имеет вид:

Максимизация данной функции по неизвестным параметрам позволяет получить состоятельные, асимптотически эффективные и асимптотически нормальные оценки параметров:

где - асимптотическая ковариационная матрица оценок параметров, , φ - функция плотности (PDF) стандартного нормального распределения. Ковариационная матрица оценивается путем подстановки полученных оценок параметров вместо истинных значений и вместо математического ожидания - выборочного среднего.

Обычно оценка модели производится в специализированных (статистических, эконометрических) программных продуктах, например, EViews, Matrixer и др., хотя возможна "ручная" оценка, например Excel, используя Поиск решения.

Показатели качества модели

Псевдо-:

МакФаддена (иднекс отношения правдоподобия -LRI):

Оба показателя меняются в пределах от 0 до 1.

Порядковая пробит-модель

Примеры применения

Рассмотрим пробит-модель на примере действия инсектицида на насекомых [3][4]. Предполагается, что при данной дозе инсектицида поражается определённая доля p всей совокупности насекомых; в выборке n насекомых реакция на инсектицид одних насекомых не зависит от реакции других. Таким образом, можно считать, что число поражённых насекомых является случайной переменной и подчинено биномиальному закону с параметрами (n, p).

Файл:Пробит регрессия.jpg
Кривая пробит регрессии с 95%-ми интервалами для x50 и x16

В качестве фактора модели выступает «измеритель» дозы , где d-доза инсектицида. Вероятность того, что случайно отобранное из совокупности насекомое погибнет за данное время, равна:

,
где — параметры нормального распределения, и .

Если теперь функция вероятности p(x) гибели одного насекомого при данной дозе яда x известна и равна:

,

где a и b — выборочные оценки параметров α и β, то уровень дозы xp, при котором погибает некоторый процент насекомых, находится из уравнения

,

где qp — квантиль уровня p стандартного нормального распределения, откуда xp=(qp−a)/b. В частности, оценкой максимального правдоподобия для уровня дозы x50, при которой погибает 50 % насекомых, будет x50=−a/b. Это логарифм дозы; фактическая доза равна: u50=10a/b. Эту величину в токсикологии принято обозначать ЛД50.

Очевидно, что не стоит ограничиваться точечными оценками — достаточно точными 95%-ми доверительными интервалами для xp будет xp±2(var(xp))1/2;

,

где νa, νb выборочные дисперсии a и b соответственно, νa, b — выборочная ковариация. Альтернативная, хотя и несколько более сложная (но и более точная) процедура определения точности оценки xp основана на теореме Феллера, в соответствии с которой 95%-е доверительные границы для xp являются корнями λ1, λ2 квадратного уравнения

,

где c=(a−qp), t=t95 — 95%-я точка распределения Стьюдента. На рисунке горизонтальными усами показаны 95%-е доверительные интервалы для x50 и x16.

См. также

Логистическая регрессия

Литература

  1. Trevan, J.W. 1927. The error of determination of toxicity. Proc. Royal Soc. 101B: 483—514. цитировано по Альберт А. Избирательная токсичность. Физико-химические основы терапии. Пер. с англ. В 2 томах. Т. 1. — М: Медицина, 1989, С. 247. ISBN 5225015190
  2. Bliss CI. (1934). "The method of probits". Science. 79 (2037): 38—39. doi:10.1126/science.79.2037.38. JSTOR 1659792. PMID 17813446.
  3. Finney, D.J. Probit Analysis (3rd edition). — Cambridge University Press, Cambridge, UK, 1971. — ISBN 052108041X.
  4. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3