Регрессия (математика)

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Регре́ссия (лат. regressio — обратное движение, отход), в теории вероятностей и математической статистике, зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. В отличие от чисто функциональной зависимости y=f(x), когда каждому значению независимой переменной x соответствует одно определённое значение величины y, при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y. Если при каждом значении x=xi наблюдается ni значений yi1yin1 величины y, то зависимость средних арифметических \bar y_i=(yi1+…+yin1)/ni от x=xi и является регрессией в статистическом понимании этого термина[1].

Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс — значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Итак, допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y). Прямая линия в плоскости (x, y) была выборочным аналогом функции

g(x)=E(Y\mid X=x).

В теории вероятностей под термином «регрессия» и понимают эту функцию, которая есть не что иное как условное математическое ожидание случайной переменной Y при условии, что другая случайная переменная X приняла значение x. Если, например, пара (X, Y) имеет двумерное нормальное распределение с E(X)=μ1, E(Y)=μ2, var(X)=σ12, var(Y)=σ22, cor(X, Y)=ρ, то можно показать, что условное распределение Y при X=x также будет нормальным с математическим ожиданием, равным

E(Y\mid X=x)=\mu_2+\varrho\frac{\sigma_2}{\sigma_1}(x-\mu_1),

и дисперсией

\mathrm{var}(Y\mid X=x)=\sigma_2^2(1-\varrho^2).

В этом примере регрессия Y на X является линейной функцией. Если регрессия Y на X отлична от линейной, то приведённые уравнения суть линейная аппроксимация истинного уравнения регрессии.

В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии[2]. Эти проблемы рассматриваются в рамках регрессионного анализа.

Простым примером регрессии Y по X является зависимость между Y и X, которая выражается соотношением: Y=u(X)+ε, где u(x)=E(Y | X=x), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y=u(x) между неслучайными величинами y и x. На практике обычно коэффициенты регрессии в уравнении y=u(x) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия (пропедевтика)[править | править вики-текст]

Представим зависимость y от x в виде линейной модели первого порядка:

y=\beta_0+\beta_1 x+\varepsilon.\!

Будем считать, что значения x определяются без ошибки, β0 и β1 — параметры модели, а ε — ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ2. Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (xi, yi), i=1, …, n. Таким образом мы можем записать:

\widehat{y_i}=b_0+b_1x_i+e_i, i=1,\dots , n

где \widehat{y} означает предсказанное моделью значение y при данном x, b0 и b1 — выборочные оценки параметров модели, а e_i=y_i-\widehat{y_i} — значения ошибок аппроксимации.

Для вычисления параметров модели по экспериментальным данным зачастую используют различные программы, предназначенные для статистической обработки данных. Однако для этого простого случая не сложно выписать подробные формулы[3][4].

Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:

b_1=\frac{\sum_{i=1} ^n (x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1} ^n (x_i-\bar{x})^2};
b_0=\bar{y}-b_1\bar{x};
s_e^2=\frac{\sum_{i=1}^n (y_i-\widehat{y})^2}{n-2};
s_{b_0}=s_e \sqrt{\frac{1}{n} + \frac{\bar{x}^2}{\sum_{i=1}^n(x_i-\bar x)^2}};
s_{b_1}=s_e \sqrt{\frac{1}{\sum_{i=1}^n(x_i-\bar x)^2}},

здесь средние значения определяются как обычно: \bar x=\frac{\sum_{i=1}^nx_i}{n}, \bar y=\frac{\sum_{i=1}^ny_i}{n} и se2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ2 в том случае, если модель верна.

Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t=b/sb. Если вероятность для полученного значения и n−2 степеней свободы достаточно мала, например, <0,05 — гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем b1 — есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b0, то прямая проходит через начало координат и оценка углового коэффициента равна

b=\frac{\sum_{i=1}^n x_iy_i}{\sum_{i=1}^n x_i^2},

а её стандартной ошибки

s_{b}=s_e \sqrt{\frac{1}{\sum_{i=1}^n x_i^2}}.
Линия регрессии и 95%-е доверительные области для линии регрессии (пунктиром) и для значений (сплошные границы)

Обычно истинные величины коэффициентов регрессии β0 и β1 не известны. Известны только их оценки b0 и b1. Иначе говоря истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии \widehat{y}. Неопределённость его оценки характеризуется стандартной ошибкой регрессии:

s_{\widehat{y}}=s_e \sqrt{\frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar x)^2}};

Теперь можно вычислить 100(1−α/2)-процентный доверительный интервал для значения уравнения регрессии в точке x:

\widehat{y}-t_{(1-\alpha/2, n-2)}s_{\widehat{y}}<y<\widehat{y}+t_{(1-\alpha/2, n-2)}s_{\widehat{y}},

где t(1−α/2, n−2)t-значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:

s_Y=s_e \sqrt{\frac{1}{m} + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum_{i=1}^n(x_i-\bar x)^2}};

Здесь m — кратность измерения y при данном x. И 100(1−α/2)-процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:

\widehat{y}-t_{(1-\alpha/2, n-2)}s_Y<y<\widehat{y}+t_{(1-\alpha/2, n-2)}s_Y.

На рисунке эта 95%-я доверительная область при m=1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x.

Литература[править | править вики-текст]

  1. БСЭ. Статья «Регрессия»
  2. Справочник по прикладной статистике. В 2-х т. Т. 1: Пер. с англ. / Под ред. Э. Ллойда, У. Ледермана, Ю. Н. Тюрина. — М.: Финансы и статистика, 1989. — 510 с. — ISBN 5-279-00245-3
  3. Лаваньини И., Маньо Ф., Сералья Р., Тральди П. Количественные методы в масс-спектрометрии — М.: Техносфера, 2008. — 176 с. — ISBN 978-5-94836-190-1; ISBN 978-0-470-02516-1 (англ.)
  4. Сергиенко В. И., Бондарева И. Б. Математическая статистика в клинических исследованиях. — 2-е изд., перераб. и доп. — М.: ГЭОТАР-Медиа, 2006. — 304 с. — ISBN 5-9704-0197-8

Ссылки[править | править вики-текст]

Логотип Викисловаря
В Викисловаре есть статья «регрессия»