Линейная регрессия

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. Необходимо отметить, что с эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение[править | править вики-текст]

Регрессионная модель

y=f(x,b)+\varepsilon, ~E(\varepsilon)=0,

где b — параметры модели, \varepsilon — случайная ошибка модели, называется линейной регрессией, если функция регрессии f(x,b) имеет вид

f(x,b)=b_0+b_1 x_1+b_2 x_2+...+b_k x_k,

где b_j — параметры (коэффициенты) регрессии, x_j — регрессоры (факторы модели), k — количество факторов модели.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

\forall j ~b_j=\frac {\partial f}{\partial x_j}=const

Параметр b_0, при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f(x,b)=b_1 x_1 + b_2 x_2 + \ldots + b_k x_k=\sum^k_{j=1}b_j x_j=x^Tb,

где x^T=(x_1,x_2,...,x_k) — вектор регрессоров, b=(b_1,b_2, \ldots,b_k)^T — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия[править | править вики-текст]

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

y_t=a+b x_t+\varepsilon_t

Когда количество факторов (без учёта константы) больше 1-го, то говорят о множественной регрессии.

Примеры[править | править вики-текст]

Модель затрат организации (без указания случайной ошибки)[править | править вики-текст]

TC=FC+VC=FC+v \cdot Q

Простейшая модель потребительских расходов (Кейнс)[править | править вики-текст]

C=a+bY+\varepsilon
  • C — потребительские расходы
  • Y — располагаемый доход
  • b — «предельная склонность к потреблению»
  • a — автономное (не зависящее от дохода) потребление.

16 пар (Х,У) дали результаты[править | править вики-текст]

\sum Y^2=526, \sum X^2=657, \sum XY=492.
\sum Y=64, \sum X=96,

Нужно оценить регрессию Y_t=\alpha+\beta X_t+\epsilon_t; доказать, что коэффициент \beta равен 1.0.

Оценка параметров регрессии:

\hat b=\frac{n\sum X_t Y_t-(\sum X_t)(\sum Y_t)}{n\sum X^2_t-(\sum X_t)^2}=\frac{16\cdot492-96\cdot64}{16\cdot657-96^2}=\frac{4}{3}\approx1,33.
\hat \alpha=\frac{1}{n}\sum Y_t - \frac{1}{n}\sum X_t \hat \beta - \bar Y-\bar X\hat\beta=\frac{64}{16}-\frac{96}{16}\cdot\frac{4}{3}=-4.

Следовательно, МНК-оценки для \beta и \alpha равны: \hat\beta=\frac{4}{3}; \alpha=-4. Сумма квадратов остатков:

\sum e^2_t=\sum(Y_t-(\hat\alpha+\hat\beta X_t))^2=\sum(Y^2_t-2Y_t+(\hat\alpha+\hat\beta X_t))+(\hat\alpha+\hat\beta X_t)^2=
=\sum Y^2_t-2\hat\alpha^2\sum Y_t-2\hat\beta\sum Y_tX_t+n\alpha^2+2\alpha\beta\sum X_t+\hat\beta^2\sum X^2_t=126.

Оценка ошибок дисперсии равна:

\hat\sigma^2=s^2=\frac{1}{n-2}=\sum e^2_t=\frac{126}{14}=9.

Проверка гипотезы \beta=1. Оценка дисперсии \hat\beta равна:

s^2_t=\frac{s^2}{\sum x^2_t}=\frac{s^2}{\sum(X_t-\bar X)^2}=\frac{9}{657-\frac{96^2}{16}}=19.

Для проверки гипотезы вычислим статистику t=\frac{\hat\beta-\beta_0}{s_{\hat\beta}}=\frac{\frac{4}{3}-1}{\frac{1}{3}}=1.

2,5%-ная точка t-распределения t_{0,025} равна 2,145, следовательно, \left\vert t \right\vert=1<t_c=2,145, поэтому, гипотеза \beta=1 не отвергается на 5%-ном уровне значимости.

Матричное представление[править | править вики-текст]

Пусть дана Выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда y_t — значение переменной y в t-м наблюдении, x_{tj} — значение j-го фактора в t-м наблюдении. Соответственно, x^T_t=(x_{t1},x_{t2},...,x_{tk}) — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

y_t=b_1 x_{t1}+b_2 x_{t2}+...+b_k x_{tk}=\sum^k_{j=1}b_j x_{tj}=x^T_t b+\varepsilon_t~,~E(\varepsilon_t)=0~,~t=1..n

Введём обозначения:

y=
\begin{pmatrix}
y_{1}\\
y_{2}\\
...\\
y_{n}\\
\end{pmatrix} — вектор наблюдений зависимой переменой y
X=
\begin{pmatrix}
x_{11}&x_{12}& ...& x_{1k}\\
x_{21}&x_{22}& ...& x_{2k}\\
...\\
x_{n1}& x_{n2}& ...&x_{nk}\\
\end{pmatrix} — матрица факторов.

\varepsilon=
\begin{pmatrix}
\varepsilon_{1}\\
\varepsilon_{2}\\
...\\
\varepsilon_{n}\\
\end{pmatrix} — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y=Xb+\varepsilon

Классическая линейная регрессия[править | править вики-текст]

В классической линейной регрессии предполагается, что наряду со стандартным условием E(\varepsilon_t)=0 выполнены также следующие предположения (условия Гаусса-Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: V(\varepsilon_t)=\sigma^2=const
  2. Отсутствие автокорреляции случайных ошибок: \forall i,j,~ i \not = j ~~cov(\varepsilon_i,\varepsilon_j)=0

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: V(\varepsilon)=\sigma^2 I_n

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица X имела полный ранг (k), то есть предполагается, что отсутствует полная Коллинеарность факторов.

При выполнении классических предположений обычный Метод_наименьших_квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки[править | править вики-текст]

См. также[править | править вики-текст]

Литература[править | править вики-текст]