Линейная регрессия

Пример линии (красная), построенной с использованием линейной регрессии

Линейная регрессия (англ. Linear regression) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной $y$ от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) $x$ с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение[править | править код]

Регрессионная модель

y=f(x,b)+\varepsilon ,~E(\varepsilon )

,

где $b$ — параметры модели, $\varepsilon$ — случайная ошибка модели; называется линейной регрессией, если функция регрессии $f(x,b)$ имеет вид

f(x,b)=b_{0}+b_{1}x_{1}+b_{2}x_{2}+...+b_{k}x_{k}

,

где $b_{j}$ — параметры (коэффициенты) регрессии, $x_{j}$ — регрессоры (факторы модели), k — количество факторов модели^[1].

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

\forall j\quad ~b_{j}={\frac {\partial f}{\partial x_{j}}}=const

Параметр $b_{0}$ , при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

f(x,b)=b_{1}x_{1}+b_{2}x_{2}+\ldots +b_{k}x_{k}=\sum _{j=1}^{k}b_{j}x_{j}=x^{T}b

,

где $x^{T}=(x_{1},x_{2},...,x_{k})$ — вектор регрессоров, $b=(b_{1},b_{2},\ldots ,b_{k})^{T}$ — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия[править | править код]

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

y_{t}=a+bx_{t}+\varepsilon _{t}

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

Y=b_{0}+b_{1}x_{i1}+...+b_{j}x_{ij}+...+b_{k}x_{ik}+e_{i}

Примеры[править | править код]

Модель затрат организации (без указания случайной ошибки)[править | править код]

TC=FC+VC=FC+v\cdot Q

$TC$ — общие затраты
$FC$ — постоянные затраты (не зависящие от объёма производства)
$VC$ — переменные затраты, пропорциональные объёму производства
$v$ — удельные или средние (на единицу продукции) переменные затраты
$Q$ — объём производства.

Простейшая модель потребительских расходов (Кейнс)[править | править код]

C=a+bY+\varepsilon

$C$ — потребительские расходы
$Y$ — располагаемый доход
$b$ — «предельная склонность к потреблению»
$a$ — автономное (не зависящее от дохода) потребление.

Матричное представление[править | править код]

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда $y_{t}$ — значение переменной y в t-м наблюдении, $x_{tj}$ — значение j-го фактора в t-м наблюдении. Соответственно, $x_{t}^{T}=(x_{t1},x_{t2},...,x_{tk})$ — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

y_{t}=b_{1}x_{t1}+b_{2}x_{t2}+...+b_{k}x_{tk}=\sum _{j=1}^{k}b_{j}x_{tj}=x_{t}^{T}b+\varepsilon _{t}~,~E(\varepsilon _{t})=0~,~t=1..n

Введём обозначения:

y={\begin{pmatrix}y_{1}\\y_{2}\\...\\y_{n}\\\end{pmatrix}}

— вектор наблюдений зависимой переменой y

X={\begin{pmatrix}x_{11}&x_{12}&...&x_{1k}\\x_{21}&x_{22}&...&x_{2k}\\...\\x_{n1}&x_{n2}&...&x_{nk}\\\end{pmatrix}}

— матрица факторов.

\varepsilon ={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\...\\\varepsilon _{n}\\\end{pmatrix}}

— вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

y=Xb+\varepsilon

Классическая линейная регрессия[править | править код]

В классической линейной регрессии предполагается, что наряду со стандартным условием $E(\varepsilon _{t})=0$ выполнены также следующие предположения (условия Гаусса-Маркова):

Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: $V(\varepsilon _{t})=\sigma ^{2}=const$
Отсутствие автокорреляции случайных ошибок: $\forall i,j,~i\not =j~~cov(\varepsilon _{i},\varepsilon _{j})=0$

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: $V(\varepsilon )=\sigma ^{2}I_{n}$

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица $X$ имела полный ранг ( $k$ ), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки[править | править код]

См. также[править | править код]

Регрессионный анализ

Примечания[править | править код]

↑ Демиденко, 1981, с. 6.

Литература[править | править код]

Е.З. Демиденко. Линейная и нелинейная регрессия. — М.: Финансы и статистика, 1981. — 302 с.
Дж. Себер. Линейный регрессионный анализ. — М.: Мир, 1980. — 456 с. — 13 700 экз.

[_b1b5e0dd2db72945-1] Демиденко, 1981, с. 6.

[1]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k-ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Random forest Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k-ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Теория Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Линейная регрессия

Содержание

Определение[править | править код]

Парная и множественная регрессия[править | править код]

Примеры[править | править код]

Модель затрат организации (без указания случайной ошибки)[править | править код]

Простейшая модель потребительских расходов (Кейнс)[править | править код]

Матричное представление[править | править код]

Классическая линейная регрессия[править | править код]

Методы оценки[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Линейная регрессия

Определение[править | править код]

Парная и множественная регрессия[править | править код]

Примеры[править | править код]

Модель затрат организации (без указания случайной ошибки)[править | править код]

Простейшая модель потребительских расходов (Кейнс)[править | править код]

Матричное представление[править | править код]

Классическая линейная регрессия[править | править код]

Методы оценки[править | править код]

См. также[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск