Регрессионный анализ: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м typos fixed: определенн → определённ
Нет описания правки
Строка 1: Строка 1:
'''Регрессио́нный анализ''' — набор [[Статистические методы|статистических методов]] исследования влияния одной или нескольких [[Независимая и зависимая переменные|независимых переменных]] <math>X_1, X_2, ..., X_p</math> на [[Независимая и зависимая переменные|зависимую переменную]] <math>Y</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляция]]''), а не причинно-следственные отношения. Наиболее распространенный вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.
'''Регрессио́нный анализ''' — набор [[Статистические методы|статистических методов]] исследования влияния одной или нескольких [[Независимая и зависимая переменные|независимых переменных]] <math>X_1, X_2, ..., X_p</math> на [[Независимая и зависимая переменные|зависимую переменную]] <math>Y</math>. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология ''зависимых'' и ''независимых'' переменных отражает лишь математическую зависимость переменных (''см. [[Корреляция]]''), а не причинно-следственные отношения. Наиболее распространенный вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.


== Цели регрессионного анализа ==
== Цели регрессионного анализа ==
Строка 9: Строка 9:
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
Строго регрессионную зависимость можно определить следующим образом. Пусть <math>Y, X_1, X_2, \ldots, X_p</math> — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> определено [[условное математическое ожидание]]
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
: <math>y(x_1,x_2, \ldots, x_p)=\mathbb{E}(Y \mid X_1=x_1, X_2=x_2, \ldots, X_p=x_p)</math> (уравнение регрессии в общем виде),
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется [[Регрессия (математика)|'''регрессией''']] величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.
то функция <math>y(x_1,x_2, \ldots, x_p)</math> называется '''[[Регрессия (математика)|регрессией]]''' величины <math>Y</math> по величинам <math>X_1, X_2,\ldots, X_p</math>, а её [[график функции|график]] — '''линией регрессии''' <math>Y</math> по <math>X_1, X_2, \ldots, X_p</math>, или '''уравнением регрессии'''.


Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]].
Зависимость <math>Y</math> от <math>X_1, X_2, \ldots, X_p</math> проявляется в изменении средних значений <math>Y</math> при изменении <math>X_1, X_2, \ldots, X_p</math>. Хотя при каждом фиксированном наборе значений <math>X_1=x_1, X_2=x_2, \ldots, X_p=x_p</math> величина <math>Y</math> остаётся [[случайная величина|случайной величиной]] с определённым [[Распределение вероятностей|распределением]].
Строка 130: Строка 130:
|автор = Радченко С. Г.
|автор = Радченко С. Г.
|заглавие = Устойчивые методы оценивания статистических моделей: Монография
|заглавие = Устойчивые методы оценивания статистических моделей: Монография
|оригинал =
|ссылка =
|ссылка =
|издание =
|издание =
Строка 142: Строка 141:
|автор = Радченко С. Г.
|автор = Радченко С. Г.
|заглавие = Методология регрессионного анализа: Монография
|заглавие = Методология регрессионного анализа: Монография
|оригинал =
|ссылка =
|ссылка =
|издание =
|издание =
Строка 152: Строка 150:
}}
}}


{{rq|img|refless}}
{{Машинное обучение}}
{{Машинное обучение}}
{{rq|refless}}


[[Категория:Машинное обучение]]
[[Категория:Машинное обучение]]

Версия от 12:23, 31 октября 2020

Регрессио́нный анализ — набор статистических методов исследования влияния одной или нескольких независимых переменных на зависимую переменную . Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных (см. Корреляция), а не причинно-следственные отношения. Наиболее распространенный вид регрессионного анализа — линейная регрессия, когда находят линейную функцию, которая, согласно определённым математическим критериям, наиболее соответствует данным. Например, в методе наименьших квадратов вычисляется прямая(или гиперплоскость), сумма квадратов между которой и данными минимальна.

Цели регрессионного анализа

  1. Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными)
  2. Предсказание значения зависимой переменной с помощью независимой(-ых)
  3. Определение вклада отдельных независимых переменных в вариацию зависимой

Математическое определение регрессии

Строго регрессионную зависимость можно определить следующим образом. Пусть  — случайные величины с заданным совместным распределением вероятностей. Если для каждого набора значений определено условное математическое ожидание

(уравнение регрессии в общем виде),

то функция называется регрессией величины по величинам , а её график — линией регрессии по , или уравнением регрессии.

Зависимость от проявляется в изменении средних значений при изменении . Хотя при каждом фиксированном наборе значений величина остаётся случайной величиной с определённым распределением.

Для выяснения вопроса, насколько точно регрессионный анализ оценивает изменение при изменении , используется средняя величина дисперсии при разных наборах значений (фактически речь идет о мере рассеяния зависимой переменной вокруг линии регрессии).

В матричной форме уравнение регрессии (УР) записывается в виде: , где  — матрица ошибок. При обратимой матрице X◤X получается вектор-столбец коэффициентов B с учётом U◤U=min(B). В частном случае для Х=(±1) матрица X◤X является рототабельной, и УР может быть использовано при анализе временны́х рядов и обработке технических данных.

Метод наименьших квадратов (расчёт коэффициентов)

На практике линия регрессии чаще всего ищется в виде линейной функции (линейная регрессия), наилучшим образом приближающей искомую кривую. Делается это с помощью метода наименьших квадратов, когда минимизируется сумма квадратов отклонений реально наблюдаемых от их оценок (имеются в виду оценки с помощью прямой линии, претендующей на то, чтобы представлять искомую регрессионную зависимость):

( — объём выборки). Этот подход основан на том известном факте, что фигурирующая в приведённом выражении сумма принимает минимальное значение именно для того случая, когда .

Для решения задачи регрессионного анализа методом наименьших квадратов вводится понятие функции невязки:

Условие минимума функции невязки:

Полученная система является системой линейных уравнений с неизвестными .

Если представить свободные члены левой части уравнений матрицей

а коэффициенты при неизвестных в правой части — матрицей

то получаем матричное уравнение: , которое легко решается методом Гаусса. Полученная матрица будет матрицей, содержащей коэффициенты уравнения линии регрессии:

Для получения наилучших оценок необходимо выполнение предпосылок МНК (условий Гаусса — Маркова). В англоязычной литературе такие оценки называются BLUE (Best Linear Unbiased Estimators — «наилучшие линейные несмещенные оценки»). Большинство исследуемых зависимостей может быть представлено с помощью МНК нелинейными математическими функциями.

Интерпретация параметров регрессии

Параметры являются частными коэффициентами корреляции; интерпретируется как доля дисперсии Y, объяснённая , при закреплении влияния остальных предикторов, то есть измеряет индивидуальный вклад в объяснение Y. В случае коррелирующих предикторов возникает проблема неопределённости в оценках, которые становятся зависимыми от порядка включения предикторов в модель. В таких случаях необходимо применение методов анализа корреляционного и пошагового регрессионного анализа.

Говоря о нелинейных моделях регрессионного анализа, важно обращать внимание на то, идет ли речь о нелинейности по независимым переменным (с формальной точки зрения легко сводящейся к линейной регрессии), или о нелинейности по оцениваемым параметрам (вызывающей серьёзные вычислительные трудности). При нелинейности первого вида с содержательной точки зрения важно выделять появление в модели членов вида , , свидетельствующее о наличии взаимодействий между признаками , и т. д. (см. Мультиколлинеарность).

См. также

Литература

  • Дрейпер Н., Смит Г. Прикладной регрессионный анализ. Множественная регрессия = Applied Regression Analysis. — 3-е изд. — М.: «Диалектика», 2007. — С. 912. — ISBN 0-471-17082-8.
  • Фёрстер Э., Рёнц Б. Методы корреляционного и регрессионного анализа = Methoden der Korrelation - und Regressiolynsanalyse. — М.: Финансы и статистика, 1981. — 302 с.
  • Захаров С. И., Холмская А. Г. Повышение эффективности обработки сигналов вибрации и шума при испытаниях механизмов // Вестник машиностроения : журнал. — М.: Машиностроение, 2001. — № 10. — С. 31—32. — ISSN 0042-4633.
  • Радченко С. Г. Устойчивые методы оценивания статистических моделей: Монография. — К.: ПП «Санспарель», 2005. — С. 504. — ISBN 966-96574-0-7, УДК: 519.237.5:515.126.2, ББК 22.172+22.152.
  • Радченко С. Г. Методология регрессионного анализа: Монография. — К.: «Корнийчук», 2011. — С. 376. — ISBN 978-966-7599-72-0.