Фиктивная переменная

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Фиктивная переменная (англ. dummy variable) — качественная переменная, принимающая значения 0 и 1, включаемая в эконометрическую модель для учёта влияния качественных признаков и событий на объясняемую переменную. При этом фиктивные переменные позволяют учесть влияние не только качественных признаков принимающих два, но и несколько возможных значения. В этом случае добавляются несколько фиктивных переменных. Фиктивная переменная может быть также индикатором принадлежности наблюдения к некоторой подвыборке. Последнее можно использовать для обнаружения структурных изменений.

Моделирование бинарной переменной[править | править вики-текст]

Пусть необходимо определить влияние некоторой качественной переменной z, принимающей два возможных значения. Обозначим эти возможные значения A и B для определенности. Тогда такой переменной можно поставить в соответствие следующую фиктивную переменную

d_t=\begin{cases} 0~,~z_t =A\\ 1~,~z_t = B \end{cases}

Пусть исходная модель имеет вид

y_t=a+b x_t + \varepsilon_t

Если добавить переменную d в модель, то получим

y_t=a + b x_t +c d_t+\varepsilon_t

Тогда при значимом коэффициенте при d получаем две модели для разных значений качественного признака, различающиеся на фиксированный сдвиг (разная константа):

y_t=
\begin{cases}
a_1 + b x_t +\varepsilon_t~,~z_t=A\\
a_2 + b x_t +\varepsilon_t~,~z_t=B
\end{cases}

Однако, качественный признак может влиять и на параметры зависимости от факторов x. В этом случае необходимо строить модель:

 y_t=a+c_1 d_t +(b+c_2 d_t)x_t+\varepsilon_t=a+b x_t+c_1 d_t+c_2 d_t x_t+\varepsilon_t

Таким образом, здесь в модели участвует не только переменная d, но и переменная dx. Это позволяет строить потенциально две разные модели для разных значений качественного признака:

y_t=
\begin{cases}
a_1 + b_1 x_t +\varepsilon_t~,~z_t=A\\
a_2 + b_2 x_t +\varepsilon_t~,~z_t=B
\end{cases}

Моделирование многозначного качественного признака[править | править вики-текст]

Пусть имеется признак, который принимает несколько возможных значений. Общее правило введения фиктивных переменных следующее: общее количество фиктивных переменных должно быть на единицу меньше количества возможных значений качественного признака, если в модели имеется константа. Это необходимо, чтобы не возникла проблема полной коллинеарности переменных.

Например, уровень образования: нет образования, среднее образование, высшее образование, ученая степень и т. д. В этом случае каждому уровню образования, кроме уровня «нет образования» можно поставить в соответствие некоторую фиктивную переменную.

Фиктивные переменные взаимодействия[править | править вики-текст]

Пусть в модели (например, средней заработной платы) участвуют две фиктивные переменные, отвечающие, например, за пол и наличие высшего образования. При обычном включении этих переменных в модель каждая из них дает определенный вклад в изменение коэффициентов модели. Однако, сумма эффектов пола и образования вообще говоря может быть не равна суммарному эффекту этих двух факторов, действующих одновременно. То есть наличие высшего образования у мужчин и у женщин вообще говоря по разному может отражаться на доходе. Поэтому наряду с фиктивными переменными пола и образования можно использовать фиктивную переменную взаимодействия:

d_{12}=d_1 d_2=\begin{cases} 1~,~d_1=d_2=1\\ 0 ~,~d_1=0~ or~ d_2=0\end{cases}

Таким образом, данная переменная равна 1, например, для мужчин с высшим образованием и равна нулю для всех остальных случаев (мужчин без высшего образования и женщин независимо от уровня образования).

См. также[править | править вики-текст]