Информационный критерий Акаике

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Информационный критерий Акаике (AIC) — критерий, применяющийся исключительно для выбора из нескольких статистических моделей. Разработан в 1971 как «an information criterion» («(некий) информационный критерий») en:Hirotsugu Akaike и предложен им в статье 1974 года[1].

Предпосылкой к созданию критерия послужила задача оценки качества предсказаний модели на тестовой выборке при известном качестве на обучающей выборке при условии, что модель мы настраивали по методу максимума правдоподобия. То есть стояла задача оценки переобучения модели. Акаике, используя теорию информации (в том числе расстояние Кульбака — Лейблера), смог для ряда частных случаев получить искомую оценку.

Определение[править | править вики-текст]

В общем случае AIC:

\mathit{AIC} = 2k - 2\ln(L)\,

где k — число параметров в статистической модели, и L — максимизированное значение функции правдоподобия модели.

До конца статьи будем полагать, что ошибки модели нормально и независимо распределены. Пусть n — число наблюдений и RSS-

\mathit{RSS} =  \sum_{i=1}^n \hat{\varepsilon}_i^2,

остаточная сумма квадратов. Далее мы предполагаем, что дисперсия ошибок модели неизвестна, но одинакова для всех них. Следовательно:

\mathit{AIC}=2k + n[\ln(2\pi \mathit{RSS}/n) + 1]\,.

В случае сравнения моделей на выборках одинаковой длины, выражение можно упростить, выкидывая члены зависящие только от n:

\mathit{AIC}=2k + n[\ln(\mathit{RSS})]\,.

Таким образом, критерий не только вознаграждает за качество приближения, но и штрафует за использование излишнего количества параметров модели. Считается, что наилучшей будет модель с наименьшим значением критерия AIC. Критерий Шварца (BIC) штрафует свободные параметры в большей мере.

Стоит отметить, что абсолютное значение AIC не имеет смысла — он указывает только на относительный порядок сравниваемых моделей.

Применимость к настройке по \chi^2 (максимуму правдоподобия)[править | править вики-текст]

Часто необходимо выбирать между моделями, для которых считается, что их ошибки нормально распределены. Это приводит к критерию \chi^2.

Для таких случаев можно приспособить AIC. В рамках статьи назовем его AIC_{\chi^2}. От непосредственно AIC он будет отличаться на аддитивную константу (функцию лишь данных, но не модели), которой можно пренебречь ввиду относительного характера критерия.

Для приближения \chi^2 функция правдоподобия определяется следующим образом:

L=\prod_{i=1}^n \left(\frac{1}{2 \pi \sigma_i^2}\right)^{1/2} \exp \left( -\sum_{i=1}^{n}\frac{(y_i-f(\mathbf{x}))^2}{2\sigma_i^2}\right)
\therefore \ln L = \ln\left(\prod_{i=1}^n\left(\frac{1}{2\pi\sigma_i^2}\right)^{1/2}\right) - \frac{1}{2}\sum_{i=1}^n \frac{(y_i-f(\mathbf{x}))^2}{\sigma_i^2}
\therefore \ln L = C - \chi^2/2 \,,

где C — независимая от модели константа, которую можно исключить в случае сравнения моделей на одних и тех же данных.

Таким образом: AIC = 2k - 2\ln(L) = 2k - 2(C-\chi^2/2) = 2k -2C + \chi^2 \,. Исключая константу:

AIC_{\chi^2}=\chi^2 + 2k

Эта форма критерия часто удобна, если мы уже вычислили \chi^2 как статистику качества приближения. В случае обучения моделей на данных с одинаковым количеством точек, нужно брать модель с наименьшим значением AIC_{\chi^2}.

Аналогично, если имеется вычисленная статистика R^2 («Объясненная дисперсия»), можно записать:

AIC_{R^2}=n\ln\frac{1-R^2}{n}+2k.\

См. также[править | править вики-текст]

Ссылки[править | править вики-текст]

  1. Akaike, Hirotugu (1974). «A new look at the statistical model identification». IEEE Transactions on Automatic Control 19 (6): 716–723. DOI:10.1109/TAC.1974.1100705. MR0423716.

Литература[править | править вики-текст]