Расстояние Кульбака — Лейблера: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Метка: редактор вики-текста 2017
стилевые правки: улучшены формулы
Метка: редактор вики-текста 2017
Строка 1: Строка 1:
'''Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера''' ({{lang-en|Kullback–Leibler divergence}}), '''РКЛ''', '''''информационное расхождение''''', '''''различающая информация''''', '''''информационный выигрыш''''', '''''относительная энтропия''''' ({{lang-en|relative entropy}})<ref name=":0">{{Книга|автор=Kullback S.|заглавие=Information Theory and Statistics|ответственный=|издание=|место=|издательство=John Wiley & Sons|год=1959|страницы=|страниц=|isbn=}}</ref> — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух [[Распределение вероятностей|вероятностных распределений]]<ref>''Kullback S., Leibler R.A.'' On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.</ref>, определённых на общем [[Пространство элементарных событий|пространстве элементарных событий]]. Часто применяется в [[Теория информации|теории информации]] и [[Математическая статистика|математической статистике]].
'''Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера''' ({{lang-en|Kullback–Leibler divergence}}), '''РКЛ''', '''''информационное расхождение''''', '''''различающая информация''''', '''''информационный выигрыш''''', '''''относительная энтропия''''' ({{lang-en|relative entropy}})<ref name=":0">{{Книга|автор=Kullback S.|заглавие=Information Theory and Statistics|ответственный=|издание=|место=|издательство=John Wiley & Sons|год=1959|страницы=|страниц=|isbn=}}</ref> — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух [[Распределение вероятностей|вероятностных распределений]]<ref>''Kullback S., Leibler R.A.'' On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.</ref>, определённых на общем [[Пространство элементарных событий|пространстве элементарных событий]]. Часто применяется в [[Теория информации|теории информации]] и [[Математическая статистика|математической статистике]].


Расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние от <math>P</math> до <math>Q</math>») обозначается <math>D_{\mathrm{KL}}(P\|Q)</math>. Первый аргумент функционала (распределение <math>P</math>) обычно интерпретируется как истинное или [[Априорная вероятность|постулируемое априори распределение]], второй (распределение <math>Q</math>) — как [[Апостериорная вероятность|предполагаемое]] (проверяемое). Распределение <math>Q</math> часто служит приближением распределения <math>P</math>. Значение функционала можно понимать как количество неучтённой информации распределения <math>P</math>, если <math>Q</math> было использовано для приближения <math>P</math>. Данная мера расстояния в [[Теория информации|теории информации]] также интерпретируется как величина потерь информации при замене истинного распределения <math>P</math> на распределение <math>Q</math>.
Расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние от <math>P</math> до <math>Q</math>») обозначается <math>D_{\mathrm{KL}}(P\parallel Q)</math>. Первый аргумент функционала (распределение <math>P</math>) обычно интерпретируется как истинное или [[Априорная вероятность|постулируемое априори распределение]], второй (распределение <math>Q</math>) — как [[Апостериорная вероятность|предполагаемое]] (проверяемое). Распределение <math>Q</math> часто служит приближением распределения <math>P</math>. Значение функционала можно понимать как количество неучтённой информации распределения <math>P</math>, если <math>Q</math> было использовано для приближения <math>P</math>. Данная мера расстояния в [[Теория информации|теории информации]] также интерпретируется как величина потерь информации при замене истинного распределения <math>P</math> на распределение <math>Q</math>.


В общем случае, если <math>\mu</math> — любая [[мера множества|мера]] на <math>X</math>, для которой существуют абсолютно непрерывные относительно <math>\mu</math> функции <math>p = \frac{{\rm d}P}{{\rm d}\mu}</math> и <math>q = \frac{{\rm d}Q}{{\rm d}\mu}</math>, тогда расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> определяется как
В общем случае, если <math>\mu</math> — любая [[мера множества|мера]] на <math>X</math>, для которой существуют абсолютно непрерывные относительно <math>\mu</math> функции <math>p = \frac{{\rm d}P}{{\rm d}\mu}</math> и <math>q = \frac{{\rm d}Q}{{\rm d}\mu}</math>, тогда расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> определяется как


: <math>D_{\mathrm{KL}}(P\|Q) = \int_X p \, \log \frac{p}{q} \, {\rm d}\mu</math>.
: <math>D_{\mathrm{KL}}(P\parallel Q) = \int_X p \, \log \frac{p}{q} \, {\rm d}\mu</math>.


Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением [[Информационная энтропия|энтропии]]), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в [[бит]]ах (обычно используется в [[Теория информации|теории информации]]). Расхождение Кульбака — Лейблера является [[Безразмерная величина|безразмерной величиной]] независимо от [[Размерность физической величины|размерности]] исходных случайных величин.
Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением [[Информационная энтропия|энтропии]]), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в [[бит]]ах (обычно используется в [[Теория информации|теории информации]]). Расхождение Кульбака — Лейблера является [[Безразмерная величина|безразмерной величиной]] независимо от [[Размерность физической величины|размерности]] исходных случайных величин.


Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является [[Метрическое пространство|метрикой]] в пространстве распределений, поскольку не удовлетворяет [[Неравенство треугольника|неравенству треугольника]] и не удовлетворяет аксиоме симметричности: <math>D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q||P)</math>. Тем не менее, его инфинитезимальная форма, особенно его [[Гессиан функции|Гессиан]], дает [[метрический тензор]], который известен как [[#Отношение к метрикам|информационная метрика Фишера]].
Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является [[Метрическое пространство|метрикой]] в пространстве распределений, поскольку не удовлетворяет [[Неравенство треугольника|неравенству треугольника]] и не удовлетворяет аксиоме симметричности: <math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>. Тем не менее, его инфинитезимальная форма, особенно его [[Гессиан функции|Гессиан]], дает [[метрический тензор]], который известен как [[#Отношение к метрикам|информационная метрика Фишера]].


Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются ''f''-расхождения, а также частный случай класса расхождений Брегмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому, и другому классу.
Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются ''f''-расхождения, а также частный случай класса расхождений Брегмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому, и другому классу.
Строка 15: Строка 15:
РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика».<ref name=":0" />
РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика».<ref name=":0" />


Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(P\|Q)</math> иногда также интерпретируют как информационный выигрыш, достигнутый, если <math>P</math> использовано вместо <math>Q</math>. Иногда для РКЛ используют название (правда, вносящее путаницу) '''относительная энтропия''' <math>P</math> относительно <math>Q</math>, обозначается <math>H(P|Q)</math>.
Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(P\parallel Q)</math> иногда также интерпретируют как информационный выигрыш, достигнутый, если <math>P</math> использовано вместо <math>Q</math>. Иногда для РКЛ используют название (правда, вносящее путаницу) '''относительная энтропия''' <math>P</math> относительно <math>Q</math>, обозначается <math>H(P\mid Q)</math>.


Существуют различные соглашения относительно того, как читать обозначение<math>D_{\mathrm{KL}}(P\|Q)</math>. Часто его называют просто расхождением между <math>P</math> и <math>Q</math>, однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда это может быть описано как расхождение <math>P</math> из (относительно) <math>Q</math> (чаще в контексте относительной энтропии или информационного выигрыша). В этой статье мы используем обозначение <math>D_{\mathrm{KL}}(P\|Q)</math>, которое читается как расхождение <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние из <math>P</math> в <math>Q</math>»). Такое соглашение представляется более удачным, так как именно <math>P</math> считается истинным распределением (исходной точкой для отсчёта расстояния) и [[математическое ожидание]] берётся относительно него, а <math>Q</math> — отличное от него распределение, например, аппроксимация <math>P</math>.
Существуют различные соглашения относительно того, как читать обозначение<math>D_{\mathrm{KL}}(P\parallel Q)</math>. Часто его называют просто расхождением между <math>P</math> и <math>Q</math>, однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда это может быть описано как расхождение <math>P</math> из (относительно) <math>Q</math> (чаще в контексте относительной энтропии или информационного выигрыша). В этой статье мы используем обозначение <math>D_{\mathrm{KL}}(P\parallel Q)</math>, которое читается как расхождение <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние из <math>P</math> в <math>Q</math>»). Такое соглашение представляется более удачным, так как именно <math>P</math> считается истинным распределением (исходной точкой для отсчёта расстояния) и [[математическое ожидание]] берётся относительно него, а <math>Q</math> — отличное от него распределение, например, аппроксимация <math>P</math>.


== Частные определения и определения через производную Радона—Никодима ==
== Частные определения и определения через производную Радона—Никодима ==
Для дискретных вероятностных распределений <math>P</math> и <math>Q</math> с числом [[Пространство элементарных событий|элементарных событий]] <math>n</math> расхождение Кульбака — Лейблера распределения <math>Q</math> относительно распределения <math>P</math> (или «расстояние от <math>P</math> до <math>Q</math>») определяется<ref>{{Книга|автор=MacKay, David J.C.|заглавие=Information Theory, Inference, and Learning Algorithms|ответственный=|издание=First ed.|место=|издательство=Cambridge University Press|год=2003|страницы=p. 34|страниц=|isbn=}}</ref> как:
Для дискретных вероятностных распределений <math>P</math> и <math>Q</math> с числом [[Пространство элементарных событий|элементарных событий]] <math>n</math> расхождение Кульбака — Лейблера распределения <math>Q</math> относительно распределения <math>P</math> (или «расстояние от <math>P</math> до <math>Q</math>») определяется<ref>{{Книга|автор=MacKay, David J.C.|заглавие=Information Theory, Inference, and Learning Algorithms|ответственный=|издание=First ed.|место=|издательство=Cambridge University Press|год=2003|страницы=p. 34|страниц=|isbn=}}</ref> как:


: <math>D_{KL}(P||Q) = \sum\limits_{i=1}^n p_i \log \frac{p_i}{q_i}</math>.
: <math>D_{KL}(P\parallel Q) = \sum\limits_{i=1}^n p_i \log \frac{p_i}{q_i}</math>.


Другими словами, это [[математическое ожидание]] логарифмической разности между вероятностями <math>p</math> и <math>q</math>, где математическое ожидание берётся по распределению <math>P</math>. [[Расстояние Кульбака — Лейблера|РКЛ]] определено, только если <math>q_i=0 \Rightarrow p_i=0</math>, для всех <math>i=1,...,n</math> ([[абсолютная непрерывность]]). Всякий раз, когда <math>p_i=0</math>, вклад <math>i</math>-го члена интерпретируется как ноль, потому что <math>\lim_{x \to 0} x \log(x) = 0</math>.
Другими словами, это [[математическое ожидание]] логарифмической разности между вероятностями <math>p</math> и <math>q</math>, где математическое ожидание берётся по распределению <math>P</math>. [[Расстояние Кульбака — Лейблера|РКЛ]] определено, только если <math>q_i=0 \Rightarrow p_i=0</math>, для всех <math>i=1,...,n</math> ([[абсолютная непрерывность]]). Всякий раз, когда <math>p_i=0</math>, вклад <math>i</math>-го члена интерпретируется как ноль, потому что <math>\lim_{x \to 0} x \log(x) = 0</math>.
Строка 28: Строка 28:
Для <math>k</math>-мерных [[Непрерывная случайная величина|абсолютно непрерывных распределений]] <math>P</math> и <math>Q</math> расстояние Кульбака — Лейблера задаётся выражением<ref>{{Книга|автор=Bishop C.|заглавие=Pattern Recognition and Machine Learning|ответственный=|издание=|место=|издательство=|год=2006|страницы=p. 55|страниц=|isbn=}}</ref>
Для <math>k</math>-мерных [[Непрерывная случайная величина|абсолютно непрерывных распределений]] <math>P</math> и <math>Q</math> расстояние Кульбака — Лейблера задаётся выражением<ref>{{Книга|автор=Bishop C.|заглавие=Pattern Recognition and Machine Learning|ответственный=|издание=|место=|издательство=|год=2006|страницы=p. 55|страниц=|isbn=}}</ref>


: <math>D_{\mathrm{KL}}(P\|Q) = \int_X \, p(x)\log\frac{p(x)}{q(x)} \, {\rm d}x</math>,
: <math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \, p(x)\log\frac{p(x)}{q(x)} \, {\rm d}x</math>,
где <math>p(x)</math> и <math>q(x)</math> — [[Плотность вероятности|функции плотности распределений]] <math>P</math> и <math>Q</math> соответственно, определённые на интервале <math>X \subseteq R^k</math>.
где <math>p(x)</math> и <math>q(x)</math> — [[Плотность вероятности|функции плотности распределений]] <math>P</math> и <math>Q</math> соответственно, определённые на интервале <math>X \subseteq R^k</math>.


В более общем смысле, если <math>P</math> и <math>Q</math> — вероятностные меры на множестве <math>X</math>, и <math>P</math> абсолютно непрерывна относительно <math>Q</math>, тогда РКЛ от <math>P</math> до <math>Q</math> определено как:
В более общем смысле, если <math>P</math> и <math>Q</math> — вероятностные меры на множестве <math>X</math>, и <math>P</math> абсолютно непрерывна относительно <math>Q</math>, тогда РКЛ от <math>P</math> до <math>Q</math> определено как:


: <math>D_{\mathrm{KL}}(P\|Q) = \int_X \log\frac{{\rm d}P}{{\rm d}Q} \, {\rm d}P</math>,
: <math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \log\frac{{\rm d}P}{{\rm d}Q} \, {\rm d}P</math>,


где <math>\frac{{\rm d}P}{{\rm d}Q}</math> — это [[Производная Радона — Никодима|производная Радона—Никодима]] <math>P</math> относительно <math>Q</math>, и при условии, что выражение справа существует. Эквивалентно это может быть записано как
где <math>\frac{{\rm d}P}{{\rm d}Q}</math> — это [[Производная Радона — Никодима|производная Радона—Никодима]] <math>P</math> относительно <math>Q</math>, и при условии, что выражение справа существует. Эквивалентно это может быть записано как


: <math>D_{\mathrm{KL}}(P\|Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q</math>,
: <math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q</math>,
что напоминает выражение для [[Дифференциальная энтропия|дифференциальной энтропии]], взятой со знаком минус (впрочем, сходство здесь лишь формальное).
что напоминает выражение для [[Дифференциальная энтропия|дифференциальной энтропии]], взятой со знаком минус (впрочем, сходство здесь лишь формальное).


Строка 54: Строка 54:
<math display="inline">
<math display="inline">
\begin{matrix}
\begin{matrix}
D_{\mathrm{KL}}(P\|Q) = -\sum_x p(x) \log q(x) + \sum_x p(x) \log p(x) = H(P,Q)-H(P)\, \!
D_{\mathrm{KL}}(P\parallel Q) = -\sum_x p(x) \log q(x) + \sum_x p(x) \log p(x) = H(P,Q)-H(P)\, \!
\end{matrix}</math>, где <math>H(P,Q
\end{matrix}</math>, где <math>H(P,Q
)</math> — [[Перекрёстная энтропия|перекрестная энтропия]] P и Q, <math>H(P)</math> — [[Информационная энтропия|энтропия]] P.
)</math> — [[Перекрёстная энтропия|перекрестная энтропия]] P и Q, <math>H(P)</math> — [[Информационная энтропия|энтропия]] P.
Строка 61: Строка 61:


== Свойства ==
== Свойства ==
* Расстояние Кульбака — Лейблера всегда неотрицательно, <math>D_{\mathrm{KL}}(P\|Q) \geq 0,</math>это результат, который известен как [[:en:Gibbs' inequality|неравенство Гиббса]], <math>D_{KL}(P||Q)=0 \iff P=Q</math> [[почти всюду]]. Энтропия H(P), таким образом, задаёт минимальное значение перекрестной энтропии H(P,Q), ожидаемое число дополнительных битов, требуемых когда используется код, основанный на Q, а не на P. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение <math>x\subset X</math>, если используется код, соответствующий распределению вероятностей Q, а не «истинному» распределения P.
* Расстояние Кульбака — Лейблера всегда неотрицательно, <math>D_{\mathrm{KL}}(P\parallel Q) \geq 0,</math>это результат, который известен как [[:en:Gibbs' inequality|неравенство Гиббса]], <math>D_{KL}(P\parallel Q)=0 \iff P=Q</math> [[почти всюду]]. Энтропия H(P), таким образом, задаёт минимальное значение перекрестной энтропии H(P,Q), ожидаемое число дополнительных битов, требуемых когда используется код, основанный на Q, а не на P. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение <math>x\subset X</math>, если используется код, соответствующий распределению вероятностей Q, а не «истинному» распределения P.
* Расстояние Кульбака — Лейблера не симметрично: <math>D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q||P)</math>.
* Расстояние Кульбака — Лейблера не симметрично: <math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>.


* Расстояние Кульбака — Лейблера остается строго определенным для непрерывных распределений, и кроме того инвариантно относительно замены переменных. Например, если сделана замена переменной x на переменную y(x), тогда, так как <math>P(x)dx=P(y)dy</math> и <math>Q(x)dx=Q(y)</math>, РКЛ может переписано:
* Расстояние Кульбака — Лейблера остается строго определенным для непрерывных распределений, и кроме того инвариантно относительно замены переменных. Например, если сделана замена переменной x на переменную y(x), тогда, так как <math>P(x)dx=P(y)dy</math> и <math>Q(x)dx=Q(y)</math>, РКЛ может переписано:
<math display="inline">D_{\mathrm{KL}}(P\|Q)
<math display="inline">D_{\mathrm{KL}}(P\parallel Q)
= \int_{x_a}^{x_b}P(x)\log\left(\frac{P(x)}{Q(x)}\right)\,dx
= \int_{x_a}^{x_b}P(x)\log\left(\frac{P(x)}{Q(x)}\right)\,dx
= \int_{y_a}^{y_b}P(y)\log\left(\frac{P(y)dy/dx}{Q(y)dy/dx}\right)\,dy
= \int_{y_a}^{y_b}P(y)\log\left(\frac{P(y)dy/dx}{Q(y)dy/dx}\right)\,dy
Строка 72: Строка 72:


где <math>y_a=y(x_a)</math> и <math>y_b=y(x_b)</math>. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину [[Анализ размерности|согласованную с размерностью]], так как если x — размерная переменная, то P(x) и Q(x) также имеют размерность, так как <math>P(x)dx</math> является безрамерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации<ref>{{Cite web|url=http://videolectures.net/nips09_verdu_re/|title=Relative Entropy|publisher=videolectures.net|accessdate=2016-06-14}}</ref> (такие как [[собственная информация]] или [[энтропия Шеннона]]), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.
где <math>y_a=y(x_a)</math> и <math>y_b=y(x_b)</math>. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину [[Анализ размерности|согласованную с размерностью]], так как если x — размерная переменная, то P(x) и Q(x) также имеют размерность, так как <math>P(x)dx</math> является безрамерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации<ref>{{Cite web|url=http://videolectures.net/nips09_verdu_re/|title=Relative Entropy|publisher=videolectures.net|accessdate=2016-06-14}}</ref> (такие как [[собственная информация]] или [[энтропия Шеннона]]), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.
* РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если <math>P_1, P_2</math> являются независимыми распределениями с совместным распределением <math>P(x,y) = P_1(x)P_2(y)</math> и, аналогично, <math>Q(x,y) = Q_1(x)Q_2(y)</math>, то <math>D_{\mathrm{KL}}(P \| Q) = D_{\mathrm{KL}}(P_1 \| Q_1) + D_{\mathrm{KL}}(P_2 \| Q_2).</math>
* РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если <math>P_1, P_2</math> являются независимыми распределениями с совместным распределением <math>P(x,y) = P_1(x)P_2(y)</math> и, аналогично, <math>Q(x,y) = Q_1(x)Q_2(y)</math>, то <math>D_{\mathrm{KL}}(P \parallel Q) = D_{\mathrm{KL}}(P_1 \parallel Q_1) + D_{\mathrm{KL}}(P_2 \parallel Q_2).</math>


== Расстояние Кульбака — Лейблера для многомерного нормального распределения ==
== Расстояние Кульбака — Лейблера для многомерного нормального распределения ==
Допустим, что мы имеем два [[Многомерное нормальное распределение|многомерных нормальных распределения]], со средними <math>\mu_0, \mu_1</math> и с (обратимыми) [[Ковариационная матрица|матрицами ковариаций]] <math>\Sigma_0, \Sigma_1</math>. Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее<ref>{{Статья|автор=Duchi J.|заглавие="Derivations for Linear Algebra and Optimization"|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=13|issn=}}</ref>:
Допустим, что мы имеем два [[Многомерное нормальное распределение|многомерных нормальных распределения]], со средними <math>\mu_0, \mu_1</math> и с (обратимыми) [[Ковариационная матрица|матрицами ковариаций]] <math>\Sigma_0, \Sigma_1</math>. Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее<ref>{{Статья|автор=Duchi J.|заглавие="Derivations for Linear Algebra and Optimization"|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=13|issn=}}</ref>:


<math>D_\text{KL}(\mathcal{N}_0 \| \mathcal{N}_1) = { 1 \over 2 } \left( \mathrm{tr} \left( \Sigma_1^{-1} \Sigma_0 \right) + \left( \mu_1 - \mu_0\right)^\top \Sigma_1^{-1} ( \mu_1 - \mu_0 ) - k + \ln \left( { \det \Sigma_1 \over \det \Sigma_0 } \right) \right).</math>
<math>D_\text{KL}(\mathcal{N}_0 \parallel \mathcal{N}_1) = { 1 \over 2 } \left( \mathrm{tr} \left( \Sigma_1^{-1} \Sigma_0 \right) + \left( \mu_1 - \mu_0\right)^\top \Sigma_1^{-1} ( \mu_1 - \mu_0 ) - k + \ln \left( { \det \Sigma_1 \over \det \Sigma_0 } \right) \right).</math>


Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в [[Нат (теория информации)|натах]]. Целиком разделив это выражение на log<sub>e</sub>2, получим распределение в битах.
Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в [[Нат (теория информации)|натах]]. Целиком разделив это выражение на log<sub>e</sub>2, получим распределение в битах.


== Отношение к метрикам ==
== Отношение к метрикам ==
Можно было бы назвать РКЛ «[[Метрическое пространство|метрикой]]» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично<math>D_{\mathrm{KL}}(P\|Q) \neq D_{\mathrm{KL}}(Q||P)</math>, и не удовлетворяет [[Неравенство треугольника|неравенству треугольника]]. Все-таки, будучи [[:en:Metric (mathematics)#Premetrics|предварительной метрикой]], она порождает [[Топология|топологию]] в пространстве [[Распределение вероятностей|вероятностных распределений]]. Более конкретно, если <math>\{P_1,P_2,\cdots\}</math>- это последовательность распределений такая, что <math>\lim_{n \rightarrow \infty} D_{\mathrm{KL}}(P_n\|Q) = 0</math>, тогда говорят, что <math>P_n \xrightarrow{D} Q</math>. Из [[:en:Pinsker's inequality|неравенства Пинкера]] следует, что — <math>P_n \xrightarrow{\mathrm{D}} P \Rightarrow P_n \xrightarrow{\mathrm{TV}} P</math>, где последнее нужно для для сходимости по [[Вариация функции|вариации]].
Можно было бы назвать РКЛ «[[Метрическое пространство|метрикой]]» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично<math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>, и не удовлетворяет [[Неравенство треугольника|неравенству треугольника]]. Все-таки, будучи [[:en:Metric (mathematics)#Premetrics|предварительной метрикой]], она порождает [[Топология|топологию]] в пространстве [[Распределение вероятностей|вероятностных распределений]]. Более конкретно, если <math>\{P_1,P_2,\cdots\}</math>- это последовательность распределений такая, что <math>\lim_{n \rightarrow \infty} D_{\mathrm{KL}}(P_n\parallel Q) = 0</math>, тогда говорят, что <math>P_n \xrightarrow{D} Q</math>. Из [[:en:Pinsker's inequality|неравенства Пинкера]] следует, что — <math>P_n \xrightarrow{\mathrm{D}} P \Rightarrow P_n \xrightarrow{\mathrm{TV}} P</math>, где последнее нужно для для сходимости по [[Вариация функции|вариации]].


Согласно [[Реньи, Альфред|Альфреду Реньи]] (1970, 1961).<ref>{{Книга|автор=Rényi A.|заглавие=Probability Theory|ответственный=|издание=|место=|издательство=|год=1970|страницы=|страниц=|isbn=0-486-45867-9.}}</ref><ref>{{Книга|автор=Rényi, A.|заглавие="On measures of entropy and information"|ответственный=|издание=|место=4th Berkeley Symposium on Mathematics, Statistics and Probability 1960|издательство=|год=1961|страницы=547–561|страниц=|isbn=}}</ref>
Согласно [[Реньи, Альфред|Альфреду Реньи]] (1970, 1961).<ref>{{Книга|автор=Rényi A.|заглавие=Probability Theory|ответственный=|издание=|место=|издательство=|год=1970|страницы=|страниц=|isbn=0-486-45867-9.}}</ref><ref>{{Книга|автор=Rényi, A.|заглавие="On measures of entropy and information"|ответственный=|издание=|место=4th Berkeley Symposium on Mathematics, Statistics and Probability 1960|издательство=|год=1961|страницы=547–561|страниц=|isbn=}}</ref>
Строка 91: Строка 91:
<math>P(\theta) = P(\theta_0) + \Delta\theta^jP_j(\theta_0) + \cdots</math>,
<math>P(\theta) = P(\theta_0) + \Delta\theta^jP_j(\theta_0) + \cdots</math>,


где <math>\Delta\theta^j = (\theta - \theta_0)^j</math> — малое изменение <math>\theta</math> в j-м направлении, а <math>P_{j}(\theta_0) = \frac{\partial P}{\partial \theta^j}(\theta_0)</math> соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть <math>\theta=\theta_0</math> то РКЛ имеет второй порядок малости по параметрам <math>\Delta\theta^j</math>. Более формально, как и для любого минимума, первая производная расхождения обращается в ноль <math>\left.\frac{\partial}{\partial \theta^j}\right|_{\theta = \theta_0} D_{KL}(P(\theta) \| P(\theta_0)) = 0,</math>
где <math>\Delta\theta^j = (\theta - \theta_0)^j</math> — малое изменение <math>\theta</math> в j-м направлении, а <math>P_{j}(\theta_0) = \frac{\partial P}{\partial \theta^j}(\theta_0)</math> соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть <math>\theta=\theta_0</math> то РКЛ имеет второй порядок малости по параметрам <math>\Delta\theta^j</math>. Более формально, как и для любого минимума, первая производная расхождения обращается в ноль <math>\left.\frac{\partial}{\partial \theta^j}\right|_{\theta = \theta_0} D_{KL}(P(\theta) \parallel P(\theta_0)) = 0,</math>


и [[Ряд Тейлора|разложение Тейлора]] начинается со второго порядка малости
и [[Ряд Тейлора|разложение Тейлора]] начинается со второго порядка малости


<math>D_{\mathrm{KL}}(P(\theta)\|P(\theta_0)) = \frac{1}{2} \Delta\theta^j\Delta\theta^k g_{jk}(\theta_0) + \cdots</math>,
<math>D_{\mathrm{KL}}(P(\theta)\parallel P(\theta_0)) = \frac{1}{2} \Delta\theta^j\Delta\theta^k g_{jk}(\theta_0) + \cdots</math>,


где [[Гессиан функции|Гессиан]] <math>g_{jk}(\theta)</math> должен быть неотрицательным. Если позволить <math>\theta_0</math> изменяться (и опуская подиндекс 0), то Гессиан <math>g_{jk}(\theta)</math> определяет (возможно, вырожденную) [[:en:Riemannian manifold#Riemannian metrics|метрику Римана]] в пространстве параметра <math>\theta</math>, называемую ''информационной метрикой Фишера.''
где [[Гессиан функции|Гессиан]] <math>g_{jk}(\theta)</math> должен быть неотрицательным. Если позволить <math>\theta_0</math> изменяться (и опуская подиндекс 0), то Гессиан <math>g_{jk}(\theta)</math> определяет (возможно, вырожденную) [[:en:Riemannian manifold#Riemannian metrics|метрику Римана]] в пространстве параметра <math>\theta</math>, называемую ''информационной метрикой Фишера.''
Строка 102: Строка 102:
Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.
Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.


[[Собственная информация]] <math>D_{\mathrm{KL}}(\delta_{im} \| \{ p_i \}) </math> является РКЛ вероятностного распределения <math>P(i)</math> из [[Символ Кронекера|символа Кронекера]], представляющего определённость в том, что <math>i=m</math> — то есть число дополнительных бит, которые должны быть переданы для определения <math>i</math>, если только вероятностное распределение <math>P(i)</math> доступно для получателя, не факт, что <math>i=m</math>.
[[Собственная информация]] <math>D_{\mathrm{KL}}(\delta_{im} \parallel \{ p_i \}) </math> является РКЛ вероятностного распределения <math>P(i)</math> из [[Символ Кронекера|символа Кронекера]], представляющего определённость в том, что <math>i=m</math> — то есть число дополнительных бит, которые должны быть переданы для определения <math>i</math>, если только вероятностное распределение <math>P(i)</math> доступно для получателя, не факт, что <math>i=m</math>.


[[Взаимная информация]] -
[[Взаимная информация]] -


<math>\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \| P(X)P(Y) ) \\
<math>\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \parallel P(X)P(Y) ) \\
& = \operatorname{E}_X \{D_{\mathrm{KL}}(P(Y|X) \| P(Y) ) \} \\
& = \operatorname{E}_X \{D_{\mathrm{KL}}(P(Y\mid X) \parallel P(Y) ) \} \\
& = \operatorname{E}_Y \{D_{\mathrm{KL}}(P(X|Y) \| P(X) ) \}\end{align} </math>
& = \operatorname{E}_Y \{D_{\mathrm{KL}}(P(X\mid Y) \parallel P(X) ) \}\end{align} </math>


является РКЛ произведения <math>P(X)P(Y)</math> двух маргинальных вероятностных распределений из совместного вероятностного распределения <math>P(X,Y)</math> — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить <math>X</math> и <math>Y</math>, если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность <math>P(X,Y)</math> известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения <math>Y</math>, если значение <math>X</math> уже не известны получателю.
является РКЛ произведения <math>P(X)P(Y)</math> двух маргинальных вероятностных распределений из совместного вероятностного распределения <math>P(X,Y)</math> — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить <math>X</math> и <math>Y</math>, если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность <math>P(X,Y)</math> известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения <math>Y</math>, если значение <math>X</math> уже не известны получателю.
Строка 132: Строка 132:
это число битов, которые должны быть переданы для идентификации <math>X</math> из <math>N</math> одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений <math>P_U(X) </math> из истинного совместного распределения <math>P(X,Y)</math> — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение <math>X</math> закодировано согласно с равномерным распределением <math>P_U(X)</math>, а не с условным распределением <math>P(X \mid Y)</math> данных <math>X</math> и <math>Y</math>.
это число битов, которые должны быть переданы для идентификации <math>X</math> из <math>N</math> одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений <math>P_U(X) </math> из истинного совместного распределения <math>P(X,Y)</math> — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение <math>X</math> закодировано согласно с равномерным распределением <math>P_U(X)</math>, а не с условным распределением <math>P(X \mid Y)</math> данных <math>X</math> и <math>Y</math>.


[[Перекрёстная энтропия|Перекрестная энтропия]] между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности <math>Q</math>, а не «истинного» распределения <math>P</math>. Перекрестная энтропия для двух распределений <math>P</math> и <math>Q</math> над тем же вероятностным пространством определяется так: <math>H(p, q) = \operatorname{E}_p[-\log q] = H(p) + D_{\mathrm{KL}}(p \| q).</math>
[[Перекрёстная энтропия|Перекрестная энтропия]] между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности <math>Q</math>, а не «истинного» распределения <math>P</math>. Перекрестная энтропия для двух распределений <math>P</math> и <math>Q</math> над тем же вероятностным пространством определяется так: <math>H(p, q) = \operatorname{E}_p[-\log q] = H(p) + D_{\mathrm{KL}}(p \parallel q).</math>


== Расстояние Кульбака — Лейблера и Байесовская модификация ==
== Расстояние Кульбака — Лейблера и Байесовская модификация ==
В [[:en:Bayesian statistics|Байесовской статистике]] Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от [[Априорная вероятность|априорного]] к [[Апостериорная вероятность|апостериорному]] вероятностному распределению. Если обнаружен некоторый новый факт Y=y, оно может быть использовано для модификации (априорного) распределения вероятностей <math>p(x|I) </math> для <math>X </math> в новое (апостериорное) распределение вероятностей <math>p(x|y, I) </math> используя [[Теорема Байеса|Теорему Байеса]]:
В [[:en:Bayesian statistics|Байесовской статистике]] Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от [[Априорная вероятность|априорного]] к [[Апостериорная вероятность|апостериорному]] вероятностному распределению. Если обнаружен некоторый новый факт <math>Y=y</math>, оно может быть использовано для модификации (априорного) распределения вероятностей <math>p(x\mid I) </math> для <math>X </math> в новое (апостериорное) распределение вероятностей <math>p(x\mid y, I) </math> используя [[Теорема Байеса|Теорему Байеса]]:


: <math>p(x\mid y,I) = \frac{p(y\mid x,I) p(x\mid I)}{p(y\mid I)}. </math>
: <math>p(x\mid y,I) = \frac{p(y\mid x,I) p(x\mid I)}{p(y\mid I)}. </math>
Строка 143: Строка 143:
: <math>H\big( p(\cdot\mid y,I) \big) = -\sum_x p(x\mid y,I) \log p(x\mid y,I), </math>
: <math>H\big( p(\cdot\mid y,I) \big) = -\sum_x p(x\mid y,I) \log p(x\mid y,I), </math>


которая может быть меньше или больше, чем изначальная энтропия <math>H\big( p(\cdot\mid I) \big) </math>. Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на <math>p(x|I) </math> вместо нового кода, основанного на <math>p(x|y, I) </math>, добавило бы ожидаемое число битов — <math>D_{\mathrm{KL}}\big(p(\cdot\mid y,I) \mid p(\cdot\mid I) \big) = \sum_x p(x\mid y,I) \log \frac{p(x\mid y,I)}{p(x\mid I)} </math> к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно <math>X </math>, которое было получено при обнаружении, что Y=y.
которая может быть меньше или больше, чем изначальная энтропия <math>H\big( p(\cdot\mid I) \big) </math>. Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на <math>p(x\mid I) </math> вместо нового кода, основанного на <math>p(x\mid y, I) </math>, добавило бы ожидаемое число битов — <math>D_{\mathrm{KL}}\big(p(\cdot\mid y,I) \mid p(\cdot\mid I) \big) = \sum_x p(x\mid y,I) \log \frac{p(x\mid y,I)}{p(x\mid I)} </math> к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно <math>X </math>, которое было получено при обнаружении, что <math>Y=y</math>.


Если впоследствии приходит еще один фрагмент данных, <math>Y_2=y_2 </math>, то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение <math>p(x|y_1,y_2, I) </math>. Если исследовать заново [[Расстояние Кульбака — Лейблера|информационный выигрыш]] для использования <math>p(x|y_1, I) </math>, а не <math>p(x|I) </math>, оказывается, что это может быть больше или меньше, чем предполагалось ранее: <math>\sum_x p(x\mid y_1,y_2,I) \log \frac{p(x\mid y_1,y_2,I)}{p(x\mid I)} </math>, может быть <math>\leq </math> или <math>> </math>, чем <math>\displaystyle\sum_x p(x\mid y_1,I) \log \frac{p(x\mid y_1,I)}{p(x\mid I)} </math>, и поэтому общий информационный выигрыш не выполняет неравенство треугольника:
Если впоследствии приходит еще один фрагмент данных, <math>Y_2=y_2 </math>, то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение <math>p(x\mid y_1,y_2, I) </math>. Если исследовать заново [[Расстояние Кульбака — Лейблера|информационный выигрыш]] для использования <math>p(x\mid y_1, I) </math>, а не <math>p(x\mid I) </math>, оказывается, что это может быть больше или меньше, чем предполагалось ранее: <math>\sum_x p(x\mid y_1,y_2,I) \log \frac{p(x\mid y_1,y_2,I)}{p(x\mid I)} </math>, может быть <math>\leq </math> или <math>> </math>, чем <math>\displaystyle\sum_x p(x\mid y_1,I) \log \frac{p(x\mid y_1,I)}{p(x\mid I)} </math>, и поэтому общий информационный выигрыш не выполняет неравенство треугольника:


<math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I) \big\| p(\cdot\mid I) \big) </math>, может быть больше, меньше или равно <math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I)\big\| p(\cdot|y_1,I) \big) + D_{\mathrm{KL}} \big( p(\cdot \mid y_1,I) \big\| p(x\mid I) \big). </math>
<math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I) \parallel p(\cdot\mid I) \big) </math>, может быть больше, меньше или равно <math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I)\parallel p(\cdot\mid y_1,I) \big) + D_{\mathrm{KL}} \big( p(\cdot \mid y_1,I) \parallel p(x\mid I) \big). </math>


Все, что можно сказать, что в среднем, беря среднее, используя <math>p(y_2|y_1, x, I) </math>, обе стороны будут давать среднее значение.
Все, что можно сказать, что в среднем, беря среднее, используя <math>p(y_2\mid y_1, x, I) </math>, обе стороны будут давать среднее значение.


=== Экспериментальная модель Байеса ===
=== Экспериментальная модель Байеса ===
Строка 155: Строка 155:


== Различающая информация ==
== Различающая информация ==
Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(p(x|H_1)||p(x|H_0))</math> может также быть интерпретировано как ожидаемая различающая информация для <math>H_1 </math>над <math>H_0 </math>: средняя информация на одну выборку для различия в пользу гипотезы <math>H_1 </math>, против гипотезы <math>H_0 </math>, когда гипотеза <math>H_1 </math> верна<ref>{{Статья|автор=Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8|заглавие=|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=|issn=}}</ref>. Еще одно имя для этой величины, данное [[Гуд, Ирвинг Джон|Ирвингом Джоном Гудом]], это ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math>, ожидаемая из каждой выборки.
Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(p(x\mid H_1)\parallel p(x\mid H_0))</math> может также быть интерпретировано как ожидаемая различающая информация для <math>H_1 </math>над <math>H_0 </math>: средняя информация на одну выборку для различия в пользу гипотезы <math>H_1 </math>, против гипотезы <math>H_0 </math>, когда гипотеза <math>H_1 </math> верна<ref>{{Статья|автор=Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8|заглавие=|ссылка=|язык=|издание=|тип=|год=|месяц=|число=|том=|номер=|страницы=|issn=}}</ref>. Еще одно имя для этой величины, данное [[Гуд, Ирвинг Джон|Ирвингом Джоном Гудом]], это ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math>, ожидаемая из каждой выборки.


Ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math> это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения ''p(H)'' гипотезы, <math>D_\mathrm{KL}( p(x|H_1) \| p(x|H_0) ) \neq IG = D_\mathrm{KL}( p(H|x) \| p(H|I) ). </math>.
Ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math> это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения ''p(H)'' гипотезы, <math>D_\mathrm{KL}( p(x\mid H_1) \parallel p(x\mid H_0) ) \neq IG = D_\mathrm{KL}( p(H\mid x) \parallel p(H\mid I) ). </math>.


Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.
Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.
Строка 164: Строка 164:


== Принцип минимальной различающей информации ==
== Принцип минимальной различающей информации ==
Идея РКЛ как различающей информации привела Кульбака к предположению '''''Принципа Минимальной различающей информации''''' ({{lang-en|Minimum Discrimination Information, MDI}}): учитывая новые факты, новое распределение <math>f</math> следует выбрать, из тех, которые трудно отличить от первоначального распределения <math>f_0 </math>; потому что новые данные производят так мало информационного выигрыша <math>D_{KL}(f||f_0) </math> как только возможно.
Идея РКЛ как различающей информации привела Кульбака к предположению '''''Принципа Минимальной различающей информации''''' ({{lang-en|Minimum Discrimination Information, MDI}}): учитывая новые факты, новое распределение <math>f</math> следует выбрать, из тех, которые трудно отличить от первоначального распределения <math>f_0 </math>; потому что новые данные производят так мало информационного выигрыша <math>D_{KL}(f\parallel f_0) </math> как только возможно.


Например, если мы имеем априорное распределение ''p(x, a)'' над x и a, и потом изучим истинное распределение a и u(a). РКЛ между новым совместным распределением для x и a, q(x|a) u(a), и прежнего априорного распределения было бы: <math>D_\mathrm{KL}(q(x|a)u(a)\|p(x,a)) = \operatorname{E}_{u(a)}\{D_\mathrm{KL}(q(x|a)\|p(x|a))\} + D_\mathrm{KL}(u(a)\|p(a)), </math>
Например, если мы имеем априорное распределение <math>p(x, a)</math> над <math>x</math> и <math>a</math>, и потом изучим истинное распределение <math>a</math> и <math>u(a)</math>. РКЛ между новым совместным распределением для <math>x</math> и <math>a</math>, <math>q(x\mid a) u(a)</math>, и прежнего априорного распределения было бы: <math>D_\mathrm{KL}(q(x\mid a)u(a)\parallel p(x,a)) = \operatorname{E}_{u(a)}\{D_\mathrm{KL}(q(x\mid a)\parallel p(x\mid a))\} + D_\mathrm{KL}(u(a)\parallel p(a)), </math>


то есть сумма РКЛ ''p(a)'' априорного распределения для a из обновленного распределения ''u(a)'', плюс ожидаемое значение (используемое вероятностное распределение ''u(a)'') РКЛ априорного условного распределения ''p(x|a)'' из нового распределения ''p(x|a)''. (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается <math>D_{KL}(q(x|a)||p(x|a)) </math><ref>{{Книга|автор=Thomas M. Cover, Joy A. Thomas|заглавие=Elements of Information Theory|ответственный=|издание=John Wiley & Sons|место=|издательство=|год=1991|страницы=p.22|страниц=|isbn=}}</ref>. Это минимизирует, если ''q(x|a) = p(x|a)'' над общим содержанием ''u(a). И'' мы замечаем что этот результат объединяет теорему Байеса, если новое распределение ''u(a)'' это по факту функция, уверенно представляющая, что ''a'' имеет одно частное значение.
то есть сумма РКЛ <math>p(a)</math> априорного распределения для <math>a</math> из обновленного распределения <math>u(a)</math>, плюс ожидаемое значение (используемое вероятностное распределение <math>u(a)</math>) РКЛ априорного условного распределения <math>p(x\mid a)</math> из нового распределения <math>p(x\mid a)</math>. (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается <math>D_{KL}(q(x\mid a)\parallel p(x\mid a)) </math><ref>{{Книга|автор=Thomas M. Cover, Joy A. Thomas|заглавие=Elements of Information Theory|ответственный=|издание=John Wiley & Sons|место=|издательство=|год=1991|страницы=p.22|страниц=|isbn=}}</ref>. Это минимизирует, если <math>q(x\mid a) = p(x\mid a)</math> над общим содержанием <math>u(a)</math>. И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение <math>u(a)</math> это по факту функция, уверенно представляющая, что <math>a</math> имеет одно частное значение.


Минимальная различающая информация может быть рассмотрена как расширение [[:en:Principle of indifference|Принципа безразличия]] [[Лаплас, Пьер-Симон|Лапласа]] (другое его название — принцип недостаточного основания) и [[Принцип максимума энтропии|Принципа максимума энтропии]] [[Джейнс, Эдвин Томпсон|Джейнса]]. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона прекращается, чтобы быть очень удобной (см. [[дифференциальная энтропия]]), но РКЛ продолжает быть столь же актуальной.
Минимальная различающая информация может быть рассмотрена как расширение [[:en:Principle of indifference|Принципа безразличия]] [[Лаплас, Пьер-Симон|Лапласа]] (другое его название — принцип недостаточного основания) и [[Принцип максимума энтропии|Принципа максимума энтропии]] [[Джейнс, Эдвин Томпсон|Джейнса]]. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона прекращается, чтобы быть очень удобной (см. [[дифференциальная энтропия]]), но РКЛ продолжает быть столь же актуальной.


В инженерной литературе, MDI иногда называется принципом минимума [[Перекрёстная энтропия|перекрестной энтропии]]. Минимизация РКЛ ''m'' из ''p'' в отношении ''m'' эквивалентна минимизации перекрестной энтропии ''p'' и ''m'', так <math>H(p,m) = H(p) + D_{\mathrm{KL}}(p\|m), </math> который подходит, если попытаться выбрать точное приближенное значение до ''p''.
В инженерной литературе, MDI иногда называется принципом минимума [[Перекрёстная энтропия|перекрестной энтропии]]. Минимизация РКЛ <math>m</math> из <math>p</math> в отношении <math>m</math> эквивалентна минимизации перекрестной энтропии <math>p</math> и <math>m</math>, так <math>H(p,m) = H(p) + D_{\mathrm{KL}}(p\parallel m), </math> который подходит, если попытаться выбрать точное приближенное значение до <math>p</math>.


=== Пример использования ===
=== Пример использования ===
Пусть по выборке <math>x_1, x_2, ..., x_n</math> из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства <math>f(x,\theta)</math>, где <math>x \in X \subseteq R</math> — аргумент функции, <math>\theta</math> — неизвестный параметр. Оценка параметра <math>\theta</math> может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью <math>f(x,\theta)</math> и эмпирической плотностью распределения, считающейся «истинной»,
Пусть по выборке <math>x_1, x_2,\dotsc, x_n</math> из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства <math>f(x,\theta)</math>, где <math>x \in X \subseteq R</math> — аргумент функции, <math>\theta</math> — неизвестный параметр. Оценка параметра <math>\theta</math> может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью <math>f(x,\theta)</math> и эмпирической плотностью распределения, считающейся «истинной»,


: <math>\hat{f}(x)=\frac{1}{n}\sum\limits_{i=1}^n \mathbf\delta(x-x_i)</math>,
: <math>\hat{f}(x)=\frac{1}{n}\sum\limits_{i=1}^n \mathbf\delta(x-x_i)</math>,

Версия от 21:58, 28 февраля 2019

Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (англ. Kullback–Leibler divergence), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (англ. relative entropy)[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Расхождение Кульбака — Лейблера распределения относительно (или, условно говоря, «расстояние от до ») обозначается . Первый аргумент функционала (распределение ) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение ) — как предполагаемое (проверяемое). Распределение часто служит приближением распределения . Значение функционала можно понимать как количество неучтённой информации распределения , если было использовано для приближения . Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения на распределение .

В общем случае, если  — любая мера на , для которой существуют абсолютно непрерывные относительно функции и , тогда расхождение Кульбака — Лейблера распределения относительно определяется как

.

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: . Тем не менее, его инфинитезимальная форма, особенно его Гессиан, дает метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брегмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому, и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика».[1]

Расстояние Кульбака — Лейблера иногда также интерпретируют как информационный выигрыш, достигнутый, если использовано вместо . Иногда для РКЛ используют название (правда, вносящее путаницу) относительная энтропия относительно , обозначается .

Существуют различные соглашения относительно того, как читать обозначение. Часто его называют просто расхождением между и , однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда это может быть описано как расхождение из (относительно) (чаще в контексте относительной энтропии или информационного выигрыша). В этой статье мы используем обозначение , которое читается как расхождение относительно (или, условно говоря, «расстояние из в »). Такое соглашение представляется более удачным, так как именно считается истинным распределением (исходной точкой для отсчёта расстояния) и математическое ожидание берётся относительно него, а  — отличное от него распределение, например, аппроксимация .

Частные определения и определения через производную Радона—Никодима

Для дискретных вероятностных распределений и с числом элементарных событий расхождение Кульбака — Лейблера распределения относительно распределения (или «расстояние от до ») определяется[3] как:

.

Другими словами, это математическое ожидание логарифмической разности между вероятностями и , где математическое ожидание берётся по распределению . РКЛ определено, только если , для всех (абсолютная непрерывность). Всякий раз, когда , вклад -го члена интерпретируется как ноль, потому что .

Для -мерных абсолютно непрерывных распределений и расстояние Кульбака — Лейблера задаётся выражением[4]

,

где и  — функции плотности распределений и соответственно, определённые на интервале .

В более общем смысле, если и  — вероятностные меры на множестве , и абсолютно непрерывна относительно , тогда РКЛ от до определено как:

,

где  — это производная Радона—Никодима относительно , и при условии, что выражение справа существует. Эквивалентно это может быть записано как

,

что напоминает выражение для дифференциальной энтропии, взятой со знаком минус (впрочем, сходство здесь лишь формальное).

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

Характеризация

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяют некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии.[5] Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера.[6]

Мотивировка

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения , можно рассматривать как представление неявного распределения вероятностей над , где  — длина кода для в битах. Поэтому, РКЛ может быть интерпретировано, как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения Q, используется, по сравнению с использованием кода на основе истинного распределения P.

, где  — перекрестная энтропия P и Q,  — энтропия P.

Отметим также, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений.[7][8]

Свойства

  • Расстояние Кульбака — Лейблера всегда неотрицательно, это результат, который известен как неравенство Гиббса, почти всюду. Энтропия H(P), таким образом, задаёт минимальное значение перекрестной энтропии H(P,Q), ожидаемое число дополнительных битов, требуемых когда используется код, основанный на Q, а не на P. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение , если используется код, соответствующий распределению вероятностей Q, а не «истинному» распределения P.
  • Расстояние Кульбака — Лейблера не симметрично: .
  • Расстояние Кульбака — Лейблера остается строго определенным для непрерывных распределений, и кроме того инвариантно относительно замены переменных. Например, если сделана замена переменной x на переменную y(x), тогда, так как и , РКЛ может переписано:

,

где и . Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если x — размерная переменная, то P(x) и Q(x) также имеют размерность, так как является безрамерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.

  • РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если являются независимыми распределениями с совместным распределением и, аналогично, , то

Расстояние Кульбака — Лейблера для многомерного нормального распределения

Допустим, что мы имеем два многомерных нормальных распределения, со средними и с (обратимыми) матрицами ковариаций . Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее[10]:

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в натах. Целиком разделив это выражение на loge2, получим распределение в битах.

Отношение к метрикам

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично, и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если - это последовательность распределений такая, что , тогда говорят, что . Из неравенства Пинкера следует, что — , где последнее нужно для для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).[11][12]

Информационная метрика Фишера

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром . Рассмотрим теперь два близких значения и , таких что параметр отличается только на небольшое число от параметра . А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

,

где  — малое изменение в j-м направлении, а соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть то РКЛ имеет второй порядок малости по параметрам . Более формально, как и для любого минимума, первая производная расхождения обращается в ноль

и разложение Тейлора начинается со второго порядка малости

,

где Гессиан должен быть неотрицательным. Если позволить изменяться (и опуская подиндекс 0), то Гессиан определяет (возможно, вырожденную) метрику Римана в пространстве параметра , называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теории

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация является РКЛ вероятностного распределения из символа Кронекера, представляющего определённость в том, что  — то есть число дополнительных бит, которые должны быть переданы для определения , если только вероятностное распределение доступно для получателя, не факт, что .

Взаимная информация -

является РКЛ произведения двух маргинальных вероятностных распределений из совместного вероятностного распределения  — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить и , если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения , если значение уже не известны получателю.

Энтропия Шеннона -

это число битов, которые должны быть переданы для идентификации из одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения из истинного распределения  — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение закодировано согласно с равномерным распределением , а не истинным распределение .

Условная энтропия -

это число битов, которые должны быть переданы для идентификации из одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений из истинного совместного распределения  — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение закодировано согласно с равномерным распределением , а не с условным распределением данных и .

Перекрестная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности , а не «истинного» распределения . Перекрестная энтропия для двух распределений и над тем же вероятностным пространством определяется так:

Расстояние Кульбака — Лейблера и Байесовская модификация

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт , оно может быть использовано для модификации (априорного) распределения вероятностей для в новое (апостериорное) распределение вероятностей используя Теорему Байеса:

Это распределение имеет новую энтропию

которая может быть меньше или больше, чем изначальная энтропия . Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на вместо нового кода, основанного на , добавило бы ожидаемое число битов — к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно , которое было получено при обнаружении, что .

Если впоследствии приходит еще один фрагмент данных, , то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение . Если исследовать заново информационный выигрыш для использования , а не , оказывается, что это может быть больше или меньше, чем предполагалось ранее: , может быть или , чем , и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

, может быть больше, меньше или равно

Все, что можно сказать, что в среднем, беря среднее, используя , обе стороны будут давать среднее значение.

Экспериментальная модель Байеса

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информация

Расстояние Кульбака — Лейблера может также быть интерпретировано как ожидаемая различающая информация для над : средняя информация на одну выборку для различия в пользу гипотезы , против гипотезы , когда гипотеза верна[14]. Еще одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для над , ожидаемая из каждой выборки.

Ожидаемая масса доказательства для над это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, .

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределенности обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.

Принцип минимальной различающей информации

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (англ. Minimum Discrimination Information, MDI): учитывая новые факты, новое распределение следует выбрать, из тех, которые трудно отличить от первоначального распределения ; потому что новые данные производят так мало информационного выигрыша как только возможно.

Например, если мы имеем априорное распределение над и , и потом изучим истинное распределение и . РКЛ между новым совместным распределением для и , , и прежнего априорного распределения было бы:

то есть сумма РКЛ априорного распределения для из обновленного распределения , плюс ожидаемое значение (используемое вероятностное распределение ) РКЛ априорного условного распределения из нового распределения . (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается [15]. Это минимизирует, если над общим содержанием . И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение это по факту функция, уверенно представляющая, что имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона прекращается, чтобы быть очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрестной энтропии. Минимизация РКЛ из в отношении эквивалентна минимизации перекрестной энтропии и , так который подходит, если попытаться выбрать точное приближенное значение до .

Пример использования

Пусть по выборке из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства , где  — аргумент функции,  — неизвестный параметр. Оценка параметра может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью и эмпирической плотностью распределения, считающейся «истинной»,

,

где  — функция Дирака:

.

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра . В случае если фактическая плотность распределения случайной величины не принадлежит семейству , найденная оценка параметра называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями с точки зрения расстояния Кульбака — Лейблера.

Примечания

  1. 1 2 Kullback S. Information Theory and Statistics. — John Wiley & Sons, 1959.
  2. Kullback S., Leibler R.A. On information and sufficiency // The Annals of Mathematical Statistics. 1951. V.22. № 1. P. 79-86.
  3. MacKay, David J.C. Information Theory, Inference, and Learning Algorithms. — First ed.. — Cambridge University Press, 2003. — С. p. 34.
  4. Bishop C. Pattern Recognition and Machine Learning. — 2006. — С. p. 55.
  5. Hobson, Arthur. Concepts in statistical mechanics.. — Gordon and Breach. — New York, 1971. — ISBN 0677032404.
  6. Baez, John; Fritz, Tobias. Theory and Application of Categories 29. — С. "A Bayesian characterization of relative entropy", p. 421–456..
  7. И.Н. Санов. О вероятности больших отклонений случайных величин. — 1957. — С. 11—44.
  8. Novak S.Y. Extreme Value Methods with Applications to Finance ch. 14.5. — Chapman & Hall. — 2011. — ISBN 978-1-4398-3574-6.
  9. Relative Entropy. videolectures.net. Дата обращения: 14 июня 2016.
  10. Duchi J. "Derivations for Linear Algebra and Optimization". — С. 13.
  11. Rényi A. Probability Theory. — 1970. — ISBN 0-486-45867-9..
  12. Rényi, A. "On measures of entropy and information". — 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960, 1961. — С. 547–561.
  13. Chaloner, K.; Verdinelli, I. "Bayesian experimental design: a review". — Statistical Science 10, 1995. — 273–304 с.
  14. Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). "Section 14.7.2. Kullback–Leibler Distance". Numerical Recipes: The Art of Scientific Computing (3rd ed.). Cambridge University Press. ISBN 978-0-521-88068-8. .
  15. Thomas M. Cover, Joy A. Thomas. Elements of Information Theory. — John Wiley & Sons. — 1991. — С. p.22.