Гауссовский процесс

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

В теории вероятностей и статистике Гауссовский процесс - это стохастический процесс (набор случайных величин, индексированных временем или координатами), такой что каждый конечный набор этих случайных величин имеет многомерное нормальное распределение, то есть каждая конечная линейная комбинация из них нормально распределена. Распределение гауссовского процесса представляет собой совместное распределение всех этих случайных величин и, как таковое, является распределением функций с непрерывной областью определения.

Как и в алгоритме машинного обучения, в гауссовском процессе используется ленивое обучение и мера подобия между точками (функция ядра), чтобы спрогнозировать значение для невидимой точки из данных обучения. Прогноз - это не просто оценка для этой точки, но и информация о неопределенности — одномерное гауссовское распределение.[1]

Для вычисления прогнозов некоторых функций ядра используют метод матричной алгебры, кригинг.

Гауссовский процесс назван так в честь Карла Фридриха Гаусса, поскольку в его основе лежит понятие гауссовского распределения (нормального распределения). Гауссовские процессы можно рассматривать как бесконечномерное обобщение многомерных нормальных распределений. Они применяются в статистическом моделировании; в частности используются свойства нормальности. Например, если случайный процесс моделируется как гауссовский, то распределения различных производных величин могут быть получены явно. К таким величинам относятся среднее значение процесса в течение определенного периода времени и погрешность его оценки с использованием выборочных значений.

Определение[править | править код]

Случайный процесс с непрерывным временем является гауссовским тогда и только тогда, когда для любого конечного набора индексов из набора индексов

- многомерная гауссовская случайная величина.[2] То же самое, что и всякая линейная комбинация имеет одномерное нормальное (гауссовское) распределение. Используя характеристические функции случайных величин, свойство Гаусса можно сформулировать следующим образом: является гауссовским тогда и только тогда, когда для каждого конечного набора индексов , существуют вещественные значения , где такие, что для всех выполнено равенство

Где означает мнимое число .

Числа и могут быть представлены как ковариации и средние значения переменных в процессах.[3]

Ковариационные функции[править | править код]

Ключевой особенностью гауссовских процессов является то, что они могут быть полностью определены их статистикой второго порядка.[4] Таким образом, если предполагается, что гауссовский процесс имеет нулевое среднее значение, поведение процесса полностью определяется ковариационной функцией. Важно отметить, что неотрицательная определенность этой функции делает возможным ее спектральное разложение при помощи разложения Карунена - Лоэва. Основные показания, которые могут быть определены через ковариационную функцию, - это стационарность процесса, изотропия, гладкость и периодичность.[5][6]

Стационарность ссылается на поведение процесса относительно расстояния между любыми двумя точками и . Если процесс стационарен, то он зависит от их расстояния, , а если он нестационарен, то зависит от фактического положения точек и . Например, частный случай процесса Орнштейна-Уленбека, процесс броуновского движения, является стационарным.

Если процесс зависит только от , Евклидова расстояния (без направления) между и , то процесс считается изотропным. Процесс, который одновременно является стационарным и изотропным, считается однородным;[7] на практике эти свойства отражают различия(или, скорее, их отсутствие) в поведении процесса с учетом положения наблюдателя.

В конечном счете суть гауссовских процессов заключается в получении априорных распределений вероятности, гладкость которых зависит от взятой ковариационной функции.[5] Если мы ожидаем, что для "лежащих близко" входных точек и соответствующие им выходные точки и также "лежат близко", тогда присутствует предположение о непрерывности. Если мы хотим допустить значительное смещение, то нужно выбрать более грубую ковариационную функцию. В качестве крайних случаев подобного поведения можно привести ковариационные функции Орнштейна-Уленбека и квадратичную экспоненциальную, где первая не дифференцируема нигде, а последняя бесконечно дифференцируема.

Под периодичностью понимается индуцирование периодических закономерностей в поведении процесса. Формально это достигается путем отображения входного значения на двумерный вектор

Обычные ковариационные функции[править | править код]

Влияние выбора различных ядер на функцию распределения гауссовского процесса. Слева направо: квадратичное экспоненциальное ядро, броуновское, квадратичное.

Существует ряд общих ковариационных функций:[6]

  • Константа:
  • Линейная:
  • Гауссовский шум:
  • Квадратичная экспоненциальная:
  • Функция Орнштейна-Уленбека:
  • Matérn:
  • Периодическая:
  • Рациональная квадратичная:

Здесь . Параметр является характеристикой длины шкалы процесса (практически, «насколько близко» две точки и должны быть, чтобы значительно влиять друг на друга), - это символ Кронекера и - среднеквадратическое отклонение звуковых колебаний. Кроме того, является модифицированной функцией Бесселя и - это гамма-функция, вычисленная по . Важно отметить, что сложную ковариационную функцию можно определить как линейную комбинацию других более простых ковариационных функций, чтобы объединить различную информацию из набора данных.

Очевидно, что полученные результаты зависят от значений гиперпараметров (например, и ) определяющих поведение модели.

Броуновское движение как интеграл гауссовских процессов[править | править код]

Винеровский процесс (так называемое броуновское движение) является интегралом гауссовского процесса белого шума. Он не стационарен, но имеет стационарные приращения.

Процесс Орнштейна-Уленбека - это стационарный гауссовский процесс.

Броуновский мост (подобный процессу Орнштейна-Уленбека) является примером гауссовского процесса, приращения которого не являются независимыми.

Дробное броуновское движение является гауссовским процессом, ковариационная функция которого является обобщением функции винеровского процесса.

Приложения[править | править код]

Пример регрессии на основе гауссовского процесса по сравнению с другими регрессионными моделями.[8]

Гауссовский процесс может быть использован как априорное распределение вероятностей функций в байесовском выводе.[6][9] Для любого набора из N точек в нужной области ваших функций возьмите многомерное гауссовское распределение, ковариационный матричный параметр которого является определителем Грама ваших N точек с некоторым желаемым ядром, и выборку из этого распределения.

Вывод непрерывных значений на основе Гауссовского процесса, определяемого предыдущими ковариациями известен как кригинг (регрессия на основе Гауссовского процесса). Таким образом, гауссовские процессы полезны в качестве мощного нелинейного многомерного инструмента интерполяции. Регрессия на основе гауссовского процесса может быть дополнительно расширена для решения задач обучения как с учителем, так и без учителя.

Прогноз гауссовского процесса или кригинг[править | править код]

Регрессия на основе гауссовского процесса (прогнозирование) с квадратичным экспоненциальным ядром.

Когда речь идёт об основной проблеме регрессии на основе гауссовского процесса (кригинге), предполагается, что для гауссовского процесса , наблюдаемого в координатах , вектор значений является всего лишь одной из выборок многомерного гауссовского распределения, размерность которого равна числу наблюдаемых координат . Следовательно, согласно допущению о нулевом распределении, , где - ковариационная матрица между всеми возможными парами для заданного множества гиперпараметров .[6] Таким образом, логарифм предельной вероятности равен:

и увеличение до предела этой предельной вероятности по отношению к даёт полную характеристику гауссовского процесса . В этой связи можно вкратце отметить, что первое выражение зависит от неспособности модели соответствовать наблюдаемым значениям, а второе выражение прямо пропорционально сложности модели. Указав , сделав прогноз о ненаблюдаемых значениях в координатах , останется только сделать график выборок из прогностического распределения , где последующая средняя оценка определяется как

и последующая оценка дисперсии B определяется как

где - ковариация между новой координатой оценки x* и всеми другими наблюдаемыми координатами для данного гиперпараметрического вектора , и определены как и прежде, а является дисперсией в точке , продиктованной вектором . Важно отметить, что практически последующая средняя оценка ("точечная оценка") является просто линейной комбинацией наблюдений ; аналогичным образом дисперсия фактически не зависит от наблюдений . Известным узким местом в прогнозировании гауссовского процесса является то, что вычислительная сложность прогнозирования является кубической по числу точек , то есть вычисление может быть невозможным для больших наборов данных.[5] Чтобы обойти эту проблему, ведутся работы по разреженным гауссовским процессам, которые обычно основаны на идее построения репрезентативного набора для данного процесса .[10][11]

См. также[править | править код]

Примечания[править | править код]

  1. Platypus Innovation: A Simple Intro to Gaussian Processes (a great data modelling tool).
  2. MacKay David, J.C. Information Theory, Inference, and Learning Algorithms. — Cambridge University Press, 2003. — P. 540. — ISBN 9780521642989.
  3. Dudley R.M. Real Analysis and Probability. — Wadsworth and Brooks/Cole, 1989.
  4. Bishop C.M. Pattern Recognition and Machine Learning. — Springer, 2006. — ISBN 0-387-31073-8.
  5. 1 2 3 Barber David. Bayesian Reasoning and Machine Learning. — Cambridge University Press, 2012. — ISBN 978-0-521-51814-7.
  6. 1 2 3 4 Rasmussen C.E. Gaussian Processes for Machine Learning. — MIT Press, 2006. — ISBN 0-262-18253-X.
  7. Grimmett Geoffrey. Probability and Random Processes. — Oxford University Press, 2001. — ISBN 0198572220.
  8. The documentation for scikit-learn also has similar examples.
  9. Liu W. Kernel Adaptive Filtering: A Comprehensive Introduction. — John Wiley, 2010. — ISBN 0-470-44753-2.
  10. (2000) «Sparse greedy matrix approximation for machine learning». Proceedings of the Seventeenth International Conference on Machine Learning: 911–918.
  11. (2002) «Sparse on-line Gaussian processes». Neural Computation 14: 641–668. DOI:10.1162/089976602317250933.

Внешние ссылки[править | править код]

Программное обеспечение[править | править код]