Сглаживающий сплайн

Сглаживающий сплайн (англ. smoothing spline) — оценка функции ${\hat {f}}(x)$ , полученная из набора зашумлённых наблюдений $y_{i}$ за исходными данными $f(x_{i})$ и используемая в дальнейших вычислениях для балансировки адекватности модели функции ${\hat {f}}(x_{i})$ к $y_{i}$ с основанной на производной мере кривизной функции ${\hat {f}}(x)$ . Иными словами, сглаживающий сплайн является важным средством при работе с зашумленными данными типа $x_{i}$ , $y_{i}$ . Наиболее известным видом сглаживающего сплайна является кубический сплайн.

Определение кубического сплайна[править | править код]

Пусть $(x_{i},Y_{i});x_{1}<x_{2}<\dots <x_{n},i\in \mathbb {Z}$ — последовательность наблюдений, порождённых выражением $Y_{i}=\mu (x_{i})$ . Приближение сглаживающими сплайнами ${\hat {\mu }}$ функции $\mu$ определяется как функция (в классе дважды дифференцируемых функций), минимизирующая^[1]

\sum _{i=1}^{n}(Y_{i}-{\hat {\mu }}(x_{i}))^{2}+\lambda \int _{x_{1}}^{x_{n}}{\hat {\mu }}''(x)^{2}\,dx.

Замечания:

$\lambda \geq 0$ параметр сглаживания, контролирующий соотношение между точностью воспроизведения данных и «неровностью» аппроксимирующей функции.
интеграл вычисляется по всему диапазону $x_{i}$ .
при $\lambda \to 0$ (нет сглаживания), сглаживающий сплайн превращается в интерполяционный сплайн.
при $\lambda \to \infty$ (бесконечное сглаживание), штраф за неровность становится преобладающим и аппроксимация превращается в линейную МНК аппроксимацию.
наиболее часто в современной статистической литературе используется штраф за неровность на основе второй производной, однако метод может быть легко адаптирован к использованию штрафов на основе других производных.
в ранней литературе, с равноудалёнными $x_{i}$ , для вычисления штрафа вместо производной использовались конечные разности второго и третьего порядка.
если сумму квадратов отклонений сплайна от исходных данных (первый член функционала) заменить на логарифм функции правдоподобия, получим оценку максимального правдоподобия со штрафной функцией. В такой постановке обычный сглаживающий сплайн представляет собой специальный случай, когда правдоподобие рассчитывается исходя из нормального распределения погрешности.

Вывод кубического сглаживающего сплайна[править | править код]

Разделим нахождение выражений, описывающих сглаживающий сплайн, на два этапа:

Сначала найдём значения ${\hat {\mu }}(x_{i});i=1,\ldots ,n$ .
Из этих значений найдём ${\hat {\mu }}(x)$ для всех x.

Начнём со второго этапа:

Дан вектор ${\hat {m}}=({\hat {\mu }}(x_{1}),\ldots ,{\hat {\mu }}(x_{n}))^{T}$ «подогнанных» значений; сумма квадратов в критерии сплайна — константа. Требуется только минимизировать $\int {\hat {\mu }}''(x)^{2}\,dx$ , и минимизация — натуральный кубический сплайн, интерполирующий точки $(x_{i},{\hat {\mu }}(x_{i}))$ . Данный интерполяционный сплайн — линейный оператор — может быть представлен в виде:

{\hat {\mu }}(x)=\sum _{i=1}^{n}{\hat {\mu }}(x_{i})f_{i}(x)

,

где $f_{i}(x)$ — набор базисных сплайн-функций. В результате штраф за отсутствие у функции признака гладкости имеет форму

\int {\hat {\mu }}''(x)^{2}dx={\hat {m}}^{T}A{\hat {m}}.

где элементы A — $\int f_{i}''(x)f_{j}''(x)dx$ . Базисные функции и матрица A зависят от конфигурации независимых переменных $x_{i}$ , но не от $Y_{i}$ или ${\hat {m}}$ .

Возвращаясь к первому этапу, взвешенная сумма квадратов может быть записана так:

\|Y-{\hat {m}}\|^{2}+\lambda {\hat {m}}^{T}A{\hat {m}},

где $Y=(Y_{1},\ldots ,Y_{n})^{T}$ . минимизация по ${\hat {m}}$ даёт

{\hat {m}}=(I+\lambda A)^{-1}Y.

Создание многомерных сплайнов[править | править код]

Из приведённого ограничения на формулу из определения $x_{1}<x_{2}<\dots <x_{n}$ следует, что алгоритм не работает для произвольного набора данных. Если планируется использование алгоритма для произвольного набора точек в многомерном пространстве необходим алгоритм, в котором нет таких ограничений. Возможное решение заключается во введении параметра таким образом, что входные данные могут быть представлены как одномерные функции, зависящие от данного параметра; после можно применить сглаживание для каждой функции. В двумерном пространстве решение состоит в параметризации $x$ и $y$ как $x(t)$ and $y(t)$ где $t_{1}<t_{2}<\dots <t_{n}$ . Подходящее решение для $t$ это накопленное расстояние $t_{i+1}=t_{i}+{\sqrt {(x_{i+1}-x_{i})^{2}+(y_{i+1}-y_{i})^{2}}}$ где $t_{1}=0$ .^[2]^[3]

Более детальный анализ параметризации выполнен E.T.Y Lee.^[4]

Связанные методы[править | править код]

Сглаживающие сплайны имеют отношение, но отличаются от:

Регрессионных сплайнов (англ. Regression Splines). Метод, при использовании которого данные аппроксимируются с помощью набора базисных сплайн-функций с уменьшенным количеством узлов, в большинстве случаев при помощи метода наименьших квадратов. При этом в случае отсутствия у функции признака гладкости штрафы не используются.
Штрафных сплайнов, сплайнов со штрафами (англ. Penalized Splines). Сочетают уменьшенное количество узлов регрессионных сплайнов со штрафом за отсутствие у функций сглаживающих сплайнов признака гладкости.^[5]
Метод упругой карты. Метод, сочетающий штрафы по методу наименьших квадратов для ошибки аппроксимации со штрафами за кривизну и растяжение аппроксимирующего множества и использующий крупный шаг дискретизации для оптимизации проблемы.

Исходный код[править | править код]

Исходный код для сглаживающих сплайнов может быть взят из примеров к книге Carl de Boor’s A Practical Guide to Splines. Примеры написаны на Фортране. Обновлённые исходные коды также доступны на официальном сайте Carl de Boor’s [1].

Примечания[править | править код]

↑ Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models (неопр.). — Chapman and Hall, 1990. — ISBN 0-412-34390-8.
↑ Robert E. Smith Jr., Joseph M Price and Lona M. Howser. A Smoothing Algorithm Using Cubic Spline Functions (неопр.). Дата обращения: 31 мая 2011. Архивировано из оригинала 14 сентября 2013 года.
↑ N. Y. Graham. Smoothing With Periodic Cubic Splines (неопр.). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.
↑ E.T.Y. Lee. Choosing nodes in parametric curve interpolation (неопр.). Дата обращения: 28 июня 2011. Архивировано 14 сентября 2013 года.
↑ Ruppert, David; Wand, M. P. and Carroll, R. J. Semiparametric Regression (неопр.). — Cambridge University Press, 2003. — ISBN 0-521-78050-0.

Литература[править | править код]

Wahba, G. (1990). Spline Models for Observational Data. SIAM, Philadelphia.
Green, P. J. and Silverman, B. W. (1994). Nonparametric Regression and Generalized Linear Models. CRC Press.
De Boor, C. (2001). A Practical Guide to Splines (Revised Edition). Springer.
Березовский, М. В. Сглаживающие изогеометрические и робастные сплайны: методы и алгоритмы. Диссертация.

[1] Hastie, T. J.; Tibshirani, R. J. Generalized Additive Models (неопр.). — Chapman and Hall, 1990. — ISBN 0-412-34390-8.

[2] Robert E. Smith Jr., Joseph M Price and Lona M. Howser. A Smoothing Algorithm Using Cubic Spline Functions (неопр.). Дата обращения: 31 мая 2011. Архивировано из оригинала 14 сентября 2013 года.

[3] N. Y. Graham. Smoothing With Periodic Cubic Splines (неопр.). Дата обращения: 31 мая 2011. Архивировано 14 сентября 2013 года.

[4] E.T.Y. Lee. Choosing nodes in parametric curve interpolation (неопр.). Дата обращения: 28 июня 2011. Архивировано 14 сентября 2013 года.

[5] Ruppert, David; Wand, M. P. and Carroll, R. J. Semiparametric Regression (неопр.). — Cambridge University Press, 2003. — ISBN 0-521-78050-0.

[1]

[2]

[3]

[4]

[5]

Сглаживающий сплайн

Содержание

Определение кубического сплайна[править | править код]

Вывод кубического сглаживающего сплайна[править | править код]

Создание многомерных сплайнов[править | править код]

Связанные методы[править | править код]

Исходный код[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Сглаживающий сплайн

Определение кубического сплайна[править | править код]

Вывод кубического сглаживающего сплайна[править | править код]

Создание многомерных сплайнов[править | править код]

Связанные методы[править | править код]

Исходный код[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск