Статистическая теория обучения

Статистическая теория обучения — это модель для машинного обучения на основе статистики и функционального анализа^[1]^[2]. Статистическая теория обучения имеет дело с задачами нахождения функции предсказывания, основанной на данных. Статистическая теория обучения привела к успешным приложениям в таких областях, как компьютерное зрение, распознавание речи и биоинформатика.

Введение[править | править код]

Целью обучения является понимание и предвидение. Обучение распадается на несколько категорий, включая обучение с учителем, обучение без учителя, онлайновое обучение и обучение с подкреплением. С точки зрения статистической теории обучения обучение с учителем является наиболее понятным^[3]. Обучение с учителем вовлекает обучение с помощью тренировочного набора^[англ.] данных. Любой момент тренировки является парой вход/выход, где входное значение отображается в выходное. Задача обучения состоит в реконструкции функции, которая отображает входные значения в выходные так, что функция может быть использована для предсказания вывода при будущих вводах.

В зависимости от типа вывода, задачи обучения с учителем либо являются задачами регрессии, либо задачами классификации. Если вывод может принимать непрерывную область значений, это задача регрессии. Используя закон Ома в качестве примера, регрессия могла бы брать напряжение в качестве входа и выдавать ток как выход. Регрессия могла бы найти связь напряжения и тока как ${\frac {1}{R}}$ , так что

I={\frac {1}{R}}V

Задачи классификации — это те, для которых выводом будет элемент из набора меток. Классификация очень обычна для приложений машинного обучения. В системе распознавания лиц, например, изображение лица будет входом, а выходом может быть фамилия человека. Вход может быть представлен как большой многомерный вектор, элементы которого представляют пиксели в изображении.

После обучения функция, основанная на тренировочном наборе данных, это функция проверяется на тестовом наборе данных, которые не появляются в тренировочном наборе.

Формальное описание[править | править код]

Пусть $X$ будет векторным пространством всех возможных входных данных, а $Y$ — векторным пространством всех возможных выходов. Статистическая теория обучения предполагает, что имеется некоторое неизвестное распределение вероятности над произведением пространств $Z=X\times Y$ , то есть существует некоторая неизвестная $p(z)=p({\vec {x}},y)$ . Тренировочное множество состоит из $n$ экземпляров этого распределения вероятности и обозначается

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}=\{{\vec {z}}_{1},\dots ,{\vec {z}}_{n}\}

Каждый ${\vec {x}}_{i}$ является входным вектором из тренировочных данных, а $y_{i}$ является выходом, соответствующим этому входному вектору.

В такой формализации задача вывода состоит в нахождении функции $f:X\to Y$ , такой что $f({\vec {x}})\sim y$ . Пусть ${\mathcal {H}}$ — пространство функций $f:X\to Y$ , которое называется пространством гипотез. Пространство гипотез — это пространство, которое алгоритм будет просматривать. Пусть $V(f({\vec {x}}),y)$ будет функцией потерь, метрикой разницы между предсказанным значением $f({\vec {x}})$ и истинным значением $y$ . Ожидаемый риск определяется как

I[f]=\displaystyle \int _{X\times Y}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

Целевая функция, лучшая функция $f$ , которая может быть выбрана, это функция, удовлетворяющая условию

I[f]=\inf _{h\in {\mathcal {H}}}I[h]

Поскольку распределение вероятности $p({\vec {x}},y)$ неизвестно, должны быть использованы косвенные показатели ожидаемого риска. Эти показатели основываются на тренировочном множестве, выборке из этого неизвестного распределения вероятности. Такой показатель называется эмпирическим риском: $I[f]={\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})$ . Алгоритм обучения, который выбирает функцию $f$ , минимизирующую эмпирический риск, называется минимизацией эмпирического риска^[англ.].

Функции потерь[править | править код]

Выбор функции потерь — это определение определяющего фактора для функции $f_{S}$ , которая будет выбрана обучающим алгоритмом. Функция потерь влияет также на скорость сходимости алгоритма. Важно, чтобы функции потерь была выпуклой ^[4].

Используются разные функции потерь в зависимости от того, является задача регрессией или классификацией.

Регрессия[править | править код]

Наиболее употребительной функцией потерь для регрессии является квадратичная функция потерь (известная также как L2-норма). Эта знакомая функция потерь используется в обычном методе наименьших квадратов^[англ.]. Формула:

V(f({\vec {x}}),y)=(y-f({\vec {x}}))^{2}

Абсолютная величина потери (известная также как L1-норма) также иногда используется:

V(f({\vec {x}}),y)=|y-f({\vec {x}})|

Классификация[править | править код]

В некотором смысле 0-1 индикаторная функция является наиболее естественной функцией потерь для задач классификации. Функция принимает значение 0, если предсказанный результат совпадает с верным значением и значение 1, если предсказанный результат не совпадает с верным значением. Для двоичной классификации $Y=\{-1,1\}$ это будет:

V(f({\vec {x}}),y)=\theta (-yf({\vec {x}}))

где $\theta$ — функция Хевисайда.

Регуляризация[править | править код]

В задачах машинного обучения главной проблемой становится переобучение. Поскольку обучение является задачей предсказания, целью является не поиск функции, которая наиболее близко подходит для (предварительно просмотренных) данных, а поиск функции, которая будет наиболее точно предсказывать выход из будущих входных данных. Минимизация эмпирического риска попадает в этот риск переобучения — нахождение функции, которая соответствует в точности данным, но не в состоянии предсказать будущее.

Переобучение является симптомом нестабильных решений — малые изменения в тренировочном наборе могут вызвать большие вариации в функции обучения. Можно показать, что стабильность решения может быть гарантирована^[5]^[6]. Регуляризация может решить проблему переобучения и обеспечить стабильность.

Регуляризация может быть осуществлена путём ограничения пространства гипотез ${\mathcal {H}}$ . Можно ограничить, например, ${\mathcal {H}}$ линейными функциями — это можно рассматривать как ограничение до стандартной задачи линейной регрессии. ${\mathcal {H}}$ можно ограничить до многочленов степени $p$ , экспонент или ограниченных функций на L1. Ограничение на пространстве гипотез исключает переобучение ограничением вида потенциальных функций, что не даёт выбирать функции, дающие эмпирический риск произвольно близким нулю.

Одним из примеров регуляризации является регуляризация Тихонова. Она состоит в минимизации

{\frac {1}{n}}\displaystyle \sum _{i=1}^{n}V(f({\vec {x}}_{i},y_{i}))+\gamma \|f\|_{\mathcal {H}}^{2}

,

где $\gamma$ фиксированный положительный параметр. Метод регуляризации Тихонова обеспечивает существование, единственность и стабильность решения^[7].

Примечания[править | править код]

↑ Hastie, Tibshirani, Friedman, 2009.
↑ Mohri, Rostamizadeh, Talwalkar, 2012.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 Архивная копия от 16 сентября 2012 на Wayback Machine
↑ Rosasco, Vito, Caponnetto, Fiana, Verri, 2004, с. 1063—1076.
↑ Vapnik, Chervonenkis, 1971, с. 264—280.
↑ Mukherjee, Niyogi, Poggio, Rifkin, 2006, с. 161—193.
↑ Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 Архивная копия от 16 августа 2016 на Wayback Machine

Литература[править | править код]

Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning. — Springer-Verlag, 2009. — ISBN 978-0-387-84857-0.
Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar. Foundations of Machine Learning.. — USA, Massachusetts: MIT Press., 2012. — ISBN 9780262018258.
Gagan Sidhu, Brian Caffo. Exploiting pitcher decision-making using Reinforcement Learning // Annals of Applied Statistics. — 2014. — Т. 8, вып. 2. — doi:10.1214/13-AOAS712.
Rosasco L., Vito E.D., Caponnetto A., Fiana M., Verri A. Are loss functions all the same? // Neural computation. — 2004. — Т. 16.
Vapnik V. N., Chervonenkis A. Y. On the uniform convergence of relative frequencies of events to their probabilities // Theory of Probability and its Applications. — 1971. — Т. 16.
Mukherjee S., Niyogi P., Poggio T., Rifkin R. Learning theory: stability is sufficient for generalization and necessary and sufficient for consistency of empirical risk minimization // Advances in Computational Mathematics. — 2006. — Т. 25.

[_2f5f8a5736a19ba1-1] Hastie, Tibshirani, Friedman, 2009.

[_c96aae220ded1ab1-2] Mohri, Rostamizadeh, Talwalkar, 2012.

[3] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 1 Архивная копия от 16 сентября 2012 на Wayback Machine

[_201343e2349b349b-4] Rosasco, Vito, Caponnetto, Fiana, Verri, 2004, с. 1063—1076.

[_5d298b6a3fb48abb-5] Vapnik, Chervonenkis, 1971, с. 264—280.

[_f5a1869f271c48c7-6] Mukherjee, Niyogi, Poggio, Rifkin, 2006, с. 161—193.

[7] Tomaso Poggio, Lorenzo Rosasco, et al. Statistical Learning Theory and Applications, 2012, Class 2 Архивная копия от 16 августа 2016 на Wayback Machine

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Машинное обучение и data mining
Задачи	Задача классификации Обучение без учителя Обучение с частичным привлечением учителя Регрессионный анализ AutoML Ассоциативные правила Выделение признаков Обучение признакам Обучение ранжированию Грамматический вывод Онлайновое обучение
Обучение с учителем	Метод k ближайших соседей Наивный байесовский классификатор Дерево решений Метод опорных векторов Линейная регрессия Логистическая регрессия Перцептрон Ансамблевое обучение Бэггинг Бустинг Метод случайного леса Метод релевантных векторов
Кластерный анализ	Метод k-средних Метод нечёткой кластеризации Иерархическая кластеризация EM-алгоритм BIRCH CURE DBSCAN OPTICS Mean-shift
Снижение размерности	Факторный анализ Метод главных компонент CCA ICA LDA Неотрицательное матричное разложение t-SNE
Структурное прогнозирование	Графовая вероятностная модель Байесовская сеть Скрытая марковская модель CRF
Выявление аномалий	Метод k ближайших соседей Локальный уровень выброса
Графовые вероятностные модели	Байесовская сеть Марковская сеть Скрытая марковская модель
Нейронные сети	Ограниченная машина Больцмана Самоорганизующаяся карта Функция активации Сигмоида Softmax Радиально-базисная функция Метод обратного распространения ошибки Глубокое обучение Многослойный перцептрон Рекуррентная нейронная сеть Долгая краткосрочная память Управляемый рекуррентный блок Свёрточная нейронная сеть U-Net Автокодировщик
Обучение с подкреплением	Марковский процесс Уравнение Беллмана Жадный алгоритм Q-обучение SARSA Temporal difference (TD)
Теория	Размерность Вапника — Червоненкиса Дилемма смещения–дисперсии Теория вычислительного обучения Минимизация эмпирического риска Оккамово обучение PAC learning Статистическая теория обучения
Журналы и конференции	NeurIPS ICML ML JMLR ArXiv:cs.LG

Статистическая теория обучения

Содержание

Введение[править | править код]

Формальное описание[править | править код]

Функции потерь[править | править код]

Регрессия[править | править код]

Классификация[править | править код]

Регуляризация[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Статистическая теория обучения

Введение[править | править код]

Формальное описание[править | править код]

Функции потерь[править | править код]

Регрессия[править | править код]

Классификация[править | править код]

Регуляризация[править | править код]

Примечания[править | править код]

Литература[править | править код]

Навигация

Поиск