Субградиентные методы

Субградиентные методы — итеративные методы решения задач выпуклой минимизации. Субградиентные методы, разработанные Наумом Зуселевичем Шором сходятся, даже если применяются к недифференцируемым целевым функциям. Когда функция дифференцируема, субградиентные методы для задач без ограничений используют то же направление поиска, что и метод наискорейшего спуска.

Субградиентные методы медленнее методов Ньютона, где для минимизации применяются дважды непрерывно дифференцируемые выпуклые функции. Однако методы Ньютона перестают сходиться на задачах, которые имеют недифференцируемые изгибы.

В последние годы предложены некоторые методы внутренней точки для задач выпуклой минимизации, но и методы проекции субградиента, и связанные пучковые методы спуска остаются конкурентоспособными. Для задач выпуклой минимизации с большим числом размерностей приемлемы методы проекции субградиента, поскольку они требуют малый размер памяти.

Методы проекции субградиента часто применяются к задачам большого размера с помощью техник декомпозиции. Такие методы разложения часто допускают простой распределённый метод задачи.

Правила классического субградиента[править | править код]

Пусть $f:\mathbb {R} ^{n}\to \mathbb {R}$ будет выпуклой функцией с областью определения $\mathbb {R} ^{n}$ . Классический субградиентный метод итерирует

x^{(k+1)}=x^{(k)}-\alpha _{k}g^{(k)}

где $g^{(k)}$ это любой субдифференциал функции $f$ в точке $x^{(k)}$ , а $x^{(k)}$ — k-ая итерация переменной $x$ . Если $f\$ дифференцируемая, то его единственным субградиентом является градиент $\nabla f$ . Может случиться, что $-g^{(k)}$ не является направлением убывания для $f$ в точке $x^{(k)}$ . Поэтому мы содержим список $f_{\rm {best}}$ , в котором хранятся найденные наименьшие значения целевой функции, то есть

f_{\rm {best}}^{(k)}=\min\{f_{\rm {best}}^{(k-1)},f(x^{(k)})\}.

Правила размера шага[править | править код]

В субградиентных методах используется большое число различных правил выбора размера шага. Здесь мы отметим пять классических правил, для которых доказательства сходимости известны:

Постоянный размер шага, $\alpha _{k}=\alpha$ .
Постоянная длина шага, $\alpha _{k}=\gamma /\lVert g^{(k)}\rVert _{2}$ , что даёт $\lVert x^{(k+1)}-x^{(k)}\rVert _{2}=\gamma$ .
Суммируемый с квадратом, но не суммируемый размер шага, то есть любой размер шага, для которого выполняется

\alpha _{k}\geqslant 0,\qquad \sum _{k=1}^{\infty }\alpha _{k}^{2}<\infty ,\qquad \sum _{k=1}^{\infty }\alpha _{k}=\infty .

Несуммируемый убывающий размер шага, то есть любой шаг, удовлетворяющий

\alpha _{k}\geqslant 0,\qquad \lim _{k\to \infty }\alpha _{k}=0,\qquad \sum _{k=1}^{\infty }\alpha _{k}=\infty .

Несуммируемая убывающая длина шага, то есть, $\alpha _{k}=\gamma _{k}/\lVert g^{(k)}\rVert _{2}$ , где

\gamma _{k}\geqslant 0,\qquad \lim _{k\to \infty }\gamma _{k}=0,\qquad \sum _{k=1}^{\infty }\gamma _{k}=\infty .

Для всех пяти правил размер шага определяется «заранее», до начала работы метода. Размер шага не зависит от предшествующих итераций. Свойство выбора шага «заранее» для субградиентных методов отличается от правил выбора шага «в процессе», используемых в методах для дифференцируемых функций — многие методы минимизации дифференцируемых функций удовлетворяют условиям Вольфа для сходимости, где размеры шага зависят от текущего положения точки и текущего направления поиска. Пространное обсуждение правил выбора шага для субградиентных методов, включая версии с инкрементированием, приведены в книге Бертсекаса^[1], а также в книге Бертсекаса, Недич и Оздаглара^[2].

Сходимость[править | править код]

Для постоянной длины шага и масштабируемых субградиентов, имеющих евклидову норму равную единице, субградиентный метод приближается произвольно близко к минимальному значению, то есть

\lim _{k\to \infty }f_{\rm {best}}^{(k)}-f^{*}<\epsilon

согласно Шору^[3].

Классические субградиентные методы имеют плохую сходимость и более не рекомендуются для использования^[4]^[5]. Однако они всё ещё используются в специализированных приложениях, поскольку они просты и легко приспосабливаются под специальные структуры, чтобы использовать их особенности.

Проекции субградиента и методы пучков[править | править код]

В течение 1970-х годов Клод Лемерэчел и Фил Вольф предложили «методы пучков» для спуска для задач выпуклой минимизации^[6]. Значение термина «методы пучков» с тех пор сильно изменилось. Современные версии и полный анализ сходимости были даны Киелем^[7]. Современные методы пучков часто используют правила «контроля уровня» для выбора размера шага, которые развивают техники из метода «проекций субградиента» Бориса Т. Поляка (1969). Однако существуют проблемы, вследствие которых часто методы пучков дают малое преимущество перед методами проекции субградиентов^[4]^[5].

Оптимизация с ограничениями[править | править код]

Метод проекции субградиента[править | править код]

Одним из расширений субградиентных методов является метод проекции субградиента, который решает задачу оптимизации с ограничениями

минимизировать

f(x)

при условии

x\in {\mathcal {C}}

где ${\mathcal {C}}$ является выпуклым множеством. Метод проекции субградиента использует итерации

x^{(k+1)}=P\left(x^{(k)}-\alpha _{k}g^{(k)}\right)

где $P$ является проекцией на ${\mathcal {C}}$ , а $g^{(k)}$ является любым субградиентом $f$ в точке $x^{(k)}$ .

Ограничения общего вида[править | править код]

Метод субградиента может быть расширен для решения задачи с ограничениями в виде неравенств

минимизировать

f_{0}(x)

при условии

f_{i}(x)\leqslant 0,\quad i=1,\dots ,m

где функции $f_{i}$ выпуклы. Алгоритм принимает ту же форму случая без ограничений

x^{(k+1)}=x^{(k)}-\alpha _{k}g^{(k)}

где $\alpha _{k}>0$ является размером шага, а $g^{(k)}$ является субградиентом целевой функции или одной из функций ограничений в точке $x$ . Здесь

g^{(k)}={\begin{cases}\partial f_{0}(x)&f_{i}(x)\leqslant 0\;\forall i=1\dots m\\\partial f_{j}(x)&\exists j:f_{j}(x)>0\end{cases}}

где $\partial f$ означает субдифференциал функции $f$ . Если текущая точка допустима, алгоритм использует субградиент целевой функции. Если точка не допустима, алгоритм выбирает субградиент любого нарушенного ограничения.

Примечания[править | править код]

↑ Bertsekas, 2015.
↑ Bertsekas, Nedic, Ozdaglar, 2003.
↑ Сходимость методов субградиента с постоянным (масшабированным) шагом утверждается в упражнении 6.3.14(a) книги Берцекаса (страница 636) (Bertsekas 1999) и он приписывает этот результат Шору (Shor 1985)
↑ ¹ ² Lemaréchal, 2001, с. 112–156.
↑ ¹ ² Kiwiel, Larsson, Lindberg, 2007, с. 669–686.
↑ Bertsekas, 1999.
↑ Kiwiel, 1985, с. 362.

Литература[править | править код]

Dimitri P. Bertsekas. Convex Optimization Algorithms. — Second. — Belmont, MA.: Athena Scientific, 2015. — ISBN 978-1-886529-28-1.
Dimitri P. Bertsekas, Angelia Nedic, Asuman Ozdaglar. Convex Analysis and Optimization. — Second. — Belmont, MA.: Athena Scientific, 2003. — ISBN 1-886529-45-0.
Naum Z. Shor. Minimization Methods for Non-differentiable Functions. — Springer-Verlag, 1985. — ISBN 0-387-12763-1.
Dimitri P. Bertsekas. Nonlinear Programming. — Second. — Cambridge, MA.: Athena Scientific, 1999. — ISBN 1-886529-00-0.
Krzysztof Kiwiel. Methods of Descent for Nondifferentiable Optimization. — Berlin: Springer Verlag, 1985. — ISBN 978-3540156420.
Claude Lemaréchal. Lagrangian relaxation // Computational combinatorial optimization: Papers from the Spring School held in Schloß Dagstuhl, May 15–19, 2000 / Michael Jünger, Denis Naddef. — Berlin: Springer-Verlag, 2001. — Т. 2241. — (Lecture Notes in Computer Science). — ISBN 3-540-42877-1. — doi:10.1007/3-540-45586-8_4.
Krzysztof C. Kiwiel, Torbjörn Larsson, Lindberg P. O. Lagrangian relaxation via ballstep subgradient methods // Mathematics of Operations Research. — 2007. — Август (т. 32, № 3). — С. 669–686. — doi:10.1287/moor.1070.0261.

Дополнительная литература[править | править код]

Andrzej Piotr Ruszczyński. Nonlinear Optimization. — Princeton, NJ: Princeton University Press, 2006. — С. xii+454. — ISBN 978-0691119151.

Ссылки[править | править код]

EE364A and EE364B, Stanford’s convex optimization course sequence.

[_7d5e5956a341985b-1] Bertsekas, 2015.

[_6bdd65ff80cda579-2] Bertsekas, Nedic, Ozdaglar, 2003.

[3] Сходимость методов субградиента с постоянным (масшабированным) шагом утверждается в упражнении 6.3.14(a) книги Берцекаса (страница 636) (Bertsekas 1999) и он приписывает этот результат Шору (Shor 1985)

[_aa34c4510de8552e-4] ¹ ² Lemaréchal, 2001, с. 112–156.

[_137586efd4bee450-5] ¹ ² Kiwiel, Larsson, Lindberg, 2007, с. 669–686.

[_d046438f55e4775f-6] Bertsekas, 1999.

[_acd37d7efa9015da-7] Kiwiel, 1985, с. 362.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

Методы оптимизации
Одномерные	Метод золотого сечения Дихотомия Метод парабол Перебор по сетке Метод равномерного блочного поиска Метод Фибоначчи Троичный поиск Метод Пиявского Метод Стронгина
Нулевого порядка	Метод Гаусса Метод Нелдера — Мида Метод Хука — Дживса Метод Розенброка Метод Пауэлла
Первого порядка	Градиентный спуск Метод Зойтендейка Покоординатный спуск Метод сопряжённых градиентов Квазиньютоновские методы Алгоритм Левенберга — Марквардта Риманова оптимизация
Второго порядка	Метод Ньютона Метод Ньютона — Рафсона Алгоритм Бройдена — Флетчера — Гольдфарба — Шанно (BFGS)
Стохастические	Метод Монте-Карло Имитация отжига Эволюционные алгоритмы Дифференциальная эволюция Муравьиный алгоритм Метод роя частиц Алгоритм пчелиной колонии Метод случайных блужданий
Методы линейного программирования	Симплекс-метод Алгоритм Гомори Метод эллипсоидов Метод потенциалов
Методы нелинейного программирования	Последовательное квадратичное программирование

Субградиентные методы

Содержание

Правила классического субградиента[править | править код]

Правила размера шага[править | править код]

Сходимость[править | править код]

Проекции субградиента и методы пучков[править | править код]

Оптимизация с ограничениями[править | править код]

Метод проекции субградиента[править | править код]

Ограничения общего вида[править | править код]

Примечания[править | править код]

Литература[править | править код]

Дополнительная литература[править | править код]

Ссылки[править | править код]

Навигация

Субградиентные методы

Правила классического субградиента[править | править код]

Правила размера шага[править | править код]

Сходимость[править | править код]

Проекции субградиента и методы пучков[править | править код]

Оптимизация с ограничениями[править | править код]

Метод проекции субградиента[править | править код]

Ограничения общего вида[править | править код]

Примечания[править | править код]

Литература[править | править код]

Дополнительная литература[править | править код]

Ссылки[править | править код]

Навигация

Поиск