Оптимальное управление

Материал из Википедии — свободной энциклопедии
(перенаправлено с «Принцип максимума Понтрягина»)
Перейти к: навигация, поиск

Оптимальное управление — это задача проектирования системы, обеспечивающей для заданного объекта управления или процесса закон управления или управляющую последовательность воздействий, обеспечивающих максимум или минимум заданной совокупности критериев качества системы [1].

Для решения задачи оптимального управления строится математическая модель управляемого объекта или процесса, описывающая его поведение с течением времени под влиянием управляющих воздействий и собственного текущего состояния. Математическая модель для задачи оптимального управления включает в себя: формулировку цели управления, выраженную через критерий качества управления; определение дифференциальных или разностных уравнений, описывающих возможные способы движения объекта управления; определение ограничений на используемые ресурсы в виде уравнений или неравенств[2].

При оптимальном управлении иерархическими многоуровневыми системами, например, крупными химическими производствами, металлургическими и энергетическими комплексами, применяются многоцелевые и многоуровневые иерархические системы оптимального управления. В математическую модель вводятся критерии качества управления для каждого уровня управления и для всей системы в целом, а также координация действий между уровнями управления[3].

Если управляемый объект или процесс является детерминированным, то для его описания используются дифференциальные уравнения. Наиболее часто используются обыкновенные дифференциальные уравнения вида \dot{x}(t)=a[x(t),u(t),t]. В более сложных математических моделях (для систем с распределёнными параметрами) для описания объекта используются дифференциальные уравнения в частных производных. Если управляемый объект является стохастическим, то для его описания используются стохастические дифференциальные уравнения.

Если решение поставленной задачи оптимального управления не является непрерывно зависящим от исходных данных (некорректная задача), то такая задача решается специальными численными методами[4].

Система оптимального управления, способная накапливать опыт и улучшать на этой основе свою работу, называется обучающейся системой оптимального управления[5].

Реальное поведение объекта или системы всегда отличается от программного вследствие неточности в начальных условиях, неполной информации о внешних возмущениях, действующих на объект, неточности реализации программного управления и т.д. Поэтому для минимизации отклонения поведения объекта от оптимального обычно используется система автоматического регулирования.[6]

Иногда (например, при управлении сложными объектами, такими как доменная печь в металлургии или при анализе экономической информации) в исходных данных и знаниях об управляемом объекте при постановке задачи оптимального управления содержится неопределённая или нечёткая информация, которая не может быть обработана традиционными количественными методами. В таких случаях можно использовать алгоритмы оптимального управления на основе математической теории нечётких множеств (Нечёткое управление). Используемые понятия и знания преобразуются в нечёткую форму, определяются нечёткие правила вывода принимаемых решений, затем производится обратное преобразование нечётких принятых решений в физические управляющие переменные. [7]

Оптимальное управление детерминированными системами[править | править вики-текст]

Системы с обыкновенными параметрами[править | править вики-текст]

Наиболее широко при проектировании систем управления детерминированными объектами c обыкновенными параметрами, описываемыми обыкновенными дифференциальными уравнениями, применяются следующие методы: вариационное исчисление, принцип максимума Понтрягина и динамическое программирование Беллмана[1].

Задача оптимального управления[править | править вики-текст]

Сформулируем задачу оптимального управления:

  • Уравнения состояния: \dot{x}(t)=a[x(t),u(t),t] (1).
  • Граничные условия x(t_0)=x_{0}^{*}, x(t_1)=x_{1}^{*} (2).
  • Минимизируемый функционал: \eta=\int_{t_0}^{t_1}F[x(\tau),\dot{x}(\tau),\tau]d\tau,.

здесь x(t) — вектор состояния u(t) — управление, t_{0}, t_{1} — начальный и конечный моменты времени.

Задача оптимального управления заключается в нахождении функций состояния x(t) и управления u(t) для времени ({t_0}\le{t}\le{t_1}), которые минимизируют функционал.

Вариационное исчисление[править | править вики-текст]

Рассмотрим данную задачу оптимального управления как задачу Лагранжа вариационного исчисления [8]. Для нахождения необходимых условий экстремума применим теорему Эйлера-Лагранжа [8]. Функция Лагранжа \Lambda имеет вид: \Lambda=\int_{t_0}^{t_1}(F[x(t),\dot{x}(t),t]+\lambda_1^T(t)(\dot{x}(t)-a[x(t),u(t),t]))dt+l, где l=\lambda_2^T(x(t_0)-x_{0}^{*})+\lambda_3^T(x(t_1)-x_{1}^{*}) — граничные условия. Лагранжиан L имеет вид: L[x(t),\dot{x}(t),u(t),\lambda(t),t]=F[x(t),\dot{x}(t),t]+\lambda_1^T(t)(\dot{x}(t)-a[x(t),u(t),t]), где \lambda_1, \lambda_2, \lambda_3 — n-мерные вектора множителей Лагранжа.

Необходимые условия экстремума, согласно этой теореме, имеют вид:

  • стационарность по u: \hat{L}_{u}=0, (3)
  • стационарность по x, уравнение Эйлера: \hat{L}_{x}-\frac{d}{dt}\hat{L}_{c\dot{x}}=0 (4)
  • трансверсальность по x: \hat{L}_{\dot{x}}(\hat{t}_0)=\hat{l}_{x(t_0)}, \hat{L}_{\dot{x}}(\hat{t}_1)=-\hat{l}_{x(t_1)} (5)

Необходимые условия (3-5) составляют основу для определения оптимальных траекторий. Написав эти уравнения, получаем двухточечную граничную задачу, где часть граничных условий задана в начальный момент времени, а остальная часть — в конечный момент. Методы решения подобных задач подробно разбираются в книге[9]

Принцип максимума Понтрягина[править | править вики-текст]

Необходимость в принципе максимума Понтрягина возникает в случае когда нигде в допустимом диапазоне управляющей переменной невозможно удовлетворить необходимому условию (3), а именно \hat{L}_{u}=0.

В этом случае условие (3) заменяется на условие (6):

\begin{align} \min_{u \in U}L(t,x(t),\dot{x}(t),u)&=L(t,\hat{x}(t),\dot{x}(t),\hat{u}) \Longleftrightarrow\\
&\Longleftrightarrow \min_{ u \in U}\left(F(t,x(t),u)-\lambda(t)a(t,x(t),u)\right)=f(t)-\lambda(t)a(t). \end{align} (6)

В этом случае согласно принципу максимума Понтрягина величина оптимального управления равна величине управления на одном из концов допустимого диапазона. Уравнения Понтрягина записываются при помощи функции Гамильтона Н, определяемой соотношением H = F(t,x(t),u) - \lambda(t)a(t,x(t),u). Из уравнений следует, что функция Гамильтона H связана с функцией Лагранжа L следующим образом: L=H+\lambda(t)\dot{x}(t). Подставляя L из последнего уравнения в уравнения (3-5) получаем необходимые условия, выраженные через функцию Гамильтона:

  • уравнение управления по u: \hat{H}_{u}=0, (7)
  • уравнение состояния: \dot{x}=-\hat{H}_{\lambda}, (8)
  • сопряжённое уравнение: \dot{\lambda}=\hat{H}_{x}, (9)
  • трансверсальность по x: \lambda \hat{t}_0 =\hat{l}_{x(t_0)}, \lambda \hat{t}_1=-\hat{l}_{x(t_1)} (10)

Необходимые условия, записанные в такой форме, называются уравнениями Понтрягина. Более подробно принцип максимума Понтрягина разобран в книге[8].

Где применяется[править | править вики-текст]

Принцип максимума особенно важен в системах управления с максимальным быстродействием и минимальным расходом энергии, где применяются управления релейного типа, принимающие крайние, а не промежуточные значения на допустимом интервале управления.

История[править | править вики-текст]

За разработку теории оптимального управления Л.С. Понтрягину и его сотрудникам В.Г. Болтянскому, Р.В. Гамкрелидзе, и Е.Ф. Мищенко в 1962 году была присуждена Ленинская премия.

Метод динамического программирования[править | править вики-текст]

Метод динамического программирования основан на принципе оптимальности Беллмана, который формулируется следующим образом: оптимальная стратегия управления обладает тем свойством, что каково бы ни было начальное состояние и управление в начале процесса последующие управления должны составлять оптимальную стратегию управления относительно состояния, полученного после начальной стадии процесса[10]. Более подробно метод динамического программирования изложен в книге[11]

Достаточные условия оптимальности[править | править вики-текст]

Достаточные условия оптимальности управляемых процессов были предложены В. Ф. Кротовым, на основе которых были построены вычислительные алгоритмы последовательного улучшения, позволяющие находить глобальный оптимум в задачах управления [12].

Оптимальное управление системами с распределёнными параметрами[править | править вики-текст]

В задачах оптимального управления такими объектами, как проходная нагревательная печь, теплообменный аппарат, установка для нанесения покрытия, сушильный агрегат, химический реактор, установка для разделения смесей, доменная или мартеновская печь, коксовая батарея, прокатный стан, печь индукционного нагрева и т.д. управляемый процесс описывается дифференциальными уравнениями в частных производных, интегральными уравнениями и интегро-дифференциальными уравнениями.

Теория оптимального управления в этом случае разработана лишь для отдельных видов этих уравнений: эллиптического, параболического и гиперболического типа.

В некоторых простых случаях удается получить аналог принципа максимума Понтрягина.[13][14]

Задача оптимального управления[править | править вики-текст]

  • Задана область определения управляемого процесса 0 \leqslant x \leqslant a, 0 \leqslant y \leqslant b
  • Уравнения, описывающие управляемый процесс: \frac{\partial^{2} Q_{i}}{\partial x \partial y}=f_i(x, y, Q, \frac{\partial Q}{\partial x}, \frac{\partial Q}{\partial y}, u);(1) , где Q - n - мерный вектор, описываемый управляемый процесс, \frac{\partial Q}{\partial x} - n - мерный вектор производных вектора Q по координате x, \frac{\partial Q}{\partial y} - n - мерный вектор производных вектора Q по координате y, u - r - мерный управляющий вектор.
  • Граничные условия для управляемого процесса: Q_{i}(0, y)=\phi_{i}(y); Q_{i}(x, 0)=\psi_{i}(x); i=1,..., n; (2)
  • Задача оптимального управления состоит в том, чтобы найти такое управление u(x, y), при котором допустимое уравнениями (1), (2) решение Q(x, y) приводит к максимуму функционала J = \sum^{n}_{i=1} c_{i} Q_{i} (a,b).
Принцип максимума для систем с распределёнными параметрами[править | править вики-текст]

С целью формулировки принципа максимума для систем с распределёнными параметрами вводится функция Гамильтона: H(N, Q, \frac{dQ}{dx}, \frac{dQ}{dy}, u) = \sum_{i=1}^{n} N_{i} f_{i} (x, y, Q, \frac{dQ}{dx}, \frac{dQ}{dy}, u), где вспомогательные функции N_{1}(x, y), ..., N_{n}(x, y) должны удовлетворять уравнениям \frac{dN_{i}}{dxdy}=\frac{H}{Q_{i}}-\frac{d}{dx}\frac{dH}{dQ_{ix}}-\frac{d}{dy}\frac{dH}{dQ_{iy}}(2) и граничным условиям \frac{dN_{i}}{dx} = - \frac{dH}{dQ_{iy}} при y=b (3), \frac{dN_{i}}{dy} = - \frac{dH}{dQ_{ix}} при x=a (4), N_{i}(a,b)=-c_{i} (5).

Если u^{0}(x,y) - оптимальное управление и Q^{0}(x,y), N^{0}(x,y) - получающиеся при оптимальном управлении функции, удовлетворяющие уравнениям (1), (2), (3), (4), (5) , то функция H(N^{0}(x,y), Q^{0}(x,y), \frac{dQ^{0}(x,y)}{dx}, \frac{dQ^{0}(x,y)}{dy}, u), рассматриваемая как функция от аргумента u достигает максимума в области \omega при u=u^{0}(x,y), то есть почти для всех точек (x,y) \in D выполняется равенство \max_{u \in \omega}H(N^{0}(x,y), Q^{0}(x,y), \frac{dQ^{0}(x,y)}{dx}, \frac{dQ^{0}(x,y)}{dy}, u) = H(N^{0}(x,y), Q^{0}(x,y), \frac{dQ^{0}(x,y)}{dx}, \frac{dQ^{0}(x,y)}{dy}, u)

Если система (1) является линейной системой вида \frac{d^{2}Q_{i}}{dxdy}=\sum_{k=1}^{n}\Bigl[ m_{ik}(x,y)\frac{dQ_{k}}{dx}+p_{ik}(x,y)\frac{dQ_{k}}{dy} + q_{ik}(x,y)Q_{k} \Bigr] + f_{i}(u), то выполняется теорема

Для оптимальности управления u(x,y) в линейном случае необходимо и достаточно, чтобы выполнялся принцип максимума.

Доказательство этих двух теорем смотри в книге [14].

Оптимальное управление стохастическими системами[править | править вики-текст]

В этом случае управляемый объект или процесс описывается стохастическими дифференциальными уравнениями. В этом случае решение задачи оптимального управления осуществляется на основе уравнения Риккати[15].

Задача оптимального управления[править | править вики-текст]

  • Система описывается стохастическими дифференциальными уравнениями dx=Axdt+Budt+dv, dy=Cxdt+de, где x - n - мерный вектор состояния, u - p - мерный вектор управления, y - v - мерный вектор наблюдаемых переменных, v(t), e(t) - независимые винеровские процессы с нулевыми средними значениями и заданными ковариациями приращений, A, B, C - матрицы.
  • Необходимо найти оптимальное управление, минимизирующее математическое ожидание функции потерь x^T(t_1)Q_0x(t_1)+\int_{t_0}^{t_1}[x^T(t)Q_1x(t)+u^TQ_2u(t)]dt].

Примечания[править | править вики-текст]

  1. 1 2 Самойленко В. И., Пузырев В. А., Грубрин И. В. «Техническая кибернетика», учеб. пособие, М., изд-во МАИ, 1994, 280 с. ил., ISBN 5-7035-0489-9, гл. 4 «Оптимальные системы управления динамическими объектами и процессами», с. 63-113;
  2. Коршунов Ю. М. «Математические основы кибернетики», учеб. пособие для вузов, 2-е изд., перераб. и доп., М., «Энергия», 1980, 424 с., ил., ББК 32.81 6Ф0.1, гл. 5 «Структура и математическое описание задач оптимального управления», c. 202;
  3. Месарович М., Мако Д., Ткахара И. Теория иерархических многоуровневых систем — М., Мир, 1973. — с. 344
  4. Васильев Ф. П. Методы решения экстремальных задач. — М.: Наука, 1981. — С. 159.
  5. Цыпкин Я. З. Основы теории обучающихся систем. — М.: Наука, 1970. — С. 252.
  6. А.Г. Александров, Оптимальные и адаптивные системы, М., Вышая школа, 1989, 263 с., ISBN 5-06-000037-0
  7. Методы робастного, нейро-нечёткого и адаптивного управления: Учебник / Под ред. Н.Д. Егупова, изд. 2-ое, стер., М., Изд-во МГТУ им Н.Э. Баумана, 2002, 744 с ил., ISBN 5-7038-2030-8, тир. 2000 экз, ч. 2 "Нечёткое управление"
  8. 1 2 3 Э. М. Галеев, В. М. Тихомиров «Оптимизация: теория, примеры, задачи», М., «Эдиториал УРСС», 2000, 320 с., ISBN 5-8360-0041-7, гл. 3 «Вариационное исчисление», п. 6 «Задача Лагранжа», с. 173—181;
  9. «Численные методы в теории оптимальных систем», Моисеев Н. Н., «Наука», 1971, 424 стр. с илл., гл. 2 «Численные методы расчета оптимальных программ, использующие необходимые условия экстремума», с 80 — 155;
  10. Беллманн Р. «Динамическое программирование», ИЛ, М., 1960;
  11. «Численные методы в теории оптимальных систем», Моисеев Н. Н., «Наука», 1971, 424 стр. с илл., гл. 3 «Прямые методы теории оптимального управления», с 156—265;
  12. Кротов В. Ф. Методы решения вариационных задач на основе достаточных условий абсолютного минимума. I-IV // Автоматика и телемеханика, 1962, т. 23, № 12, с. 1571-1583; 1963, т. 24, № 5, с. 581-598; 1963, т. 24, № 7, с. 826-843; 1965, т. 26, № 1, с. 24-41.
  13. Ж.-Л. Лионс Оптимальное управление системами, описываемыми уравнениями с частными производными, М., Мир, 1972, 412 c.
  14. 1 2 Бутковский А.Г. Теория оптимального управления системами с распределенными параметрами, М., Наука, 1965
  15. К.Ю. Острем Введение в стохастическую теорию управления, М., Мир, 1973

Литература[править | править вики-текст]

  • Растригин Л. А. Современные принципы управления сложными объектами. - М.: Сов. радио, 1980. - 232 с., ББК 32.815, тир. 12000 экз.
  • Алексеев В. М., Тихомиров В. М., Фомин С. В. Оптимальное управление. - М.: Наука, 1979, УДК 519.6, - 223 c., тир. 24000 экз.
  • Волгин Л.Н. Оптимальное дискретное управление динамическими системами. — М.: Наука, 1986. — 240 с.

Ссылки[править | править вики-текст]

См. также[править | править вики-текст]