Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,674

PROBLEMS OF OPTIMAL CONTROL OF THE TWO-LINK MANIPULATOR WITH ROTATIONALY KINEMATIC PAIRS

Lutmanov S.V. 1 Kuksenok L.V. 1 Popova E.S. 1
1 Perm National Research University
1190 KB
A mathematical model of a two-link flat manipulator with rotational kinematic pairs in the form of Lagrange equations of the second kind is considered. Assuming that the initial position of the manipulator’s gripper is displaced relative to estimated, two problems of optimal control about the return a gripper on a basic trajectory are set and solved. In the first problem the maximum for process all the time value of control action was minimized. The programmed optimal in the sense of specified criterion control is constructed and the analysis of optimum value of criterion depending on exit time of a gripper on a basic trajectory is carried out. In the second problem existence of a uncontrolled hindrance was allowed, to which the aspiration as much as possible to interfere with an exit of a gripper on a basic trajectory was recommended. The second problem of a being represents antagonistic differential game of two persons in which the player-ally solves a problem of aiming at some target set. The existence of a saddle point in this game is proved and the best guaranteeing strategies of players are constructed. Conclusions of the article are confirmed by numerical experiment.
optimal control
mechanical manipulator
differential game
1. Andrjukova A.A., Lutmanov S.V. Problemy mehaniki i upravlenija. 2007, no. 39, pp. 14–26.
2. Krasovskij N.N. Upravlenie dinamicheskoj sistemoj. Moscow, Nauka, 1985. 221 p.
3. Krasovskij N.N. Teorija upravlenija dvizheniem. Moscow, Nauka, 1968. 476 p.
4. Krasovskij N.N., Subbotin A.I. Pozicionnye differencial’nye igry. Moscow, Nauka, 1973. 456 p.
5. Kulagin E.V., Lutmanov S.V. Petuhov I.S. Problemy mehaniki i upravlenija. 2005, no. 37, pp. 21–34.

Задачи оптимального управления динамическими объектами являются важными и актуальными. Дифференциальные уравнения движения для таких объектов, как правило, бывают нелинейными, что затрудняет применение известных методов оптимизации, например, принципа максимума Л.С. Понтрягина. В статье рассматривается задача о возвращении схвата двухзвенного манипулятора на базовую траекторию. Для ее решения уравнения движения схвата были линеаризированы в окрестности этой траектории, что позволило свести задачу управления к функциональной проблеме моментов и решить ее. Кроме того, удалось расширить задачу управления до игровой и построить наилучшую гарантирующую позиционную стратегию игрока – союзника, позволяющую преодолеть самые неблагоприятные действия неконтролируемой помехи. Управления, полученные в линеаризированной модели, были применены и для исходной модели. Численный эксперимент показал приемлемость такого подхода.

1. Математическая модель манипулятор

На горизонтальной плоскости рассмотрим двухзвенный механический манипулятор с двумя вращательными парами (рис. 1). Каждое звено манипулятора представляет собой абсолютно жесткий однородный стержень длины l. Первое звено соединено с неподвижным основанием вращательной парой O1, а со вторым звеном – вращательной парой O2. Принимается, что масса схвата равна m, а масса i-го звена – mi, i = 1, 2. В соединительных парах могут развиваться управляющие моменты wi, i = 1, 2. Трение в шарнирах отсутствует. В статьях [1], [5] были выведены дифференциальные уравнения движения данного манипулятора в форме уравнений Лагранжа второго рода, в которых в качестве обобщенных координат взяты углы φi, i = 1, 2. Вид этих уравнений приводится ниже

Eqn122.wmf

Eqn123.wmf

Eqn124.wmf (1.1)

Eqn125.wmf

Здесь

Eqn126.wmf

pic_38.wmf

Рис. 1. Двухзвенный манипулятор

Связь между декартовыми координатами схвата и обобщенными координатами манипулятора осуществляется по формулам

Eqn127.wmf

Eqn128.wmf (1.2)

Заданы: t0 = 0начальный и T – конечный моменты времени процесса, (X0, Y0)исходное и (XT, YT) конечное положение схвата, Y = f(X) уравнение траектории схвата, Eqn129.wmf – базовый закон изменения декартовых координат схвата в функции времени, обеспечивающий его переход из начального положения в конечное вдоль траектории Y = f(X) с нулевыми начальной и конечной скоростями. Для определения программных управлений Eqn130.wmf, реализующих базовый закон движения схвата, следует обратить соотношения (1.2) и, подставив в полученные зависимости закон движения Eqn129.wmf, найти соответствующий ему закон изменения обобщенных координат Eqn131.wmf. Управления Eqn130.wmf легко определяются из соотношений (1.1), если положить в них

Eqn132.wmf

Таким образом, управления также считаем заданными.

2. Постановка задачи управления.

Пусть по какой-либо причине в начальный момент времени схват не находится строго на заданной траектории. Тогда управления Eqn130.wmf не обеспечат для него базовый закон движения Eqn129.wmf и, в частности, движение вдоль траектории Y = f(X) с остановкой в конечный момент времени T. Допустим, что в каждой из вращательных пар могут развиваться дополнительные управляющие моменты u1, u2 соответственно. Тогда дифференциальные уравнения движения манипулятора запишутся в виде

Eqn133.wmf Eqn134.wmf

Eqn135.wmf (2.1)

Eqn136.wmf

Требуется подобрать моменты u1, u2 в виде интегрируемых функций времени, возвращающие схват на заданный закон движения в момент времени ϑ ∈ [t0, T] и доставляющие минимум критерию качества

Eqn137.wmf.

По терминологии книги [2], этот критерий носит название «минимум силы».

Сформулируем проблему как задачу теории оптимального управления. Пусть (X0, Y0) – начальное положение схвата, не принадлежащее заданной траектории, (q10, q20) – отвечающие ему обобщенные координаты, и Eqn138.wmf – некоторая интегрируемая вектор-функция. Символом Eqn139.wmf обозначим соответствующее решение системы дифференциальных уравнений (2.1) с начальными условиями

Eqn140.wmf

Задача 1. Среди интегрируемых вектор функций Eqn141.wmf, удовлетворяющих условию

Eqn142.wmf i = 1, ..., 4,

найти ту, для которой величина Eqn143.wmf достигает наименьшего значения.

Усложним модель. Предположим, что в соединительных парах могут развиваться неконтролируемые помехи в виде вращательных моментов v1, v2. Неконтролируемой помехе предписывается стремление максимально навредить в решении задачи перевода схвата на базовую траекторию. В данной модели конфликтно-управляемого динамического объекта на дополнительные управления u1, u2 и неконтролируемые помехи v1, v2 наложены геометрические ограничения в форме включений

Eqn144.wmf

Рассматриваемую ситуацию будем трактовать как антагонистическую дифференциальную игру двух лиц, динамика которой описывается дифференциальными уравнениями

Eqn145.wmf Eqn146.wmf

Eqn147.wmf

Eqn148.wmf

В этой игре «игрок-союзник» осуществляет управление объектом в классе позиционных стратегий Eqn149.wmf, опираясь на информацию только о реализовавшемся в данный момент времени фазовом векторе игры. «Игрок – противник» может применять любые интегрируемые реализации вектора своих управляющих параметров Eqn150.wmf.

3. Линеаризованные уравнения движения

Полагаем

Eqn151.wmf (3.1)

Тогда условие возвращения схвата на базовый закон движения в момент времени ϑ принимает вид xi(ϑ) = 0, i = 1, ..., 4. Изменение во времени величин (3.1) в условиях задачи 1 приближенно описывается линейным векторным дифференциальным уравнением

Eqn152.wmf (3.2)

а в условиях дифференциальной игры – уравнением

Eqn153.wmf (3.3)

Здесь

Eqn154.wmf

Eqn155.wmf

Q3, Q4 – правые части третьего и четвертого дифференциального уравнения в (1.1) соответственно. Аппроксимируем задачу 1.

Задача 2. Среди интегрируемых вектор функций Eqn156.wmf, удовлетворяющих условию

Eqn157.wmf

где Eqn158.wmf – соответствующее решение системы (3.2) с начальными условиями (x10, x20, 0, 0), найти ту, для которой величина Eqn143.wmf достигает наименьшего значения.

Аналогично исходную дифференциальную игру аппроксимируем линейной антагонистической дифференциальной игрой двух лиц, динамика которой описывается уравнением (3.3), цель первого игрока-союзника – привести фазовый вектор игры Eqn159.wmf в начало координат в момент времени ϑ, а второго игрока – максимально этому противодействовать.

4. Решение задачи 2

Решение задачи 2 осуществим методом сведения ее к функциональной проблеме моментов [2]. Пусть X[t, τ], t, τ ∈ [t0, ϑ] фундаментальная матрица Коши для однородного уравнения Eqn160.wmf. Полагаем H[ϑ, τ] = X[ϑ, τ]B(τ), τ ∈ [t0, ϑ], c = –X[ϑ, t0]x0, Eqn161.wmf. Символом Eqn162.wmf k = 1, ..., 4 обозначим k-ю строку матрицы H[ϑ, τ]. Оптимальное управление Eqn163.wmf, решающее задачу 2, вычисляется по формуле [2]

Eqn164.wmf

где Eqn165.wmf, а вектор l0 – решение задачи математического программирования

Eqn166.wmf

5. Решение дифференциальной игры

Аппроксимирующая дифференциальная игра является линейной дифференциальной игрой «наведения-уклонения в момент времени ϑ на целевое множество Eqn167.wmf», в которой выполнены условия однотипности. Тогда в этой игре существует [3] седловая точка в классе позиционных стратегий. Приведем основные моменты ее построения. Полагаем

Eqn168.wmf (5.1)

Eqn169.wmf

Обозначим через l0(t, x) вектор, на котором достигается максимум в (5.1). В силу однотипности объектов он единственен, если ε0(t, x) > 0. Пара позиционных стратегий ue, ve, реализующих седловую точку в игре, определяется формулами

Eqn170.wmf

Eqn171.wmf (5.2)

Eqn172.wmf (5.3)

Позиционные управления Eqn173.wmf не являются непрерывными, поэтому игру следует формализовать в классе конструктивных движений Н.Н. Красовского (пошаговые равномерные пределы ломаных Эйлера) [3], [4]. Позиционное управление Eqn174.wmf «игрока-союзника» обеспечивает выход схвата манипулятора на базовый закон движения в момент времени ϑ при любых действиях помехи, если ε0(t0, x0) = 0. Опишем процедуру управления нелинейным объектом (2.2) на базе оптимальных стратегий, решающих аппроксимирующую линейную дифференциальную игру. Промежуток времени [t0, ϑ] разбиваем на полуинтервалы

Eqn175.wmf

На каждом из полуинтервалов оптимальные управления игроков определяются из условия

Eqn176.wmf

Eqn177.wmf

Eqn177.wmf

Результат управления зависит от величины δ > 0. Чем она меньше, тем ближе к теоретическому значению будет величина платы в игре.

6. Численный эксперимент

Зададимся следующими массово-геометрическими характеристиками манипулятора: m = m1 = m2 = 1 кг, l1 = l2 = 1 м. Принимаем, что t0 = 0, T = 1 с. При решении задачи 1 полагаем

(X0, Y0) = (1,5 м; 1,02 м), (XT, YT) = (0,25 м; 1,24 м),

Eqn178.wmf.

Тогда

x1(0) = 10,21∙10–2 рад, x2(0) = 5,31∙10–2 рад, x3(0) = 0 рад/с; x4(0) = 0 рад/с.

Задача вывода схвата на исходную траекторию была решена для десяти значений момента времени ϑ ∈ [0,1; 1]. Оптимальное значение критерия «минимум силы» для каждого из этих моментов времени приведено в таблице.

Зависимость величины критерия от длины промежутка времени управления

ϑ, с

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0,9

1,0

Eqn179.wmf

96,82

23,71

10,19

5,49

3,35

2,22

1,56

1,15

0,87

0,67

Из таблицы следует, что чем меньше времени дается на выход движения схвата на базовую траекторию, тем больше силовые затраты на управление. Эффективность найденного дополнительного программного управления проверяется путем подстановки его в исходные нелинейные дифференциальные уравнения движения и интегрирования их с выбранными смещенными начальными условиями. Численно показано, что в результате схват в момент времени ϑ выходит на базовую траекторию и продолжает движение вдоль нее после выключения дополнительных управлений. На рис. 2 приводится траектория движения схвата манипулятора для случая ϑ = 0,5.

В случае игровой задачи принимается, что

a = 10, β = 1, ϑ = 0,5, (X0, Y0) = (1,5 м; 0,38 м) (XT, YT) = (0,5 м; 1,38 м),

Eqn180.wmf

Тогда х1(0) = –0,21 рад х2(0) = –0,40 рад, х3(0) = 0 рад/с, х4(0) = 0 рад/с. Численный эксперимент показал, что для нелинейного объекта сохраняется аналог седловой точки, имеющей место в аппроксимирующей линейной игре. В частности, было установлено (с точностью до третьего знака, когда δ = 0,01) совпадение цены игры с величиной гипотетического рассогласования ε0, постоянство функции ε0 вдоль движения, порожденного оптимальными управлениями, ее монотонное убывание, если второй игрок единолично уклоняется от оптимального управления и монотонное возрастание, если единолично уклоняется первый игрок. Соответствующие графики приведены на рис. 3. Из равенства ε(t0, x0) = 0 следует, что даже при самой неблагоприятной реализации помехи схват можно вернуть на базовую траекторию в момент времени ϑ, если пользоваться оптимальной стратегией первого игрока. Показано также, что единоличное уклонение игрока от оптимальной стратегии приводит к ухудшению его результата в игре.

pic_39.tif

Рис. 2. Траектория движения схвата:1 – движение схвата после его возвращения на базовую траекторию; 2 – траектория схвата, отвечающая времени перевода ϑ = 0,5; 3 –базовая траектория движения схвата

pic_40.tif

Рис. 3. График функции ε0(t): 1 – при единоличном уклонении первого игрока; 2 – при оптимальных управлениях; 3 – при единоличном уклонении второго игрока

Рецензенты:

Яковлев В.И., д.ф.-м.н., профессор, декан механико-математического факультета, зав. кафедрой процессов управления и информационной безопасности, Пермский национальный исследовательский университет, г. Пермь;

Галкин В.Д., д.т.н., профессор, декан инженерного факультета, Пермская государственная сельскохозяйственная академия им. академика Д.Н. Прянишникова, г. Пермь.

Работа поступила в редакцию 07.05.2013.