Scientific journal
Fundamental research
ISSN 1812-7339
"Перечень" ВАК
ИФ РИНЦ = 1,749

ANALYSIS OF FAILURE SCENARIOS OF CLUSTER STRUCTURES OF AUTOMATED CONTROL SYSTEMS

Litoshik S.V. 1 Tsarev R.Yu. 2
1 Reshetnev Siberian State Aerospace University
2 Siberian Federal University
The article is devoted to the problem of the improvement of reliability and fault tolerance of automated control systems. To solve these problems it is proposed to use the cluster organization of structure of the systems of this class. In this case, the cluster is a group of computers connected by communication channels that can be treated as a single hardware resource. Application of several computers in datacenters poses the problem of computers (or nodes) selection. It is necessary to perform failure analysis of cluster structure of the automated control system in order to find out an adequate number of nodes. Thus we must consider all failure scenarios of cluster structure. The article provides the reader with an analysis of failure scenarios of cluster structure of the automated control system applied at the high-tech enterprise. The given analysis allows choosing the best variant of formation of the cluster structure of the automated control system.
structure
cluster
failure
scenario
reliability
automated control system
1. Vaingauz A.M., Usoltsev A.A. Ocenka i vybor variantov proektnyh reshenij [Evaluation and selection of design decision variants]. Krasnojarsk, Bulletin NII SUVPT, 2003, vol. 11, pp. 129–135.
2. Daniliuk S.G., Agarev A.V. Obosnovanie struktury analiza nadezhnosti prikladnogo programmnogo obespechenija avtomatizirovannyh sistem upravlenija tehnologicheskimi processami [Justification of the structure of reliability analysis of software application of automated control systems of technological processes]. Information technologies in designing and manufacturing, 2008, no. 4, pp. 52–55.
3. Elagin V. Klastery protiv katastrof [Clusters against accidents]. Open Systems, 2002, no. 6, pp. 29–36.
4. Tsarev R.Y., Kapulin D.V., Zavialova O.I., Demish A.V. Model’no-algoritmicheskoe obespechenie planirovanija razvitija klasternoj struktury ASU kosmicheskih sistem [Models and algorithms for the planning of the development of cluster structure of automated control systems of space systems]. Bulletin SibGAU, 2011, no. 4, pp. 102–106.
5. Kovalev I.V., Kuznetsov P.A., Zelenkov P.V., Shaidurov V.V., Bahmareva K.K. Ocenka nadezhnosti ASU s blokirujushhimi moduljami zashhity [Evaluation of the reliability of automated control systems with blocking protection modules]. Devices, 2013, no. 6, pp. 20–23.
6. Piatakov A.I, Shabynina E.A. Ob odnom podhode k raschetu nadezhnosti programmno-tehnicheskogo kompleksa [An approach to the calculation of the software and hardware complex reliability]. Automation of control processes, 2009, no. 3, pp. 29–32.
7. Savin S.V. Optimizacija formirovanija i upravlenija razvitiem klasternyh struktur katastrofoustojchivyh sistem obrabotki informacii [Optimization of formation and development control of cluster structures of disaster-tolerant systems of information processing]. PhD tesis, Krasnoyarsk, 2004, 144 p.

Создание автоматизированных систем управления предъявляет высокие требования по надежности к программному и аппаратному обеспечению. Существует ряд областей науки и промышленности, в которых отказ работы компонентов или всей системы в целом могут повлечь за собой значительные экономические потери или принести урон здоровью и жизни людей. Такими областями являются банковская система, финансовые организации, космос, подводные и подземные исследования, атомная промышленность, химическое производство, прогнозирование и т.д. [7].

В связи с этим одной из основных задач становится создание таких подходов и методов к созданию автоматизированных систем управления, которые обеспечивали бы устойчивость системы к программным и аппаратным сбоям, а также гарантировали отказоустойчивое решение, главная задача которого – сохранение данных и продолжение работы в условиях массовых и, возможно, последовательных отказов автоматизированных систем управления [2, 6].

Технология отработки отказов в этом случае требует учета взаимосвязанности структурных компонент и способности систем специфически реагировать на каждый вариант последовательности развития событий, так называемый сценарий отказа с целью обеспечения максимально возможной сохранности защищаемой информации.

Для обеспечения надежности автоматизированных систем управления предложено множество подходов, включая организационные методы разработки, различные технологии и технологические программные средства, что требует, очевидно, привлечения значительных ресурсов [5, 7]. Простое дублирование элементов системы зачастую не является эффективным решением проблемы отказоустойчивости. Усложнение структуры автоматизированной системы управления предъявляет повышенные требования к эффективности и качеству принимаемых решений на этапах развития системы.

В данной работе рассматривается проблема повышения устойчивости автоматизированных систем управления за счет кластерной организации ее структуры. Целью работы является проведение исследований в части анализа различных сценариев отказа разных элементов автоматизированной системы управления, что позволяет оценить работоспособность системы управления и проанализировать отказоустойчивость кластерной структуры автоматизированной системы управления.

Понятие кластер-кворума

В работе [1] кластер-кворум упоминается как динамическая характеристика, значение которой представляет собой целостность кластера в текущий момент времени. Для задачи синтеза кластерных структур автоматизированных систем управления определим кластер-кворум как минимальную целостность кластера, при которой он остается работоспособен.

Это процентная характеристика, обозначающая минимальную часть кластера, способную справляться с возложенными на него задачами. Так, если значение кластер-кворума 40 %, это означает, что при выходе из строя 60 % всего оборудования кластер способен стабильно работать на оставшихся элементах. Таким образом, в идеальной ситуации кластер-кворум равен 0.

Для расчета значения кластер-кворума каждому узлу кластера экспертным путем проставляются веса. После этого соответственно весам рассчитывается процентный «эквивалент важности» для каждого узла. Далее составляются варианты нарушения целостности кластера с соответствующей оценкой работоспособности. Минимальное работоспособное значение целостности принимается за кластер-кворум.

Анализ надежности кластерной структуры автоматизированных систем управления

Анализ надежности был выполнен с помощью системы анализа надежности кластерных структур автоматизированных систем управления, разработанной на основе предложенных авторами моделей и алгоритмов [4]. Данная система может применяться для создания кластерных структур новых автоматизированных систем управления, а также для развития кластерных структур уже существующих систем. Функциональное назначение разработанной системы заключается в анализе различных кластерных структур и выявлении сценариев отказов автоматизированных систем управления. Эксплуатационное назначение системы заключается в обеспечении поддержки принятия решений, анализе существующих кластерных структур, а также создании и визуализации созданной структуры по входным параметрам.

Рассмотрим несколько сценариев работы кластерной структуры автоматизированной системы управления, применяемой на одном из предприятий высокотехнологического сектора экономики г. Красноярска.

Предполагается, что необходимо создать кластерную структуру автоматизированной системы управления. Динамическая характеристика, вычисляемая всякий раз, когда узел кластера выходит из строя, и является кластер-кворумом, определяющим целостность кластера.

Существуют два варианта реализации кластерной структуры системы. Согласно первому варианту, система включает два центра обработки информации, в каждом из которых по одному вычислительному узлу, сроки реализации – 60 дней, бюджет – 150 000 рублей. Согласно первому варианту, система включает два центра обработки информации, в каждом из которых по два вычислительных узла, сроки реализации – 60 дней, бюджет – 200 000 рублей. Необходимо создать систему управления, отличающуюся отказоустойчивостью, при этом не превысив выделенных средств.

В табл. 1 представлен полный список возможных сценариев при реализации системы согласно первому варианту, иллюстрирующих возможные последствия отказа узлов в центрах обработки данных, а также арбитратора, входящего в состав автоматизированной системы управления. Арбитратор — полнофункциональная система, являющаяся составной частью кластера, выполняет связующую и синхронизирующую роль для всех остальных узлов [3].

В табл. 2 представлены некоторые из возможных сценариев отказов автоматизированной системы управления, при реализации системы согласно второму варианту. Здесь центры обработки данных состоят из двух вычислительных узлов. В автоматизированной системе управления также используется один арбитратор.

Анализ двух различных вариантов построения кластерной структуры автоматизированной системы управления показал, что первый вариант включает 27 различных сценариев, из них в 10 работа кластера останавливается полностью. То есть в 37,1 % случаев произойдет отказ автоматизированной системы управления. Второй вариант имеет 243 сценария, из них 80 приводят к остановке кластера, что приходится на 32,9 % сценариев. При этом в первом варианте на создание было затрачено 150 000 рублей, во втором 200 000, что на 30 % больше. Таким образом, целесообразно реализовать кластерную структуру автоматизированной системы управления согласно второму варианту.

Таблица 1

Сценарии отказов в конфигурации согласно первому варианту

Сценарий

Отказавшие компоненты

Отказ

Кластер-кворум

Работоспособных компонентов

Последствия

1.

   

100 %

3 из 3

 

2.

 

Арбитратор 1

66 %

2 из 3

Нет последствий

3.

 

Узел 2

66 %

2 из 3

Перенаправление на другие узлы

4.

 

Узел 2, Арбитратор 1

33 %

1 из 3

Кластер остановлен

5.

 

Узел 1

66 %

2 из 3

Перенаправление на другие узлы

6.

 

Узел 1, Арбитратор 1

33 %

1 из 3

Кластер остановлен

7.

 

Узел 1, Узел 2

33 %

1 из 3

Кластер остановлен

8.

 

Узел 1, Узел 2, Арбитратор 1

0 %

0 из 3

Кластер остановлен

9.

Арбитратор 1

 

100 %

2 из 2

 

10.

Арбитратор 1

Узел 2

50 %

1 из 2

Перенаправление на другие узлы

11.

Арбитратор 1

Узел 1

50 %

1 из 2

Перенаправление на другие узлы

12.

Арбитратор 1

Узел 1, Узел 2

0 %

0 из 2

Кластер остановлен

13.

Узел 2

 

100 %

2 из 2

 

14.

Узел 2

Арбитратор 1

50 %

1 из 2

Нет последствий

15.

Узел 2

Узел 1

50 %

1 из 2

Перенаправление на другие узлы

16.

Узел 2

Узел 1,

Арбитратор 1

0 %

0 из 2

Кластер остановлен

17.

Узел 2,

Арбитратор 1

 

100 %

1 из 1

 

18.

Узел 2,

Арбитратор 1

Узел 1

0 %

0 из 1

Кластер остановлен

19.

Узел 1

 

100 %

2 из 2

 

20.

Узел 1

Арбитратор 1

50 %

1 из 2

Нет последствий

21.

Узел 1

Узел 2

50 %

1 из 2

Перенаправление на другие узлы

22.

Узел 1

Узел 2,

Арбитратор 1

0 %

0 из 2

Кластер остановлен

23.

Узел 1,

Арбитратор 1

 

100 %

1 из 1

 

24.

Узел 1,

Арбитратор 1

Узел 2

0 %

0 из 1

Кластер остановлен

25.

Узел 1, Узел 2

 

100 %

1 из 1

 

26.

Узел 1, Узел 2

Арбитратор 1

0 %

0 из 1

Кластер остановлен

27.

Узел 1, Узел 2, Арбитратор 1

 

0 %

0 из 0

 

Таблица 2

Сценарии отказов в конфигурации согласно второму варианту

Сценарий

Отказавшие компоненты

Отказ

Кластер-кворум

Работоспособных компонентов

Последствия

1.

   

100 %

5 из 5

 

2.

 

Арбитратор 1

80 %

4 из 5

Нет последствий

3.

 

Узел 4

80 %

4 из 5

Перенаправление на другие узлы

4.

 

Узел 4,

Арбитратор 1

60 %

3 из 5

Перенаправление на другие узлы

5.

 

Узел 3

80 %

4 из 5

Перенаправление на другие узлы

95.

Узел 3,

Арбитратор 1

Узел 1, Узел 2

33 %

1 из 3

Кластер остановлен

96.

Узел 3,

Арбитратор 1

Узел 1, Узел 2,

Узел 4

0 %

0 из 3

Кластер остановлен

97.

Узел 3, Узел 4

 

100 %

3 из 3

 

98.

Узел 3, Узел 4

Арбитратор 1

66 %

2 из 3

Нет последствий

240.

Узел 1, Узел 2,

Узел 3,

Арбитратор 1

Узел 4

0 %

0 из 1

Кластер остановлен

241.

Узел 1, Узел 2,

Узел 3, Узел 4

 

100 %

1 из 1

 

242.

Узел 1, Узел 2,

Узел 3, Узел 4

Арбитратор 1

0 %

0 из 1

Кластер остановлен

243.

Узел 1, Узел 2,

Узел 3, Узел 4,

Арбитратор 1

 

0 %

0 из 0

 

Заключение

Повышение надежности автоматизированных систем управления является актуальной проблемой с тех пор, как системы данного класса начали использоваться в промышленности и высоконаучном секторе экономики. Применение кластерной организации структуры автоматизированных систем управления обеспечивает не только повышение уровня надежности, но и гарантирует отказоустойчивость системы при решении ее функциональных задач. Применение группы компьютеров в составе кластерной структуры систем управления позиционирует оптимизационную задачу выбора как структуры, так и состава системы.

В статье представлены результаты экспериментального исследования, посвященные анализу кластерной структуры автоматизированной системы управления с различным составом центров обработки информации. Анализ был выполнен с применением разработанной компьютерной системы. На основе выполненного анализа можно заключить о более предпочтительном варианте формирования кластерной структуры автоматизированной системы управления. Разработанная система анализа надежности кластерных структур может применяться при создании и модернизации автоматизированных систем управления в различных областях науки и производства.

Рецензенты:

Ченцов С.В., д.т.н., профессор, зав. каф. «Системы автоматики, автоматизированного управления и проектирования» Института космических и информационных технологий Сибирского федерального университета, г. Красноярск;

Носков М.В., д.ф.-м.н., профессор, заместитель директора по научной работе Института космических и информационных технологий Сибирского федерального университета, г. Красноярск.

Работа поступила в редакцию 21.03.2014.