ОБЗОР СОВРЕМЕННЫХ СРЕДСТВ ДЛЯ КОМПЛЕКСНОГО МОНИТОРИНГА ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Сидоров И.А. 1 Кузьмин В.Р. 2

1 ФГБУН «Институт динамики систем и теории управления имени В.М. Матросова СО РАН»

2 ФГБОУ ВО «Иркутский государственный университет Педагогический Институт»

Высокопроизводительные вычислительные системы являются сложными техническими установками, количество и разнообразие компонентов в составе которых увеличивается с каждым годом. В связи с чем все более актуальными становятся задачи обеспечения комплексного мониторинга работы всех программно-аппаратных компонентов таких систем. В данной статье представлен подход к комплексному мониторингу высокопроизводительных вычислительных систем на основе сбора и анализа данных, получаемых от набора локальных систем мониторинга, осуществляющих контроль за работой отдельных программно-аппаратных компонентов и подсистем. В качестве локальных систем мониторинга авторами рассматриваются средства мониторинга в пяти категориях: мониторинг и анализ эффективности выполнения параллельных и распределенных программ; мониторинг, тестирование и диагностика аппаратных компонентов вычислительных узлов; мониторинг инженерной инфраструктуры; мониторинг вычислительной инфраструктуры; мониторинг промежуточного программного обеспечения. Интеграция средств, представленных в каждой категории, в состав разрабатываемой авторами системы мета-мониторинга будет проводиться в рамках дальнейших исследований.

Статья в формате PDF

0 KB

высокопроизводительные вычислительные системы

мониторинг

диагностика

отказоустойчивость

надежность систем

1. Ильин В.П. Параллельные процессы на этапах петафлопного моделирования // Вычислительные методы и программирование. – 2011. – № 12. – С. 103–109.

2. Сидоров И.А., Новопашин А.П., Опарин Г.А. Методы и средства метамониторинга распределенных вычислительных сред // Вестник ЮУрГУ. – 2014. – Т. 3, № 2. – С. 30–42.

3. Эксафлопные технологии. Концепция по развитию технологии высокопроизводительных вычислений на базе супер ЭВМ эксафлопного класса. – М.: Росатом, 2011. – 112 с.

4. Adinets A.V., Bryzgalov P.A., Voevodin V.V., et al. Job Digest: an approach to dynamic analysis of job characteristics on supercomputers // Numerical methods and programming: Advanced Computing. – 2012. – Vol. 13, № 2. – P. 160–166.

5. Allinea MAP [Электронный ресурс]. – Режим доступа: http://www.allinea.com/products/map (дата обращения: 27.07.16).

6. Bader D. Petascale Computing: Algorithms and Applications. – CRC Press, 2007. – 616 p.

7. Benedict S. Performance issues and performance analysis tools for HPC cloud applications: a survey // Computing. – 2013. – P. 89–108.

8. Bright Cluster Manager for HPC [Электронный ресурс]. – Режим доступа: http://www.brightcomputing.com/products (дата обращения: 27.07.16).

9. Bychkov I.V., Oparin G.A., Novopashin A.P. Agent-Based Approach to Monitoring and Control of Distributed Computing Environment // Lecture Notes in Computer Science. – 2015. – Vol. 9251. – P. 253–257.

10. ClustrX Watch [Электронный ресурс]. – Режим доступа: http://www.t-platforms.com/ products/software/clustrxproductfamily/clustrxwatch.html (дата обращения: 27.07.16).

11. Desai N., Bradshaw R., Lusk E. Disparity: Scalable Anomaly Detection for Clusters // 37th International Conference on Parallel Processing, Workshops, Portland. – 2008. – P. 116–120.

12. EMC ViRP SRM [Электронный ресурс]. – Режим доступа: http://russia.emc.com/data-center-management/vipr-srm.htm (дата обращения: 27.07.16).

13. Gupta R., Beckman P., Park B. H., Dongarra J., CIFTS: A Coordinated Infrastructure for Fault-Tolerant Systems // 38th Int. Conference on Parallel Proc., Vienna. – 2009. – P. 237–245.

14. Haryadi S.G. FATE and DESTINI: a framework for cloud recovery testing // Proc. of the 8th USENIX conference on Networked systems design and implementation. – 2011. – P. 238–252.

15. HP CMU [Электронный ресурс]. – Режим доступа: http://h20195.www2.hp.com/V2/ GetPDF.aspx/4AA1-5259ENW.pdf (дата обращения: 27.07.16).

16. HPCToolkit homepage. Rice University. [Электронный ресурс]. – Режим доступа: http://hpctoolkit.org (дата обращения: 27.07.16).

17. IBM cluster system management [Электронный ресурс]. – Режим доступа: http://www-03.ibm.com/systems/power/software/csm/ (дата обращения: 27.07.16).

18. Intel VTune Amplifier 2016 [Электронный ресурс]. – Режим доступа: https://software.intel.com/en-us/intel-vtune-amplifier-xe (дата обращения: 27.07.16).

19. IPM – Overview [Электронный ресурс]. – Режим доступа: http://ipm-hpc.sourceforge.net/ (дата обращения 27.07.2016).

20. Josephsen D. Building a Monitoring Infrastructure with Nagios. – Pearson Ed., 2007. – 255 p.

21. Kogge P., Shalf J. Computing Trends: Adjusting to the «New Normal» for Computer Architecture // Computing in Science & Engineering. – 2013. – Р. 16–26.

22. Massie M., Li B., Nicholes V. Monitoring with Ganglia. – O’Reilly Media, 2012. – 256 p.

23. Moab Adaptive HPC Suite [Электронный ресурс]. – Режим доступа: http://www.adaptivecomputing.com/products/hpc-products/ (дата обращения: 27.07.16).

24. Mohr B. Scalable parallel performance measurement and analysis tools – state-of-the-art and future challenges // Supercomputing frontiers and innovations. – 2014. – Vol. 1(2). – P. 108–123.

25. mpiP: Lightweight, Scalable MPI Profiling [Электронный ресурс]. – Режим доступа: http://mpip.sourceforge.net/ (дата обращения 27.07.2016).

26. NWPerf [Электронный ресурс]. – Режим доступа: https://github.com/EMSL-MSC/NWPerf (дата обращения: 27.07.16).

27. OVIS. [Электронный ресурс]. – Режим доступа: http://ovis.ca.sandia.gov https://www.zenoss.com/solution/network (дата обращения: 27.07.16).

28. Paraver homepage. Barcelona Supercomputing Center. [Электронный ресурс]. – Режим доступа: http://www.bsc.es/paraver (дата обращения: 27.07.16).

29. Savchenko D.I., Radchenko G.I., Taipale O. Microservices validation : Mjolnirr platform case study // Proc. of the 38th International Convention MIPRO. – 2015. – P. 248–253.

30. Scalasca homepage. [Электронный ресурс]. – Режим доступа: http://www.scalasca.org (дата обращения: 27.07.16).

31. Sidorov I.A. Methods and tools to increase fault tolerance of high-performance computing systems // Proc. of the 39th International Convention MIPRO. – 2016. – P. 242–246.

32. Simon H. Barriers to Exascale Computing // Lecture Notes in Computer Science. – 2013. – Vol. 7851. – P. 1–3.

33. TAU homepage. University of Oregon. [Электронный ресурс]. – Режим доступа: http://tau.uoregon.edu (дата обращения: 27.07.16).

34. Xymon Monitor [Электронный ресурс]. – Режим доступа: http://xymon.sourceforge.net/ (дата обращения: 27.07.16).

35. Zabbix [Электронный ресурс]. – Режим доступа: https://www.zabbix.org (дата обращения: 27.07.16).

36. ZenOSS [Электронный ресурс]. – Режим доступа: https://www.zenoss.com/solution/network (дата обращения: 27.07.16).

С ростом числа вычислительных компонентов, включаемых в состав современных высокопроизводительных вычислительных систем (ВВС), существующие подходы, методы и средства для организации системного ПО ВВС перестают удовлетворять требованиям. Анализ существующих технологий создания и применения высокопроизводительных ВВС петафлопного уровня (см., например, работы [1, 5]), а также современных тенденций к построению ВВС эксафлопного уровня (см., например, работы [3, 21, 32]) позволяет сделать вывод о том, что надежность таких систем в рамках используемых на сегодняшний день парадигм и технологий будет являться весьма низкой. В связи с этим актуальным и перспективным направлением исследований в области системного ПО ВВС является создание новых подходов, методов и средств управления и мониторинга ВВС, способных обеспечивать необходимый уровень отказоустойчивости и надежности для вычислительных сред такого масштаба.

В задачи средств управления ВВС входит распределение нагрузки на вычислительные узлы, выполнение непараллельных и параллельных команд с последующей передачей результата пользователю или оператору, выполнение загрузки и остановки работы вычислительных узлов и ряд других. В задачи средств мониторинга входит сбор данных о работе всех компонентов ВВС, многокритериальный анализ собираемых данных и в случае обнаружения каких-либо отклонений принятия необходимых воздействий на компоненты.

Мониторинг компонентов ВВС условно можно разделить на следующие категории:

1) мониторинг и анализ эффективности выполнения программ в ВВС (контроль текущего состояния вычислительных процессов и их отдельных экземпляров, оценка эффективности использования выделенных ресурсов);

2) мониторинг, тестирование и диагностика аппаратных компонентов вычислительных узлов (жесткие диски, процессоры, оперативная память, сетевые интерфейсы и др.);

3) мониторинг инженерной инфраструктуры ВВС (системы бесперебойного питания, климатическое оборудование, системы пожаротушения и др.);

4) мониторинг вычислительной инфраструктуры ВВС (мониторинг текущей загрузки вычислительных узлов, контроль коммуникационных, управляющих и сервисных сетей, систем хранения данных);

5) мониторинг промежуточного программного обеспечения ВВС (мониторинг функционирования системных служб, очередей задач, агентов, различных подсистем и др.).

Разработка комплексной системы мониторинга, которая обеспечивала бы сбор данных с огромного количества разнородных компонентов, входящих в состав современных ВВС, является труднореализуемой задачей ввиду отсутствия стандартизованных форматов и протоколов сбора данных со всего множества разнородных программно-аппаратных компонентов ВВС. С другой стороны, на сегодняшний день существует огромное количество программных решений, которые в отдельности позволяют обеспечивать мониторинг необходимых компонентов ВВС. Более того, многие компоненты ВВС уже снабжены системами локального мониторинга. В связи с чем наиболее целесообразным и перспективным направлением развития исследований по созданию комплексных систем мониторинга ВВС является агрегация существующих локальных систем мониторинга в рамках комплексной системы мета-мониторинга ВВС [9]. При этом локальная система мониторинга выступает лишь поставщиком данных, а их экспертный анализ и принятие на основе результатов анализа необходимых регулирующих воздействий отводится системе мета-мониторинга. В общем случае схема интеграции локальной системы мониторинга в состав разрабатываемой системы мета-мониторинга приведена на рисунке.

sid1.tif

Общая схема интеграции локальной системы мониторинга в состав системы мета-мониторинга

В качестве локальных систем мониторинга могут быть использованы как небольшие утилиты для сбора данных об отдельном компоненте ВВС, так и комплексные системы мониторинга, агрегирующие информацию по набору компонентов и вычислительных узлов.

Далее в статье рассматриваются существующие средства мониторинга компонентов ВВС в рамках выделенных выше пяти категорий.

Средства мониторинга и анализа эффективности выполнения программ в ВВС

В данной категории накоплено несколько десятков профилировщиков программ, средств мониторинга загрузки вычислительных ресурсов экземплярами программ, выполняемых в узлах ВВС, средств мониторинга загрузки сетевых компонентов и т.д. Сравнительные обзоры таких средств приведены в работах [7, 24]. Среди наиболее популярных и широкоиспользуемых средств можно выделить следующие:

– NWPerf [26] – система анализа эффективности выполнения параллельных программ в крупномасштабных ВВС с возможностью предоставления данных как по всей параллельной программе в целом, так и по ее отдельным экземплярам.

– Allinea MAP [5] – профилировщик параллельных, многопоточных и последовательных программ, предоставляющий исчерпывающий анализ по множеству метрик.

– Lapta [4] – инструментарий для многоаспектного анализа динамических характеристик параллельных программ, выполняемых на суперкомпьютерах.

– mpiP [25] – легковесный профилировщик MPI-программ.

– IPM [19] – расширенный профилировщик параллельных программ с возможностью анализа MPI-пересылок, доступа к памяти, работе с сетевыми интерфейсами, диском.

– Intel VTune [18] – инструментарий для анализа производительности, масштабируемости, пропускной способности, кэширования при выполнении программ в ВС.

– TAU [33] – инструментарий для повышения производительности выполнения программ в ВС, анализа собираемых данных и визуализации выполнения параллельных программ в ВС.

– HPCToolkit [16] – инструментарий для мониторинга выполнения параллельных программ с возможностью анализа используемых ресурсов, автоматического выявления неэффективных блоков с привязкой к исходному тексту программы.

– Paraver [28] – анализатор производительности программ, основанный на трассировке событий и позволяющий производить детальный анализ изменения и распределения метрик с целью понимания поведения приложений.

– Scalasca [30] – инструментарий для выполнения оптимизации параллельных программ путем измерения и анализа их поведения во время выполнения.

Из представленного списка наиболее функциональными и перспективными решениями для анализа эффективности выполнения параллельных программ в ВВС, с точки зрения авторов, являются пакеты с открытым исходным кодом NWPerf и Paraver.

Мониторинг, тестирование и диагностика аппаратных компонентов вычислительных узлов

Для выявления неисправностей в аппаратных компонентах вычислительных узлов ВВС, к сожалению, авторам известно лишь небольшое число средств. Из них заслуживающими внимания являются:

– Disparity [11] – подход, основанный на запуске MPI-программы на анализируемых узлах с целью обнаружения возможных неисправностей.

– CIFTS [13] – использует механизмы обмена информацией о неисправностях с целью выработки целостной картины о состоянии узлов.

Наиболее интересным из них является программное средство Disparty, которое позволяет выявлять неисправности компонентов вычислительного узла во время простоя между запусками экземпляров вычислительных процессов. В данной категории авторами разрабатывается собственный подход [31] для многоступенчатой диагностики вычислительных узлов с использованием набора стандартных утилит (Sensors, SMART, IMPIutils и др.).

Мониторинг инженерной инфраструктуры ВВС

Для мониторинга инженерной инфраструктуры суперкомпьютерных центров и центров обработки данных наиболее распространенными средствами являются: ClustrX [10], EMC ViRP SRM [12], HP Cluster Management Utility [15], Bright Cluster Manager [8], Moab Adaptive HPC Suite [23], IBM cluster system management [17]. Однако все перечисленные средства являются проприетарными, зачастую жестко привязаны к оборудованию и не всегда обладают достаточной гибкостью для мониторинга инфраструктуры разнородных вычислительных сред.

Среди некоммерческих продуктов авторам не удалось найти приемлемых средств, которые позволяли бы универсально описывать состав разнородного инженерного оборудования суперкомпьютерного центра, создавать новые объекты и задавать правила их мониторинга. Системы мониторинга Nagios [20], Zabbix [35] предоставляют набор средств для мониторинга инфраструктуры ВВС, которые в каждом отдельном случае необходимо существенно дорабатывать. В данной категории авторами также осуществляется разработка собственных универсальных средств, базирующихся на агрегации локальных систем мониторинга инженерного оборудования. Некоторые аспекты реализации разрабатываемого авторами средств мониторинга инженерной инфраструктуры приведены в работе [2].

Мониторинг вычислительной инфраструктуры ВВС

В данной категории на сегодняшний день существует значительное число комплексных решений. Наиболее популярными из них являются:

– Ganglia [22] – масштабируемая распределенная система мониторинга кластеров параллельных и распределенных вычислений и облачных систем с иерархической структурой;

– Nagios – система мониторинга вычислительных систем и сетей с широкими возможностями уведомления оператора о возможных неисправностях;

– Zabbix – система мониторинга и отслеживания состояния разнообразных сервисов компьютерной сети, серверов и сетевого оборудования;

– ZenOSS [36] – система мониторинга с возможностями автоматического обнаружения и конфигурирования параметров контроля различных систем;

– Ovis2 [27] – комплексная система мониторинга, обеспечивающая высокую масштабируемость и интеграцию с другими системами мониторинга.

Наиболее популярной системой в данной категории по-прежнему является система мониторинга Ganglia. Однако стандартный набор функций данной системы не обеспечивает возрастающих потребностей по мониторингу вычислительного оборудования ВВС, что зачастую приводит к необходимости использования дополнительных систем мониторинга, таких как Zabbix или Nagios. Наиболее перспективной системой в данной категории, с точки зрения авторов, является система Ovis2, обеспечивающая высокую масштабируемость и широкие возможности по подключению различных источников данных.

Мониторинг промежуточного программного обеспечения ВВС

В данной категории могут использоваться как описанные выше системы мониторинга Nagios и Zabbix, так и более специализированные средства, такие как:

– Xymon [34] – мониторинг работы системных сервисов;

– FATE [14] – инструментарий тестирования облачных приложений;

– CloudRift [29] – среда тестирования микросервисных приложений.

Кроме перечисленных средств, администраторами ВВС зачастую разрабатываются специализированные утилиты для отслеживания корректного функционирования отдельных подсистем, входящих в состав промежуточного ПО ВВС, зачастую реализуемые в виде скриптов, запускаемых по расписанию с использованием сервиса CRON.

Заключение

В данной статье представлен подход к комплексному мониторингу ВВС на основе сбора и анализа данных, получаемых от набора локальных систем мониторинга, осуществляющих контроль отдельных подсистем. Для выбора локальных систем мониторинга, которые могут быть использованы в составе разрабатываемой авторами системы мета-мониторинга, в данной статье приведен обзор наиболее популярных и широкоиспользуемых средств в пяти выбранных категориях. Интеграция средств, представленных в каждой категории, в состав разрабатываемой авторами системы мета-мониторинга, будет проводиться в рамках дальнейших исследований.

Исследование выполнено при частичной финансовой поддержке РФФИ, проекты № 15-29-07955-офи_м и № 16-07-00931, а также при частичной финансовой поддержке Совета по грантам Президента Российской Федерации для государственной поддержки ведущих научных школ Российской Федерации (НШ-8081.2016.9).

Библиографическая ссылка

Сидоров И.А., Кузьмин В.Р. ОБЗОР СОВРЕМЕННЫХ СРЕДСТВ ДЛЯ КОМПЛЕКСНОГО МОНИТОРИНГА ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ // Фундаментальные исследования. 2016. № 9-1. С. 62-67;
URL: https://fundamental-research.ru/ru/article/view?id=40696 (дата обращения: 14.05.2026).

Научный журнал
Фундаментальные исследования

ISSN 1812-7339

"Перечень" ВАК

ИФ РИНЦ = 1,798

ОБЗОР СОВРЕМЕННЫХ СРЕДСТВ ДЛЯ КОМПЛЕКСНОГО МОНИТОРИНГА ВЫСОКОПРОИЗВОДИТЕЛЬНЫХ ВЫЧИСЛИТЕЛЬНЫХ СИСТЕМ

Библиографическая ссылка

Фундаментальные исследования
Научный журнал | ISSN 1812-7339 | ПИ №ФС77-63397