Методы и средства организации глобальной очереди заданий в территориально распределенной вычислительной системе
Автор: Баранов Антон Викторович, Тихомиров Артем Игоревич
Рубрика: Информатика, вычислительная техника и управление
Статья в выпуске: 4 т.6, 2017 года.
Бесплатный доступ
В статье рассмотрена модель территориально распределенной вычислительной системы (ТРС), состоящей из объединенных каналами связи высокопроизводительных вычислительных установок. Вычислительные установки из состава ТРС представляют собой высокопроизводительные кластеры, различающиеся по архитектуре и производительности. Объединяющие их каналы связи имеют разные надежность и пропускную способность. Особенностью рассматриваемой модели является децентрализованная схема управления заданиями. Подобная схема подразумевает, что любая вычислительная установка в любой момент времени может выйти из состава ТРС по причине своей неисправности или неисправности канала связи. Устранение неисправности означает динамическое подключение вычислительной установки к ТРС. В этих условиях в ТРС организуется глобальная очередь заданий с абсолютными приоритетами, из которой задания распределяются по свободным ресурсам вычислительных установок. Абсолютные приоритеты предполагают вытеснение с выполнения низкоприоритетного задания поступившим в очередь высокоприоритетным заданием. Для формирования и хранения глобальной очереди заданий в условиях динамически изменяющегося состава ТРС необходима надежная распределенная информационная система (РИС). В качестве основы для ее построения авторами рассмотрен ряд известных распределенных СУБД. В статье сформулированы требования к РИС, проведен сравнительный анализ и сделан выбор решения, удовлетворяющего требованиям, рассмотрен разработанный авторами макет ТРС с децентрализованной схемой диспетчеризации заданий.
Территориально распределённая система, распределённая информационная система, абсолютные приоритеты вычислительных заданий
Короткий адрес: https://sciup.org/147160630
IDR: 147160630 | УДК: 004.75, | DOI: 10.14529/cmse170403
Methods and tools for organizing the global job queue in the geographically distributed computing system
The geographically distributed computing infrastructure (DCI) considered in the paper includes high performance computing systems united by communication channels. Computing systems from the DCI are high-performance clusters differing in architecture and performance. Communication channels uniting clusters have different reliability and bandwidth. The considered model of DCI has a decentralized jobs management and dispatching scheme. This scheme implies that at any time malfunction of any computing cluster or a failure in the communication channel can cause cluster’s leaving the DCI. Cluster’s or channel’s troubleshooting means dynamically connecting the cluster to the DCI. The global job queue is organized in this computing infrastructure. Computing jobs have absolute priorities, and high priority job can interrupt low priority running jobs. Jobs from the global queue allocate on idle resources of computing systems. Forming and storing global job queue in conditions of dynamically changing DCI composition needs the reliable information system. The authors reviewed some distributed DBMSs as the basis of this information system. The article outlines the requirements for a distributed information system. The authors conducted a comparative analysis and selected a solution that satisfies the requirements, and designed prototype of the geographically distributed computing infrastructure with the decentralized scheme of jobs dispatching.
Список литературы Методы и средства организации глобальной очереди заданий в территориально распределенной вычислительной системе
- Савин Г.И., Шабанов Б.М., Корнеев В.В., Телегин П.Н., Семенов Д.В., Киселев А.В.,Кузнецов А.В., Вдовикин О.И., Аладышев О.С., Овсянников А.П. Создание распределенной инфраструктуры для суперкомпьютерных приложений//Программные продукты и системы. 2008. № 2. C. 2-7.
- Корнеев В.В., Семенов Д.В., Телегин П.Н., Шабанов Б.М. Отказоустойчивоедецентрализованное управление ресурсами грид//Известия вузов. Электроника. 2015. T. 20, № 1. C. 83-90.
- Баранов А.В., Киселёв А.В., Старичков В.В., Ионин Р.П., Ляховец Д.С. Сравнение систем пакетной обработки с точки зрения организации промышленного счета. Научный сервис в сети Интернет: поиск новых решений//Труды Международной суперкомпьютерной конференции (Новороссийск, 17-22 сентября 2012 г.). М.: Изд-во МГУ, 2012. С. 506-508.
- Баранов А.В., Тихомиров А.И. Планирование заданий в территориально распределенной системе с абсолютными приоритетами//Вычислительные технологии. 2017. Т. 22, № S1. C. 4-12.
- Березовский П.С., Коваленко В.Н. Состав и функции системы диспетчеризации заданий в грид с некластеризованными ресурсами//Препринты ИПМ им. М. В. Келдыша. 2007. № 67. С. 29.
- WMS Architecture overview. URL: http://egee-jra1-wm.mi.infn.it/egee-jra1-wm/wms.shtml (дата обращения: 27.03.2017).
- Internal Architecture 5.14. URL: http://www.gridway.org/doku.php?id=documentation:release_5.14:iashtml (дата обращения: 20.03.2017).
- Cirne W., Brasileiro F., Costa L., Paranhos D., Santos-Neto E., Andrade N. Scheduling inBag-of-Task Grids: PAUA Case//16th Symposium on Computer Architecture and High Performance Computing. Oct. 2004. pp. 124-131 DOI: 10.1109/CAHPC.2004.37
- Коваленко В.Н., Орлов А.В. Управление заданиями в распределенной среде и протокол резервирования ресурсов//Препринты ИПМ им. М. В. Келдыша. 2002. №1. С. 1-25.
- Buncic P., Saiz P., Peters A.J. The AliEn System, Status and Perspectives//2003Conference for Computing in High-Energy and Nuclear Physics, La Jolla, CA, USA, 24-28 Mar 2003. P. MOAT004. URL: http://www.slac.stanford.edu/econf/C0303241/proc/papers/MOAT004.PDF (дата обращения: 20.03.2017).
- Топорков В.В., Емельянов Д.М., Потехин П.А. Формирование и планирование пакетов заданий в распределенных вычислительных системах//Вестник Южно-Уральского государственного университета. Серия: Вычислительная математика и информатика. 2015. Т. 4, № 2. С. 44-57 DOI: 10.14529/cmse150204
- Валиев М.К., Китаев Е.Л., Слепенков М.И. Cлужба директорий LDAP как инструментальное средство для создания распределенных информационных систем//Препринты ИПМ им. М.В. Келдыша. 2000. № 23. С. 1-22.
- Kesselman C., Fitzgerald S., Foster I., Tuecke S., Smith W. A Directory Service forConfiguring High-Performance Distributed Computations//6th IEEE Symposium on High Performance Distributed Computing. 1997. pp. 365-375 DOI: 10.1109/HPDC.1997.626445
- Loewenstern A. Norberg A. DHT Protocol. 2008. URL: http://bittorrent.org/beps/bep_0005.html (дата обращения: 11.03.2017).
- ClickHouse Reference Manual. 2015. URL: https://clickhouse.yandex/reference_en.html (дата обращения: 16.02.2017).
- Elastic Stack and Product Documentation. 2016. URL: https://www.elastic.co/guide/index.html (дата обращения: 22.01.2017).
- Programming with Redis. 2016. URL: https://redis.io/documentation (дата обращения: 12.02.2017).
- A. Prasad. Announcing Docker Compose. 2015. URL: https://blog.docker.com/2015/02/announcing-docker-compose/(дата обращения: 26.02.2017).