Программное и аппаратное обеспечение для супер ЭВМ. Рубрика в журнале - Программные системы: теория и приложения
An FPGA packet communication protocol
Статья научная
When creating computer boards with FPGA or application-specific chips, it is often needed to connect several chips. Existing available buses do not have all the properties required by the authors' task at hand: packet transmission, using a small number of GPIO pins, sufficient bandwidth.We describe a packet communication protocol that uses GPIO pins and has bandwidth up to 10 MB/s at a frequency of 20 MHz.
Бесплатно
Multiple-precision matrix-vector multiplication on graphics processing units
Статья научная
We are considering a parallel implementation of matrix-vector multiplication (GEMV, Level 2 of the BLAS) for graphics processing units (GPUs) using multiple-precision arithmetic based on the residue number system. In our GEMV implementation, element-wise operations with multiple-precision vectors and matrices consist of several parts, each of which is calculated by a separate CUDA kernel. This feature eliminates branch divergence when performing sequential parts of multiple-precision operations and allows the full utilization of the GPU's resources. An efficient data structure for storing arrays with multiple-precision entries provides a coalesced access pattern to the GPU global memory. We have performed a rounding error analysis and derived error bounds for the proposed GEMV implementation. Experimental results show the high efficiency of the proposed solution compared to existing high-precision packages deployed on GPU.
Бесплатно
Статья научная
This paper proposes decentralized processes for synchronizing the actions of a distributed group of active components (objects) in supercomputers and computer clusters, allowing them to move to specified states or influence the external environment synchronously. The object action depends on the current state of the object and the external environment. The actions should start with the minimum delay after the possibility of their execution is detected. Synchronization is performed by exchanging optical signals over wireless communication channels through an optical signal repeater, combining one group of objects or sequences of groups of objects (layers). Accurate distance measurement performs the compensation of possible changes in distances between objects. Group operations accelerate synchronize and simultaneously receive data from a group of distributed objects. Data processing occurs during their transfer, without increasing the time. The operation time does not depend on the quantity of data processed by the operation. A group operation is performed in a repeater containing no computational means.
Бесплатно
The optimal control of two work-stealing deques, moving one after another in a shared memory
Статья научная
In the parallel work-stealing load balancers, each core owns personal buffer of tasks called deque. One end of the deque is used by its owner to add and retrieve tasks, while the second end is used by other cores to steal tasks. In the paper two representation methods of deques are analyzed: partitioned serial cyclic representation of deques (one of the conventional techniques); and the new approach proposed by our team, without partition of shared memory in advance between deques moving one after another in a circle. Previously we analyzed these methods for representing FIFO queues in network applications, where the “One after another” way gave the best result for some values of the system parameters.Purpose of this research is to construct and analyze models of the process of work with two circular deques located in shared memory, where they movie one after another in a circle. The mathematical model is constructed in the form of a random walk by integer points in the pyramid. The simulation model is constructed using the Monte Carlo method. The used work-stealing strategy is stealing of one element. We propose the mathematical and simulation models of this process and carry out numerical experiments.
Бесплатно
Асимптотика сечения плоскостью субримановой сферы на группе Энгеля вблизи анормальной траектории
Ред. заметка
В работе найдена асимптотика кривой, являющейся пересечением единичной субримановой сферы на группе Энгеля с подпространством \{𝑥 = = 0\} вблизи анормальной траектории. Из найденной асимптотики видно, что эта кривая не является аналитической в точке (1, 0, 0, 0)
Бесплатно
Виртуальная машина LT; LT;Etherbox32vm GT; GT;
Ред. заметка
Описана организация виртуальной машины Etherbox32vm, предназначенной для реализации сценариев функционирования узлов сенсорной сети: дисциплин опроса датчиков, управления исполнительными механизмами, первичной обработки данных, полученных от датчиков. Реализация логики поведения сенсорных узлов в виртуальной машине позволяет удаленно настраивать узлы уже развернутой гетерогенной сенсорной сети на выполнение новых функций. Виртуальная машина Etherbox32vm допускает реализацию на микроконтроллерах с малым объемом оперативной памяти
Бесплатно
Извлечение сложных временных выражений из текстов в рамках задачи автоматического выявления ситуаций
Ред. заметка
В рамках проблемы автоматического выявления ситуаций в публицистических текстах на русском языке рассматривается задача поиска сложных временных выражений. Выделение именных групп, содержащих временные выражения, понимается как подзадача частичного синтаксического анализа (shallow parsing). Предлагается алгоритм, состоящий из предварительной сегментации и последующего поиска границ именных групп в выделенном сегменте с помощью машинного обучения (CRF-модели). Приводятся результаты экспериментов
Бесплатно
Июнь 2019: анализ развития суперкомпьютерной отрасли в России и в мире
Статья научная
Статья продолжает цикл работ автора, посвященных анализу суперкомпьютерной отрасли на основании открытых данных из мирового рейтинга 500 самых мощных суперкомпьютеров-Top500. Новые данные из последних редакций Top500 и ранее не опубликованных результатов (например, анализ некоторых технических аспектов, связанных с гибридными архитектурами и новыми решениями для интерконнекта) обсуждаются в данной статье впервые. Актуальность работы определяется современной тенденцией, связанной с цифровой экономикой, для которой суперкомпьютерные технологии (СКТ) необходимы, как инфраструктурный базис.
Бесплатно
Статья научная
Расчеты электронной структуры молекул квантовохимическими методами давно проводятся с использованием суперЭВМ. Сегодня они проводятся на лидере суперкомпьютерного списка TOP500 и будут осуществляться на первом в США экзафлопсном суперкомпьютере.Краткий обзор современных методов квантовой химии и их применения на суперЭВМ для расчетов в первую очередь больших молекул показывает необходимость применения ускоренных аппроксимационных методик для реализации возможностей проведения таких расчетов. Это особенно актуально для массовых расчетов таких гигантских биомолекул, как докинг-комплексы белок-лиганд.Для этого нами разработаны дающие большое ускорение при приемлемой точности расчетов алгоритмы аппроксимации для вычисления молекулярных интегралов неэмпирических методов квантовой химии. Для массовых расчетов докинг-комплексов полуэмпирическими методами предложена и программно реализована новая методика, базирующаяся на использовании некоторых локализаций взаимодействий лигандов с белком благодаря формированию групп из полного набора лигандов комплекса.Изложенная методика позволила достигнуть ускорения на порядки и предполагается к использованию в будущих неэмпирических расчетах. Описанные методики и программы для необходимых массовых расчетов докинг-комплексов естественно вписываются в пакетную систему обработки заданий и могут использоваться в GRID-среде. Такая GRID-система создается на вычислительных ресурсах ЯрГУ и ИОХ РАН на базе стандартных в рамках EGI программных средств UMD 4).
Бесплатно
Матрично-векторное умножение многократной точности на графическом процессоре
Статья научная
Мы рассматриваем параллельную реализацию матрично-векторного умножения (GEMV, уровень 2 BLAS) для графических процессоров (GPU) с использованием арифметики многократной точности на основе системы остаточных классов. В нашей реализации GEMV покомпонентные операции с многоразрядными векторами и матрицами разбиваются на части, каждая из которых выполняется отдельным CUDA ядром. Это исключает ветвление логики исполнения и позволяет добиться более полного использования ресурсов GPU. Эффективная структура данных для хранения многоразрядных массивов обеспечивает объединение доступов параллельных потоков к глобальной памяти GPU в транзакции. Для предложенной реализации GEMV выполнен анализ ошибок округления и получены оценки точности. Представлены экспериментальные результаты, показывающие высокую эффективность разработанной реализации по сравнению с существующими программными пакетами многократной точности для GPU.
Бесплатно
Моделирование временного аспекта описания ситуации в задаче извлечения информации из текстов
Статья научная
В настоящей работе рассматривается современное состояние проблемы моделирования временного аспекта описания ситуации в рамках задачи автоматического извлечения информации из текстов на естественном языке. Выделяются основные этапы анализа временного аспекта. Проанализирован опыт разметки текстов стандарта TimeML. Проанализирована коллекция русскоязычных новостных текстов с точки зрения интерпретации временных указателей.
Бесплатно
Моделирование параллельной работы ядер векторного потокового процессора с общей памятью
Статья научная
Процессор с архитектурой управления потоком данных может выполнять до 16 команд в такт по сравнению с 4--6 командами в такт у лучших процессоров фон-неймановской архитектуры. Моделирование векторного потокового процессора показало, что его производительность может быть доведена до 256 флоп в такт на ядро, и при изготовлении на кристалле с современными технологическими нормами можно разместить до 4 таких ядер. Приводятся результаты моделирования системы из нескольких ядер векторного потокового процессора с общей памятью на программах перемножения матриц и решения систем дифференциальных уравнений 2D Stencil. Показано, что программа перемножения матриц масштабируется пропорционально числу ядер процессора, в то время как производительность 2D Stencil ограничивается пропускной способностью к общей оперативной памяти
Бесплатно
Моделирование поведения графена во внешних электрических полях
Статья научная
В~работе представлены результаты, полученные при разработке программного комплекса для вычисления наблюдаемых параметров монослойного графена в~условиях действия на~него внешнего электрического поля. Используемая физическая модель позволяет детально воспроизводить такие параметры, но требует большого объёма вычислений для получения точных значений. Основой модели является система кинетических уравнений, обеспечивающих вычисление зависящей от времени функции распределения носителей заряда в~двумерном импульсном пространстве. Требуемые вычислительные ресурсы пропорциональны количеству узлов расчетной сетки, покрывающей импульсное пространство. Характер поведения модели позволяет использовать локальные сетки, покрывающие только относительно небольшую часть полной области определения вычисляемой функции. Применительно к~моделированию результатов действия коротких высокочастотных импульсов электрического поля показано, что анализ поведения модели при максимальном уровне внешнего поля может использоваться для поиска и локализации областей в~импульсном пространстве, определение функции распределения в~которых достаточно для получения значений наблюдаемых. Даже в~условиях действия слабых внешних электрических полей область локализации функции распределения можно определять по~результатам вычисления её значений на~относительно разреженных сетках. Получение наблюдаемых параметров основано на~вычислении интегральных характеристик функции распределения в~двумерном импульсном пространстве. Реализация такого интегрирования одновременно с~вычислением в~параллельном режиме значений функции распределения на~оптимизированной сетке избавляет от ненужного сохранения значений функции распределения, выдавая на~выходе одномерные временные ряды, представляющие данные о~динамике наблюдаемых параметров, интересных с~точки зрения анализа поведения рассматриваемой модели.
Бесплатно
О некоторых возможностях локальных вычислений в теории систем и базах данных
Ред. заметка
Применительно к задачам суперкомпьютинга и сверхбольших баз данных рассматривается абстрактная топологическая концепция локальных систем и прямоточной организации вычислений при декомпозиции локальных систем. Она иллюстрируется на примерах и устанавливаются базовые результаты. Устанавливается тесная взаимосвязь абстрактного понятия локальности с конкретным понятием робастности и заодно принципиальные их отличия. Работа предполагается первой в серии работ, посвящённых методам организации вычислений над локальными системами
Бесплатно
Об одной проблеме автоматического извлечения временной информации из русскоязычных текстов
Статья научная
В настоящей работе рассматривается задача сопоставления временной информации событиям назначения и отставки лиц. Предлагается система правил для автоматического установления такого соответствия. Выполнено тестирование на размеченной коллекции новостных текстов на русском языке.
Бесплатно
Обратная задача дифракции электромагнитной волны на плоском слое
Статья научная
В работе рассматривается обратная задача синтеза функции пропускания плоского дифракционного слоя по формируемому им при освещении электромагнитной волной изображению. Для решения задачи применялся градиентный метод, что позволило достичь необходимого качества изображения в плоскости регистрации. Параллельный алгоритм метода градиентного спуска реализован в программе, предназначенной для использования на суперкомпьютере кластерного типа. Достигнуто практически линейное ускорение на используемых вычислительных системах.
Бесплатно
Оптимизация разрядной сетки вычислительных блоков в устройствах цифровой обработки сигналов
Статья научная
В статье рассмотрены основные подходы к оптимизации ЦОС-устройств, реализуемых на программируемых логических интегральных схемах. Для оптимизации сложных проектов предлагается эффективное моделирование проекта будущего ЦОС-устройства с возможностью «динамического» изменения длины разрядной сетки отдельных вычислительных устройств.
Бесплатно
Ред. заметка
В работе предложен метод организации информационного обмена между параллельными процессами для преобразования программы, сгенерированной инструментом CLooG на основе расписания и размещения вычислений, в параллельную MPI-программу, учитывающую оптимальное размещение данных. Предполагается, что пространственно-временные преобразования программы являются аффинными и вычисляются методами модели многогранников в соответствии с принципом оптимизации временной и пространственной локальности данных. Введено понятие многогранника коммуникаций для определения набора данных, участвующих в информационном обмене с двухсторонней коммуникацией процессов. Применение метода проиллюстрировано на примере распараллеливания алгоритма LU-разложения.
Бесплатно
Пакетный протокол взаимодействия программируемых логических интегральных схем
Статья научная
При создании вычислительных систем с использованием программируемых логических интегральных схем (ПЛИС) или специализированных микросхем часто встает проблема соединения нескольких микросхем между собой для передачи данных. При создании авторами подобной вычислительной системы оказалось, что существующие доступные протоколы взаимодействия не обладают требуемыми свойствами: пакетной передачей, использованием небольшого числа линий ввода-вывода общего назначения, необходимой пропускной способностью.Представлен пакетный протокол передачи данных между ПЛИС, использующий 6 линий ввода-вывода общего назначения и обеспечивающий скорость передачи до 10 МБ/с (суммарно в обе стороны) при частоте 20 МГц.
Бесплатно