Прогнозирование полного отказа специализированной вычислительной системы

Автор: Басыров Александр Геннадьевич, Кузнецов Вадим Викторович, Терехов Владимир Геннадиевич

Журнал: Вестник Российского нового университета. Серия: Сложные системы: модели, анализ и управление @vestnik-rosnou-complex-systems-models-analysis-management

Рубрика: Информатика и вычислительная техника

Статья в выпуске: 4, 2020 года.

Бесплатный доступ

Описан метод прогнозирования полного отказа специализированной вычислительной системы, базирующийся на зависимости вероятности отказа устройства от интенсивности его сбоев. Раскрыты способы контроля состояния и функционирования вычислительной системы. Приведен пример расчета прогнозируемой вероятности отказа вычислительной системы.

Вычислительная система, отказ, сбой, контроль

Короткий адрес: https://sciup.org/148309096

IDR: 148309096   |   DOI: 10.25586/RNU.V9187.20.04.P.097

Текст научной статьи Прогнозирование полного отказа специализированной вычислительной системы

Срок активного функционирования любой современной сложной системы зависит от долговечности функционирования ее подсистем. Одной из важнейших подсистем, определяющих возможности применения системы по назначению, является специализированная вычислительная система (СВС). Для определения корректности функцио-

98 в ыпуск 4/2020

нирования СВС применяют средства контроля, по результатам которого определяют состояние СВС.

При планировании применения сложных систем всегда целесообразно знать прогнозируемый момент времени отказа ее различных компонентов, в том числе и СВС. С учетом наличия объективной связи между интенсивностью сбоев и вероятностью отказа устройства предлагается подход к прогнозированию отказа СВС, основанный на обработке статистики сбоев отдельных устройств СВС, собираемой средствами контроля.

Контроль СВС

Технические решения обеспечения контроля СВС основываются на применении средств контроля функционирования и контроля результатов вычислений [1].

Под контролем в СВС понимаются процессы, обеспечивающие обнаружение ошибок в ее работе, вызванных различными причинами. Контроль организуется так, чтобы по возможности контролировались все функции проверяемого объекта. Степень достижения этой цели называют полнотой контроля.

По признаку применяемых средств контроль в СВС можно разделить на аппаратный, осуществляемый аппаратными средствами; программный, осуществляемый программными средствами; смешанный, осуществляемый совместно программными и аппаратными средствами.

Аппаратный контроль отличается быстродействием, но требует дополнительных аппаратных затрат. Программный контроль последних не требует кроме некоторого дополнительного объема памяти для размещения программ контроля. Однако он связан с некоторым расходом дополнительного процессорного времени для выполнения программ контроля. Программный контроль обладает, как правило, большей полнотой, чем аппаратный контроль, и предполагает, чтобы функционировали основные аппаратные средства для реализации программы контроля. Поэтому целесообразно сочетать аппаратные и программные средства контроля, то есть осуществлять смешанный контроль.

По характеру контроль в СВС можно разделить на оперативный и тестовый.

Оперативный контроль осуществляется в ходе решения основной задачи и позволяет в процессе ее решения немедленно обнаруживать ошибку в работе СВС. Оперативный контроль в принципе неполный, поскольку выполняется на не приспособленных для целей контроля задачах.

Тестовый контроль осуществляется в специально отведенные промежутки времени на основе решения специальных тестовых задач. Он основан на тестах, обеспечивающих полный контроль всех элементов объекта за короткое время. Недостатком тестового контроля является потеря дополнительного процессорного времени, расходуемого на тесты. Тестовый контроль может обеспечить полноту контроля, но не пригоден для обнаружения сбоев аппаратуры в процессе ее эксплуатации, так как к моменту проведения теста имевший место сбой в работе СВС, как правило, исчезает.

Апробированным направлением создания СВС является использование решений на базе ПЛИС. Проектируемая СВС реализуется путем программирования («прошивки») микросхем ПЛИС. Это позволяет разработчику создавать собственные архитектуры и реализовывать различные схемы, обеспечивающие надежность СВС.

Басыров А.Г., Кузнецов В.В., Терехов В.Г. Прогнозирование полного отказа...    99

При этом целесообразно определить наиболее критичные блоки устройств СВС и снабдить их схемами контроля. Схемы контроля отдельных блоков выдают информацию об ошибках, которая собирается на регистре ошибок. При большом количестве схем контроля, следовательно, большом количестве сигналов от источников ошибок, могут применяться каскадные схемы сбора ошибок, то есть группировка нескольких схем контроля по функциональному признаку с объединением их сигналов об ошибках по схеме ИЛИ.

Свойства надежности характеризуют определенные технические состояния СВС [2].

Рассмотрим метод прогнозирования перехода СВС в предельное состояние вследствие ее полного отказа.

Метод прогнозирования полного отказа СВС

Прогнозирование полного отказа СВС целесообразно проводить, когда она находится в одном из частично неработоспособных состояний.

Классическое прогнозирование отказа СВС основывается на оценках текущих показателей надежности устройств СВС и СВС в целом, формировании функций вероятности отказов их работы.

Получение функций вероятности отказов устройств СВС достаточно сложно. Предлагается подход, основанный на зависимостях между интенсивностью сбоев устройств и вероятностью их отказа, а также на введении некоторого порогового значения текущей вероятности отказа СВС, которое определяет прогноз полного ее отказа.

В наиболее общем случае структура СВС включает:

  • •    вычислительный модуль – основное устройство СВС, обеспечивающее вычислительные процессы и процессы информационного обмена СВС;

  • •    модуль памяти – устройство хранения программной, служебной информации и целевых данных;

  • •    интерфейсный модуль – устройство ввода-вывода информации, связывающее СВС с другими компогентами системы.

Каждый из перечисленных модулей содержит средства контроля, информация которых используется для оценивания технического состояния СВС и прогнозирования ее полного отказа.

Обнаруживаемые средствами контроля ошибки в текущем цикле работы собираются в регистр ошибок, состоящий из триггеров, в каждом из которых фиксируется ошибка, выявленная соответствующим средством контроля.

Обнаруженная ошибка обрабатывается средствами восстановления. Обработка ошибок включает:

  • •    запись в журнал ошибок информации об ошибке;

  • •    попытку исправления ошибки, содержание которой зависит от модуля, в котором ошибка была обнаружена, а именно:

  • –    для вычислительного устройства – повторное выполнение команды, при исполнении которой произошла ошибка;

  • –    для модуля памяти – исправление на основе кода Хэмминга одиночной ошибки памяти;

  • –    для интерфейсного модуля – повторная попытка ввода (вывода) данных;

  • •    повторная запись в журнал ошибок информации об ошибке; если ошибка устранилась, то фиксируется факт сбоя, в противном случае – отказ.

Выпуск 4/2020

На основании информации журнала ошибок проводится анализ в интересах прогнозирования полного отказа СВС.

По статистике, существует зависимость между интенсивностью β сбоев и вероятностью G o отказа устройства. Вид зависимости G o(β) определяется для каждого устройства как на предварительных испытаниях СВС, так и при ее эксплуатации. Например, эта зависимость может иметь вид Go(β) = 1 – e –kβ. Рассмотрим способ нахождения неизвестного параметра k .

Пусть G o(β) описывается неоднородным пуассоновским процессом с функцией интенсивности f ( β), где β – случайная интенсивность сбоев. Величина β представляет собой отношение накопленного числа сбоев ( ni ), зафиксированных за время ti испытаний устройства к этому значению t : в . = n i / 1. .

Таким образом, Go(β) – модель вероятности сбоя устройства, обнаруженного к мо-oβ менту времени t: G (в,к ) = J f (u )du. Тогдафункция f (в) будетиметьвид f (в i )= ke k ei.

Для нахождения параметра k, который, очевидно, должен иметь размерность времени, воспользуемся методом максимального правдоподобия. Функция правдоподобия будет иметь вид fПР (G (в)) = exp(-G (в n ))П/ (в i).

i = 1

Для рассматриваемой модели получим

n n                                  - k ^ в i f ПР (G(в)) = exp(-(1-e—kвn ))nke—kв= exp(-(1-e—kвn ))kne = .

i = 1

Логарифмируя полученную функцию

L = ln f пр ( G (в^ = - ( 1-e - k в n ) + n ln k k £ в , i = 1

и приравнивая к нулю ее производную по параметру k d-L=-e ne ~ kв •+nn-i: в i=o, dk                  k    i=1

можно найти его численное значение.

Пример. Пусть в результате предварительных испытаний устройства в результате фиксации моментов n = 8 сбоев получены следующие данные (табл. 1):

Таблица 1

Данные в результате фиксации моментов n = 8 сбоев

n i

1

2

3

4

5

6

7

8

ti , ч

2

3

5

7

7,5

8,3

9

9,5

β i = ni / ti , (1/ч)

0,5

0,667

0,6

0,571

0,667

0,723

0,778

0,842

Из (1) получим выражение

- 0,842 e"°'842k + 8 - 5,347 = 0. k

Тогда k = 1,428 ч.

Басыров А.Г., Кузнецов В.В., Терехов В.Г. Прогнозирование полного отказа...    101

Таким образом, имея информацию из журнала ошибок о хронологии сбоев устройства, можно рассчитать параметр β их интенсивности, на основании которого по имеющейся зависимости G o(β) оценить вероятность отказа устройства.

Вероятность отказа отдельного устройства СВС влияет на вероятность отказа всей СВС с учетом резервирования устройств [3].

Полагая наличие в структуре СВС трех основных модулей (вычислительного, интерфейсного, модуля памяти) с вероятностями отказа G В, G И, G П соответственно, общая вероятность отказа СВС может быть найдена из соотношения

G CBC = 1 -( 1 - G B )( 1 - G И )( 1 - G П ) .                       (2)

Каждый из трех основных модулей СВС, как правило, строится по схеме резервирования. Пусть в составе основных модулей СВС имеется nВ вычислительных устройств, nИ интерфейсных устройств, nП устройств памяти. Тогда, учитывая соотношение для вероятности отказа резервируемых устройств, можно записать nВ                nМ                nИ

G В = П g Bi , G М = П g М i , G И = П g И i ,                   (3)

i = 1                     i = 1                      i = 1

где g В i , g М i , g И i – вероятность отказа i -го вычислительного устройства, устройства памяти и интерфейсного устройства соответственно.

Методика прогнозирования полного отказа СВС заключается в следующем.

  • 1.    С заданной периодичностью по журналу ошибок определяются интенсивности сбоев каждого из устройств βВ i , βМ i , βИ i к отношение количества зафиксированных для соответствующего устройства сбоев ко времени работы устройства.

  • 2.    По соответствующей зависимости G В ( в ) , G М ( в ) , G И ( в ) определяются вероятности g В i , g М i , g И i отказов каждого устройства. Если в журнале ошибок зафиксирован устойчивый отказ какого-либо устройства, то соответствующая ему вероятность отказа принимается равной 1.

  • 3.    По выражению (3) определяется вероятность отказа каждого модуля.

  • 4.    По выражению (2) определяется вероятность отказа СВС.

  • 5.    Прогнозирование полного отказа СВС выполняется на основе сравнения полученной вероятности G CBC с установленным пороговым значением G порог, то есть критерием прогноза полного отказа СВС является условие G СВС G порог .

Рассмотрим работу методики на примере.

Исходные данные:

  • •    СВС состоит из трех устройств вычислительного модуля, трех устройств модуля памяти и двух устройств интерфейсного модуля;

  • •    СВС функционирует в течение 100 суток;

  • •    известны зависимости G В ( в ) = 1 e - 0,5в , G М ( в ) = 1 e ~°' , С и( в ) = 1 - e - 1,5е вероятностей отказов от интенсивностей сбоев устройств, где β – количество сбоев за время функционировнаия устройства;

  • •    по записям журнала ошибок о сбоях устройств определено количество сбоев устройств СВС (табл. 2).

  • •    пороговым значением вероятности отказа СВС определено G порог = 0,9.

Выпуск 4/2020

Таблица 2

Количество сбоев устройств

Вычислительный модуль

Модуль памяти

Интерфейсный модуль

№ 1

№ 2

№ 3

№ 1

№ 2

№ 3

№ 1

№ 2

10

8

4

12

16

20

3

1

Порядок прогнозирования.

  • 1)    по журналу ошибок определим интенсивности сбоев каждого из устройств βВ i , βМ i , βИ i как отношение количества зафиксированных для соответствующего устройства сбоев ко времени (100 суток) работы устройства (табл. 3).

Таблица 3

Интенсивности сбоев устройств

Вычислительный модуль

Модуль памяти

Интерфейсный модуль

№ 1

№ 2

№ 3

№ 1

№ 2

№ 3

№ 1

№ 2

0,10

0,08

0,04

0,12

0,16

0,20

0,30

0,10

  • 2)    по соответствующей зависимости G В ( в ) , G М ( в ) , G И ( в ) определяются вероятности g В i , g М i , g И i отказов каждого устройства (табл. 4);

Таблица 4

Вероятности отказов устройств

Вычислительный модуль

G В1

0,048770575

G В2

0,039210561

G В3

0,019801327

Модуль памяти

G М1

0,011928287

G М2

0,01587268

G М3

0,019801327

Интерфейсный модуль

G И1

0,362371848

G И2

0,139292024

  • 3)    по выражению (3) определяется вероятность отказа каждого модуля:

G В = 3,78665·10–5, G М = 3,74906·10–6, G И = 0,050476;

  • 4)    по выражению (2) определяется вероятность отказа СВС:

G СВС = 1 (1 G В) ( 1 G И )( 1 G п ) = 0,050515023.

  • 5)    значение G СВС = 0,050515023 ниже порогового значения G порог = 0,9, откуда следует, что полный отказ СВС не прогнозируется.

Заключение

Рассмотренный подход к прогнозированию полного отказа СВС достаточно легко реализуется программно. Введение узлов контроля устройств незначительно увеличивает их аппаратную избыточность. Зависимости вероятности отказа устройств от интенсивности сбоев в их функционировании формируются на основе накопленной статистики.

Баглюк С.И., Нечай А.А. К вопросу о выборе исходных данных...    103

Традиционными способами повышения долговечности СВС [3] является резервирование устройств и использование режимов работы, снижающих по возможности нагрузку на них. Применяя предложенный метод, можно прогнозировать отказ устройств СВС и управлять конфигурацией и режимами функционирования СВС в интересах продления срока наступления ее отказа.

Список литературы Прогнозирование полного отказа специализированной вычислительной системы

  • Аверьянов А.В. и др. Эксплуатация средств вычислительной техники: учебник / под ред. Г.В. Кремеза. Ч. 1. Аппаратные средства вычислительной техники. М.: МО РФ, 2012. 471 с.
  • ГОСТ 27.002-2015. Надежность в технике. Термины и определения. М.: Стандартинформ, 2016. 24 с.
  • Половко А.М., Гуров С.В. Основы теории надежности. 2-е изд., перераб. и доп. СПб.: БХВ-Петербург, 2006. 704 с.
Статья научная