Теоретико-информационные границы точности кодирования сообщений и распознавания образов по ансамблям данных

Автор: Ланге М.М., Ланге А.М.

Журнал: Компьютерная оптика @computer-optics

Рубрика: Численные методы и анализ данных

Статья в выпуске: 3 т.48, 2024 года.

Бесплатный доступ

Исследуются вероятностные модели кодирования дискретных сообщений и распознавания образов (классификации объектов) по ансамблям данных различной модальности. Для рассматриваемых моделей построены аналитические зависимости наименьшей средней взаимной информации между ансамблем данных и множеством возможных решений от допустимой вероятности ошибки в форме монотонно убывающих функций. Приводятся примеры таких функций для схемы кодирования независимых символов конечного алфавита, представленных парами значений с возможными искажениями, и для схемы классификации составных объектов, заданных изображениями лица и подписи. Обращения полученных функций дают нижние границы вероятности ошибки при заданном количестве обрабатываемой информации. Полученные соотношения представляют двухфакторные критерии качества принимаемых решений в задачах кодирования и классификации и являются обобщениями известной в теории информации функции «скорость-погрешность» (rate distortion function).

Еще

Кодирование источника, ансамбль данных, энтропия, классификация объектов, вероятность ошибки, взаимная информация, функция «скорость-погрешность»

Короткий адрес: https://sciup.org/140308614

IDR: 140308614   |   DOI: 10.18287/2412-6179-co-1362

Текст научной статьи Теоретико-информационные границы точности кодирования сообщений и распознавания образов по ансамблям данных

В задачах кодирования источников дискретных сообщений с допустимой погрешностью и задачах распознавания образов (классификации) важной характеристикой качества принимаемых решений является вероятность ошибки, которая зависит от количества обрабатываемой информации. Известное в теории информации соотношение между количеством информации и вероятностью ошибки определяется функцией «скорость-погрешность» [1], которая дает наименьшее количество информации при заданной вероятности ошибки либо наименьшую вероятность ошибки при заданном количестве информации. Такое соотношение не зависит от алгоритмов кодирования и является двухфакторным критерием качества кодирования дискретных сообщений с погрешностью, измеряемой в метрике Хемминга. В настоящей работе предлагается обобщение указанного соотношения для кодирования дискретных сообщений, переданных по каналу с шумом.

В теории классификации известны методы оптимизации решающих алгоритмов, которые позволяют минимизировать вероятность ошибки [2, 3]. Однако эти методы ориентированы на конкретные алгоритмы и не дают общего подхода для нахождения потенциально достижимой точности при заданном количестве обрабатываемой информации. Поскольку теоретикоинформационная модель классификации данных схожа с моделью кодирования сообщений, переданных по каналу с шумом, естественно найти соотношение между количеством обрабатываемой информации и потенциально достижимой вероятностью ошибки классификации, которое не зависело бы от алгоритмов принятия решения.

Построение соотношений вероятности ошибки и количества обрабатываемой информации для указанных моделей кодирования и классификации базируется на рассмотренной в [4] схеме кодирования непрерывных сообщений с квадратичной погрешностью. В отличие от традиционной схемы кодирования источника с допустимой погрешностью [1, 5], в такой схеме кодирование выполняется на выходе стохастического канала наблюдения, который вносит неустранимую погрешность.

В работе [6] получены зависимости наименьшего количества обрабатываемой информации от допустимых значений вероятности ошибки для моделей кодирования и классификации, в которых выходы каналов наблюдения представлены данными одной модальности. Цель настоящей работы состоит в построении таких зависимостей для моделей кодирования и классификации с составными каналами наблюдения, выходы которых представлены данными различной модальности. Зависимости наименьшего количества обрабатываемой информации от вероятности ошибки строятся в форме монотонно убывающих функций. Поэтому обращения таких функций дают значения потенциально достижимой вероятности ошибки при различных значениях количества используемой информации. Такие соотношения могут быть полезны для анализа эффективности алгоритмов кодирования и классификации, поскольку позволяют оценить избыточность вероятности ошибки алгоритмов относительно потенциально возможных значений при любом количестве обрабатываемой информации.

Структура работы включает формализацию моделей кодирования и классификации (параграф 1) и построение для рассматриваемых моделей аналитических нижних границ вероятности ошибки при заданном количестве обрабатываемой информации (параграф 2). В параграфе 3 приводятся примеры таких границ для схемы кодирования статистически независимых сообщений с двумя каналами наблюдения и для схемы классификации изображений лиц и подписей по составным объектам «лицо-подпись».

1. Вероятностные модели кодирования и классификации

Модель кодирования дискретных сообщений, переданных по каналу с искажениями

Рассматривается модель кодирования дискретных сообщений с допустимой погрешностью в терминах понятий, принятых в теории информации [1]. Сообщениями источника являются статистически независимые символы алфавита U размера q 2, на котором задано распределение вероятностей

P u = { P u ( u ) } .

Символы алфавита U передаются по составному каналу наблюдения, выход которого образован ансамблем V M = V 1... V M q -ичных алфавитов V m , m = 1, . , M . Каждому входному символу u e U составного канала соответствуют столбцы выходных векторов v M =( v 1 , . , v m ) t , vm e V m , m = 1, . , M , с условными вероятностями

P V M | U = { P V M | U ( v I u ) } .

Символы алфавита U воспроизводятся по сообщениям из ансамбля VM безошибочно либо с погрешностью символами алфавита U = U . На алфавите U вводятся свободные условные распределения

QUVM ={Qu\vM (u| vM )}, которые образуют канал воспроизведения.

Рассмотрим схему кодирования блоков u N =( u 1 ,..., uN ) символов u n e U , n = 1, . , N , в блоки uN = ( u 1 ,..., йN ) символов йn e U , n = 1, . , N . Каждому uN соответствует блок vMN = ( v M ,..., v N ) столбцов v M e Vм , n = 1,..., N , на выходе составного канала наблюдения, и блок u ˆ N строится по предъявляемому блоку vMN . Указанные блоки образуют множества

U N ={ uN }, VMN ={ vMN U N = { u N }. При этом независимость символов источника и использование канала наблюдения и канала воспроизведения без памяти порождает на указанных множествах следующие распределения

P j n ( uN ) = П P u ( u n ) ( - n =1

P V MN j N =< P V MN j N ( vMN uN ) = П P V M U ( vM 1 u n ) | ’   (2)

l                                 n =1

1U N V MN = \ Q U N V MN ( u N 1 vMN ) = П Q U\ V M ( u n 1 vM ) | . (3) l                                  n =1

Множества UN , VMN , UN с распределениями (1) – (3) образуют пару последовательных стохастических преобразований

VMN

Q U ˆ N VMN

A

U ˆ N .

Используя побуквенную меру погрешности Хемминга между любой парой блоков uN e U N и uN e UN , для схемы (4) вводится средняя на символ источника погрешность

E Q UNVMN (VMN ; U N ) =

= ( 1 N ) £ P v mn ( vMN ) £ Q u , n V MN ( u N I vMN ) X         (5)

V MN              U ˆ N

N x£PjnVMN (uN|vMN )£ d(un ,Un )

U N                           n =1

и средняя на символ взаимная информация

I Q UNVMN ( V MN ; U N ) =

= ( 1 N ) £ P v mn ( vMN ) X Q u n V MN ( u N I vMN ) X         (6)

V MN              U ˆ N

QU ˆ N | V MN ( u ˆ N | vMN )

X In-----------x-------- ,

Q U ˆ N ( u ˆ N )

где

d ( un , u ˆ n )

, u n * u n

0, u n = u n'

P y N V MN ( uN | vMN ) =

P U N ( uN ) P V MN | U N ( vMN | uN ) PV MN ( vMN )

P V MN ( vMN ) = £ PU N ( uN ) P V MN ^ N (vMN | uN ),

U N

Q u n ( uN ) = £ P v mn ( vMN ) Q u n V MN (uN | vMN ).

V MN

Поскольку в (5) сумма по блокам uN в пересчете на символ источника дает вероятность ошибки на блоке воспроизведения u ˆ N по наблюдаемому блоку vMN , средняя на символ погрешность вида (5) соответствует вероятности ошибки на множестве блоков воспроизведения U ˆ N по множеству наблюдаемых блоков VMN .

Зависимость функционалов (5) и (6) от свободных условных распределений вида (3) позволяет при заданных значениях s > 0 ввести функцию «взаимная информация-вероятность ошибки»

Rmn (s) =     min     IQ^ N   (VMN; UN)(7)

QUˆ N|VMN:

Eo-m (vAvmn;иN)

порядка N , где минимум берется по всевозможным условным распределениям Q и n^ при s -ограничении вероятности ошибки. Учитывая, что распределения вида (1)–(3) заданы в форме произведений, функционалы (5) и (6) эквивалентны значениям E Q U ˆ |VM ( VM ; U ˆ ) и I Q U ˆ |VM ( V M ; U ˆ ) при N =1. В этом случае функция (7) не зависит от N и может быть представлена в форме

R m ( s ) =     min    I q и ( Vм ; U ).                 (8)

Q U ˆ |V M :

E Q и ( V м ; •

Задача состоит в получении для функции (8) монотонно убывающей неотрицательной нижней границы R M ( s ) R M ( s ). Тогда обратная функция R м 1( I ) дает нижнюю границу вероятности ошибки кодирования источника при фиксированных значениях средней взаимной информации I .

Модель классификации составных объектов

Рассматриваемая модель классификации аналогична рассмотренной модели кодирования и формулируется в терминах понятий, принятых в теории классификации [7]. Классы представлены множеством меток Q = { ю i , i =1,..., c } Р = { ю , , i = 1,..., c } , c 2, с априорным распределением вероятностей

P q= { P q CM c_ r                             (9)

, =1

Классифицируемые составные объекты образуют ансамбль множеств X м = X 1 _ X м , в котором X m , m = 1,..., M - множество объектов, порождаемых m -м источником. Каждый составной объект задан столбцом объектов x м = ( x 1 , . , x м ) t e X м одного класса, элементы которого x m e X m , m = 1, . , м , являются объектами соответствующих источников. Будем считать, что на ансамбле X M заданы условные по классам распределения

P x м р = { P X м р ( x м |й0 } c ,,                        (10)

I =1

которые образуют составной канал наблюдения. Решения о классах составных объектов образуют множество оценок Р = { ю j , j = 1,..., c } меток классов.

В общем случае решение принимается по блоку составных объектов одного класса xMN = (xм,...,xм), в котором xм e Xм,n = 1,...,N. Блоки составных объектов образуют множество XMN = {xMN}. Для составного канала наблюдения без памяти условные по классам распределения вероятностей блоков составных объектов с учетом (10) имеют вид

1_I

PX MN Q = | PX MN|Q (x MN 1 Ю) =П PX мр (x м 1 Ю) Г.

I

На множестве оценок классов Q вводятся свободные условные по блокам составных объектов распределения вероятностей

QpxMN ={ Qpx MN (jMN )}.(12)

Множества Q , X MN и Q совместно с распределениями (9), (11) и (12) образуют последовательность стохастических преобразований

Q PX'   > XMN   QX' > Q.(13)

Используя меру погрешности Хемминга между истинными классами и их оценками в схеме (13), вводится средняя вероятность ошибки

EqqxMN (XMN; Q) = cc(14)

= Ё Q (^| x MN ) £ P ( ю 1 x MN ) d ( ю , ю )

j=1

и средняя взаимная информация

I q q x MN ( X MN ; Q) =

= Ё PxMN (xMN)EQq|xMN (Юj|xMN ) X

, Q Q| X MN ( j MN )

X In----!-----7---x----- , QqW где

Г 1, ю , ^ ю j d ( ю , , ® j ) = ^               ,

[ 0, ю , = ю j

P q | X MN ( ю , | x MN ) =

P q ( ю , ) P x MN |Q ( x MN | ю , ) P X MN ( x MN )

c

P x MN ( x MN ) = Ё P q ( ю , ) P x мN | q ( x MN | ю , ), i =1

Q й C Ю j ) = Ё P x MN ( x MN ) Q q | x MN ( ю J\ x MN ). x MN e X MN

Зависимость функционалов (14) и (15) от свободных условных распределений (12) позволяет при значениях s >0 ввести соотношение «взаимная информация-вероятность ошибки» в форме условного минимума

R м ( s ) = min min I Qq^ n ( X MN ;Q ) . (16) N Q Q X Ш : 1

E q q x MN ( X MN ;Q ■ •

Внутренний минимум в (16) берется по всевозможным распределениям Q^XмN при заданном s-ограничении средней вероятности ошибки, а внеш- ний – по длине блоков N. Для модели классификации, как и для модели кодирования, задача заключается в построении монотонно убывающей неотрицательной нижней границы RM (s) < RM (s). Тогда обратная функция RM(I) дает нижнюю границу вероятности ошибки при заданных значениях средней взаимной информации I.

  • 2.    Вычисление функций«взаимная информация-вероятность ошибки»

Нижняя граница функции R m ( s )

Построение нижней границы RM ( s ) R M ( s ) для функции (9) базируется на дискретной модификации подхода, предложенного в работе [4] для вычисления функции «скорость-погрешность» в схеме кодирования непрерывных сообщений, переданных по каналу с шумом. Согласно такому подходу, вводится последовательность преобразований Vм и U * ^ U , где U * = U = U .

Преобразование Vм и U является детерминированным по критерию максимальной апостериорной вероятности u * = arg max P(u | vM). Этот критерий обеспечи-и eU вает наименьшую вероятность ошибки sM ’min и вероятность выхода PU* (и *) = ^ vM eVM PVм (vM) для подмножества V*м с Vм векторов, отображаемых в символ и * e U *. Преобразование U * -и U является стохастическим, в котором переходные вероятности Q^U* (U| и *) совпадают с вероятностями QuVM (и | Vм) для векторов Vм e V*м и дают условные распределения

Q и \ и * = { 0 ; ^ * ( и\и ) } .                                 (17)

где минимум берется по всевозможным условным распределениям (17) при ограничении средней вероятности ошибки преобразования U * U U величиной s - s M ’min 0 . Тогда нижняя граница функции (20) следует из границы Шеннона для функции «скорость-погрешность» в схеме кодирования U * U U с погрешностью в метрике Хемминга [5]. Полученная граница сформулирована в следующей теореме.

Теорема 1 . Функция R m ( s ’, определенная в (7), имеет монотонно убывающую нижнюю границу

R m ( s = I(U ; Vм ) - h ( s-s M min ) -- ( s-s M min )in( q - 1)

на отрезке s M m in < s < s M max , где I ( U ; Vм ) - средняя взаимная информация между U и VM , h ( z ) = - z ln z -(1- z ’ln(1- z ), R m ( s M min ) = I(U ; Vм ) и R M ( s M max = 0 .

Доказательство . Согласно [5] нижняя граница Шеннона для функции RM ( s ), переопределенной в форме (20), имеет вид

R m (s ) = H ( U * ) - H s ( U \ U * ) ,                   (22)

где

H ( U * ’ = - E P u * ( и * )ln P u * ( и * ) u * e U *

– безусловная энтропия на множестве решений U * и

Hs ( U| и ) =

= - E P u * ( и * Z Q UU * ( и \ и * ’ln Q UU * ( и \ й ) и * e U *            UeU

– условная энтропия по распределениям

С учетом неравенства треугольника d ( и , й) d ( и , и * ) + d ( и* , й) и распределений (17) средняя вероятность ошибки (5) при значении N = 1 удовлетворяет неравенству

E Q U | гм ( Vм ; U ) M ’mn+EQ U| U* (U *; и) =

= s M mn + E P u * ( и * E Q uu * ( U | u * d ( и * , и ). и' e U *            UeU

Благодаря детерминированному преобразованию

V M U U * , средняя взаимная информация (6) в случае

N = 1 принимает вид

i q и vm (V м ; U ) = I q и и * ( и * ; U ) =

„                            Qrn /*( U | u * )        (19)

= E P u * ( и* E Q uu * ( U | u * )ln ^UU^T- .

и                   |                 qu( и )

Соотношения (18) и (19) преобразуют функцию (8) к виду

Rm (s) =

min

Q U | U * : E Q и | и * ( U * - U )M’min

I Q UU *

( U * ; U ),

( s ) U ˆ | U

exp ( - sd ( и * , U ) )

E U e U exp ( - sd ( U * , U ) )

с параметром s >0.

Поскольку формула (8) эквивалентна известной функции «скорость-погрешность», которая ограничивает снизу скорость любого кода с заданной погрешностью [1], энтропия выхода детерминированного преобразования Vм U U удовлетворяет неравенству H ( U * ) R m ( s M min ). В этом случае R m ( s M mm ) равно минимальной средней взаимной информации в (8), которая достигается на апостериорных распределениях, обеспечивая RM ( s M )min ) = I (U ; Vм ) и оценку

H (и *) > I (и; Vм).

Для нахождения параметра s в распределениях (23) используем равенство

E P u * ( U * ) E Q UU * ( U | U * ) d ( U * , U ) = s - s M min ,

U * e U *            UeU

которое дает e - s = ( s-s M min )/( q - 1) ( 1 - ( s-s M min ) ) ,

Q UsU . ( U | u * ) =

J 1 - ( s-s M imin ), u = u * 1 ( s-s M D/c q 1), a ^ u *

В случае равновероятных символов алфавита U максимальная вероятность ошибки равна sMmax = (q -1)/q и оценка (27) преобразуется к виду и условную энтропию

H s (U \ U * ) = h ( S - s M mm ) + ( S - s M min ) ln ( q - 1) . (25)

( q )

M min = q -1Г 2H(U \ Vм)

q I q - 1

Последующие замены условной и безусловной энтропии в (22) правыми частями соотношений (24) и (25) завершают доказательство теоремы 1.

Граница (21) является обобщением нижней границы Шеннона для функции «скорость-погрешность» в схеме кодирования независимых дискретных сообщений с допустимой средней погрешностью в метрике Хемминга [1]. В границе Шеннона используется бесшумный канал наблюдения, который обеспечивает H ( U | VM )=0 и I ( U ; VM ) = H ( U ). При этом R m ( s M mm ) = H ( U ) и s M mm = 0 . В общем случае нулевое значение R M ( s M max ) = 0 достигается в точке s M max = ( q - 1)min P ( u ).

Минимальная вероятность ошибки s M min зависит от величины условной энтропии H ( U \ Vм ) 0. Для нахождения этой зависимости воспользуемся разностью границы Шеннона и границы (21) в точке s = s M max .

Указанная разность дает равенство h (sM max)—h (sM max—sM mn)+smmin ln( q—1)=

= H(U | Vм), которое с учетом разложения в ряд Тейлора

Оценки (27) и (28) демонстрируют уменьшение минимальной вероятности ошибки s M ’min с уменьшением условной энтропии H ( U | VM ) и, следовательно, с ростом средней взаимной информации I ( U ; VM )= H ( U )– H ( U | VM ). Этот эффект проявляется с увеличением числа каналов M . При отсутствии шума в составном канале наблюдения имеем H ( U | VM )=0 и s M min = 0. В этом случае I ( U ; Vм )= H ( U ) и граница (21) совпадает с границей Шеннона, приведенной в [1].

Иллюстрация множества U и ансамбля V 1 V 2 , а также характер функции R m ( s ) при значениях M =1 и M >1 (сплошные кривые) показаны на рис. 1. Пунктирная кривая демонстрирует поведение нижней границы Шеннона. Множество U представлено круговой областью, множества V 1 и V 2 – эллиптическими областями. Указанные множества демонстрируют увеличение с ростом M средней взаимной информации I ( U ; VM ) как теоретико-информационной меры пересечения U VM (серая область) и уменьшение условной энтропии H ( U | VM ) как теоретико-информационной меры разности U \ VM (темная область), что приводит к уменьшению вероятности ошибки s M min

( q )                  ( q )

,l ( S M max )    ( S M max

-

( q )

M min

( q )         ( q )

( S M max ) S M min

+ —

( q )

I h ( S M m

)| ( s m mm ) 2 + о (

( q )

S M min

при малых значениях s M min принимает вид

1       ( q )

2 h ( S M max

+

+ ( h ( s M mx ) + ln( q - 1) ) s M ) min = H(U | Vм ).

Решение уравнения (26) с производными

)

(q)          1___SM max h (SMmax) = ln   (q)

S M max

| h "(s M U)|

( q ) S M max

(1 -s M max ) )

дает асимптотическую оценку

s M ) min =s M ’mxa -s M mx ) x l ln 2 1 ( q - 1)

( q )

( S M max )

( q )

S M max

+

1/2

2H(U | V — ^     ) л_е( «

+                     I S M max( S M max)x sM )max(1 -SM ’max) J

x In l ( q - 1)

( q )

( S M max )

( q )

S M max

.

Рис. 1. Интерпретация средней взаимной информации I (U;VM) и поведение функции Rm ( е )

Необходимо отметить, что в практике кодирования q -ичных сообщений со скоростью R ( q ) и вероятностью ошибки Eq граница R m ( s ) позволяет вычислить избыточность r ( R ( q \ E ( 4 ) = R ( q - R m ( E ( q ) скорости кода относительно потенциально возможного значения при заданной вероятности ошибки. Использование обратной функции от R m ( s ) дает избыточность

r ( E ( q | R ( q ) =

J e ( q - r m1( r ( q ), r ( q I(U ; Vм ) [ e ( q -s M ’min , R ( q I(U ; Vм )

вероятности ошибки при заданной скорости.

Нижняя граница функции R m ( s )

Методика построения нижней границы

R m ( s ) R m ( s ) функции (16) аналогична методике,

использованной для получения границы (21). Пусть « * ={ го k , k =1,..., c } - множество меток классов, получаемых на детерминированном преобразовании X MN ^ q * с наименьшей вероятностью ошибки s M min при длине блоков N * > 1. Такое преобразование реализуется на решающем правиле по максимуму апостериорной вероятности классов и порождает разбиение множества X MN * на непересекающиеся подмножества X MN ' ^го k , k =1, . , c , с вероятностями P (го k ) = ^ x MN 'e X N ' P ( x MN ' ), k =1,..., c . В этом случае условные по блокам x MN ' е X N ' вероятности Q Q | X у ' ( M j I x MN ' ) = Q qQ' ( ю / I го k ) дают условные распределения

Q q | q' = { Q q i q ' ( го , I го k ) } .

С учетом неравенства треугольника d ( го i , го j ) d ( го i , го k ) + d ( го k , го j ) и распределений (29) средняя вероятность ошибки (14) удовлетворяет неравенству

E%MN' (XMN' , Q)     ’min + EРф. (Q‘ , Q’ = c c                                 (30)

= s M min + ^ P Q ' ( го k ) X Q (!|Q ( го j 1 го k d ( го k , го j ).

При этом средняя взаимная информация (15) принимает вид

I «,, ( X ”' ;Q) = I «., (ff;Q) =

Q qQ' ( го j | го k )      (31

= Z P Q ' ( го k Z Q Q | Q ' ( j 1 го k )ln   ' , , --- .

t!        j 1                  Q « ( го )

Доказательство. Аналогично доказательству теоремы 1. Для функции R m ( s ) в форме (32) применима нижняя граница [5]

Rm (s) = H (Q') - Hs (QIQ') ,                  (34)

где

c

H (Q*) = -Z Pq' (го k ’ln Pq' (го k)

k =1

- безусловная энтропия на множестве решений Q * и

Hs (Q| Q') = cc

= - Z P q' ( го k ) Z Q QQ ' ( ГО j I го k )ln Q QQ ' (ГО j I го k ) k =1               j =1

- условная энтропия по распределениям

Q          Q Q S Q ' ( гo j | гo k ) =

= exp ( - sd ( го k , Гo j ) )

Z c = i exP ( - sd ( го k , го’ )

с параметром s >0.

Согласно теореме кодирования [1], энтропия выхода преобразования X mN ^Q * удовлетворяет неравенству H ( Q * ) I ( Q ; X MN ). Кроме того, при любой конечной длине блоков N для ансамбля X MN = X м ... X M справедливо неравенство I (Q; X MN ) >  I (Q; X M ) , которое в случае тождественных множеств X M = X м , n = 1, . , N , выполняется со знаком равенства [1]. Тогда I ( Q ; X MN* ) = I ( Q ; X M ) и

H (Q') > I (Q; XMN') = I (Q; Xм).               (36)

Соотношения (30) и (31) преобразуют функцию (17) при значении N = N * к виду

Для нахождения параметра s в распределениях (35) воспользуемся равенством

Rm (s) =

min

!Q | Q' : E Q Qq («' «        ■ ’min

iqq« («'; Q),

cc

Z P Q ' ( го k Z Q Q s Q ' ( го 1 го k d ( го k , гo j = s - s» , k =1               j =1

где минимум берется по всевозможным условным распределениям (29) при условии, что второй член в правой части (30) не превосходит величины s-s M min 0. Тогда нижняя граница функции (32) следует из нижней границы Шеннона для функции «скорость-погрешность» в схеме кодирования Q ' ^ Q с погрешностью в метрике Хемминга, когда средняя погрешность не превосходит s - s M min [5].

Теорема 2 . Функция RM ( s ), определенная в (16), имеет монотонно убывающую нижнюю границу

R m ( s ) = I ( Q ; X M ) - h ( s-s M ’min ) - ( s-s M кЖ c - 1) (33) на отрезке s M mm M max , где I ( Q ; X M ) - средняя взаимная информация между множествами Q и X M , h ( z )=- z ln z -(1- z )ln(1- z ), R m ( s M ГО) = I ( Q ; X M ) и R M ( s M ’max ) = 0.

откуда следует e - s = ( s-s M ’min ’/( c - 1) ( 1 - ( s-s M ’min ) ,

Q Q s Q ' ( го у -| го k ) =

1 - (s-sM’min’, j = k, (s-sM’min)/(c - 1), j * k, и условная энтропия

H s (QIQ ' ) = h (s - s M ’min ) + (s - s M ’min ) ln( c - 1) . (37)

Последующие замены условной и безусловной энтропии в (34) правыми частями соотношений (36) и (37) завершают доказательство теоремы 2.

В общем случае область определения границы (33) задается минимальной sM’min > 0 и максималь ной sM’max = (c- 1)minP(го,-) вероятностями ошибки. i=1

При этом, как и в схеме кодирования (4), минимальная вероятность ошибки в схеме классификации (13)

должна уменьшаться с ростом средней взаимной информации между входом и выходом канала наблюдения. Для демонстрации этого эффекта полезно привести асимптотические оценки минимальной вероятности ошибки.

Применяя технику, аналогичную используемой для вычисления асимптотики минимальной вероятности ошибки в модели кодирования, для малых значений e M m, получаем асимптотическую оценку

( c ) M min

_ с ( С )            ( С )              2 I (1 £ M max ) | ,

-£Mmax(1 eMmax) Xl ln I (c 1)    (c)

\ \         e M max

H ( Q | X M )

1/2

+ 2

(c)( e M max(   e M max)

-e MM UI-e M Lj ln l ( c - 1)

(1 - e M max

)

( c )

e M max

которая при равновероятных классах принимает вид

( c )

M min c -1 ( 2 H (Q | XM) c ^ c -1

Оценки (38) и (39) демонстрируют уменьшение минимальной вероятности ошибки e M mn с уменьшением условной энтропии H ( Q \ X M ) и, следовательно, с увеличением средней взаимной информации I ( Q ; X M )= H ( Q )- H ( Q \ X M ). Уменьшение энтропии H ( Q | X M ) и, соответственно, минимальной вероятности ошибки e M mn может быть достигнуто путем увеличения числа M источников в ансамбле.

При нулевом значении условной энтропии H ( Q | X M ) = 0, которое дает наибольшую среднюю взаимную информацию I ( Q ; X M )= H ( Q ), граница (33) совпадает с нижней границей Шеннона для функции «скорость-погрешность» в схеме кодирования независимых дискретных сообщений с допустимой средней погрешностью в метрике Хемминга [1]. В этом случае e M m, - 0 и R m ( e M mn ) - H ( Q ). Следует отметить, что граница Шеннона соответствует модели классификации, в которой каждый объект априори принадлежит одному классу [8]. Формально это означает, что апостериорные вероятности классов по каждому объекту (простому или составному) принимают значения 1 или 0, обеспечивая H ( Q | X M ) = 0.

Рис. 2 иллюстрирует множество классов Q , ансамбль X 1 X 2 и поведение функции RM ( e ) при M =1 и M >1 (сплошные кривые) и границы Шеннона (пунктирная кривая). Множество Q представлено круговой областью, множества X 1 и X 2 – эллиптическими областями. Из рисунка следует, что с увеличением M средняя взаимная информация I ( Q ; X M ) увеличивается как мера пересечения Q A X M (серая область), а условная энтропия H ( Q | X M ) уменьшается как мера разности Q \ X M (темная область), что приводит к уменьшению минимальной вероятности ошибки e M min

Рис. 2. Интерпретация средней взаимной информации

I (Д' X м) и поведение функции RM ( e )

Практическая значимость границы RM ( e ) состоит в возможности использования обратной функции для вычисления избыточности

_ _ Г E ( c ) - R -1 ( H ( c ) ) , H ( c ) I ( Q ; X м ), r ( E ( c ) | H ( c ) ) -^         м ( ) ,           ( ; ),

[E(c) -eMU , H(c) > I(Q;XM), вероятности ошибки E(c) любого решающего алгоритма относительно потенциально возможного значения при заданной энтропии H(c) решений о классах предъявляемых объектов. Избыточность r (E(c)|H(c)) может быть вычислена для классификаторов с различными разделяющими функциями и, в частности, для многоклассовых SVM классификаторов с разделяющими функциями сигмоидного типа [9]. Кроме того, теоретико-информационный критерий минимизации вероятности ошибки при фиксированных значениях средней взаимной информации между обучающим множеством данных и множеством решений об их классах может найти применение в процедурах оптимизации отбора признаков [10] и, в частности, при обучении нейронных сетей [11].

  • 3.    Примеры нижних границ

Схема кодирования независимых равновероятных сообщений с двумя каналами наблюдения

Рассмотрим вычисление границы RM ( e ) вида (21) для схемы, в которой составной канал наблюдения задан M >1 независимыми каналами. Значение M =1 соответствует схеме с одиночным каналом наблюдения. Множества переходных вероятностей P V m | U , m =1,..., M , таких каналов порождают на ансамбле VM множество условных распределений

Г

PVM U — 1 PVMU (v 1 u) -П PVm U (vm 1 u )[■

I

С учетом распределений (40) средняя взаимная информация I (U; VM ) в (21) согласно [1] выражается через соответствующие энтропии в форме

M

I ( U ; Vм ) - H (Vм ) - £ H (V m \U ),            (41)

m -1

где

H(Vм ) - - £ P v m ( vM ) In P v m ( vM ),

V M

H (V m | U) = - X P u ( u ) £ P U ( V m I u ) In P v m U ( V m U ), UV m

P v m ( VM ) = X P u ( U ) P v m U ( VM Iu ).

U

В случае M =1 формула (41) дает значение средней взаимной информации между входом и выходом одиночного канала наблюдения.

В приведенном ниже примере используется алфавит источника U размера q 2 с одинаковыми вероятностями P U ( u ) =1/ q и составной канал наблюдения, который содержит M =2 симметричных канала с выходными алфавитами V m = U , m =1,2. При вероятности 0< 3 m <1 ошибочной передачи символа источника такие каналы имеют условные вероятности выходов

P V m | U ( v m 1 U ) =

1 -3 m , V m = U , 3 m /( q 1), V m * U .

Вычисление энтропий в (41) при значении M =2 дает среднюю взаимную информацию

I(U ; V v 2 ) = ln q - h ( 3 1 ) -3 ! ln( q - 1) +

+ h ( 3 1 +3 2 -3 1 3 2 q /( q - 1) ) -                      (42)

- h ( 3 2 ) + ( 3 1 -3 1 3 2 q /( q - 1) ) ln( q - 1) .

Правая часть в (42) представлена суммой средней взаимной информации

I(U ; V ) = ln q - h ( 3 1 ) -3 1 ln( q - 1)

и условной средней взаимной информации

I(U ; V 2 1 V 1 ) = h ( 3 1 +3 2 -3 1 3 2 q /( q - 1) ) -

- h ( 3 2 ) + ( 3 1 -3 1 3 2 q /( q - 1) ) ln( q - 1) .

В случае 3 m >0, m = 1,2, полученные средние взаимные информации строго положительны и, следовательно, I ( U ; V 1 V 2 ) >  I ( U ; V 1 ). Поэтому наличие второго канала наблюдения обеспечивает уменьшение условной энтропии в формуле (28) и, следовательно, приводит к уменьшению минимальной вероятности ошибки s M min . В частном случае, когда 3 1 = 0 или 3 2 = 0, имеем I ( U ; V 1 V 2 )= H ( U )=ln q , s M mi n = 0, и нижняя граница (21) совпадает с границей Шеннона. В этом случае M = 1 и канал наблюдения задается одним бесшумным каналом с параметром 3 = 0.

Схема классификации составных объектов, заданных изображениями лиц и подписей

Рассматривается вычисление границы R M ( s ) вида (33) для схемы, содержащей M независимых каналов наблюдения с множествами переходных вероятностей P x m p, m =1,..., M . Такие каналы образуют составной канал с множеством

P X М

.1 c

P X M p ( x M | «Э = П P X m p ( x m | ^ ) [ m =1                       J i =1

условных по классам вероятностей на ансамбле X M . Вероятности вида (43) совместно с априорными вероятностями классов, заданными в (9), позволяют вычислить среднюю взаимную информацию I ( Q ; X M ) в форме, аналогичной (41):

M

I ( Q ; X M ) = H ( X M ) - X H ( X m | Q ).           (44)

m =1

Численные реализации границы RM ( s ) получены для множества Q , содержащего c = 25 классов и ансамбля X 1 X 2 , заданного множествами изображений лиц X 1 и подписей X 2 от 25 персон, по 40 изображений от каждой персоны. Априорные вероятности классов считались одинаковыми. Для описания информативных объектов (лица или подписи) использовались их древовидные представления наборами эллиптических примитивов [12]. Представления получены на основе дихотомического разбиения объектов на непересекающиеся сегменты и аппроксимации сегментов эллиптическими примитивами, которым присвоены средние яркости пикселей соответствующих сегментов. Центры и радиусы примитивов вычислены с использованием центральных и осевых моментов инерции аппроксимируемых сегментов. Структура таких представлений схожа с иерархической структурой, предложенной в [13]. Различие объектов на множестве их древовидных представлений измерялось расстоянием, введенным в [14].

Примеры древовидных представлений лица и подписи, заданных полутоновыми изображениями размера 256×256 с 256 уровнями яркости, даны на рис. 3. В приведенных примерах показаны многоуровневые представления, которые содержат по 2 l эллиптических примитивов на уровнях l =0,1, . , 8. В таких представлениях примитивы соответствуют вершинам l -го уровня в бинарном дереве. Параметры примитива нулевого уровня используются для нормировки параметров примитивов последующих уровней. Эллиптические примитивы всех уровней строятся в собственных координатных осях представляемого объекта, а их параметры нормируются относительно параметров примитива нулевого уровня. Указанные операции обеспечивают инвариантность таких представлений к сдвигу, повороту, масштабу и яркости объектов. Для кодирования параметров примитивов (координат центров, радиусов и уровней яркости) использован 8-разрядный двоичный код.

На множествах лиц и подписей X m , m = 1,2, введены условные по классам вероятности

P x m p ( x m | ГО ) =

exp ( -v m D 2( x m , x m ) ) /-----------------------?, . = 1,

X exp ( -v m D 2( x m , x m ) )

x m eXm c, (45)

которые соответствуют переходным вероятностям независимых каналов наблюдения в (43). Здесь D2(xm, x m) – квадрат расстояния между предъявля- емым объектом xm∈Xm и «центральным» представителем»

x im = arg min ∑     D 2( x m , x ˆ m )

xm∈Xim xm∈Xim подмножества Xim ⊂ Xm i-го класса, а vim > 0 – свободный параметр. В общем случае расстояния D (xm, xim) вычисляются в выбранном пространстве представлений объектов. Для древовидных представлений множества лиц X1 и множества подписей X2 использовались расстояния с квадратичным ядром, значения которых заданы матрицами смежности, размещенными на ресурсах [15] и [16].

Условные по классам вероятности вида (45) порождают на ансамбле X 1 X 2 условные вероятности

P X 1 X 2 | Ω ( x 1 , x 2 | ω i ) = P X 1 | Ω ( x 1 | ω i ) P X 2 | Ω ( x 2 | ω i )

и безусловные вероятности

P X 1 X 2 ( x 1 , x 2 ) = ( 1 c ) c P X 1 X 2 ( x 1 , x 2 | ω i )

i =1

для любой пары объектов x 1 X 1 и x 2 X 2 . Указанные вероятности дают энтропии

H ( X 1 X 2 ) =- ∑∑ P X 1 X 2 ( x 1 , x 2 )ln P X 1 X 2 ( x 1 , x 2 ),

X 1 X 2

c

H(Xm|Ω)=-(1c)∑∑PXm|Ω(xm|ωi)lnPXm|Ω(xm|ωi) i=1 Xm для вычисления средней взаимной информации (44) при M = 1 и M =2. Параметры vim >0, i =1,…, c, в распределениях (45) на множествах Xm, m =1,2, выбраны из условия R(ε(mсa)x) =0 в точке ε(mca)x =(c-1)c, когда M = 1. В случае M ≥ 1 средней взаимной информации I (Ω; XM) соответствует минимальная вероятность ошибки (39), вычисляемая при значениях условной энтропии H (Ω | XM) =ln c – I (Ω; XM).

Численные реализации границы R M ( ε ) вида (33) на множествах X 1 , X 2 и на ансамбле X 1 X 2 представлены сплошными кривыми на рис. 4. Полученные границы демонстрируют уменьшение потенциально возможной вероятности ошибки классификации на ансамбле по сравнению с аналогичными значениями вероятности ошибки для объектов одной модальности. Для сравнения пунктиром дана реализация нижней границы Шеннона.

Рис. 3. Примеры представлений лица и подписи бинарными деревьями эллиптических примитивов

Рис. 4. Реализации границы RM(ε) на множествах лиц (1), подписей (2) и на ансамбле (3)

Следует отметить, что параметры эллиптических примитивов входят в расстояния, которые используются в распределениях вида (45). Поэтому значения средней взаимной информации и минимальной веро- ятности ошибки в границе (33) зависят от длины кодовых описаний указанных параметров.

Предложенный подход позволяет получить реализации функции R M ( ε ) на множествах объектов в виде сигналов или изображений, для которых используются различные представления с известными метриками. Допускается объединение в ансамбль размера M 2 множеств объектов с различными представлениями. Для выбранного пространства представлений обратная функция от R M ( ε ) дает нижнюю границу вероятности ошибки распознавания образов, порождаемых отдельными источниками ( M =1) или ансамблем источников ( M >1), при фиксированном количестве анализируемой информации.

Заключение

Для модели кодирования дискретных сообщений, переданных по составному каналу с шумом, и модели распознавания образов, заданных наборами объектов различной модальности, получены зависимости наименьшей средней взаимной информации между предъявляемыми данными и возможными решениями от заданной допустимой вероятности ошибки. Найденные зависимости сформулированы в форме монотонно убывающих функций «взаимная информация-вероятность ошибки», которые являются обобщениями известной в теории информации функции «скорость-погрешность» (rate distortion function), когда погрешность измеряется в метрике Хемминга.

Приведенные соотношения получены для схем с составными каналами наблюдения, выходные данные которых образуют ансамбли. Для рассмотренных моделей кодирования и классификации продемонстрировано уменьшение минимальной вероятности ошибки с ростом средней взаимной информации между входом и выходом канала наблюдения при увеличении размера ансамбля предъявляемых данных. Этот результат проиллюстрирован примерами функции «взаимная информация-вероятность ошибки» для схемы кодирования независимых равновероятных сообщений, в которой составной канал наблюдения задан парой симметричных каналов без памяти. Аналогичный эффект продемонстрировали численные реализации функции «взаимная информация-вероятность ошибки» для схемы распознавания изображений лиц и подписей в пространствах их древовидных представлений и на ансамбле таких представлений. Необходимо отметить, что предложенный подход допускает вычисление теоретикоинформационных нижних границ вероятности ошибки классификации в пространстве векторных представлений предъявляемых данных, которые применяются в нейронных сетях.

Независимость полученных соотношений от решающих алгоритмов позволяет использовать их для анализа эффективности алгоритмов кодирования и классификации в терминах избыточности вероятности ошибки алгоритма относительно граничных значений при фиксированных значениях скорости кода или энтропии оценок классов. Планируется исследовать избыточность вероятности ошибки для алгоритмов кодирования дискретных источников и алгоритмов распознавания образов с разделяющими функциями различного вида.

Работа выполнена при поддержке Министерства науки и высшего образования в рамках выполнения работ по Государственному заданию Федерального исследовательского центра «Информатика и управление» РАН.

Список литературы Теоретико-информационные границы точности кодирования сообщений и распознавания образов по ансамблям данных

  • Gallager RG. Information theory and reliable communication. New York: Wiley & Sons; 1968. ISBN: 0471-29048-3.
  • Lam L, Suen CY. Application of majority voting to pattern recognition: An analysis of its behavior and performance. IEEE Trans Syst Man Cybern A Syst 1997; 27(5): 553-568. DOI: 10.1109/3468.618255.
  • Kuncheva LI, Whitaker CJ, Shipp CA, Duin RPW. Limits on the majority vote accuracy in classifier fusion. Pattern Anal Appl 2003; 6(1): 22-31. DOI: 10.1007/s10044-002-0173-7.
  • Dobrushin RL, Tsybakov BS. Information transmission with additional noise. IRE Trans Inf Theory 1962; 8(5): 293-304. DOI: 10.1109/TIT.1962.1057738.
  • Berger T. Rate distortion theory: A mathematical basis for data compression. New Jersey: Prentice-Hall Inc, Englewood Cliffs; 1971. ISBN: 013-753103-6.
  • Lange MM, Lange AM. Information-theoretic lower bounds to error probability for the models of noisy discrete source coding and object classification. Pattern Recogn Image Anal 2022; 32(3): 570-574. DOI: 10.1134/S105466182203021X.
  • Duda RO, Hart PE, Stork DG. Pattern classification. 2nd ed. New York: Wiley & Sons; 2001. ISBN: 978-0471056690.
  • Djukova EV, Zhuravlev YuI, Prokofjev PA. Logical cor-rectors in the problem of classification by precedents. Comput Math Math Phys 2017; 57(11): 1866-1886. DOI: 10.1134/S0965542517110057.
  • Sueno HT, Gerardo BD, Medina RP. Medina multi-class document classification using Support Vector Machine (SVM) based on improved Naïve Bayes Vectorization technique. Int J Adv Trends Comput Sci Eng 2020; 9(3): 3937-3944. DOI: 10.30534/ijatcse/2020/216932020.
  • Brown G, Pocock A, Zhao MJ, Luján M. Conditional likelihood maximization: A unifying framework for information theoretic feature selection. J Mach Learn Res 2012; 13(8): 27-66.
  • Xu X, Huang SL, Zheng L, Wornell GW. An information theoretic interpretation to deep neural networks. Entropy 2022; 24(1): 135. DOI: 10.3390/e24010135.
  • Lange MM, Ganebnykh SN. On fusion schemes for multiclass classification with reject in a given ensemble of sources. J Phys Conf Ser 2018; 1096: 012048. DOI: 10.1088/1742-6596/1096/1/012048.
  • Denisova AY, Sergeev VV. Algorithms for calculating multichannel image histogram using hierarchical data structures. Computer Optics 2016; 40(4): 535-542. DOI: 10.18287/2412-6179-2016-40-4-535-542.
  • Lange AM, Lange MM, Paramonov SV. Tradeoff Relation between Mutual Information and Error Probability in Data lassification Problems. Comput Math Math Phys 2021; 61(7): 1181-1193. DOI: 10.1134/S0965542521070113.
  • Distance matrices for face dataset. 2020. Source: http://sourceforge.net/projects/distance-matrices-face.
  • Distance matrices for signature dataset. 2020. Source: http://sourceforge.net/projects/distance-matrices-signature.
Еще
Статья научная