О статистической устойчивости оптимального решения, найденного по уравнению регрессии
Автор: Бугаев Ю. В., Коробова Л. А., Шурупова И. Ю.
Журнал: Вестник Воронежского государственного университета инженерных технологий @vestnik-vsuet
Рубрика: Процессы и аппараты пищевых производств
Статья в выпуске: 2 (100) т.86, 2024 года.
Бесплатный доступ
Результаты любых экспериментов сопровождаются погрешностями из-за неточности измерений и влияния неконтролируемых факторов. Это значит, что при проведении и использовании результатов экспериментов необходимо уметь установить точность полученных решений и выводов. Это особенно важно при поиске оптимальных условий, поскольку оптимизационные задачи обладают плохой обусловленностью и весьма чувствительны к погрешностям измерений и вычислений. Данная работа посвящена исследованию чувствительности статистических оптимизационных моделей, полученных на основании уравнения регрессии и применяемых при изучении процессов пищевых технологий. Для абстрактной оптимизационной задачи координата точки экстремума рассматривалась как некоторая случайная величина, значение которой варьирует под действием ошибок экспериментов. В результате проделанных исследований получены формулы для функции и плотности распределения этой величины. Они позволяют рассчитать доверительный интервал положения оптимума. На примере данных из литературного источника показано, что даже при удовлетворительных статистических характеристиках построенного уравнения регрессии координата точки экстремума может варьировать в весьма широких пределах - более 100% от найденной оценки. Предложены меры для повышения статистической устойчивости решения оптимизационной задачи посредством смещения области планирования в предполагаемую окрестность оптимальной точки. С помощью построенных законов распределения получены численные оценки степени сужения доверительного интервала координаты точки экстремума после подобного смещения. Достигнутый эффект продемонстрирован на примере оптимизационной задачи из литературного источника. Помимо этого, было также выяснено, что при построении квадратичного уравнения регрессии в оптимальной области возможно ухудшение показателей значимости регрессии по сравнению с моделями, построенным для удаленной области планирования. Поэтому при экспериментах в оптимальной области особенно важно добиваться уменьшения влияния экспериментальных ошибок, например, посредством увеличения количества параллельных опытов.
Задача оптимизации, уравнение регрессии, точка экстремума, ошибки эксперимента, закон распределения, статистическая устойчивость, доверительный интервал
Короткий адрес: https://sciup.org/140306943
IDR: 140306943 | УДК: 360 | DOI: 10.20914/2310-1202-2024-2-48-55
Текст научной статьи О статистической устойчивости оптимального решения, найденного по уравнению регрессии
Поиск оптимальных условий функционирования какой-либо системы является одной из наиболее распространенных научно-технических задач. Она возникает в тот момент, когда установлена возможность проведения проектируемого процесса и необходимо найти наилучшие в некотором смысле условия его реализации. При поиске оптимальных условий протекания процессов пищевой технологии важное место отводится экспериментам и математическим методам их обработки, в частности, регрессионному анализу и планированию экспериментов [1-21].
Поскольку любые экспериментальные исследования, в частности в пищевых технологиях, неизбежно сопряжены с погрешностями, вызванными неточностью измерений и влиянием неконтролируемых факторов, то важным и ответственным моментом при проведении и использовании результатов любых экспериментов является установление точности полученных решений. Это особенно важно при поиске оптимальных условий, т. к. оптимизационные задачи обладают плохой обусловленностью [22, 23] и весьма чувствительны к погрешностям измерений и вычислений.
Как известно [24], в статистических исследованиях для анализа точности и надежности полученных результатов и выводов используются так называемые интервальные оценки параметров случайных величин. Они указывают, в каких границах заключено точное значение параметра исследуемой случайной величины. Настоящая работа посвящена исследованию чувствительности статистических оптимизационных моделей, применяемых в изучении процессов пищевых технологий и разработке методики построения интервальных оценок для численного представления качества результатов оптимизации.
Материалы и методы
Рассмотрим пример оптимизации.
Пример 1. Работа [5] посвящена разработке оптимальной рецептуры комбинированной пищевой системы, т. е. мясного фарша с добавлением растительных ингредиентов. В частности, в ходе проведенных экспериментов была установлена связь массовой доли льняной муки ( X, %) и влагосвязывающей способности ( Y, %) комбинированного фарша. Согласно приведенным данным [5], квадратичное уравнение такой связи для ортогонализированной независимой переменной имеет вид
Y = 75.8333 + 1.8 ( X - 12.5 ) -- 0.06143 [ ( X - 12.5 ) 2 - 72.9167 ] .
Уравнение (1) имеет хорошие статистические характеристики: коэффициент детерминации R 2 = 0.968, расчетное значение критерия Фишера для оценки значимости регрессии FBbi ч = 91.6 при критическом ^ ритич = 9.55 , остаточная дисперсия s 2 стат = 16.43 .
Согласно данному уравнению, наибольшая влагосвязывающая способность достигается при X " = 1.8/2 • 0.06143 + 12.5 = 27.15% .
Оценим степень влияния экспериментальных ошибок, допущенных при построении уравнения регрессии на точность определения координаты точки оптимума.
Пусть имеем квадратичное уравнение парной регрессии для ортогонализированной независимой переменной
Y = b + b ( X - X ) - b ( X - X ) 2 - A
где x =—Yx — среднее арифметическое экс-N Y i периментальных значений независимой переменной X; A - коэффициент, полученный в процессе ортогонализации Грама-Шмидта.
Тогда оптимальное значение X определяется по формуле xopt = X - bX (3)
2 b
Как известно, при нормальном распределении экспериментальных ошибок МНК-оценки коэффициентов уравнения регрессии представляют собой случайные нормально распределенные величины, причем при использовании ортогонального плана эксперимента они независимы. Таким образом, координата оптимальной точки квадратичной функции регрессии вида (2), представляет собой случайную величину вида ф = С + ^ (4)
П где % и п—независимые нормально распределенные случайные величины, C - известная константа.
В литературе не были найдены данные о распределении случайной величины (4), поэтому авторы получили соответствующий результат самостоятельно.
Пусть ^ и п — независимые нормально распределенные случайные величины с параметрами ( m 1 , s 1 ) и ( m 2, s 2), соответственно. Построим функцию распределения F ( t ) случайной величины (4). По определению функции распределения, значение F ( t ) равно вероятности P ( ф < t ) того, что случайная величина ф меньше неслучайного числа t , т. е.
P | С + ^ < t |
I п /
Неравенство в скобках при фиксированном t эквивалентно следующим соотношениям: £ П л
----< п при---- > 0 t - С t - С
> п при п < 0 (5)
t - С t - С
— < 0 при t = С п
Обозначим, а F 1 ( x ), f 1 ( x ) – соответственно функцию и плотность распределения случайной величины ^ , а F 2 ( x ), f 2 ( x ) - соответственно функцию и плотность распределения случайной величины п . Тогда в соответствии с (5) функция распределения F ( t ) определится по формуле
'1 - р ( t ) при t - С > 0
F ( t ) = < P 2 ( t ) при t - С < 0
где
x оо и t-С
P ( t ) = J f l( x ) J f >( У ddx + J f( x ) J f >( y ) dydx
-и _x_ о0
t - С
x о Cc и
P
2(
t
)
=
J
f
1(
x
)
J
f
>(
У
)
dydx
+
J
f
-и о о t - С
о и и рз = J f.(x )J f2( y dydx + J flI x) J f>( y)dydx
-и о о
Поскольку
b
J f2( y)dy = F2( b)- F2( a)
a то формулы (7) можно упростить, понизив кратность интегралов:
_ Р3 при t = С о (
P 1 (t ) = J f l ( x )к(о) - F 2
-и \

о
P 2 ( t ) = J f l ( X ) I F 2
-и

P 3 = F (о) • ( 1 - F 2 (о) ) + ( 1 - F l (о) ) • F 2 (о)
Вычисления по формулам (6), (8) несложно выполнить с использованием системы компьютерной математики МаthСАD с учетом того, что для нормального распределения в системе существуют встроенные функции pnorm dnorm для F j ( x ) и f j ( x ), i = 1, 2, соответственно.
На основании формул (6), (8) найдем выражение для плотности распределения f ( t ) = F '( t ) , воспользовавшись правилом дифференцирования под знаком интеграла:
Для проверки адекватности полученной плотности воспользуемся имитационной моделью. Для повышения надежности результата вместо обычных псевдослучайных чисел применим ЛП т -последовательность И.М. Соболя [25]. На рисунке 1 приведен совместный график плотности (10) и гистограммы, полученной по результатам имитации случайной величины (4) с помощью 1023 чисел Соболя.
и f (t) = J f4x) f2
-и

xdx
( t - С )2
Упростим выражение (9), выделив в подынтегральном выражении множитель, зависящий только от переменной интегрирования x и вычислив в явном виде интеграл. Получим
T f ( t ) = '■ n V
D v .пЛ
• exp
T +
D2 2Vs 2 s 22
• erf\
где

Рисунок 1. Результаты имитационной проверки адекватности плотности вероятностей (10)
Figure 1. Results of simulation verification of probability density adequacy (10)
v=(t - c )2 s2’ + s2,
D = m^s 2 ( t - С ) + m2s 2 2 ,
- D s,s2 2Vy
T =

/^ и erf (x) = —;= J e ~ t dt -V п о
встроенная функция системы МаthСАD.
Расчетное значение критерия Пирсона составите 7 в 2 ьн = 1,Зо4 при х ^ич (о,95) = 3о,144 .
Бугаев Ю.В. и др. Вестник ВГУИТ, 2024, Т. 86, №. 2, С. 48-55 Результаты и обсуждение
На основе формул (6), (8) можно определить область возможного положения оптимальной точки одномерной регрессии при рассеянии, вызванном экспериментальными ошибками. Обозначим
К = b 1 , n = 2 b 2 , С = X (11)
Согласно известной теореме Гаусса– Маркова, величины МНК-оценок b 1 и b 2 распределены нормально с параметрами ( в , ^ K i ) и ( в , ^ д/ K 2 ) , соответственно. Здесь в / — истинные значения коэффициентов квадратичного уравнения регрессии, ст 2 - дисперсия ошибок измерения зависимой переменной Y (ошибки экспериментов), K jj – диагональные элементы ковариационной матрицы K коэффициентов функции регрессии (2). Выясним возможную область положения абсциссы Xopt , рассчитанной по формуле (3), если МНК-оценки b j определены согласно (11).
Положим P – доверительная вероятность, с которой необходимо определить искомую область, [ c, d ] – неизвестные границы этой области. Значения c и d будем искать из условия ( d - c ) ^ min при F ( d) - F ( c ) = P . (12)
Воспользуемся данными примера 1. Положим m 1 = P 1 = 1.8, m 2 = 2 P 1 = 0.1229, S 1 = ^[K = Жа К 1 = 0.1938,
s 2 = ^4K2 = V 4 s о2стат K22 = 0.05307, P = 0.9.
Тогда решением задачи (12) будут значения c = 20.492, d = 57.267. Относительно найденной оценки Xopt = 27.15 отклонения от границ возможной ошибки составят -24.5% и +111.9%, соответственно.
Результаты примера 1 показывают, что, несмотря на вполне удовлетворительную значимость полученной регрессии, возможная погрешность в определении положения оптимальной точки весьма велика. Выясним, какие меры следует предпринять, чтобы уменьшить величину погрешности.

Рисунок 2. Влияние на форму кривой (10) уменьшение дисперсий s 2 .
Figure 2. Influence on the shape of the curve (10) reduction of variances s 2 .
Очевидно, для этого надо уменьшить ширину пика плотности f ( t ). Несложно убедиться, что для этого достаточно уменьшить значения дисперсий s 2 и s 2 . На рисунке 2 приведены графики плотностей. У кривой 2 обе дисперсии уменьшены в 2 раза по сравнению с кривой 1. Для того чтобы уменьшить обе дисперсии в n раз можно увеличить число экспериментальных точек тоже примерно в n раз, в частности, провести параллельные опыты. При этом уменьшатся значения диагональных элементов K jj . Однако из графика видно, что уменьшение ширины пика при n = 2 незначительно. Т.е. увеличивая число точек существенно повысить точность проблематично.
Теория планирования эксперимента при поиске оптимальных условий рекомендует решать задачу оптимизации в два этапа. На первом этапе с помощью простых линейных регрессий выходят в область оптимума, а затем строят квадратичную модель в найденной области для уточнения оптимальной точки. Выбор области планирования в окрестности точки экстремума теория объясняет тем, что так называемый коридор ошибок регрессии всегда сужается к центру области планирования, в результате точность модели в центре области максимальна. Однако как при этом меняется стабильность положения экстремума, и меняется ли вообще – неясно. Ответ на данный вопрос позволяют получить построенные нами функции распределения. Продемонстрируем это на данных примера 1.
В примере 1 область планирования – это промежуток [0; 25], немного удаленный от найденной оптимальной точки 27.15. Сымитируем повторную серию экспериментов, используя данные примера 1, но сместим область планирования, взяв в ее качестве отрезок [15; 40], так, чтобы предполагаемая точка оптимума находилась близко к центру области планирования. Для этого в качестве выходных значений Y возьмем значения, полученные в точках новой области по уравнению (1), наложив на них экспериментальные погрешности, совпадающие с полученными в примере 1. Построим по этим синтезированным данным новое уравнение регрессии:
Y = 89.0118 - 0.04285( X - 27.5) -- 0.06143[( X - 27.5)2 - 72.9167]
Как видим, при экспериментах в области оптимума значение коэффициента при линейном члене существенно уменьшилось.
Поскольку наложенные погрешности полностью совпадают с допущенными в примере 1, то величина остаточной дисперсии при этом не изменилась 2 , так же как и эле- остат . , менты матрицы K. Не изменилась и «кривизна» графика регрессии, т. е. значение коэффициента b1. Значения же параметров m1 и C функции F(t) поменялись: m1 = -0.04285; С = 27.5. Отметим, что при этом уменьшилась оценка числителя дроби (4), а знаменатель не изменился. Это должно привести к уменьшению диапазона величины (4). Действительно, на рисунке 3 приведены графики оригинальной плотности по данным примера 1 и синтезированной плотности после имитации смещения области планирования, второй пик заметно у́же.

Рисунок 3. Влияние на форму графика плотности (10) смещение области планирования: кривая 1 – исходная плотность, 2 – плотность после смещения
Figure 3. Influence on the shape of the density graph (10) of the displacement of the planning area: curve 1 – initial density, 2 – density after the displacement
Замечание. Оценки значимости регрессии после смещения существенно ухудшились по сравнению с первоначальным вариантом: коэффициент детерминации R2 = 0.643, расчетное значение критерия Фишера для оценки значимости регрессии F = 5.4 при критическом Fкритич = 9.55 . Это произошло потому, что показатели R2 и F вычисляются относительно выч диапазона варьирования экспериментальных значений Y. В области экстремума вариабельность Y значительно меньше, чем вдали от нее. Поэтому для того, чтобы в области экстремума получить значимую регрессию нужно уменьшить экспериментальную погрешность, например, за счет применения параллельных опытов. В результате имитации применения n = 4 параллельных опытов улучшились характеристики регрессии: R2 = 0.878, F = 21.634 , а значения параметров s1 и s2 уменьшатся в n раз. В результате ширина пика f(t) еще уменьшится. Этот факт изображен на рисунке 4.

Рисунок 4. Изменения формы графика плотности (10). Кривая 3 – результат применения 4-x параллельных опытов в области экстремума
Figure 4. Changes in the shape of the density graph (10). Curve 3 – the result of applying 4 x parallel experiments in the extremum area
В результате смещения области планирования и применения параллельных опытов 90%-ная область вероятного положения оптимальной точки для примера 1 будет иметь следующие границы [25.744; 28.531]. Т.е. размер доверительной области уменьшится в 13 раз.
Заключение
Часто начальная область планирования экспериментов бывает либо слишком широкой, либо удаленной от оптимальной точки. Поэтому теория планирования эксперимента рекомендует проводить поиск оптимальных значений параметров исследуемого процесса в два этапа. На первом этапе посредством построения линейных регрессий производится локализация области экстремума. Для реализации этого этапа существуют целый набор методов экспериментальной оптимизации: метод Гаусса–Зайделя, метод Бокса–Уилсона, метод симплексов. Первый этап заканчивается, когда применяемые линейные регрессии становятся статистически незначимыми. Если в течение первого этапа требуемая точность не будет достигнута, то реализуется второй этап, на котором положение искомого экстремума уточняется с помощью квадратичной модели. Проведенные авторами исследования подтверждают необходимость указанных двух этапов. При этом получены новые аргументы эффективности их использования и разработаны дополнительные рекомендации при их планировании.
Важным аргументом в пользу необходимости локализации области экстремума и привязки к ней области планирования экспериментов является обнаруженная в ходе исследований возможность существенного повышения статистической устойчивости координат оптимальной точки, найденной по уравнению регрессии.
Бугаев Ю.В. и др. Вестник ВГУИТ, 2024, Т. 86, №. 2, С. 48-55 Полученные формулы для расчета значений функции и плотности распределений положения точки экстремума позволяют оценить размер зоны ее вероятного варьирования.
Было также выяснено, что при построении квадратичного уравнения регрессии в оптимальной области возможно ухудшение показателей значимости регрессии по сравнению с моделями первого этапа. Это может быть вызвано существенным уменьшением диапазона варьирования выходного параметра в стационарной области. Поэтому для построения значимого уравнения регрессии на втором этапе необходимо принять меры для уменьшения влияния экспериментальных ошибок, например, увеличение количества параллельных опытов. Следует отметить, что подобная рекомендация ранее в специальной литературе не встречалась.
Список литературы О статистической устойчивости оптимального решения, найденного по уравнению регрессии
- Магомедов Г.О., Лобосова Л.А., Рожков С.А., Селина Н.А. Выбор оптимальных параметров получения сбивных изделий без яичного белка // Техника и технология пищевых производств. 2018. Т. 48. № 2. С. 82-88.
- Микулинич М.Л., Болотова П.В. Оптимизация технологических параметров получения сусла с использованием овса голозернового при производстве полисолодовых экстрактов // Вестник Могилевского государственного университета продовольствия. 2020. № 2 (29). С. 44-55.
- Шамкова Н.Т, Тамова М.Ю., Варивода А.А., Шелест Н.С. Математическое моделирование рецептуры овсяного печеья, обогащенного продуктами переработки топинамбура // Новые технологии. 2022. № 3 (18). С. 106-117.
- Микалаускас И.Р., Прейс В.В. Регрессионной анализ степени отжима виноградного сусла в шнековом прессе на основе композиционного плана второго порядка // Известия Тульского государственного университета. Технические науки. 2020. №. 12. С. 451-457.
- Меренкова С.П., Ликсунова А.Д., Меренков А.В., Якимов С.И. Математические методы анализа свойств комбинированных пищевых систем // Вестник Южно-Уральского государственного университета. Серия «Пищевые и биотехнологии». 2020. Т. 8. № 4. С. 46-52.
- Дышлюк Л.С., Просеков А.Ю. Оптимизация с использованием регрессионного анализа технологических параметров процесса экструзии с раздувом // Известия Санкт-Петербургского государственного технологического института. 2018. № 45. С. 123-126.
- Доценко С.М., Гужель Ю.А., Гончарук О.В., Доронин С.В. Кинетика формирования коагуляционной структуры на основе сливочно-морковной композиции // XXI век: итоги прошлого и проблемы настоящего. 2018. Т. 7. № 2 (42). С. 30-33.
- Павлова О.В., Гладкая О.К., Трусова М.М. Влияние условий сорбции на сорбционную активность хитозана // Пищевая промышленность: наука и технологии. 2019. Т. 12. № 4 (46). C. 86-93.
- Невзоров В.Н., Кожухарь Е.Н., Салыхов Д.В., Янова М.А. и др. Оптимизация технологического процесса шелушения зерна пшеницы // Известия ВУЗов. Пищевая технология. 2018. № 1. С. 78-83.
- Malekjani N., Jafari S.M. Food process modeling and optimization by response surface methodology (RSM) // Mathematical and statistical applications in food engineering. 2020. P. 181-203.
- Therdthai N. Modeling and optimization of food processes // Engineering principles of unit operations in food processing. Woodhead Publishing, 2021. P. 419-441.
- Sridhar A. et al. Extraction techniques in food industry: Insights into process parameters and their optimization // Food and Chemical Toxicology. 2022. V. 166. P. 113207.
- Morales-Rivera J. et al. Modeling and optimization of COD removal from cold meat industry wastewater by electrocoagulation using computational techniques // Processes. 2020. V. 8. №. 9. P. 1139.
- Kumari N., Bansal S. Statistical modeling and optimization of microbial phytase production towards utilization as a feed supplement // Biomass Conversion and Biorefinery. 2023. V. 13. №. 9. P. 8339-8349.
- Kamal I. et al. Walnut shell for partial replacement of fine aggregate in concrete: modeling and optimization // Journal of Civil Engineering Research. 2017. V. 7. №. 4. P. 109-119.
- Suresh T. et al. Process intensification and comparison of bioethanol production from food industry waste (potatoes) by ultrasonic assisted acid hydrolysis and enzymatic hydrolysis: Statistical modeling and optimization // Biomass and Bioenergy. 2020. V. 142. P. 105752.
- Chernyaeva S.N., Korobova L.A., Tolstova I.S. et al. Optimization of functioning of crystallization compartment in sugar production // Russian Conference on Digital Economy and Knowledge Management (RuDEcK 2020). Atlantis Press, 2020. P. 140-144. https://doi.org/10.2991/aebmr.k. 200730.026
- Skrypnik L., Novikova A. Response surface modeling and optimization of polyphenols extraction from apple pomace based on nonionic emulsifiers // Agronomy. 2020. V. 10. №. 1. P. 92.
- Pham T.N. et al. Extraction of anthocyanins from Butterfly pea (Clitoria ternatea L. Flowers) in Southern Vietnam: Response surface modeling for optimization of the operation conditions // IOP Conference Series: Materials Science and Engineering. IOP Publishing, 2019. V. 542. №. 1. P. 012032.
- Varank G., Yazici Guvenc S., Demir A. A comparative study of electrocoagulation and electro-Fenton for food industry wastewater treatment: Multiple response optimization and cost analysis // Separation Science and Technology. 2018. V. 53. №. 17. P. 2727-2740.
- Weng Y.K., Chen J., Cheng C.W., Chen C. Use of modern regression analysis in the dielectric properties of foods // Foods. 2020. V. 9. №. 10. P. 1472.
- Черноруцкий И.Г. Методы оптимизации. Компьютерные технологии. СПб.: БХВ-Петербург, 2011. 384 с.
- Чусова А.Е., Бугаев Ю.В., Новиков И.В., Романюк Т.И. и др. Оптимизация параметров экстрагирования дитерпеновых гликозидов из листьев стевии методом математического моделирования // Пищевая промышленность. 2022. № 12. С. 16-21. https://doi.org/10.52653 / PPI.2022.12.12.003
- Bugaev Yu.V., Korobova L.A., Polyanskikh S.V., Egorova G.N. Multi-criteria optimization of food production by an example of optimization of the process of rendering poultry fat in the presence of electroactivated liquid // IOP Conference Series: Earth and Environmental Science. IOP Publishing, 2022. V. 1052. №. 1. P. 012132. https://doi.org/10.1088/1755-1315/1052/1 / 012132
- Егоров И.Н., Кретинин Г.В., Кретинин А.Г. О выборе начального приближения при численном решении задач параметрической оптимизации // Известия высших учебных заведений. Поволжский регион. Физико-математические науки. 2023. № 1. С. 28-39.