Выбор метода для обработки данных выброса вредных веществ автотранспортом карьера при формировании внутреннего отвала

Автор: Фролов Сергей Викторович

Журнал: Горные науки и технологии @gornye-nauki-tekhnologii

Статья в выпуске: 1, 2012 года.

Бесплатный доступ

Существуют различные методы определения существенности влияния факторов на зависимую переменную. Одной из важных особенностей, проявляющихся при анализе множественных связей и выделении значимых факторов, является мультиколлинеарность, когда один или несколько аргументов имеют высокий линейный коэффициент корреляции (r > 0,95) с другими аргументами. В этом случае система нормальных уравнений становится неопределенной, ее матрица вырожденной и - коэффициенты не могут быть однозначно определены. При составлении многофакторной регрессионной модели необходимо, прежде всего, освободиться от каждого аргумента, линейно зависящего от множества остальных аргументов, иначе модель окажется ненадежной, и за точность найденных коэффициентов регрессии нельзя будет поручиться.

Еще

Мультиколлинеарность, линейный коэффициент корреляции, факторы, значимые факторы, многофакторная регрессионная модель

Короткий адрес: https://sciup.org/140215407

IDR: 140215407

Текст научной статьи Выбор метода для обработки данных выброса вредных веществ автотранспортом карьера при формировании внутреннего отвала

Эффективное управление любым промышленным объектом возможно только в том случае, когда основные закономерности, присущие объекту, представлены в виде математического описания. Математическое описание или идентификация объекта является основой для решения целого комплекса задач.

В общем виде математическое описание представляет собой совокупность уравнений и ограничений, которые в количественной форме описывают статические и динамические связи между параметрами объекта. Процессы формирования внутреннего отвала представляют собой сложный объект, входные и выходные переменные которых, а также параметры, характеризующие внутреннее состояние объекта, зависят от многочисленных, зачастую трудно различимых факторов. Поэтому получение адекватного математического описания представляет собой весьма сложную задачу. Кроме того, изучению и моделированию обычно подлежат не сами по себе промышленные объекты с их конструктивными, физическими и технологическими особенностями, а их свойства, отраженные в значениях основных показателей и во взаимозависимостях, существующих между ними.

Существует два подхода к математическому описанию свойств объектов: детерминированный и статистический.

В основе первого лежат теоретические представления о природе исследуемого процесса. Искомые уравнения связи выводятся на основе рассмотрения физических закономерностей явлений, протекающих в объекте, с использованием различных математических методов. Однако никакое теоретическое рассмотрение не в состоянии учесть все многообразие реально действующих факторов и условий, а потому теоретическое математическое описание в значительной степени утрачивает силу при переходе к реальным условиям промышленного объекта.

Статистический подход основан на обработке экспериментальных данных, полученных непосредственно на действующем объекте методами теории вероятностей и математической статистики. В зависимости от способа получения экспериментальных данных статистические методы можно разделить на активные и пассивные.

Активный эксперимент основан на внесении в объект искусственных возмущений по заранее спланированной программе. Однако в производственных условиях активный эксперимент имеет ряд существенных ограничений. Чтобы исследуемый эффект не затерялся в естественном шуме, величина возмущений должна быть значительной, что сопряжено с опасностью нарушения технологического процесса. Кроме того, в конкретном производстве часто имеются неуправляемые параметры, которые важно включить в рассмотрение и использовать при конструировании модели.

При пассивном эксперименте осуществляется регистрация текущих производственных параметров в режиме нормальной работы объекта без внесения преднамеренных возмущений. Хотя этот способ и увеличивает продолжительность эксперимента, он может оказаться единственно возможным, когда обследованию подвергается объект с непрерывным производственным процессом. Преимуществом этого способа является возможность рассматривать данные производственно-технической документации как поставленные массовые опыты.

Метод множественной регрессии по существу сочетает два математических метода: широко известный метод наименьших квадратов и метод статистической оценки параметров. На их основе возможно не только провести полный статистический анализ эмпирического уравнения регрессии, но и изучить опосредованные связи показателей и факторов, т.е. такие связи, когда имеется большая цепь причин и следствий между ними и осуществить "прямой" расчет невозможно. Такой анализ является основой для технической интерпретации и практического использования математического описания исследуемого объекта.

Имеющееся иногда скептическое отношение к методу множественной регрессии как средству идентификации промышленных объектов вызвано, как правило, механическим приложением классической схемы регрессионного анализа к решению задачи моделирования без учета специфических особенностей производственных условий. Анализ многочисленных публикаций по практическому применению метода множественной регрессии показывает, что эти особенности весьма существенны и их нельзя недооценивать без риска получить отрицательный результат. К основным из них относятся:

  • •    сравнительно низкая точность промышленных методов контроля показателей;

  • •    непрерывный характер изменения технологических переменных;

  • •    инерционный характер процессов и значительные запаздывания в объекте;

  • •    узкие диапазоны изменения технологических параметров, зачастую соизмеримые с погрешностью приборов контроля;

  • •    неконтролируемые изменения некоторых характеристик процесса и перестройка режимов при переходе на новую номенклатуру продукции.

Вне зависимости от физической сущности явлений, происходящих в исследуемом процессе, мы всегда имеем дело только с информацией о материальных потоках в виде технических или экономических показателей. Поэтому любой объект можно рассматривать как преобразователь входной информации в выходную. Всю совокупность параметров, определяющих текущее состояние объекта, можно разбить на три группы:

  • 1.    Группа Х = ( x 1 , x 2 , ..., x k ). К этой группе относятся входные

  • 2.    Группа Y = (y 1 , y 2 , ..., y n ) — выходные параметры, которые

  • 3.    Третью группу Z = (z 1 , z 2 , ..., z m ) образуют неконтролируемые

параметры, характеризующие количество и качество перерабатываемых продуктов, а также управляемые параметры, при помощи которых персонал поддерживает требуемый технологический режим работы. Значения этих параметров лимитируются технологическим регламентом процесса xi min   xi   xi max ; i = 1, 2, …, k

характеризуют либо показатели процесса, либо обобщенные показатели экономической эффективности работы объекта. В режиме управления показателями сложного процесса требуется найти такие значения X, лежащие внутри соответствующих ограничений, при которых параметры Y принимают свои экстремальные значения или не выходят за пределы заданного интервала.

параметры. Они характеризуют действие возмущающих факторов, таких, как износ оборудования, случайные колебания состава исходных продуктов и т.п., а также влияние тех переменных процесса, которые недоступны количественному измерению.

Для переменных, определяющих текущее состояние объекта можно принять следующие допущения:

  • •    изменения каждого контролируемого параметра группы X представляют собой нормально распределенный случайный стационарный процесс;

  • •    каждый параметр группы Z характеризует случайно и независимо действующий фактор, среди которых нет доминирующих;

  • •    все параметры группы Z не коррелированны с контролируемыми параметрами и их изменения представляют стационарный случайный процесс с нулевым математическим ожиданием.

Как показали исследования введенные допущения достаточно реальны и выполняются для большинства промышленных объектов.

Статическое математическое описание определяет связь между соответствующими мгновенными значениями переменной у и переменных х1, ..., х2. В общем виде эту связь для сложного объекта можно представить совокупностью уравнений вида yj(t) = fj[xi(t), -, xk(t), Zi(t), ..., Zm(t)]                                 (1)

где j = 1,..., n — число выходных переменных объекта.

Поскольку согласно допущениям каждый параметр zi, ..., zm характеризует случайно и независимо действующий фактор, не коррелированный с входными переменными, то каждое уравнение совокупности (9) можно привести к виду yj(t) = f[xi(t), ..., Xk(t)] + j[zi(t), „., Zm(t)]=f[xi(t), ..., x()] +e(t)     (2)

где e(t) — эквивалентный шум, приведенный к выходу объекта и заменяющий действие всех неконтролируемых параметров. Шум e нарушает однозначность связи между переменными у и x i , ..., x k и поэтому его можно рассматривать только в вероятностном смысле.

Поскольку эквивалентный шум вызывается множеством случайно и независимо действующих факторов z , то можно считать, что e(t) является случайным процессом с нулевым математическим ожиданием и нормальным законом распределения. Тогда математическое ожидание выходной переменной M[y]=f(x i , ..., x k )

Для практических целей зависимость f(x i , .... x k ) удобнее выразить в виде полинома:

У = f x i ,..., xk =^^jxj ^LPjnXjXn + -            (3)

j

В общем случае полином (3) может быть какого угодно порядка, однако, как показывают исследования, для построения математической модели объекта достаточно ограничиться вторым – третьим порядком. Выбор порядка и формирование вида полинома (3) являются наиболее важными и ответственными этапами в задаче построения математического описания объекта. Поскольку обычно вид зависимости f(x i ,  ..., x k )

неизвестен, можно пойти по формальному пути: представить f(x i , ..., x k ) в виде полинома достаточно высокого порядка, найти оценки всех его коэффициентов, а затем, отбрасывая с помощью статистических критериев незначимые члены, остановиться на полиноме, который с приемлемой для практических целей точностью аппроксимирует неизвестную зависимость.

Однако такой подход имеет ряд серьезных недостатков. Во-первых, чем больше членов в модели (3), тем больше опытов необходимо иметь в матрице наблюдений, чтобы получить оценки Рс с приемлемой точностью и тем продолжительнее и дороже будет эксперимент по сбору статистических данных. Во-вторых, с увеличением порядка полинома увеличивается корреляция между переменными, присутствующими в уравнении (3) что в свою очередь снижает чувствительность статистических критериев оценки коэффициентов уравнения. Как следствие этого, полученный путем отбрасывания незначимых членов полином по составу переменных может существенно отличаться от действительной зависимости, а это приведет к неверным выводам при интерпретации математического описания.

С учетом изложенного, более целесообразным является подход по использованию априорной информации о процессе, содержащейся в практическом опыте энергетиков и технологов, знакомых с исследуемым процессом. В этом случае в модель (3) вводятся не все члены полинома выбранной степени, а только те из них, которые отобраны как существенные по результатам оценки специалистов. При этом могут быть использованы методы объективной оценки субъективных мнений, например, методы ранговой корреляции, факторного анализа, парных сравнений и др.

Независимо от используемых методов специфические особенности конкретных производственных условий требуют разработки и соблюдения специальных способов, обеспечивающих корректность аппарата множественной регрессии для построения математического описания объекта. Ниже рассмотрен ряд методических вопросов, способствующих эффективному применению этого математического аппарата.

При построении математического описания процесса формирования отвала помимо определения целей исследования, выбора объекта и формализации задачи важнейшим этапом является выделение основных параметров, характеризующих процесс. В общем случае формирование набора факторов носит характер последовательно уточняемой гипотезы. Основанием для выдвижения первоначальной гипотезы служат теория моделируемого процесса, результаты предшествующих исследований, профессиональный опыт специалистов.

Поскольку между отдельными параметрами и исследуемым процессом, как правило, не существует строго функциональной зависимости, задача оценки влияния факторов на электропотребление сводится к определению тесноты стохастической связи между ними. Существуют различные методы определения существенности влияния факторов на зависимую переменную: с использованием коэффициентов парной корреляции   ryx, стандартизованных коэффициентов рi, диапазона изменчивости зависимой переменной под влиянием колебания факторов хi, коэффициентов частной корреляции ryx, t — критерия Стьюдента и др.

Одной из важных особенностей, проявляющихся при анализе множественных связей и выделении значимых факторов, является мультиколлинеарность, когда один или несколько аргументов имеют высокий линейный коэффициент корреляции (r > 0,95) с другими аргументами. В этом случае система нормальных уравнений становится неопределенной, ее матрица вырожденной и р-коэффициенты не могут быть однозначно определены. Сказанное справедливо по отношению к генеральной совокупности. Однако на практике мы имеем дело не с генеральной совокупностью, а с выборкой и при расчетах по выборке получаем не сами параметры, а их статистические оценки, отличающиеся от величины параметров. Вследствие этого система нормальных уравнений может оказаться однозначно разрешимой, но полученная модель будет зависеть только от ошибок, вытекающих из выборочного характера оценок и отражать случайность выборки, а не истинный смысл исследуемого процесса.

Таким образом, при составлении многофакторной регрессионной модели необходимо, прежде всего, освободиться от каждого аргумента, линейно зависящего от множества остальных аргументов, иначе модель окажется ненадежной, и за точность найденных коэффициентов регрессии нельзя будет поручиться.

Широкое распространение при оценке степени взаимосвязи между различными параметрами получили методы корреляционного анализа, которые заключаются в определении нескольких разновидностей коэффициента корреляции (парная, частная и множественная корреляции). По парному коэффициенту корреляции можно определить в какой мере между некоторыми параметрами х и у соблюдается строгая пропорциональность, т.е. зависимость между исследуемыми величинами при использовании корреляционного анализа предполагается линейной, что является частным случаем и практически встречается достаточно редко. И даже наличие высокого значения коэффициента корреляции еще не указывает на причинную связь, т.е. при помощи коэффициента корреляции нельзя определить, является ли величина х 1 причинно обусловленной величиной х 2 или же их связь объясняется тем, что обе они причинно обусловлены другими факторами. Значит, зависимость между любыми двумя признаками при их числе более двух может возникнуть и по той причине, что оба фактора в большей или меньшей степени подвержены воздействию третьего.

Обычно для исключения влияния третьей случайной величины на две другие, рассчитывают частные коэффициенты корреляции. Из характера многомерного нормального распределения следует вывод о симметричности отношений между исследуемыми переменными, т.е. никакая из переменных не является доминирующей. Следовательно, для случая парной корреляции r yx = r (для множественной л yx = л xy ). Но такая симметрия отношений возможна лишь в двух случаях:

  • 1.    когда у есть аналитическая функция у от х или наоборот;

  • 2.    когда корреляционная связь вообще отсутствует, т.е. л yx = л xy = 0

Таким образом, частный коэффициент корреляции, по своему определению не несет никакой информации о существовании причинных отношений. Это обстоятельство крайне важно, поскольку трактовка частного коэффициента корреляции как коэффициента связи между двумя переменными при изоляции влияния на них третьей переменной или группы переменных распространена очень широко. Поэтому попытка подсчитать как можно большее количество частных коэффициентов корреляции для анализа возможных связей не имеет смысла. Кроме того, она просто не выполнима для задач с большим количеством переменных.

Не случайно, поэтому более надежными показателями при оценке влияния отдельных факторов на моделируемый показатель считаются коэффициент детерминации R2 и стандартизованные коэффициенты регрессии р i .

Коэффициент детерминации, равный отношению дисперсии, складывающейся под влиянием исследуемых факторов, к общей дисперсии, показывает, какую долю общей вариации анализируемого показателя составляет колеблемость от факторов, включенных в уравнение регрессии. Соответственно величина 1-R2 характеризует долю вариации за счет неучтенных факторов. Сравнивая величины R2 при включении в модель нового фактора можно судить о степени их влияния. Принято считать, что чем больше величина коэффициента детерминации, тем лучше подобранная зависимость объясняет вариацию данных.

Однако рост R2 при увеличении количества исследуемых факторов может быть чисто иллюзорным, так как введение в модель тех факторов, которые никак не связаны с моделируемым показателем, по крайней мере, не уменьшает этого коэффициента. Кроме того, если число наблюдений значительно больше, чем число переменных, которые потенциально могут быть рассмотрены, то добавление новой переменной будет всегда повышать R 2 , но не обязательно будет повышаться точность самой модели.

Использование коэффициентов $ для оценки степени влияния факторов на моделируемый показатель основано на анализе их значений в стандартизованном уравнении регрессии (3). Поскольку уравнение регрессии для стандартизованных переменных не имеет свободного члена, то соответствующий /^-коэффициент характеризует изменение исследуемого показателя в зависимости от изменения одного фактора при постоянном уровне остальных, т.е. появляется возможность сравнить степень взаимосвязи между отдельными факторами и изучаемым показателем. Направление эффекта, вызванного изменением xi определяется знаком перед коэффициентом i, а величина эффекта пропорциональна абсолютному значению коэффициента Д.

Основываясь на проверке основных гипотез о существенности связи между у и х1, ..., xk (например t — критерий Стьюдента, F - критерий Фишера) делается заключение о наличие или отсутствии такой связи. Так, если расчетное значение F - критерия, равное n v2 yi

рас.        v2 П i I n где у, — значение у, рассчитанное по эмпирическому уравнению регрессии для х; i= 1,..., n;

k — число степеней свободы, больше взятого из таблиц значения F (k, п-k), то гипотеза H: В = 0 отбрасывается, и, следовательно, с вероятностью Р=1-а можно утверждать, что в исследуемом уравнении (3) переменная у регрессионно связана хотя бы с одной переменной из числа х1,..., хk Если же Fpac.

Принято считать, что отбор аргументов, произведенный на основе, во-первых, устранения мультиколлинеарности и, во-вторых, сохранения только существенных и линейно-независимых -коэффициентов приводит к достаточно точным и надежным моделям.

Список литературы Выбор метода для обработки данных выброса вредных веществ автотранспортом карьера при формировании внутреннего отвала

  • Бахвалов Л.А., Комаров М.А. Построение и оптимизация математических моделей по экспериментальным данным. -М.: Изд-во МГГУ, 1997.
  • Бородюк В.П., Лецкий Э.К. Статистическое описание промышленных объектов. -М.: Энергия, 1971.
  • Полак Э. Численные методы оптимизации. Единый подход. -М.: Мир, 1974.
  • Резниченко С.С., Ашихмин А.А. Математические методы и моделирование в горной промышленности. -М.: Изд-во МГГУ, 1997.
  • Резниченко С. С., Подольский М. П., Ашихмин А. А. Экономико-математические методы и моделирование в планировании и управлении горным производством. -М.: Недра, 1991.
Статья научная