Прикладные вопросы классификации с использованием гребневой регрессии

Автор: Кононова Н.В., Мангалова Е.С., Строев А.В., Черданцев Д.В., Чубарова О.В.

Журнал: Сибирский аэрокосмический журнал @vestnik-sibsau

Рубрика: Информатика, вычислительная техника и управление

Статья в выпуске: 2 т.20, 2019 года.

Бесплатный доступ

Бурное развитие технологий и техники обеспечивают возможность мониторинга свойств объектов различной физической природы с очень малой дискретностью. В результате накапливаются большие объемы данных, которые можно использовать с пользой для управления объектом, многосвязной системой, технологическим предприятием. Однако, вне зависимости от сферы деятельности, остаются задачи, связанные с небольшими объемами данных, динамика их накопления зависит от объективных ограничений внешнего мира и окружающей среды. Проводимые исследования касаются данных небольших объемов выборок и размерности признаков объектов, которая может считаться высокой относительно количества изучаемых объектов. В связи с этим возникает задача отбора информативных признаков, что позволит как улучшить качество решения задачи за счет исключения «мусорных» признаков, так и повысить скорость принятие решения, поскольку алгоритмы обычно зависимы от размерности признакового пространства, и упростить процедуру сбора данных (не собирать неинформативные данные). Поскольку количество признаков может быть велико, полный перебор всех пространств признаков оказывается невозможным. Вместо этого для отбора информативных признаков предложен двуступенчатый алгоритм случайного поиска, основанный на применении генетического алгоритма: на первом этапе с ограничением количества признаков в подмножестве для сокращения признакового пространства за счет исключения «мусорных» признаков, на втором этапе - без ограничения, но по сокращенному набору признаков. Исходная формулировка проблемы представляет собой задачу классификации объектов с учителем, когда класс объекта определен экспертом. Значения признаков объектов меняются в зависимости от его состояния, что обусловливает принадлежность тому или иному классу, то есть статистики обладают смещенностью в классе. Без нарушения общности для проведения имитационного моделирования использовалась двухальтернативная постановка задачи классификации с учителем, для генерации обучающих выборок были использованы данные из области медицинской диагностики степени тяжести заболевания.

Еще

Малые выборки, классификация с учителем, ридж-регрессия, квантильное преобразование, мета-классификатор, значимость признаков, генетический алгоритм

Короткий адрес: https://sciup.org/148321905

IDR: 148321905   |   DOI: 10.31772/2587-6066-2019-20-2-153-159

Статья научная