PMML - инструмент интеллектуальной обработки данных
Автор: Пальмов С.В., Артюшкина Е.С.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 2 (42), 2020 года.
Бесплатный доступ
В настоящее время разработано большее количество инструментов для анализа данных. Эффективность применения варьируется в зависимости от предметной области, что порождает проблему выбора наилучшего из них. В статье кратко рассмотрен PMML - язык для представления и обмена моделями на основе методов искусственного интеллекта между приложениями. Дана его положительная характеристика как инструмента разработки качественных решений в области анализа и обработки данных.
Искусственный интеллект, обработка данных, интеллектуальный анализ, ассоциативные правила
Короткий адрес: https://sciup.org/140287619
IDR: 140287619
Текст научной статьи PMML - инструмент интеллектуальной обработки данных
PMML - язык разметки для прогнозного моделирования (Predictive Model Markup Language) представляет собой XML-подобный язык, реализующий возможность определения и обмена моделям, включая созданными посредством искусственного интеллекта, между приложениями. Последние, естественно, должны поддерживать упомянутый функционал [6] .
В PMML отсутствует привязка к определенному производителю, что заметно упрощает работу с моделями: их создание может быть выполнено в приложении П 1 , а использоваться они будут в П 2 ... П n . Структура модели представляется при помощи XML-схемы (описание типа документа, обычно выражаемое в терминах ограничений на структуру и содержимое документов этого типа, помимо базовых синтаксических ограничений, налагаемых самим XML).
Последняя версия (PMML 4.4) [2] , выпущенная в 2019 году, позволяет создавать такие модели, как:
-
• Детектирование аномалий.
-
• Ассоциативные правила.
-
• Байесовские классификатор и сети.
Кластеризационные.
Нейросетевые.
• Деревья решений и т.д.
Выделяют следующие основные элементы моделей:
Таблица. Элементы модели PMML
Название элемента |
Краткое описание |
Заголовок |
Общая информация о документе (дата, название, версия, автор и т.д.) |
Словарь данных |
Задает определения всех полей в модели |
Преобразование данных |
Задает преобразование используемых данных (например, преобразование данных непрерывного типа к дискретному) |
Модель |
Содержит определенную модель (см. выше). PMML-документ может содержать более одной модели. Например, ансамбль деревьев решений с последующей взвешенной группировкой результатов |
Схема обработки |
Перечень всех полей модели с указанием конкретных сведений о каждом из них |
Цели |
Постобработка целевого показателя |
Вывод |
Настройка требований к целевому показателю |
Рассмотрим, как будет выглядеть в общих чертах модель «Ассоциативные правила» [5] . Она содержит следующую базовую информацию:
-
1) Атрибуты модели.
-
2) Элементы.
-
3) Наборы элементов.
-
4) Ассоциативные правила.
Количество наборов элементов и ассоциативных правил не лимитировано; первые должны предшествовать вторым.
Для атрибутов доступны следующие характеристики:
-
• Количество транзакций во входных данных.
-
• Количество элементов в самой большой транзакции.
-
• Среднее количество элементов в транзакции.
-
• Значение минимальной поддержки для правил.
-
• Предельная сложность правил.
-
• Количество наборов элементов в модели.
-
• Количество правил в модели.
Элементы описываются характеристиками, перечисленными далее:
-
• Уникальный идентификатор элемента.
-
• Значение элемента.
-
• Преобразованное значение элемента.
-
• Вес элемента.
Кроме этого, присутствуют дополнительные необязательные характеристики «Поле» и «Категория», которые позволяют однозначно связать элементы с данными. Первые два элемента в последнем перечне должны быть уникальными. В случае, если второй элемент таковым не является, необходимо уточнить его посредством приведенных дополнительных характеристик; значения трех характеристик не могут быть одинаковыми. «Преобразованное значение элемента» допускает наличие неуникальных значений.
Наборы элементов описываются следующими характеристиками:
-
• Уникальный идентификатор набора элемента.
-
• Поддержка набора элементов (относительная частота
встречаемости набора элементов среди всех транзакций).
-
• Количество элементов в наборе.
-
• Ссылка на тип элемента.
Далее задаются ассоциативные правила в формате «условие – следствие». Характеристики представлены ниже:
-
• Идентификатор набора элементов, который является условием
правила. Обозначим его как У .
-
• Идентификатор набора элементов, который является следствием
правила. Обозначим его как С .
-
• Поддержка правила (относительная частота транзакций,
содержащих У и С ).
-
• Достоверность правила (отношение поддержки правила к
поддержке набора элементов У ).
-
• Лифт. Мера «интереса» правила. Значение, превышающее
единицу, указывает на то, что в транзакциях с УС встречается чаще, чем без У .
-
• Балансировка [1] . Еще одна мера «интереса». Ассоциативное правило с высокой частотой и низким лифтом может представлять больший интерес, чем правило с более низкой частотой, но с более высоким значением лифта. Первое может оказаться полезнее, ибо применимо к большему числу случаев. Балансировка рассчитывается как разность между относительной частотой встречаемости (поддержки) правила «Если У то С » и произведением поддержек наборов У и С .
-
• Сходство (affinity, коэффициент Жаккара) [4] . Рассчитывается как отношение поддержки набора, содержащего элементы У и С , к сумме поддержек наборов, содержащих У или С , но не оба элемента сразу. Позволяет оценить сходство между элементами двух наборов.
-
• Уникальный идентификатор ассоциативного правила.
Как видно из представленного описания, модель указанного типа обладает достаточно большим числом характеристик, что делает возможным ее эффективное практическое применение. Следовательно, PMML представляет собой не просто «удобный формат» обмена моделями между приложениями, но и инструмент, позволяющий обеспечить разработку качественных решений в области анализа и обработки данных.
Список литературы PMML - инструмент интеллектуальной обработки данных
- Commonly Used Interest Measures for Association Rules [Электронный ресурс]. URL: https://michael.hahsler.net/research/recommender/associationrules.html (дата обращения: 12.02.2020).
- PMML Version 4.4 [Электронный ресурс]. URL: http://dmg.org/pmml/pmml-v4-4.html (дата обращения: 12.02.2020).
- Sarmento Rui, Costa Vera. An Overview of Statistical Data Analysis [Электронный ресурс]. URL:https://www.researchgate.net/publication/335290671_An_Overview_of_Statistical_Data_Analysis (дата обращения: 12.02.2020).
- Коэффициент Жаккара [Электронный ресурс]. URL: https://dic.academic.ru/dic.nsf/ruwiki/1812572 (дата обращения: 12.02.2020).
- Пальмов С.В. Обзор алгоритмов поиска ассоциативных правил // Наука и бизнес: пути развития. - 2016. - №10(64). - С.77-80.
- Язык разметки прогнозного моделирования [Электронный ресурс]. URL: https://ru.wikipedia.org/wiki/Язык_разметки_прогнозного_моделирования (дата обращения: 12.02.2020).