Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Искусственный интеллект

Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации

Автор: Рыбанов А.А., Гнатюк Е.С.

Журнал: Форум молодых ученых @forum-nauka

Статья в выпуске: 3 (7), 2017 года.

Бесплатный доступ

В статье рассмотрены понятия и представлены результаты сравнительного анализа по методу Саати алгоритмов анализа неструктурированной и слабоструктурированной информации.

Неструктурированная информация, слабоструктурированная информация, метод саати

Короткий адрес: https://sciup.org/140278022

IDR: 140278022

Текст научной статьи Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации

Неэффективное управление информацией ведёт к увеличению рисков для различных форм бизнеса: хранение персональных данных и прочей конфиденциальной информации на общедоступных информационных ресурсах, появление подозрительных пользовательских зашифрованных архивов, нарушения политик доступа к важной информации и т.д.

В этих обстоятельствах умение качественно анализировать информацию и оперативно реагировать на любые несоответствия её хранения политикам и требованиям бизнеса является ключевым показателем зрелости информационной стратегии организации.

Слабоструктурированная информация (ССИ) — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа.

К неструктурированной информации (НИ) относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами.

Проведем сравнение алгоритмов анализа неструктурированной и слабоструктурированной информации. К таким алгоритмам относятся следующие:

- алгоритмы поиска ассоциативных правил;
- алгоритмы кластеризации (методом агломерации, деления);
- алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов);
- алгоритмы построения нейросетей и генетические алгоритмы.

В качестве критериев для сравнительного анализа выберем следующие:

1)A₁ – точность разбиения на группы;

2)A 2 – точность прогноза;

3)A₃ – точность нахождения закономерностей;

4)A 4 – анализ плохоформализуемых данных;

5)A 5 – нахождение скрытых закономерностей данных.

Для определения весов критериев воспользуемся аналитической иерархической процедурой Саати[4]. Правила заполнения матрицы парных сравнений представлены в таблице 1 .

Таблица 1. Значения коэффициентов матрицы парных сравнений

X ij	Значение
1	i -ый и j -ый критерий примерно равноценны
3	i -ый критерий немного предпочтительнее j -го
5	i -ый критерий предпочтительнее j -го
7	i -ый критерий значительно предпочтительнее j -го
9	i -ый критерий явно предпочтительнее j -го

Матрица парных сравнений, средние геометрические и веса критериев представлены в таблице 2.

Таблица 2. Матрица парных сравнений, средние геометрические и веса критериев

	А1	A2	A3	A4	A5	Среднее геометрическое	Веса критериев
A1	1	1/3	3	7	5	0,93	0,14
A2	3	1	5	9	7	3,94	0,40
A3	1/3	1/5	1	5	7	1,18	0,18
A4	1/7	1/9	1/5	1	5	0,44	0,06
A5	1/5	1/7	1/7	1/5	1	0,24	0,04
Сумма						6,73	1,00

Диаграмма весовых коэффициентов для критериев A₁ , A₂ , A₃ , A₄ , A₅

представлена на рис. 1.

■ А1-Точность разбиения на группы;

■ А2-Точность прогноза;
- АЗ-Точность нахождения закономерностей;
■ А4-Анализплохоформализуемых данных;
■ А5-Нахождение скрытых закономерностей данных.

Рис. 1. Весовые коэффициенты критериев качества

Проведем проверку матрицы попарных сравнений на непротиворечивость[2, 5].

Суммы столбцов матрицы парных сравнений:

R 1 =4,68; R 2 =1,79; R 3 =9,34; R 4 =15,34; R 5 =25.

Путем суммирования произведений сумм столбцов матрицы на весовые коэффициенты альтернатив рассчитывается вспомогательная величина L = 5,23. Индексом согласованности (CI – Consistency Index)

CI =

L-N

N-1

= 0.2

Величина случайной согласованности (RI – Random Index) для размерности матрицы парных сравнений: RI = 1.12.

Отношение согласованности (CR – Consistency Ratio)

CR = = 0.18

0.18 не превышает 0.2, поэтому уточнение матрицы парных сравнений не требуется[3].

Используя полученные коэффициенты определим интегральный показатель качества для алгоритмов:

1. Алгоритмы поиска ассоциативных правил.
2. Алгоритмы кластеризации (методом агломерации, деления).
3. Алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов).
4. Алгоритмы построения нейросетей и генетические алгоритмы.

Выберем категориальную шкалу от 0 до 7 (где 0 – качество не удовлетворительно, 7 – предельно достижимый уровень качества на современном этапе) для функциональных возможностей программных продуктов.

Значения весовых коэффициентов ai соответствующие функциональным возможностям продуктов:

1. анализ слабоструктурированной информации: a₂ = 0.4;
2. анализ неструктурированной информации: a 1 = 0.36;
3. классификация документов по представленным категориям: a₃ = 0.15;
4. генерация тематической структуры исследуемого текста: a₄ = 0.06;
5. извлечение информации по конкретным объектам: a 5 = 0.03.

Определим (по введенной шкале) количественные значения функциональных возможностей X_i j ( таблица 3 ). Вычислим интегральный показатель качества для каждого программного продукта[3].

Таблица 3. Интегральные показатели качества

Критерии Веса Алгорит мы поиска ассоциат ивных правил Алгоритм ы кластериз ации Алгоритмы задач классификации и регрессии Алгоритмы построения нейросетей и генетические алгоритмы Базовые значения Точность разбиения на группы 0,14 6 6 4 6 4,4 Точность прогноза 0,58 0 0 0 0 0 Точность нахождения закономернос тей 0,18 3 3 5 7 3,6 Анализ плохоформал изуемых данных 0,06 0 0 0 7 1,4 Нахождение скрытых закономернос тей данных 0,04 5 3 7 7 4,4 Интегральный показатель качества Q 1,54 1,47 1,69 2,77 1,49 где Qj=∑ai*Xij интегральный показатель качества для j-го программного средства[4].

Построим лепестковую диаграмму интегрального показателя качества каждого программного продукта (рис. 2).

Алгоритмы поиска

Алгоритмы построения нейросетей и генетические алгоритмы

регрессии

Рис. 2. Лепестковая диаграмма интегральных показателей качества

Алгоритмы кластеризации

алгоритмов

Лепестковая диаграмма значений характеристик качества функциональных возможностей (критериев) представлена на рисунке 3.

■^■Алгоритмы поиска ассоциативных правил

^^■Алгоритмы кластеризации

■ * -Алгоритмы задач классификации и регрессии

■^Алгоритмы построения нейросетей и генетические алгоритмы

Рис. 3. Лепестковая диаграмма значений функциональных характеристик

Сравнительный анализ алгоритмов анализа неструктурированной и слабоструктурированной информации показал, что три из четырех рассмотренных алгоритмов имеют значения интегрального показателя качества, превышающего базовое значение, - алгоритмы поиска ассоциативных правил, алгоритмы кластеризации, алгоритмы построения нейросетей и генетические алгоритмы. Из расчетов и графика интегральных показателей качества программных продуктов видно, что наибольший интегральный показатель качества имеет группа алгоритмов построения нейросетей и генетических алгоритмов.

Список литературы Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации

Лакаев А.С. Разработка интеллектуальных технологий и методов обработки неструктурированной информации // NovaInfo.Ru. 2013. Т. 1. № 27. С. 18-19.
Макаров И.Е. Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах // Интеллектуальные системы. 2013. № 12. С. 48-49.
Макаров И.Е. Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации // Интеллектуальные системы. 2014. № 10. С. 26-27.
Рыбанов А. Определение весовых коэффициентов сложности учебного курса на основе алгоритма Саати // Педагогические измерения. 2014. № 4. С. 21-28.
Средства анализа структурированной и неструктурированной информации [Электронный ресурс] - Режим доступа: http://www.mlg.ru/company/pr/1132
Двенадцать шагов к анализу неструктурированных данных [Электронный ресурс] - Режим доступа: https://www.pcweek.ru/idea/article/detail.php?ID=170744
Кондрацкий Д.Е., Рыбанов А.А. Исследование методов и алгоритмов автоматизированной системы оценки альтернативных вариантов методом Т.Саати//NovaInfo.Ru. 2016. Т. 3. № 46. С. 107-116.
Морозов А.О., Рыбанов А.А. Экспертная оценка программных продуктов для расчета метрических характеристик физической схемы базы данных//Современные научные исследования и инновации. 2015. № 1-1 (45). С. 97-102.
Rybanov A.A. Educational information quantization for improving content quality in learning management systems//Turkish Online Journal of Distance Education. 2014. Т. 15. № 4. С. 303-321.
Рыбанов А.А., Усмонов М.С.О., Попов Ф.А., Ануфриева Н.Ю., Бубарева О.А. Информационные системы и технологии/Научный ред. И. А. Рудакова/Центр научной мысли (г. Таганрог). Москва, 2013. Том Часть 4. -90 с.
Рыбанов А.А. Моделирование динамики процесса формирования ответов на тестовые задания закрытой формы при дистанционном тестировании знаний//Открытое образование. 2006. № 6. С. 43-50.
Рыбанов А.А. Количественные оценки эффективности процесса формирования ответов на теcтовые задания при дистанционном тестировании знаний//Качество. Инновации. Образование. 2006. №5. С. 44-52.

Еще