Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации
Автор: Рыбанов А.А., Гнатюк Е.С.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 3 (7), 2017 года.
Бесплатный доступ
В статье рассмотрены понятия и представлены результаты сравнительного анализа по методу Саати алгоритмов анализа неструктурированной и слабоструктурированной информации.
Неструктурированная информация, слабоструктурированная информация, метод саати
Короткий адрес: https://sciup.org/140278022
IDR: 140278022
Текст научной статьи Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации
Неэффективное управление информацией ведёт к увеличению рисков для различных форм бизнеса: хранение персональных данных и прочей конфиденциальной информации на общедоступных информационных ресурсах, появление подозрительных пользовательских зашифрованных архивов, нарушения политик доступа к важной информации и т.д.
В этих обстоятельствах умение качественно анализировать информацию и оперативно реагировать на любые несоответствия её хранения политикам и требованиям бизнеса является ключевым показателем зрелости информационной стратегии организации.
Слабоструктурированная информация (ССИ) — это данные, для которых определены некоторые правила и форматы, но в самом общем виде. Например, строка с адресом, строка в прайс-листе, ФИО и т. п. В отличие от неструктурированных, такие данные с меньшими усилиями преобразуются к структурированной форме, однако без процедуры преобразования они тоже непригодны для анализа.
К неструктурированной информации (НИ) относятся данные, произвольные по форме, включающие тексты и графику, мультимедиа (видео, речь, аудио). Эта форма представления данных широко используется, например, в Интернете, а сами данные предоставляются пользователю в виде отклика поисковыми системами.
Проведем сравнение алгоритмов анализа неструктурированной и слабоструктурированной информации. К таким алгоритмам относятся следующие:
-
- алгоритмы поиска ассоциативных правил;
-
- алгоритмы кластеризации (методом агломерации, деления);
-
- алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов);
-
- алгоритмы построения нейросетей и генетические алгоритмы.
В качестве критериев для сравнительного анализа выберем следующие:
1)A1 – точность разбиения на группы;
2)A 2 – точность прогноза;
3)A3 – точность нахождения закономерностей;
4)A 4 – анализ плохоформализуемых данных;
5)A 5 – нахождение скрытых закономерностей данных.
Для определения весов критериев воспользуемся аналитической иерархической процедурой Саати[4]. Правила заполнения матрицы парных сравнений представлены в таблице 1 .
Таблица 1. Значения коэффициентов матрицы парных сравнений
X ij |
Значение |
1 |
i -ый и j -ый критерий примерно равноценны |
3 |
i -ый критерий немного предпочтительнее j -го |
5 |
i -ый критерий предпочтительнее j -го |
7 |
i -ый критерий значительно предпочтительнее j -го |
9 |
i -ый критерий явно предпочтительнее j -го |
Матрица парных сравнений, средние геометрические и веса критериев представлены в таблице 2.
Таблица 2. Матрица парных сравнений, средние геометрические и веса критериев
А1 |
A2 |
A3 |
A4 |
A5 |
Среднее геометрическое |
Веса критериев |
|
A1 |
1 |
1/3 |
3 |
7 |
5 |
0,93 |
0,14 |
A2 |
3 |
1 |
5 |
9 |
7 |
3,94 |
0,40 |
A3 |
1/3 |
1/5 |
1 |
5 |
7 |
1,18 |
0,18 |
A4 |
1/7 |
1/9 |
1/5 |
1 |
5 |
0,44 |
0,06 |
A5 |
1/5 |
1/7 |
1/7 |
1/5 |
1 |
0,24 |
0,04 |
Сумма |
6,73 |
1,00 |
Диаграмма весовых коэффициентов для критериев A1 , A2 , A3 , A4 , A5
представлена на рис. 1.

■ А1-Точность разбиения на группы;
-
■ А2-Точность прогноза;
-
- АЗ-Точность нахождения закономерностей;
-
■ А4-Анализплохоформализуемых данных;
-
■ А5-Нахождение скрытых закономерностей данных.
Рис. 1. Весовые коэффициенты критериев качества
Проведем проверку матрицы попарных сравнений на непротиворечивость[2, 5].
Суммы столбцов матрицы парных сравнений:
R 1 =4,68; R 2 =1,79; R 3 =9,34; R 4 =15,34; R 5 =25.
Путем суммирования произведений сумм столбцов матрицы на весовые коэффициенты альтернатив рассчитывается вспомогательная величина L = 5,23. Индексом согласованности (CI – Consistency Index)
CI =
L-N
N-1
= 0.2
Величина случайной согласованности (RI – Random Index) для размерности матрицы парных сравнений: RI = 1.12.
Отношение согласованности (CR – Consistency Ratio)
CI
CR = = 0.18
0.18 не превышает 0.2, поэтому уточнение матрицы парных сравнений не требуется[3].
Используя полученные коэффициенты определим интегральный показатель качества для алгоритмов:
-
1. Алгоритмы поиска ассоциативных правил.
-
2. Алгоритмы кластеризации (методом агломерации, деления).
-
3. Алгоритмы задач классификации и регрессии (в т.ч. прогнозирование временных рядов).
-
4. Алгоритмы построения нейросетей и генетические алгоритмы.
Выберем категориальную шкалу от 0 до 7 (где 0 – качество не удовлетворительно, 7 – предельно достижимый уровень качества на современном этапе) для функциональных возможностей программных продуктов.
Значения весовых коэффициентов ai соответствующие функциональным возможностям продуктов:
-
1. анализ слабоструктурированной информации: a2 = 0.4;
-
2. анализ неструктурированной информации: a 1 = 0.36;
-
3. классификация документов по представленным категориям: a3 = 0.15;
-
4. генерация тематической структуры исследуемого текста: a4 = 0.06;
-
5. извлечение информации по конкретным объектам: a 5 = 0.03.
Определим (по введенной шкале) количественные значения функциональных возможностей Xi j ( таблица 3 ). Вычислим интегральный показатель качества для каждого программного продукта[3].
Таблица 3. Интегральные показатели качества
Построим лепестковую диаграмму интегрального показателя качества каждого программного продукта (рис. 2).
Алгоритмы поиска
Алгоритмы построения нейросетей и генетические алгоритмы

регрессии
Рис. 2. Лепестковая диаграмма интегральных показателей качества
Алгоритмы кластеризации
алгоритмов
Лепестковая диаграмма значений характеристик качества функциональных возможностей (критериев) представлена на рисунке 3.

■^■Алгоритмы поиска ассоциативных правил
^^■Алгоритмы кластеризации
■ * -Алгоритмы задач классификации и регрессии
■^Алгоритмы построения нейросетей и генетические алгоритмы
Рис. 3. Лепестковая диаграмма значений функциональных характеристик
Сравнительный анализ алгоритмов анализа неструктурированной и слабоструктурированной информации показал, что три из четырех рассмотренных алгоритмов имеют значения интегрального показателя качества, превышающего базовое значение, - алгоритмы поиска ассоциативных правил, алгоритмы кластеризации, алгоритмы построения нейросетей и генетические алгоритмы. Из расчетов и графика интегральных показателей качества программных продуктов видно, что наибольший интегральный показатель качества имеет группа алгоритмов построения нейросетей и генетических алгоритмов.
Список литературы Исследование и разработка алгоритмов анализа неструктурированной и слабоструктурированной информации
- Лакаев А.С. Разработка интеллектуальных технологий и методов обработки неструктурированной информации // NovaInfo.Ru. 2013. Т. 1. № 27. С. 18-19.
- Макаров И.Е. Нейросетевой подход к интегрированному представлению и обработке информации в интеллектуальных системах // Интеллектуальные системы. 2013. № 12. С. 48-49.
- Макаров И.Е. Автоматизация анализа проектных решений с применением методов интеллектуальной обработки информации // Интеллектуальные системы. 2014. № 10. С. 26-27.
- Рыбанов А. Определение весовых коэффициентов сложности учебного курса на основе алгоритма Саати // Педагогические измерения. 2014. № 4. С. 21-28.
- Средства анализа структурированной и неструктурированной информации [Электронный ресурс] - Режим доступа: http://www.mlg.ru/company/pr/1132
- Двенадцать шагов к анализу неструктурированных данных [Электронный ресурс] - Режим доступа: https://www.pcweek.ru/idea/article/detail.php?ID=170744
- Кондрацкий Д.Е., Рыбанов А.А. Исследование методов и алгоритмов автоматизированной системы оценки альтернативных вариантов методом Т.Саати//NovaInfo.Ru. 2016. Т. 3. № 46. С. 107-116.
- Морозов А.О., Рыбанов А.А. Экспертная оценка программных продуктов для расчета метрических характеристик физической схемы базы данных//Современные научные исследования и инновации. 2015. № 1-1 (45). С. 97-102.
- Rybanov A.A. Educational information quantization for improving content quality in learning management systems//Turkish Online Journal of Distance Education. 2014. Т. 15. № 4. С. 303-321.
- Рыбанов А.А., Усмонов М.С.О., Попов Ф.А., Ануфриева Н.Ю., Бубарева О.А. Информационные системы и технологии/Научный ред. И. А. Рудакова/Центр научной мысли (г. Таганрог). Москва, 2013. Том Часть 4. -90 с.
- Рыбанов А.А. Моделирование динамики процесса формирования ответов на тестовые задания закрытой формы при дистанционном тестировании знаний//Открытое образование. 2006. № 6. С. 43-50.
- Рыбанов А.А. Количественные оценки эффективности процесса формирования ответов на теcтовые задания при дистанционном тестировании знаний//Качество. Инновации. Образование. 2006. №5. С. 44-52.