Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя
Автор: Магжанова А.Т.
Журнал: Теория и практика современной науки @modern-j
Рубрика: Математика, информатика и инженерия
Статья в выпуске: 6 (24), 2017 года.
Бесплатный доступ
Статья посвящена исследованию существующих методов кластер-анализа по схеме машинного обучения без учителя, выявлению их достоинств и недостатков.
Машинное обучение, обучение без учителя, кластер-анализ, метод k-средних, центроид
Короткий адрес: https://sciup.org/140271749
IDR: 140271749
Текст научной статьи Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя
В последнее время наблюдается рост интереса к новому направлению в обработке информации – интеллектуальному анализу данных. В анализируемом направлении рассматривается одна из задач интеллектуального анализа данных – задача кластерного анализа, которая также известна как задача автоматической группировки объектов или классификации без учителя.
Машинное обучение
Машинное обучение — это обширный подраздел искусственного интеллекта, который изучает методы построения алгоритмов, способных обучаться. Данная дисциплина находится на стыке математической статистики, методов оптимизации и классических математических дисциплин.
В свою очередь, машинное обучение — это не только математическая, но и инженерная дисциплина. Чистая теория, как правило, не приводит сразу к методам и алгоритмам, применимым на практике. Чтобы заставить их хорошо работать, приходится изобретать дополнительные эвристики, компенсирующие несоответствие сделанных в теории предположений условиям реальных задач. Практически ни одно исследование в машинном обучении не обходится без эксперимента на модельных или реальных данных, подтверждающего практическую работоспособность метода.
Обучение без учителя
Обучение без учителя — это один из разделов машинного обучения, который изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.
Обучение без учителя обычно противопоставляется обучению с учителем, когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.
Кластеризация
Кластеризация — это задача разбиения какой-либо выборки объектов на подмножества, которые называют кластерами, таким образом, чтобы каждый кластер состоял из наиболее схожих между собой объектов, а объекты разных кластеров существенно отличались. Задачу кластеризации можно отнести к широкому классу задач обучения без учителя.
Цели кластеризации:
-
- Понимание данных путём выявления кластерной структуры.
-
- Сжатие данных.
-
- Обнаружение новизны.
В первом случае число кластеров лучше сделать небольшим. Во втором случае наиболее важным считается обеспечить высокую (или фиксированную) степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.
Метод k – средних
Наиболее распространен среди неиерархических методов алгоритм k-средних, который также называют быстрым кластерным анализом. В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для того, чтобы использовать данный метод, необходимо сразу указать число кластеров.
Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.
Общая идея алгоритма состоит в следующем: заданное число k кластеров сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.
Описание алгоритма
-
1. Первоначальное распределение объектов по кластерам.
Выбирается число k, и на первом шаге эти точки считаются центроидами кластеров. Каждому кластеру соответствует один центроид.
Выбор начальных центроидов может осуществляться следующим образом:
-
- чтобы они находились на максимальном расстоянии друг от друга;
-
- случайным образом.
-
2. Итеративный процесс.
В результате каждый объект будет соответствовать определенному кластеру.
На каждом шаге значения центроидов кластеров пересчитываются, как средние значения объектов, входящих в тот или иной кластер. Далее пересчитываются значения расстояний между всеми объектами и всеми кластерами, переопределяется, к какому кластеру относится каждый объект, и процесс повторяется снова до тех пор, пока не выполнено одно из условий:
-
- значения центроидов кластеров перестают меняться;
-
- число итераций равно максимальному числу итераций.
Выводы
В результате проведенного исследования были выявлены следующие достоинства и недостатки метода k-средних.
Достоинства алгоритма k-средних:
-
- простота использования;
-
- быстрота использования;
-
- понятность и прозрачность алгоритма.
Недостатки алгоритма k-средних:
-
- алгоритм слишком чувствителен к первоначальному заданию центроидов кластеров;
-
- алгоритм может медленно работать на больших базах данных.
Список литературы Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя
- Информационно-аналитический ресурс, посвященный машинному обучению [Электронный ресурс]: http://machinelearning.ru (дата обращения: 07.05.2017)
- Википедия: свободная электронная энциклопедия: на русском языке [Электронный ресурс]: http://ru.wikipedia.org (дата обращения: 09.05.2017)
- В.Б. Бериков, Г.С. Лбов. Современные тенденции в кластерном анализе: дис. Институт математики им. С.Л. Соболева СО РАН, Cибирь, 2009. http://www.ict.edu.ru/ft/005638/62315e1-st02.pdf