Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя

Бесплатный доступ

Статья посвящена исследованию существующих методов кластер-анализа по схеме машинного обучения без учителя, выявлению их достоинств и недостатков.

Машинное обучение, обучение без учителя, кластер-анализ, метод k-средних, центроид

Короткий адрес: https://sciup.org/140271749

IDR: 140271749

Текст научной статьи Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя

В последнее время наблюдается рост интереса к новому направлению в обработке информации – интеллектуальному анализу данных. В анализируемом направлении рассматривается одна из задач интеллектуального анализа данных – задача кластерного анализа, которая также известна как задача автоматической группировки объектов или классификации без учителя.

Машинное обучение

Машинное обучение — это обширный подраздел искусственного интеллекта, который изучает методы построения алгоритмов, способных обучаться. Данная дисциплина находится на стыке математической статистики, методов оптимизации и классических математических дисциплин.

В свою очередь, машинное обучение — это не только математическая, но и инженерная дисциплина. Чистая теория, как правило, не приводит сразу к методам и алгоритмам, применимым на практике. Чтобы заставить их хорошо работать, приходится изобретать дополнительные эвристики, компенсирующие несоответствие сделанных в теории предположений условиям реальных задач. Практически ни одно исследование в машинном обучении не обходится без эксперимента на модельных или реальных данных, подтверждающего практическую работоспособность метода.

Обучение без учителя

Обучение без учителя — это один из разделов машинного обучения, который изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.

Обучение без учителя обычно противопоставляется обучению с учителем, когда для каждого обучающего объекта задаётся «правильный ответ», и требуется найти зависимость между объектами и ответами.

Кластеризация

Кластеризация — это задача разбиения какой-либо выборки объектов на подмножества, которые называют кластерами, таким образом, чтобы каждый кластер состоял из наиболее схожих между собой объектов, а объекты разных кластеров существенно отличались. Задачу кластеризации можно отнести к широкому классу задач обучения без учителя.

Цели кластеризации:

  • -    Понимание данных путём выявления кластерной структуры.

  • -    Сжатие данных.

  • -    Обнаружение новизны.

В первом случае число кластеров лучше сделать небольшим. Во втором случае наиболее важным считается обеспечить высокую (или фиксированную) степень сходства объектов внутри каждого кластера, а кластеров может быть сколько угодно. В третьем случае наибольший интерес представляют отдельные объекты, не вписывающиеся ни в один из кластеров.

Метод k – средних

Наиболее распространен среди неиерархических методов алгоритм k-средних, который также называют быстрым кластерным анализом. В отличие от иерархических методов, которые не требуют предварительных предположений относительно числа кластеров, для того, чтобы использовать данный метод, необходимо сразу указать число кластеров.

Алгоритм k-средних строит k кластеров, расположенных на возможно больших расстояниях друг от друга. Выбор числа k может базироваться на результатах предшествующих исследований, теоретических соображениях или интуиции.

Общая идея алгоритма состоит в следующем: заданное число k кластеров сопоставляются кластерам так, что средние в кластере (для всех переменных) максимально возможно отличаются друг от друга.

Описание алгоритма

  • 1.    Первоначальное распределение объектов по кластерам.

Выбирается число k, и на первом шаге эти точки считаются центроидами кластеров. Каждому кластеру соответствует один центроид.

Выбор начальных центроидов может осуществляться следующим образом:

  • -    чтобы они находились на максимальном расстоянии друг от друга;

  • -    случайным образом.

  • 2.    Итеративный процесс.

В результате каждый объект будет соответствовать определенному кластеру.

На каждом шаге значения центроидов кластеров пересчитываются, как средние значения объектов, входящих в тот или иной кластер. Далее пересчитываются значения расстояний между всеми объектами и всеми кластерами, переопределяется, к какому кластеру относится каждый объект, и процесс повторяется снова до тех пор, пока не выполнено одно из условий:

  • -    значения центроидов кластеров перестают меняться;

  • -    число итераций равно максимальному числу итераций.

Выводы

В результате проведенного исследования были выявлены следующие достоинства и недостатки метода k-средних.

Достоинства алгоритма k-средних:

  • -    простота использования;

  • -    быстрота использования;

  • -    понятность и прозрачность алгоритма.

Недостатки алгоритма k-средних:

  • -    алгоритм слишком чувствителен к первоначальному заданию центроидов кластеров;

  • -    алгоритм может медленно работать на больших базах данных.

Список литературы Интеграция информационных источников с использованием кластер- анализа по схеме машинного обучения без учителя

  • Информационно-аналитический ресурс, посвященный машинному обучению [Электронный ресурс]: http://machinelearning.ru (дата обращения: 07.05.2017)
  • Википедия: свободная электронная энциклопедия: на русском языке [Электронный ресурс]: http://ru.wikipedia.org (дата обращения: 09.05.2017)
  • В.Б. Бериков, Г.С. Лбов. Современные тенденции в кластерном анализе: дис. Институт математики им. С.Л. Соболева СО РАН, Cибирь, 2009. http://www.ict.edu.ru/ft/005638/62315e1-st02.pdf
Статья научная