Научные статьи \ Общие вопросы науки и культуры \ Информационные технологии. Вычислительная техника. Обработка данных \ Человеко-машинное взаимодействие. Человеко-машинный интерфейс. Пользовательский интерфейс. Операционная среда пользователя

Визуальная аналитика в задаче трикластеризации многомерных данных

Автор: Кашницкий Ю.С.

Журнал: Труды Московского физико-технического института @trudy-mipt

Рубрика: Математика. Информатика

Статья в выпуске: 3 (23) т.6, 2014 года.

Бесплатный доступ

Трикластеризация - это способ обнаружения объектов со схожими свойствами в контексте из трех множеств сущностей. Например, в задаче анализа данных социальных сетей такими множествами могут быть пользователи, их интересы и события, в которых пользователи принимают участие. Трикластеризация здесь может помочь найти группы пользователей с похожими интересами и, например, делать им рекомендации событий на основе этих интересов. В статье описывается конкретный алгоритм трикластеризации и прототип программной платформы для визуального анализа полученных трикластеров.

Визуальная аналитика, анализ данных, кластеризация, анализ формальных понятий, рекомендательные системы

Короткий адрес: https://sciup.org/142186018

IDR: 142186018 | УДК: 004.51

Текст научной статьи Визуальная аналитика в задаче трикластеризации многомерных данных

Классический Анализ формальных понятий (АФП) имеет дело с данными, описывающими отношение на множествах объектов и их признаков (какой объект имеет какой признак), и предоставляет средства, для определения в них иерархии.

На основе входных данных АФП выдает два. вида, выхода. [1]. Первый - это решетка, формальных понятий, то есть множество формальных понятий, иерархически упорядоченных по отношению «подпонятие-суперпонятие». Формальные понятия - это комбинации объектов и их признаков, представляющие жизненные понятия, которыми оперирует человек, такие как, например, «организм, обитающий в воде», «автомобиль с полным приводом», «числа, делящиеся на. 3 и на. 4» и так далее. Второй результат АФП - это множество признаковых импликаций. Признаковая импликация описывает определенное правило, действующее на множестве формальных понятий, например, «любое число, делящееся на 3 и 4, также делится и на. 6» или «каждый абонент старше 60 лет безработный». АФП - это мощное средство для обнаружения зависимостей в данных, которое широко применяется в таких сферах, как извлечение информации из данных (data, mining), обработка, текста, машинное обучение, управление знаниями, семантические сети и разработка. ПО.

Как естественное развитие АФП, Триадический анализ формальных понятий (ТАФП) обрабатывает триадические данные (контексты) в виде объектов, их признаков и условий, при которых определенные объекты имеют определенные признаки. Один из типичных примеров применения - анализ данных социальной сети с контекстом в виде пользователей (объекты), событий, в которых пользователи принимают участие (признаки), и интересов пользователей (которые могут рассматриваться как условия, при которых данный пользователь участвует в данном событии).

По мере того как нахождение всех понятий или трипонятий заданного контекста, начало становиться ресурсоемкой задачей, были предложены некоторые ослабления этих определений: бикластеры и трикластеры [3]. Здесь мы будем иметь дело с трикластерами - наборами множеств объектов, признаков и условий, таких что не обязательно каждый объект имеет каждый признак из этих множеств. Строгое определение трикластера мы дадим позднее, а здесь отметим, что трикластеризация позволяет намного проще оперировать большими объемами триадических данных и дает на выходе кластеры объектов со схожими признаками при схожих условиях. Таким образом, трикластеризация находит применение в таких задачах, как, например, нахождение пользователей соцсетей со схожими интересами, претендентов на работу со сходными компетенциями или ресурсов Интернета, помеченных похожими тегами. Также на базе алгоритмов трикластеризации основаны некоторые рекомендательные системы [4].

Визуальная аналитика - одно из бурно развивающихся направлений информационных технологий, в котором человеческие и машинные ресурсы объединяются для решения спектра задач, непосильных для человека или компьютера по отдельности. Это подобласть анализа данных, акцентированная на принятии решений на основе предварительной обработки данных, извлечения информации из данных (data mining) и визуальных интерактивных пользовательских интерфейсах. Например, Siemens PLM Software позволяет пользователям собирать, обрабатывать и представлять отчетные данные прямо в среде проектирования новых видов транспорта, таким образом делая возможным принятие решение в процессе разработки. Этот же метод используется в ситуационных центрах принятия решений в атомной энергетике и при исследовании криминальных правонарушений.

Статья организована следующим образом: в главе 1 рассказывается о визуальной аналитике, смежных ей областях - научной визуализации и визуализации информации - и приводятся некоторые примеры применения. В главе 3 даются основные определения Анализа формальных понятий. Глава 4 описывает триадический АФП и трикластеризацию. В главе 5 описывается алгоритм ОАС-трикластеризации, основанной на штрих-операторах, его реализация и результаты, а в главе б - рекомендательный алгоритм, основывающийся на трикластеризации. Затем в главе 7 показывается, как методы визуальной аналитики можно применить для анализа трикластеров, порожденных ОАС-алгоритмом. В конце статьи делаются выводы о результатах проделанной работы.

1. Визуальная аналитика1.1. Определение

Поскольку эта область информатики довольно молодая, определений у понятия «визуальная аналитика» немало. Многие авторы, внесшие значительный вклад в формирование нового направления анализа данных, определяли его по-своему. Рассмотрим некоторые из этих определений.

• Визуальная аналитика — это комбинация средств визуализации информации и других методов анализа данных [5].
• Визуальная аналитика - это циклический процесс сбора информации, предварительной обработки данных, представления знаний, установления взаимосвязей данных и принятия решений [б].
• Визуальная аналитика — это наука о вынесении обоснованного аналитического решения с помощью визуальных интерактивных пользовательских интерфейсов [7], продукт слияния визуализации информации и научной визуализации [8].

Обобщая и вычленяя главное из каждого из них, дадим следующее определение.

Визуальная аналитика — это направление в анализе данных, фокусирующееся на вынесении аналитического решения с помощью визуальных интерактивных пользовательских интерфейсов в процессе сбора информации, предварительной обработки данных, представления знаний и установления их взаимосвязей.

1.2. Специфика задач визуальной аналитики

Дальше рассмотрим основные характеристики визуальной аналитики и специфику задач, для которых предназначены ее методы.

1) Задачи, решаемые средствами визуальной аналитики, обычно сложные, требуют обработки больших объемов данных и обоюдного человеческого и машинного анализа, что делает их порой не разрешимыми другими методами [5].
2) Конечная цель визуальной аналитики — глубоко вникнуть в какую-либо задачу, описываемую большими объемами данных различного рода и из различных источников. Для этого визуальная аналитика использует как машинные, так и человеческие ресурсы. С одной стороны, методы обнаружения знаний в данных (data mining), статистика и информатика — движущая сила любого автоматического анализа данных. С другой - способности мозга к восприятию информации, соотнесению данных и дальнейшим умозаключениям дополняют машинные ресурсы, что делает визуальную аналитику многообещающей техникой и перспективной сферой для дальнейших разработок.
3) По мере развития визуальная аналитика требует также совершенствования методов аналитического мышления, установления взаимосвязей в данных, их преобразования и представления для дальнейших вычислений и отображения, а также аналитической отчетности [9].
4) Визуальная аналитика также касается вопросов сознания, восприятия информации человеком, информатики, интерактивного и графического дизайна.
5) Визуальная аналитика сочетает методы визуализации информации с методами вычислительного анализа данных, при этом отображение усиливает познавательные способности человека шестью основными способами [10]:

• увеличение объема источников данных — пользователю приходится держать меньше информации в голове;
• сокращенный поиск — в малом пространстве может отображаться значительный объем данных;
• поддерживание связей данных, например, когда они размещены в пространстве по принципу их временных отношений;
• возможность пользователя вывести отношения или закономерности данных, которые иначе сделать было бы трудно;
• слежение за большим количеством возможных вариантов событий, т.е. изменением данных;
• обеспечение средств динамического слежения за большим количеством параметров.

1.3. Визуальная аналитика и смежные направления

Как уже говорилось, визуальная аналитика - результат слияния таких направлений, как визуализация информации и научная визуализация с добавлением интерактивных интерфейсов. Хотя четкая граница между этими тремя дисциплинами и не определена, считается, что:

• научная визуализация применяется для задач, в которых данные имеют естественную геометрическую структуру, например, моделирование самолетов (поездов, автомобилей) методом конечного элемента для исследования аэродинамических свойств, магнитно-резонансная томография (МРТ), исследования молекулярного строения веществ и т.д.;
• термин «визуализация информации» относится к абстрактным данным, таким как деревья и графы. Примеры — отображение связей компьютеров в сети Интернет, цитирований в научных статьях или эмоций людей по их сообщениям в социальных сетях;
• Визуальная аналитика, прежде всего, имеет дело с анализом данных, поиском в них смысла и принятием на их основе решений.

Одно из самых развитых проявлений научной визуализации - это вычислительная гидродинамика (Computational Fluid Dynamics, CFD). Классическая задача вычисления параметров потока воздуха при обтекании крыла самолета (таких как плотность, давление, число Рейнольдса и др.) требует построения сетки на обтекаемых поверхностях для дальнейшего применения численных методов конечного объема (или элемента, или конечных разностей) решения систем дифференциальных уравнений.

Рис. 1. Температура, поверхности самолета, и окружающего пространства, при обтекании сверхзвуковым потоком - CFD моделирование

Такие программные продукты, как Ansys и Catia, позволяют пользователю собственноручно построить сетку на. поверхности ЗВ-модели исследуемого летательного аппарата, или его части. Конечно, в этой «вечной» для прикладной аэродинамики задаче суперкомпьютеры используются не для получения наглядных изображений, а, собственно, для вычислений, но представление результатов полученных вычислений - не что иное, как научная визуализация.

Здесь же можно упомянуть один из первых реализованных проектов, посвященных научной визуализации в виртуальном окружении, - создание виртуальной аэродинамической трубы в исследовательском центре NASA Aims [11]. Целью данного проекта, было визуализировать трёхмерные нестационарные потоки обтекания тел, моделирующие эксперименты в аэродинамической трубе.

Рис. 2. Отображение результатов численного моделирования распределения давления при обтекании топкого профиля

2.2. Научная визуализация

В основе проекта We Feel Fine Джонатана Харриса и Сена Камвара [12] лежит механизм сбора данных о чувствах и настроении пользователей Интернета. Каждые 10 минут множество постов в блогах, включая Live Journal, MSN Spaces, My Space, Blogger, Flickr и Google, проверяются на наличие фраз, содержащих «і feel» или «і’ш feeling». Как только такое сочетание появляется, все предложение сохраняется в базе и далее идет проверка смысла, который несет пост: а именно, какое чувство он передает, находится ли оно в базе «предопределенных чувств» или для него нужно создать новое.

Полный список «чувств» насчитывает около 2 миллионов записей, а его начало выглядит так:

total	1894610
better	128155	FFA401
bad	93390	07548A
good	76610	FFF700
right	40683	E97802
guilty	31591	004E6F
sick	27706	2E9127

Таблица. 6.1. Данные по встречаемости «чувств»

В этом списке «чувству» соответствует число его вхождений в записи в блогах и цвет, которым оно будет обозначаться на. карте. Предсказуемо среди самых популярных выражений человеческих чувств встречаются слова, «хорошо», «лучше», «плохо». Пятое место заняло чувство вины. Поскольку большинство исследуемых записей приходят из нескольких наиболее популярных блогов, URL-формат ссылок на. них позволяет определить автора.

Тор 2,500 Feobngs

Рис. 3. Карта. WeFeelFine, отображающая данные по эмоциям людей за. последние 10 минут поста., страницу его профиля, пол, возраст, страну проживания, погоду в его городе и так далее. Таким образом, данные можно сортировать по нескольким параметрам.

2.3. Визуальная аналитика

Визуальная аналитика, применяется компанией Siemens в их продукте PLM Software, который позволяет разработчикам мгновенно получать данные и визуализировать их прямо в контексте среды ЗВ-проектирования новых средств транспорта. [13]. Продукт включает и визуальные отчеты - простой способ сбора, обмена, и представления информации в графическом, интуитивно понятном виде, где данные представляются в среде ЗВ-проектирования изделий и их можно тут же применить для принятия решений.

И главное, система, обеспечивает непосредственное визуальное взаимодействие. Это ускоряет процесс контроля проектных решений на. соответствие заданным требованиям и позволяет выявлять и устранять проблемы качества, продукции. Разработчики отслеживают соответствие изделия критически важным функциональным требованиям благодаря визуальной обратной связи, предоставляющей также большой объем информации.

3. Основные определения Анализа Формальных Понятий

Формальный контекст - это тройка К = (G,M,I ), где G - множество объектов, М - признаков, а бинарное отношение I С G х М определяет, какой объект каким признаком обладет. Предикат діт означает, что объект д имеет признак т. Для подмножеств множеств объектов и признаков А С G и В С М операторы Галуа определяются следующим образом:

А = {т Е М | діт для всех д Е А},

В' = {д Е G | діт для всех т Е В}.

Рис. 4. Этап разработки с помощью Siemens PLM Software

Оператор ‘‘ (применение оператора ‘ дважды) называется оператором замыкания. Множество объектов А С G, таких что А’’ = А, называется замкнутым.

Пара (А, В), така я что А С G, В С М, А’ = В и В ‘ = А называется формальным понятием контекста К. Множества А и В замкнуты и называются объемом и содержанием формального понятия (А, В) соответственно. Для множества объектов А множество их общих признаков А* определяет схожесть объектов множества А, а замкнутое множество А’’ есть множество схожих объектов (е общими признаками из А’).

Общее число формальных понятий контекста К = (G,M,I ) довольно существенно: в худшем случае 2^min{l^Gl’l^M|}. Существуют способы уменьшения этого количества, например, отбор понятий по стабильности или индексу мощности объема [14].

Другой способ - это ослабить определение формального понятия. Примером служит ОП-бикластер [15]. Если (g,m) Е I , то (m‘,g‘) называется объектно-признаковым бикластером ^ОП-бикластером^ с плотностью

p(m‘,g‘) = '.

|m‘||g‘|

Основные свойства ОП-бикластеров

1) Для любого (А, В) С 2^g х 2^м справедливо 0 < р(А, В) < 1.
2) Биклаетер (m‘,g‘) - это формальное понятие, если р = 1.
3) Если (m',g') - биклаетер. то (g‘‘,g‘) < (m',m").

Если существует pmin Е (0,1), такое что для бикластера (А, В) С 2^G х 2^м выполняется р(А, В) > pmin, то тогда биклаетер (А, В) называется плотным. Указанные выше свойства показывают, что ОП-бикластер отличается от формального понятия тем, что от него не требуется единичная плотность (в этом и ослабление определния). Дальше мы увидим пример для трипонятий и трикластеров.

Как решение для триадических контекстов в АФП Леманн и Вилле в 1995 году представили Триадический Анализ Формальных Понятий [2].

Триадический контекст К = (G,M,B,I ) состоит из G (множество объектов), M (множество признаков), B (множество условий) и тернарного отношения I С G х М х B. Вложение (g, m,b) Е I означает, что объект g имеет признак m при условии Ь.

Для удобства обозначим триадический контекст К = (Х1, Х2, Х3, I ). Он порождает следующие диадические контексты:

К ⁽¹⁾"= (Х_ЪХ2 х Хз,1⁽¹⁾).

К ⁽²⁾ = (Х2,Хз х Xi,I ⁽²⁾).

К ⁽³⁾ = (Х₃, Х₁ х Х₂, I ⁽³⁾), г де gI ⁽¹⁾ (m, b) О mI ⁽¹⁾(g, b) О bI ⁽¹⁾(g, m) О (д, m, b) Е I.

Операторы вывода (или штрих-операторы) К ⁽ⁱ⁾ обозначены как (.)⁽ⁱ⁾. Для каждого порожденного диадического контескта существуют два вида операторов вывода. То есть для {i,j, к} = {1,2,3} с j < к и для Z С X i и W С X j х Х_к , (г)-оператор вывода определяется так:

Z ^ Z ⁽ⁱ⁾ = {(xj ,Х к ) Е X j х Х к | x_i,$ j ,Х к связаны отношением I для всех x Е Z }.

W ^ W ⁽ⁱ⁾ = { х Е X_i | x_i,X j ,$ к связаны отпошсішсм I для всех (x j ,х ) Е W }.

Триадическое понятие триадического контекста К = (G,M,B,I ) - это тройка (А₁,А₂,А3). А₁ С Х₁. А₂ С Х₂. A3 С Х3. такая что яля каждого {i,j, к} = {1,2,3} с j < к справедливо A⁽ⁱ⁾ = (Aj х Ак ). А1,А2 и A3 называются объемом, содержанием и модусом тройки (А₁, А₂, А₃)

Множество Т = ((m, b)’, (g,b), (g,m')^r) для тройки (g,m, b) Е I называется ОЛС-трикластером (или объектно-признаково-условным трикластером, или здесь просто трикластером), основанном на штрих-операторах. Здесь

(g,m) = {b | (g,m,b) Е I },

(g,b) = {m | (g,m,b) Е I }, (1)

(m,b) = {g | (g,m,b) Е I }.

Плотность трикластера (А, B, С ) триконтекста К = (G,M,B,I ) задается отношением троек из I в трикластере, то есть

P(A,B,С ) =

|I П(А хB хС )| |A||B||С |

Трикластер Т = (А, B,C ) называется плотним, если его плотность превышает некий заданный минимальный порог, то есть р(Т ) > p_mi_n- По аналогии с бикластерами трикластеры имеют следующие свойства:

1) Для любого трипонятия (А, B,C) триконтекста К = (G,M,B,I) с непустыми множествами А, B я С имеем р(А, B,C) = 1. 2) Для любого трикластера (А, B,C) триконтекста К = (G,M,B,I) с непустыми множествами А, B я С пек?ем 0 < р(А, B, С) < 1. 4. 1. Пример

Рассмотрим пробный триконтекст К = (U,I,S,Y ), где U = {Кирилл, Леня, Макс} -множество пользователей, I = {футбол, хоккей} - их интересы, S = {soccer.com, nhl.com, fifa.com, hockeycanada.ca} - сайты, которые они добавили в закладки, Y Си х I х S - тернарное отношение между множествами U, I, S, которое может быть определено таблицами 6.2:

	2 1	22		81	82	83	84
U 1	X	X	U1	X	X	X	X
U2	X	X	U2	X	X	X
из	X	X	из	X	X	X	X
			81 82	83	84
		2 1	X	X
		22	X		X

Таблица. 6.2. Пример таблиц, задающих контекст

Здесь введены следующие обозначения:

U 1	U 2	и з	2 1	2 2
Кирилл	Леня	Макс	футбол	хоккей

8 1	8 2	8 3	8 4
soccer.com	nhl.com	fifa.com	hockeycanada.ca.

В общем случае нам здесь придется анализировать \UЦі ||5| = 24 трипонятия, но фактически это число может быть сокращено до 11, поскольку в данном контексте больше половины пустых трипонятий. Вот эти 11 трипонятий:

user	interest	site
Кирилл	футбол	soccer.com
Кирилл	хоккей	nhl.com
Кирилл	футбол	fifa.com
Кирилл	хоккей	hockeycanada.ca.
Леня	футбол	soccer.com
Леня	хоккей	nhl.com
Леня	футбол	fifa.com
Макс	футбол	soccer.com
Макс	хоккей	nhl.com
Макс	футбол	fifa.com
Макс	хоккей	hockeycanada.ca.

Таблица. 6.3. Трипопятия пробного контекста.

Т = ({ U 1 ,U 2 , U 3} , { 2 1 ,2 2} , { 8 1 , 82, S 3 , 8 4}) С ПЛОТНОСТЬЮ р = 11/24 = 0.46.

Это всего лишь один объект для анализа, в отличие от 11 в случае трипонятий.

5. Алгоритм ОАС-трикластеризации на штрих-операторах

Суть алгоритма довольно проста: для всех (g,m, b) Е I триконтекста К = (G,M,B,I ) строится Т = ((m, b)', (g, b)', (g, m)'). Если трикластер уникален, и его плотность превышает некий заданный ранее порог, то он добавляется в массив трикластеров. Далее приведен псевдокод алгоритма. ОАС-трикластеризации, основанной на. штрих-операторах:

Algorithm 1 ОАС-трикластеризация, основанная на штрих-операторах

Вход: К = (G, М, В) - трикоптекст.

Р тгп ~ порог ПЛОТНОСТИ

Выход: Tdic = {key : (Х1,Х2,Хз )} - словарь трикластеров.

Х1 CG,X2 С М, Х3 СВ for (д, m,b) G I do

^T = ^((m,bY, ⁽д^,ьУ, ⁽д,^тҮ)

HashKey = hash(T )

Tdic[hashKey] = T end if end for

5.1. Реализация

Описанный выше алгоритм был реализован автором на языке Python версии 2.7.3 на 2-процессорной машине (Core ІЗ-370М, 2.4 ГГц) с 3.87 Гб ОЗУ. Далее следует описание контекстов, на которых проверялся алгоритм, и некоторые результаты - таблицы 6.5, 6.6, 6.7 .

Контекст	\|G\|	\|М\|	\|В\|	Троек	Плотность
1	30	30	30	2677	0.0991
2	250	795	22	3815	0.00087
3	51	924	2844	3037	2.266e^-05

Таблица. 6.4. Характеристики контекстов

Порог плотности ^р тіп	Время выполнения Т,с	Трикластеров
0	2.932	2677
0.1	2.917	2677
0.2	2.919	2572
0.3	2.936	789
0.4	2.919	96
0.5	2.924	15
0.6	2.889	10
0.7	2.92	3
0.8	2.91	1
0.9	2.934	0
1	2.896	0

Таблица. 6.5. Результаты трикластеризации для контекста. 1

Порог ПЛОТНО СТИ P min	Время выполнения Т,с	Трикластеров
0	5.099	3679
0.1	5.145	3679
0.2	5.115	3601
0.3	5.154	3227
0.4	5.186	2399
0.5	5.165	1438
0.6	5.136	654
0.7	5.142	297
0.8	5.126	244
0.9	5.197	234
1	5.132	234

Таблица. 6.6. Результаты трикластеризации для контекста. 2

Порог плотности ^p min	Время выполнения Т,с	Трикластеров
0	3.303	2459
0.1	3.266	2459
0.2	3.275	2456
0.3	3.271	2449
0.4	3.273	2413
0.5	3.274	2305
0.6	3.272	2011
0.7	3.268	1287
0.8	3.275	1023
0.9	3.299	1001
1	3.292	1001

Таблица. 6.7. Результаты трикластеризации для контекста. 3

6. Алгоритм построения рекомендаций на основе трикластеризации

Алгоритм рекомендаций на. множествах контекста, аналогичен описанному в работе [4]. На входе у алгоритма, триконтекст и множество трикластеров, полученное с помощью алгоритма ОАС-трикластеризации. Из множества трикластеров для каждого пользователя выбирается тот, что «наиболее похож» на. тройки с этим пользователем. «Похожесть» трикластера на тройки определяется функцией sim u (Tr i Y Алгоритм возвращает множества Tag_rec, Res_rec - рекомендации тегов и ресурсов для всех пользователей.

7. Визуальный анализ трикластеров

Прототип платформы для визуального анализа, трикластеров предоставляет аналитику несколько опций.

На рисунке 5 мы видим карту трикластеров, порожденных описанным выше алгоритмом, для контекста, из 20 пользователей, 20 тегов и 200 сайтов в проекции User-Tag (то есть объект-признак). Чем чаще определенная пара пользователь-тег встречается в трикластерах, тем темнее отображается соответствующая клетка. Пара (u6,t4), например, содержит-

Algorithm 2 Рекомендательный алгоритм

Вход: К = (U,T,R,I ) - триконтекст, Tt - множество трикластеров

Выход: Tagrec, Resrec ~ рекомендации тегов и ресурсов for u Е U do for i = l,...,|Tr do

/гр \ _ 1/ U^ u D R tt.^ | ^|т _и П ^тт_Гі k
^sim_n^(TT i ⁾ = 2 ⁽ i _R _u _U _R _t ^_ | + i t _hu t _Tt. | )

TT best = aTgmax(sim_n ( Tt ))

Tag rec [i]=T Tr _best \T_U

Resrec[i] = RTrbe.t \ R« end for end for ся в 73 трикластерах (темно-красный квадрат), (u5,t9) - только в одном (ярко-красный), в то время как пара (u9,t10) не содержится ни в одном трикластере (серый цвет).

Рис. 5. Карта, трикластеров в проекции User-Tag

Все трикластеры, содержащие данную пару user-tag, могут быть отображены с помощью вкладки «Triclusters» контекстного меню, связанного с клеткой, или просто нажатием на нее. Аналитик также может отобразить наибольший трикластер для данной клетки (рис. 7).

Кроме этого, аналитик с помощью вкладки «Recommend attributes» может отобразить результаты рекомендательного алгоритма, для конкретного пользователя (в данном случае, рекомендуемые теги).

Цель программы - помочь аналитику понять результаты алгоритма ОАС-три-кластеризации и собственноручно проверить качество полученных трикластеров. По тем или иным причинам (из-за. несовершенства, алгоритма, трикластеризации или из-за. влияния дополнительных измерений во входных данных) аналитик может захотеть исключить кого-то из пользователей, например, из какого-то трикластера. Также программа, позволяет отобразить рекомендации тегов или ресурсов как результат описанного выше рекомендательного алгоритма. Конечное решение по рекомендациям, опять же, возлагается на. плечи аналитика.

Вывод

Рис. 6. Подсвечивание наибольшего трикластера для пары (и6Д4)

Рис. 7. Подсвечивание рекомендуемых тегов для нескольких пользователей

Визуальная аналитика, одна из бурно развивающихся областей анализа данных, может применяться в нахождении объектов с похожими признаками при похожих условиях

в контексте данных социальных сетей. Был предложен алгоритм для объединения таких объектов, признаков и условий в трикластеры. Описана вкратце программа, находящаяся на стадии разработки, предназначенная для графического отображения результатов этого алгоритма и наделения пользователя возможностью обнаруживать группы схожих объектов в контексте.

Автор выражает благодарность своим научным руководителям в МФТИ и НИУ ВШЭ Клименко Станиславу Владимировичу и Кузнецову Сергею Олеговичу, а также коллеге Игнатову Дмитрию за своевременные советы и помощь в работе.

Список литературы Визуальная аналитика в задаче трикластеризации многомерных данных

Ganter B., Wille R. Formal concept analysis: Mathematical foundations. Springer, Berlin. -1999
Lehmann F., Wille R. A triadic approach to formal concept analysis. -London. Springer-Verlag, 1995
Ignatov D.I., Kuznetsov S.O., Poelmans J., Zhukov L.E. Can triconcepts become triclusters?//International Journal of General Systems. -2013. -V. 42. -P. 572-593
Venjega A.B., Gnatyshak D.V., Ignatov D.I., Konstantinov A.V. Recommender system for perfumes and their tags based on triclustering//Proceedings of the «Intellectual data processing» conference. -2012 -P. 601-605. -(in Russian)
Kosara R. Parallel sets: Interactive exploration and visual analysis of categorical data//IEEE Transactions on Visualization and Computer Graphics. -2006. -V. 12, N. 4. -P. 558-568
Keim D., Andrienko G. Visual analytics: Definition, process, and challenges//Information Visualization. -2008. -V. 4950. -P. 154-175
Thomas J., Cook K. Illuminating the Path: Research and Development Agenda for Visual Analytics. -New York. IEEE-Press, 2005
Wong P.C., Thomas J. Visual Analytics//IEEE Computer Graphics and Applications. -2004. -V. 24, N. 5. -P. 20-21
Kielman J., Thomas J. Special Issue: Foundations and Frontiers of Visual Analytics. Information Visualization. -2009. -V. 8, N. 4. -P. 239-314
Card S., Mackinlay J.D., Shneiderman B. Readings in Information Visualization: Using Vision to Think. Morgan Kaufmann Publishers, San-Francisco. -1999
Описание проекта по созданию виртуальной аэродинамической трубы http://veonpc.com/index.php/3d-vizualization/science-vizualization
Сайт проекта WeFeelFine http://www.wefeelfine.org
Визуальная аналитика компании Siemens http://www.plm.automation.siemens.com
Kuznetsov S.O. On stability of a formal concept//Annals of Mathematics and Artificial Intelligence. -2007. -V. 49. -P. 101-115
Gnatyshak D.V., Ignatov D.I., Semenov A., Poelmans J. Analysing online social network data with biclustering and triclustering//Proceedings of the «Concept Discovery in Unstructured Data» conference. -2012. -V. 871. -P. 30-39

Еще