Методы обработки данных для рекомендательных систем
Автор: Чиркина М.А., Инамова Д.Б.
Журнал: Форум молодых ученых @forum-nauka
Статья в выпуске: 1-3 (29), 2019 года.
Бесплатный доступ
В статье рассматриваются основные методы и приемы интеллектуального анализа данных, которые могут использоваться в рекомендательных системах.
Рекомендательные системы, интеллектуальный анализ данных
Короткий адрес: https://sciup.org/140285084
IDR: 140285084
Текст научной статьи Методы обработки данных для рекомендательных систем
В рекомендательных системах обычно применяются методы и методологии из других соседних областей, таких как Human Computer Interaction или Information Retrieva . Тем не менее, большинство из этих систем несут в своем ядре алгоритм – это можно понимать, как определенный случай метода интеллектуального анализа данных.
Процесс интеллектуального анализа данных обычно состоит из 3 шагов, выполняемых последовательно: предварительная обработка данных, анализ данных и интерпретация результатов. Мы проанализируем некоторые из наиболее важных методов предварительной обработки данных. В частности, мы сосредоточимся на выборке, уменьшении размерности, и использование функций расстояния из-за их значимости и их роли в рекомендательных системах.
Предварительная обработка данных
Мы определяем данные как коллекцию объектов и их атрибутов, где атрибут определяется как свойство или характеристика объекта. Другие имена для объекта включают запись, элемент, точка, образец, наблюдение или экземпляр. Атрибут также может называться переменной, полем, характеристикой или элементом.
Реальные данные, как правило, должны быть предварительно обработаны (например, очищены, отфильтрованы, преобразованы) для того, чтобы быть использованы методами машинного обучения на этапе анализа. В этом разделе мы сосредоточимся на трех вопросах, которые имеют особое значение при разработке рекомендательных систем. Во-первых, мы рассмотрим сходства и различия. Далее мы рассмотрим проблему метода выборки, как способе сокращения количества элементов в очень больших коллекциях, и как при этом сохранить основные характеристики. Наконец, мы опишем наиболее общие методы для уменьшения размерности.
Сходства
Одним из предпочтительных подходов к совместной фильтрации ( CF) является использование классификатора kNN . Этот метод классификации, как и большинство классификаторов и методов кластеризации сильно зависит от установления сходства или различий.
Самым простым и распространенным примером измерения расстояния является Евклидово расстояние
J n
/ к=1
(Хк - Ук)2
где n -количество измерений (атрибутов), а Х к и у к , ^ — тые ключ атрибуты (компоненты) объектов данных x и у.
Расстояние Минковского является обобщением Евклидова расстояния:
n
,У) = (^кк —УкЮ?
к=1
где r -степень расстояния. В зависимости от значения r , общее расстояние Минковского известно под конкретными названиями: для r = 1, городской квартал, (Манхэттен или норма L 1) расстояние; для r = 2, Евклидово расстояние; для r ^ х, расстояние supremum (норма Lmax или норма L х), которое соответствует вычислению максимальному различию между любыми измерениями объектов данных.
Расстояние Махаланобиса определяется как:
d(x,y) = V(x — У) * о-1 * (х - у)т где σ-ковариационная матрица данных.
Другой очень распространенный подход заключается в том, чтобы рассматривать элементы как векторы документов n-мерного пространства и вычислить их сходство как косинус угла:
, . (* • У)
cos(x,y) =......
М II |у| где • обозначает векторное произведение точек, а ‖x‖ является нормой вектора x. Это сходство известно, как сходство косинуса или норма L2.
Сходство между предметами также может быть обусловлено их соотношением, которое обеспечивает линейную связь между объектами. Хотя существует несколько коэффициентов соотношения, которые могут быть применены, наиболее часто используется соотношение Пирсона. Учитывая ковариацию точек данных x и y Σ и их стандартное отклонение σ, мы вычислим соотношение Пирсона с помощью:
Pearson(x, у)
ТХЛ-У) ах х Оу
Рекомендательные системы обычно использовали либо сходство косинусов, либо соотношение Пирсона, либо с помощью одного из многочисленных колебаний, например, систем взвешивания, однако для общей фильтрации возможно большинство других дистанционных мер. Spertus провели масштабное исследование, чтобы оценить шесть различных похожих показателей в контексте социальной сети Orkut. Хотя их результаты могут быть предвзятым к конкретным условиям эксперимента, интересно отметить, что лучшие рекомендации были получены с использованием сходства косинуса. Lathia также провели исследование нескольких схожих показателей, где они пришли к выводу, что в общем случае точность прогнозирования рекомендательных систем не определяется выбором меры сходства. На самом деле в контексте их работы, используя случайную меру сходства, иногда результаты получаются лучше, чем при использовании любого из известных подходов. Наконец, было предложено несколько мер по обеспечению сходства в отношении пунктов, которые имеют только двоичные атрибуты. Во- первых, М01, М10, М11, и М00 вычисляются, М01 = количество атрибутов, где x = 0, у = 1, М10 = количество атрибутов, где x = 1, а у=0, и так далее. Из этих величин мы можем вычислить: простой коэффициент numberof matches
М11+М00 .
М01+М10+М00+М11’
коэффициент
соответствия SMC = -----———— numberofattributes
Jaccard JC =
М11
М01+М10+М11
; Расширенный коэффициент Jaccard ( Tanimoto ),
вариация JC для непрерывных или счетных атрибутов, которые вычисляется по d
х»у
||х||2 + ||х||2-Х»у "
Процесс выборки
Выборка является основным методом, используемым в сборе данных для выбора подмножества соответствующих данных из большого набора данных. Используется как при предварительной обработке, так и при окончательной интерпретации данных. Выборка отличный метод, поскольку обработка всего набора данных слишком затратна с точки зрения вычислений. Её также можно использовать для создания обучающих и тестирующих наборов данных. В этом случае обучающий набор данных используется для изучения параметров или настройки алгоритмов на этапе анализа, в то время как набор данных для тестирования используется для оценки модели или конфигурации, полученной вовремя тестирования, которая может убедить, что она хорошо выполняется (т. е. обобщает) с ранее неизвестными данными.
Ключевой проблемой выборки является нахождение подмножества исходного набора данных, которое является репрезентативным, т. е. имеет примерно то же свойство, что и весь набор. Простейшим методом выборки является случайная выборка, при которой существует равная вероятность выбора любого элемента. Однако возможны и более сложные подходы. Например, в стратифицированной выборке данные делятся на несколько разделов на основе определенной особенности, сопровождаемой случайной выборкой в каждом разделе.
Наиболее распространенный подход к выборке состоит в использовании выборки без замены: при выборе элемента он удаляется из совокупности. Однако также возможно выполнить забор с заменой, где детали не извлекутся из совокупности после того, как они были выбраны, что позволяет одному и тому же элементу быть выбранным несколько раз.
Обычная практика использовать стандартную случайную выборку без замены с пропорциями 80/20 при разделении наборов данных тренировочных и обучения. Это означает, что мы используем случайную выборку без замены, чтобы выбрать 20% случаев для тестирования и оставить оставшиеся 80% на обучение. Пропорцию 80/20 следует принимать как практическое правило, где любое значение свыше 2/3 считается соответствием для набора данных для обучения.
Выборка может привести к чрезмерной специализации конкретного отдела наборов данных для обучения и тестирования. По этой причине тренировочный процесс может повторяться несколько раз. Обучающие и тестовые наборы создаются из исходного набора данных, модели обучаются с использованием обучающих данных и тестируется на примерах из тестового набора. Затем, для повторного запуска процесса обучения/тестирования выбираются различные наборы данных обучения / тестирования это повторяется K раз. Наконец, сообщается о средней производительности K изученных моделей. Этот процесс называется перекрестной проверкой. Существует несколько методов перекрестной проверки. При повторной случайной выборке стандартная случайная выборка проводится K раз. При n-кратной перекрестной проверке набор данных делится на n раз. Одна из попыток используется для тестирования модели, а остальные N-1 разы используются для тренировок. Затем процесс перекрестной проверки повторяется n раз с каждым из n подмножеств, используемых ровно один раз в качестве данных проверки. Наконец, the leave-one-out (LOO) подход можно рассматривать как крайний случай N-кратной перекрестной проверки, где n - количество элементов в наборе данных. Таким образом, алгоритмы выполняются столько раз, сколько точек данных, используя только одну попытку из них в качестве теста. Однако следует отметить, что a Isaksson говорил, что перекрестная проверка может быть ненадежная, если набор данных не является достаточно большим.
Общий подход в рекомендательных системах заключается в том, чтобы отобрать доступные отзывы пользователей - например, в форме рейтингов - чтобы разделить на обучение и тестирование. Перекрестная проверка также распространена. Хотя стандартная случайная выборка приемлема в целом, в других случаях нам может потребоваться по -разному смещать нашу выборку для набора тестов. Например, мы могли бы выбрать выборку только из самых последних рейтингов поскольку это те, которые мы могли бы предсказать в реальной ситуации. Мы могли бы также быть заинтересованы в том, чтобы доля рейтингов на пользователя сохранялась в тестовом наборе и, следовательно, навязать случайную выборку для каждого пользователя. Однако все эти вопросы касаются проблемы оценки рекомендательных систем, которые по-прежнему являются вопросом исследования и обсуждения.
Заключение
В этой статье представлены основные методы и приемы интеллектуального анализа данных, которые могут использоваться в рекомендательных системах. Мы начали с рассмотрения методов, которые могут быть применены в предварительной обработке. Во-первых, необходимо подобрать соответствующую меру расстояния, это требуется большинству из методов в следующих шагах. Сходство косинусов и соотношение Пирсона считаются лучшими. Хотя много усилий было посвящено к улучшению измерения расстояния, недавние работы сообщают, что выбор функции для измерения расстояния не играет важную роль. Затем, мы рассмотрели основные выборки, которые должны быть применены, чтобы выбрать подмножество из первоначально большого набора данных, или отделять тренировочные и обучающие наборы. Наконец, мы обсудили использование методов уменьшения размерности, таких как анализ основных компонентов и разложение по единственному значению.
Список литературы Методы обработки данных для рекомендательных систем
- Антопольский А., Майорович Т., Чугунов А. Формирование электронного документного пространства и перспективы создания Российской ассоциации электронных библиотек// Информационные ресурсы России. 2005. № 1 (83). С. 2-5.
- Арлазаров B.JL, Емельянов Н.Е. Организационное управление и искусственный интеллект (Ред.) // Сборник трудов ИСА РАН. М, Едиториал УРСС, 2003. - 448 с.
- Арлазаров В.Л., Емельянов Н.Е. Документооборот. Прикладные аспекты (Ред.) // Сб. трудов ИСА РАН. М Едиториал УРСС, 2004. 184 с.
- Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах // Компьютерная лингвистика и интеллектуальные технологии. Труды Междун. семинара Диалог'2002. В двух томах. Т. 2. Прикладные проблемы. М, Наука, 2002.-С. 180-185.
- Жигалов В. А. Об опыте разработки системы построения ЕЯ-интерфейсов к базам данных. // Труды Международного семинара Диалог'98, Казань, 1998. С. 801 808.