Анализ статистики продаж

Автор: Литовка М.К., Рожков М.С.

Журнал: Экономика и бизнес: теория и практика @economyandbusiness

Статья в выпуске: 8 (78), 2021 года.

Бесплатный доступ

В статье рассматриваются алгоритмы Data Mining для анализа продуктовой корзины магазина «Х». Авторами было проведено теоретическое исследование алгоритмов поиска ассоциативных правил и метода главных компонент; исследование возможностей применения алгоритмов Data mining для анализа продуктовой корзины; нахождение и исследование статистических данных в рыночной корзине потребителя, анализ рыночной корзины потребителя и выявление в ней ассоциативных правил с помощью алгоритма apriori, выявление стандартной годовой корзины покупателя с помощью метода главных компонент.

Продуктовая корзина, кластеризация, ассоциация, методы data mining

Короткий адрес: https://sciup.org/170183695

IDR: 170183695   |   DOI: 10.24412/2411-0450-2021-8-111-122

Текст научной статьи Анализ статистики продаж

В современном мире миллионы гигабайт информации находятся вокруг нас, ведь мы живем в такую эпоху цифрового развития, когда использовать эту информацию и оборачивать её в свою пользу просто необходимо. Экономические, медицинские, социальные сферы, в этих и не только областях используется технология Data mining, отвечающая на вопрос «Как обработать данную информацию с выгодой для себя и компании?». На данный вопрос дает ответ технология Data mining.

«Термин Data mining получил своё название из двух понятий: поиска ценной информации в больших базах данных Data и добыча горной руды Mining. Оба этих процесса или требуют огромного количества обработки или просеивания большого количества материала для разумного исследования и поиска искомых ценностей» [1].

Суть метода Data mining состоит в том, что с их помощью можно отыскивать ранее неизвестные знания, то есть знания должны быть новыми, а не подтверждение каких-либо ранее полученных сведений. Нетривиальных знаний – таких, которых нельзя просто так увидеть при построении визуального анализа или при вычислении простых статистических характеристик. Практически полезных - таких, которые представляют ценность для исследователя.

Доступы для интерпретации – те знания, которые можно представить в легко доступной для пользователя форме и легко объяснить в терминах предметной области. Эти требования во многом и определяют суть методов Data mining.

Преимущества Data mining:

  • -    Малое количество ограничений на применение методов Data mining

  • -    Поиск неочевидных закономерностей.

  • -    Возможность работы с многомерными и данными огромного объема и сложной структуры.

  • -    Применение методов Data mining – возможность извлечь пользу из накопленной информации.

Основные задачи, решаемые методом Data mining:

Классификация – определение класса объекта по его характеристикам.

Кластеризация – поиск независимых групп и характеристик во всем множестве данных.

Прогнозирование (регрессия) – подобно классификации, позволяет определить по известным характеристикам объекта значение некоторого его параметра, значением параметра является множество действительных чисел.

Ассоциация – нахождение частых взаимосвязей между объектами или события- ми, также могут быть использованы для предсказания появлений событий.

«Ассоциация – это функция интеллектуального анализа данных, которая обнаруживает вероятность одновременного появления элементов в коллекции. Отношения между сопутствующими элементами выражаются в виде ассоциативных правил» [2].

«Правила ассоциации часто используются для анализа сделок купли-продажи. Например, можно отметить, что клиенты, которые покупают хлопья в продуктовом магазине, часто покупают молоко одновременно. Фактически, ассоциативный анализ может обнаружить, что 85% кассовых сессий, включающих хлопья, также включают молоко» [3].

Это приложение ассоциативного моделирования называется анализ корзины. Это ценно для прямого маркетинга, продвижения продаж и выявления тенденций в бизнесе. Анализ корзины также можно эффективно использовать для макета магазина, дизайна каталога и перекрестных продаж.

Алгоритмы нахождения ассоциативных правил. Ассоциативные правила каждый день встречаются нам на различных сервисах, в магазинах, при онлайн покупках и других рекомендательных системах.

В общем виде ARL (правило ассоциации) звучит так – «Кто купил x, также купил y» [4].

«На данный момент существует несколько алгоритмов нахождения ассоциативных правил, в том числе: AIS и его продолжение SETM, Apriori, ECLAT и FP-growth» [5].

В данном исследовании был выбран Apriori алгоритм – самый популярный алгоритм ассоциативных правил майнинга. Он находит часто встречающиеся комбинации в базе данных и определяет правила ассоциации между элементами на основе 3 важных факторов:

Поддержка : вероятность того, что X и Y объединятся.

Уверенность : как часто Y происходит, когда X происходит первым.

Достоверность : соотношение поддержки и уверенности.

Для применения алгоритма необходимо изначально произвести обработку наших данных.

  • 1 .Привести все данные к бинарному виду.

  • 2 . Также необходимо изменить саму структуры данных.

Есть два этапа работы этого алгоритма, на первом подчитываются часто встречающиеся наборы, предварительно необходимо задать нужные значения поддержки и достоверности, а на втором извлечь из полученных данных уже сами правила.

Алгоритм apriori. Данный алгоритм напрямую связан с анализом корзины покупателя. Постановка задачи: имеется база данных одной из точек магазина Х, она состоит из чеков клиентов, где содержатся различные наборы покупок. Иными сло- вами, каждая покупка – это транзакция, определяющая купленный набор товаров одним покупателем. Необходимо при помощи алгоритма apriori выявить ассоциа- тивные правила.

«Определение: Пусть I = {i1,i2,i3,... in,} - множество товаров (элементы). Пусть D - множество транзакций, где каждая тран закция Т - это набор элементов из I, Т с I» [6]. Каждая транзакция представляет собой бинарный вектор, где t[k] = 1, если ik элемент присутствует в транзакции, иначе t[k] = 0. Транзакция Т содержит, некоторый набор элементов из I, если X с Т [6]»

«Ассоциативное правило определяется как импликация X ^ Y, где X с I, Y с I и X с Y =0 [6]. Поддержкой правила X ^ Y называется величина support s, если s% транзакций из D, содержат X U Y, »

supp(X ^ Y) = supp(X U Y).

«Достоверность правила определяет то, какова вероятность того, что из X следует Y. Достоверностью правила X ^ Y называ ется величина confidence c, если c% тран закций из D, содержащих X, также содер жат Y, [6]»

supp(XuY) supp(X) .

conf(X ^ Y)

«Алгоритмы нахождения ассоциативных правил разработаны в первую очередь для определения всех возможных комби- наций (правил) X ^ X с поддержкой и до- стоверностью больше, чем заранее опре- деленных    пользователем    порогов

(thresholds), которые обозначают как ми- нимальная поддержка и достоверность – minsupp и minconf» [7].

Далее рассмотрим еще один показатель: lift conf(X^Y) SUPP(Y) .

Hft(X ^Y) =

Также показатель lift обладает свой- ством:

Hft(X ^ Y) = Hft(Y ^ X).

Иными словами, он показывает во сколько раз увеличивается вероятность покупки одного набора, при покупке другого.

Кроме анализа рыночной корзины покупателя этот алгоритм применим ко множеству других сфер. Например: медицина и различные исследования в ней, анализ различных данных в бизнесе для увеличения показателей.

Метод главных компонент (Principal component analysis). «Метод главных ком- понент – это технология многомерного статистического анализа, используемая для сокращения размерности пространства признаков с минимальной потерей полезной информации. Предложен K. Пирсоном в 1901 г., а затем детально разработан американским экономистом и статистиком Г. Хоттелингом» [8].

«С точки зрения математики этот метод представляет из себя ортогональное ли нейное преобразование, отображающее данные из исходного пространства в новое пространство меньшей размерности с сохранением основных(значимых) данных» [9, с. 78-81].

При это построение новой базы строится таким образом, чтобы дисперсия в новой компоненте была максимальна. Вторая компонента строится перпендикулярно первой, чтобы дисперсия данных была максимальной их оставшихся возможных и так далее.

Рис. 1. Снижение размерности исходного 2-мерного пространства с помощью метода главных компонент до 1-мерного

«PC1 (главная компонента) ориентированная вдоль направления наибольшей вытянутости эллипсоида рассеяния точек объектов исходного набора данных в про- странстве признаков, иными словами с ней связана наибольшая дисперсия» (рис. 1)» [9, с. 85].

«На рисунке можно увидеть, что проекция дисперсии данных на ось первой главной компоненты, больше, чем её проекции на исходные оси DX1 и DX2, но меньше их суммы. Иными словами, первой главной компонентой отразить всю дисперсию данных не получилось. В таком случае строят вторую, третью и т.д. главные компоненты, пока они суммарно не отразят большую часть дисперсии» [8].

Таким образом, смысл метода главных компонент в том, что каждая главная компонента связана с определенной долей общей дисперсии исходной базы данных.

В данном случае, при нахождении среднегодовой корзины потребителя дисперсия, может отражать уровень информативности данных.

«Основной целью является отбор максимально изменчивых компонентов, поэтому первая главная компонента имеет максимальную выборочную дисперсию» [10]. Алгоритм таким образом подбирает веса чтобы разброс первой главной компоненты был максимально возможным при условии, что сумма будет 1. После формирования первой главной компоненты можно сформировать вторую ее веса алгоритм подбирает так, чтобы она была некоррелированная с первой главной компонентой, и чтобы сама компонента была с максимальной дисперсией для себя. Таким же образом побираются веса последующих главных компонент.

Анализ и обработка данных. Проанализируем данные о составе покупок в среднем за год покупателей одной из торговых точек магазина «Х». База данных представляет собой транзакции покупателей магазина за один год, состоящие из 43 товаров и 60467 операций (транзакций), где каждая строчка представляет собой один чек покупателя. База данных состоит из 43 товаров, кодов к ним, также имеется вторая база с расшифровкой этих товаров, общего количества потраченных денег на товары. Для начала работы с данными проведем первичный анализ данных и подсчитаем статистики по каждому из товаров. Результаты расчетов приведены в таблице 1.

Таблица 1. Статистические показатели классов товаров

Класс товаров

Максимум

Среднее значение

Дисперсия

Стандартное отклонение

201

Бакалея

22565.1

139.5305

289539.2

538.0885

202

Детское питание

10733.6

23.9079

45544.91

213.4125

203

Здоровое питание

7257

15.47595

16845.68

129.7909

204

Не мучные кондитерские изделия

109679.9

467.7868

2953418

1718.551

205

Консервация

44135.6

121.9103

292792.1

541.1026

206

Масло растительное

8236.6

23.7314

17173.4

131.0473

207

Снеки, орехи, сухофрукты

44007.6

71.76888

164839

406.0037

209

Чай, кофе

26595.1

130.0431

252234.4

502.2294

210

Алкогольные напитки

152993.3

210.8441

2324303

1524.567

211

Безалкогольные напитки

33966.2

106.1894

285393.6

534.2224

213

Пиво

55716

48.9884

267265

516.9768

214

Овощи, фрукты, грибы свежие

107474.8

922.1909

10804447

3287.012

215

Хлеб и хлебобулочные изделия

23660.8

192.0647

455097

674.6088

216

Молочные продукты

50934.3

486.6373

3231544

1797.65

217

Сыры

132476.3

543.4093

5094193

2257.032

218

Масложировая продукция

20197.4

123.431

260198.7

510.0968

221

Замороженные продукты

31648.7

256.751

889491.9

943.1288

222

Рыбный гастроном

35414.7

119.3019

401788.5

633.8679

223

Колбасы

169589.5

816.5619

11086149

3329.587

224

Готовая Продукция

190201.2

434.9755

7063231

2657.674

225

Мучные кондитерские изделия

138795.2

294.0508

1455889

1206.602

226

П/ф высокой степени готовности

33169

64.61243

213533.9

462.0972

227

Мясная продукция охлажденная

41724

208.7144

1043510

1021.524

228

Рыбные товары охлажденные

1119.8

0.1675377

82.23485

9.068343

230

Яйцо

16491.1

50.24908

61446.45

247.8839

401

Табачные изделия

26166

39.20327

140989.2

375.4852

Класс товаров

Максимум

Среднее значение

Дисперсия

Стандартное отклонение

404

Цветоводство, садоводство

2885.5

9.61341

3882.89

62.31284

405

Одежда

4670.3

19.07044

14091.94

118.7095

408

Текстиль д/домашнего обихода

2180

1.632872

1495.782

38.67534

409

Сумки, пакеты Семья

2965.4

9.845587

2342.95

48.40403

411

Товары для праздника

2132.9

3.748371

1021.547

31.96165

413

Электробытовые товары

1820.1

2.737349

909.9458

30.16531

414

Авто товары

813.7

0.4437941

132.6267

11.51637

415

Школьно-письм. и канцелярские товары

1022.4

1.171547

271.7985

16.48631

416

Хозяйственные товары

5322.1

9.294033

4950.309

70.35843

417

Посуда для приготовления и сервировки

8042.9

10.213

10928.66

104.5402

419

Печатная продукция

17548

22.06552

35207.36

187.6362

425

Бытовая химия

13300.8

27.77398

32672.35

180.755

427

Парфюмерно-косметическая продукция

11000.5

39.14421

48248.26

219.6549

428

Товары для животных

34781.4

49.72224

198258.3

445.262

430

Гигиена

12573

39.80149

50983.4

225.795

431

Дети

2490.4

2.692711

1820.441

42.66662

432

Хобби, отдых

3964

2.658237

1521.192

39.00246

Исходя из таблицы 1 и Рис. 2. Макси мальные затраты на классы товаровв идно, что максимальное количество денег (выделено цветом) было потрачено на:

  • 1.    Готовая продукция – 190201.2 рубля.

  • 2.    Колбасы – 169589.5 рубля.

  • 3.    Алкогольные напитки –  152993.3

  • 4.    Мучные кондитерские изделия – 138795.2 рубля.

  • 5.    Сыры – 132476.3 рубля.

    Рис. 2. Максимальные затраты на классы товаров


рубля.

Также исходя из таблицы 1 и Рис. 2. Максимальные затраты на классы това- ровм ожно сделать вывод и выявить топ товаров, на которые люди тратят в среднем большее количество денег:

  • 1.    Овощи, фрукты, грибы свежие – 922.1909 рубля.

  • 2.    Колбасы – 816.5619 рубля.

  • 3.    Сыры – 543.4093 рубля.

  • 4.    Молочные продукты – 486.6373 рубля.

  • 5.    Не мучные кондитерские изделия – 467.7868 рубля.

    Рис. 3. Средние затраты на товары различных классов


    Далее построим диаграмму для товаров, пользующихся наибольшим спросом (рис. 4).

    Рис. 4. Товары, пользующиеся наибольшим спросом


Из рисунка 4 видно первые 10 товаров, пользующихся наибольшим спросом:

  • 1.    Овощи, фрукты, грибы свежие.

  • 2.    Хлеб и хлебобулочные изделия.

  • 3.    Молочные продукты.

  • 4.    Колбасы.

  • 5.    Бакалея.

  • 6.    Не мучные кондитерские изделия.

  • 7.    Алкогольные напитки.

  • 8.    Мясная продукция охлажденная.

  • 9.    Чай, кофе.

  • 10.    Мучные кондитерские изделия.

Выведем данные 200 случайным образом выбранных чеков в разряженную матрицу, чтобы показать частоту товаров в чеках (рис. 5).

Рис. 5. Разряженная матрица 200 случайно выбранных чеков

Поиск ассоциативных правил с помощью Априорного алгоритма.

Для поиска ассоциативных правил необходимо найти все множество правил из всей базы данных, используя априор- ный алгоритм. Всего было найдено 6723 правила. Результаты поиска показали, что с высокой вероятностью (90%) покупка алкоголя, снеков, орехов и сухофруктов влечёт приобретение пива (рис. 6).

  • > iinspect(myrules [1: 5])

Ihs                                               rhs                 support confidence coverage lift

  • [1]    {Алкогольные напитки,                        => {Пиво}               0.001331876 0.9047619 0.002135231 11.235269

Снеки, орехи, сухофрукты}

  • [2]  {мучные кондитерские изделия,                => {чай, кофе}-         0.001016777 0.9090909  0.001118454  3.215669

Бакалея}

  • [3]  {Хлеб и хлебобулочные изделия,               => {Молочные продукты} 0.001118454 0.9166667  0.001220132  3.587512

Сыры}

  • [4]  {Хлеб и хлебобулочные изделия,               => {Молочные продукты} 0.001220132 0.9230769  0.001321810  3.612599

Мучные кондитерские изделия}

  • [5]  {Готовая Продукция , пиво}                    => {Молочные продукты} 0.001016777 0.9090909  0.001118454  3.557863

Рис. 6. Первые 5 найденных ассоциативных правил

С вероятностью в 91% покупка мучных кондитерских изделий и бакалеи несет за собой покупку молочных продуктов. С вероятностью в 92% покупка хлеба, хлебобулочных изделий несет за собой покупку молока и так далее.

Оценка качества ассоциативных правил, полученных с помощью Априорного алгоритма представлена на рисунке 7.

  • > summa-ytrnyrul es) set of 129 rules

rule length distribution (Ihs + rhs):sizes 3 4 5 6

10 5 7 55   5

Mi n. 3.00 1st Qu. Median Mean 3rd 4.45 Qu.     мах.. 5.00    6.00 4. CO 4.00 summary of quality support measures: confidence coverage lift count Min. :0. 001017 Min. :0.9000 Mi n. : С.001017 Mi n. : 3.522 Mi n. : 10. 0 1st QU. :Q. 001017 1st QU. :0.9091 1st QU. :0. 001118 1st QU. : 3.588 1st QU. : IC. 0 Median :0. 001017 Median :0.9167 Median :0. 001118 Median : 3.669 Median : IC. 0 Mean :0. 001139 Mean :0.9337 Mean :0. 001222 Mean : 4.216 Mean :11. 2 3rd Qu. :0. 001220 3rd Qu. :0.9333 3rd Qu. :0. 001322 3rd Qi.. : 4.598 3rd Qu. :12. 0 мах. :0. 001932 Max. :1.0000 Max. :0. 00213 5 Max. :11.235 Max. :19.0 mining info:

data ntransactions support confidence kn                60467   0.001        0.3

Рис. 7. Сводная информация о наборе полученных ассоциативных правил

Итак, исходя из условий, заданных алгоритму, поддержка равна 0.001, а достоверность – 0.9, было получено лишь 129 ассоциативных правил. Размер правил 3-6, помимо этих параметров, видно, что есть такой показатель как лифт. Он показывает, во сколько раз приобретение набора X увеличивает вероятность приобретения набора Y).

Так, согласно данным, приведённым на рисунке 7, при покупке алкоголя, снеков орехов и сухофруктов в 11 раз увеличивается вероятность того, что будет приобретено пиво. Для наглядности эти правила представлены в таблица. 2, 3, 4.

Таблица 2. Первые 5 найденных ассоциативных правил

LHS

RHS

Support

Confidence

Coverage

Lift

Алкогольные напитки, снеки, орехи, сухофрукты

Пиво

0.0011931876

0.9047619

0.002135231

11.235269

Мучные кондитерские изделия, бакалея

Чай, кофе

0.001016777

0.9090909

0.001118454

3.215669

Хлеб и хлебобулочные изделия, сыры

Молочные продукты

0.001118454

0.9166667

0.001220132

3.587512

Хлеб и хлебобулочные изделия, мучные кондитерские

Молочные продукты

0.001220132

0.9230769

0.001321810

3.612599

Готовая продукция, пиво

Молочные продукты

0.001016777

0.9090909

0.001118454

3.557863

Таблица 3. Найденные ассоциативные правила в порядке убывания показателя Lift

LHS

RHS

Support

Confid

Covera

Lift

Алкогольные напитки, снеки, орехи, сухофрукты

Пиво

0.00119 31876

0.9047 619

0.00213 5231

11.23

5269

Бакалея, Безалкогольные напитки, масло растительное

Овощи,   фрукты,

грибы свежие

0.00101 6777

0.9090 909

0.00111 8454

8.340

400

Парфюмерные-косметическая    продукция,

хозяйственные товары

Бытовая химия

0.00101

6777

0.9090 909

0.00111

8454

7.562

356

Масложировая продукция, сыры, колбасы

Хлеб  и хлебобу

лочные изделия

0.00101

6777

0.9090 909

0.00111 8454

6.516

698

Замороженные продукты, рыбный гастроном, снеки, орехи, сухофрукты

Безалкогольные напитки

0.00101

6777

0.9090 909

0.00111

8454

6.216

724

Таблица 4. Найденные ассоциативные правила, содержащие молочные продукты

LHS

RHS

Support

Confidence

Coverage

Lift

Масло растительное,  мо

лочные продукты, бакалея

Овощи, фрукты, грибы све-

0.001016777

0.9047619

0.002135231

8.340400

Бакалея,   Безалкогольные

напитки, масло раститель-

Снеки, орехи, сухофрукты

0.001016777

0.9090909

0.001118454

2.785641

Замор о жен ные    продукты,

молочные продукты, яйцо

Овощи, фрукты, грибы све-

0.001016777

0.9090909

0.001118454

5.168156

Молочные продукты, рыб ный  гастроном,  готовая

Овощи, фрукты, грибы све-

0.001118454

0.9090909

0.001118454

1.782141

Молочные продукты, масложировая продукция, консервация, мясная продукция охлажденная

Овощи, фрукты, грибы свежие

0.001016777

0.9090909

0.001118454

3.215122

Далее для наглядности представим полученные правила в виде графов (рис. 7-8). Фиолетовым цветом показаны товары левого плеча, синим – правого. Число рядом со стрелкой показывает значение показателя лифт – во сколько раз покупка товарного набора влечен за собой покупку другого.

Рис. 7. Граф первых 5 найденных ассоциативных правил

Рис. 8. Граф правил, в порядке убывания показателя лифт

Нахождение стандартной годовой корзины.

Для нахождения стандартной годовой корзины потребителя воспользуемся методом главных компонент. Результаты показаны на рисункке 9.

Рис. 9. Диаграмма значений каждой компоненты

На рисунке 9 можно видеть, что первая главная компонента достаточно хорошо описывает вариацию исходных данных. На рисунке 10 представлены сами главные компоненты.

> sunmary(pca)

importance of components:

PCI     PC2     РСЗ     PC4     PCS     PCб     PC7     PC8     PC9    PC10    PC11PC12

Standard deviation     2.9042 1.12839 1.11235 1.06501 1.02390 1.01425 1.01206 1.00817 1.00565 1.00380 1.00045 0.99846

Proportion of Variance 0.1961 0.02961 0.02878 0.02638 0.02438 0.02392 0.02382 0.02364 0.02352 0.02343 0.02328 0.02318

Cumulative Proportion  0.1961 0.22576 0.25454 0.28091 0.30529 0.32922 0.35304 0.37668 0.40019 0.42363 0.44690 0.47009

PC13    PC14   PC15    PC16    PC17    PC18    PC19    PC20   PC21    PC22    PC23PC24

Standard deviation     0.99573 0.99252 0.9879 0.98655 0.98385 0.98157 0.97499 0.97389 0.9682 0.96282 0.95828 0.9502

Proportion of variance 0.02306 0.02291 0.0227 0.02263 0.02251 0.02241 0.02211 0.02206 0.0218 0.02156 0.02136 0.0210

Cumulative Proportion  0.49315 0.51606 0.5387 0.56139 0.58390 0.60630 0.62841 0.65047 0.6723 0.69382 0.71518 0.7362

PC25   PC26    PC27   PC28    PC29    PC30    PC31    PC32    РСЗЗ    PC34    PC35PC36

Standard deviation     0.93977 0.9296 0.91123 0.8870 0.86821 0.84839 0.82785 0.80832 0.79526 0.78361 0.75815 0.71956

Proportion of Variance 0.02054 0.0201 0.01931 0.0183 0.01753 0.01674 0.01594 0.01519 0.01471 0.01428 0.01337 0.01204

Cumulative Proportion  0.75672 0.7768 0.79612 0.8144 0.83195 0.84869 0.86463 0.87982 0.89453 0.90881 0.92218 0.93422

PC37    PC 38    PC39    PC40    PC41    PC42PC43

Standard deviation     0.70748 0.68210 0.66585 0.63832 0.62094 0.56902 0.55023

Proportion of Variance 0.01164 0.01082 0.01031 0.00948 0.00897 0.00753 0.00704

cumulative Proportion  0.94586 0.95668 0.96699 0.97646 0.98543 0.99296 1.00000

Рис. 10. Главные компоненты

На рисунке 11. Рис. 10. п редставлены стандартные отклонения каждой из компонент.

> pcal<-pca$x[,1]

> vl<-pca$rotation[,l]

> vl

sc201       sc202

0.07304293

SC213 0.12071462

SC225 0.21947263

SC411 0.02842436

SC430 0.02186295

0.02984 303

SC214 0.28566142

SC226 0.15923370 sc413 0.02833863

SC431 0.05721992

SC203 0.03235116

SC215

0.12299681

SC227 0.25751182

SC414 0.03795333

SC432 0.05663781

SC204 0.16312005

SC216 0.23574594

SC228 0.03027576 sc415 0.03803172

SC2O5 0.24624678

SC217 0.24110398

SC23O 0.25566486 sc416 0.17432673

sc206

0.20783150

SC218

0.19629244

SC401

0.07943891

SC417 0.01149274

sc2O7 0.08063912

SC221 0.26247618

SC404 0.01162269

SC419 0.14949787

sc209 0.04954887

SC222 0.19778028

SC405 0.15341859 sc425 0.21561831

sc210sc211

0.15606581 0.06522273

SC223SC224

0.26315489 0.16234972

SC408SC409

0.03583719 -0.02925346

SC427SC428

0.07003428 0.05995685

Рис. 11. Веса первой главной компоненты

Веса компоненты на рисунке 11 указывают на степень корреляции между исходными переменными и новыми основными компонентами. Таким образом они показывают, насколько каждая из исходных переменных вносит вклад в новые пере- менные. В данном примере ясно, что основной компонент 1 состоит из довольно однородных вкладов всех исходных переменных.

Заключение.

В результате проделанной работы было проведено исследование продуктовой корзины с помощью алгоритмов Data Mining. Были решены все поставленные задачи в соответствии с целью исследования. Были исследованы возможности применения алгоритмов Data mining для анализа продуктовой корзины. Также была рассмотрена история Data mining рассмотрены задачи, решаемые с помощью Data mining и рассмотрены алгоритмы нахождения ассоциативных правил. Проведено теоретическое исследование алгоритмов поиска ассоциативных правил и метода главных компонент. Были найдены ассоциативные правила в базе данных чеков магазина за год и определены товары, пользующиеся наибольшим спросом. Также с помощью метода главных компонент была найдена главная компонента, отражающая среднегодовую корзину покупателя.

Проанализированы данные о составе покупок в среднем за год покупателей одной из торговых точек и найдены 129 надежных ассоциативных правил. Ассоциативные правила получились такие:

  • 1.    Алкогольные напитки, снеки, орехи, сухофрукты -> Пиво.

  • 2.    Бакалея, безалкогольные напитки, масло растительное -> Овощи, фрукты, грибы свежие.

  • 3.    Парфюмерно-косметическая продукция, хозяйственные товары, гигиена -> Бытовая химия.

  • 4.    Масложировая продукция, сыры,

  • 5.    Замороженные продукты, рыбный гастроном, снеки, орехи, сухофрукты-> Безалкогольные напитки.

колбасы -> Хлеб и хлебобулочные изделия.

Также были найдены 10 товаров, пользующихся наибольшим спросом в магазине:

  • 1.    Овощи, фрукты, грибы свежие.

  • 2.    Хлеб и хлебобулочные изделия.

  • 3.    Молочные продукты.

  • 4.    Колбасы.

  • 5.    Бакалея.

  • 6.    Не мучные кондитерские изделия.

  • 7.    Алкогольные напитки.

  • 8.    Алкогольные напитки.

  • 9.    Чай, кофе.

  • 10.    Мучные кондитерские изделия.

Максимальное количество денег было потрачено на:

  • 1.    Готовая продукция – 190201.2 рубля.

  • 2.    Колбасы – 169589.5 рубля.

  • 3.    Алкогольные напитки –  152993.3

  • 4.    Мучные кондитерские изделия – 138795.2 рубля.

  • 5.    Сыры – 132476.3 рубля.

рубля.

Топ товаров, на которые люди тратят в среднем большее количество денег.

  • 1.    Овощи, фрукты, грибы свежие – 922.1909 рубля.

  • 2.    Колбасы – 816.5619 рубля.

  • 3.    Сыры – 543.4093 рубля.

  • 4.    Молочные продукты – 486.6373 рубля.

Список литературы Анализ статистики продаж

  • Барсегян А.А., Куприянов M.С., Степаненко В.В., Холод И.И. Методы и модели анализа данных: OLAP и Data Mining - 2004. - С. 5-69.
  • Раменская А. В., "Ассоциативыне правила в социально -экономических и экологических исследованиях. - 2015. - 86 с.
  • Сегаран Т. Программируем коллективный разум. - Пер. с англ. - СПб: Символ-Плюс, 2008. - 20 с.
  • Чубукова И. А. DataMining: учебное пособие. - М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний - 2006. - С. 21-35.
  • Шистаков М. С., Мастицкий В.К. "Классификация, регрессия и другие алгоритмы Data Mining с использованием R". - 2007. - 71 с.
  • О'Нил К., Шатт Р. Data Science. Инсайдерская информация для новичков. Включая язык R. - 2013. - С. 25-32.
  • Agrawal, Rakesh and Srikant, Ramakrishnan: Fast algorithms for mining association rules in large databases. - Чили, 1994. - С. 5-11.
  • Рофалович В. Р. Data Mining, или Интеллектуальный анализ данных для занятых. Практический курс. - 2014. - С. 121-128.
  • Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям. - СПб.: Изд-во Питер, 2009. - 85 с.
  • dygraphs. - [Электронный ресурс]. - URL: https://rstudio.github.io/dygraphs
Еще
Статья научная