Компьютерный анализ данных как инструментарий в спортивной аналитике

Автор: Халафян А.А., Бушуева Т.В., Минасян А.Г.

Журнал: Физическая культура, спорт - наука и практика @fizicheskaya-kultura-sport

Рубрика: Проблемы физической культуры и спорта

Статья в выпуске: 1, 2016 года.

Бесплатный доступ

Уровень развития информационных технологий и средств фото- и видеосъемки позволяет накапливать гигантские объемы статистической информации о различных видах спорта. Методы многомерного анализа, реализованные в статистических пакетах, позволяют выявить скрытые закономерности, которые могут быть использованы при принятии тех или иных верных управленческих решений при подготовке к спортивным состязаниям. На примере анализа статистических данных чемпионата России по футболу сезона 2013-2014 гг. показаны возможности применения компьютерных методов анализа данных для выявления статистических закономерностей, представляющих определенный интерес в области футбольной аналитики. При помощи статистических методов, реализованных в пакете STATISTICA - корреляционного анализа, кластерного анализа, многомерного шкалирования - проведен сравнительный анализ параметров игр команд (3 параметра - данные Wikipedia, 53 - данные компании Opta) на чемпионате в отдельности по каждому из 56 показателей, и по совокупности наиболее важных 24 показателя. При оценке команд по 56 показателям использованы такие статистики, как выборочное среднее (среднее арифметическое), выборочное стандартное отклонение. Выделены группы однородности команд. Кластер лидеров: ЦСКА, Зенит, Локомотив, Ростов. Кластер среднего уровня: Краснодар, Спартак, Терек, Кубань, Рубин, Урал, Динамо. Кластер аутсайдеров: Волга, Крылья Советов, Томь, Амкар, Анжи. Сделан анализ степени сходства (различия) между командами посредством оценки расстояний между ними как точками многомерного пространства. Предложен коэффициент для оценки технико-тактической подготовленности команд Премьер-лиги по результатам проведенных игр в чемпионате России 2013-2014 гг.

Еще

Чемпионат России по футболу, многомерное шкалирование, кластерный анализ, коэффициент технико-тактической подготовленности

Короткий адрес: https://sciup.org/14263988

IDR: 14263988

Текст научной статьи Компьютерный анализ данных как инструментарий в спортивной аналитике

Как известно, при помощи современных средств фото- и видеосъемки можно накапливать, хранить, обрабатывать огромные массивы числовой информации в различных видах спорта. Десятки компаний конкурируют между собой, продавая различные статистические базы, а также аппаратное и программное обеспечение для самостоятельного сбора данных. Современные компьютерные методы анализа данных позволяют выявить скрытые закономерности, которые могут быть использованы при принятии тех или иных верных управленческих решений [1, 2]. К сожалению, в отечественной спортивной аналитике использование современных математических моделей обработки полученных данных ограничено очень узким кругом работ.

Учитывая это, нами были проведены специальные исследования, основной целью которых являлось определение возможностей многомерного анализа в системе прогнозирования рейтинга футбольных команд Российской Премьер-лиги с позиции уровня их технико-тактической подготовленности.

Для решения поставленной задачи использовалась база данных антропометрических показателей и па- раметров технико-тактической подготовленности 403 футболистов, представляющих 16 клубов Российской Премьер-лиги чемпионата России по футболу сезона 2013-2014 гг. Анализировались 56 показателей: 3 показателя – данные Wikipedia, 53 показателя – данные компании Opta, крупнейшего поставщика статистики в мире (клиенты «Челси», «Манчестер Сити», «Бавария» и т. д.) [5]. При оценке данных использовались такие показатели статистики, как выборочное среднее (среднее арифметическое) и выборочное стандартное отклонение. Для оценки тесноты взаимосвязей использовался коэффициент корреляции Спирмена: при ½r½£ 0,25 – корреляция слабая, 0,25 <½r½£ 0,75 – умеренная, при ½r½³ 0,75 – сильная [5].

Для оценки степени сходства и различия команд применены многомерные статистические методы анализа данных – кластерный анализ (метод иерархической классификации) и метод многомерного шкалирования. Параметры, отражающие технико-тактические действия игры в футбол, представлены с учетом количества игроков в команде.

Вычисления были реализованы в среде статистического пакета STATISTICA [3, 4].

Из таблицы 1 (полный объем результатов [6]) следует, что средний рост, вес и возраст футболистов в командах отличаются незначительно. Но при этом самая «высокая» и «тяжелая» в среднем команда – Амкар (184,3 см и 79,3 кг соответственно), самая «низкая» и «легкая» – Рубин (180,3 см и 74,3 кг соответственно). Самая «взрослая» команда – Волга (29 лет), самая «молодая» – Спартак (25,4 года). Наиболее удачные попытки передач в среднем – у Зенита (490,4), наименее удачные – у Томи (206). Наибольшая средняя точность паса у ЦСКА – (77,5), наименьшая – у Томи (67,5). Наибольшее среднее количество забитых голов игроками – у Зенита (2,6), наименьшее – у Анжи (0,6) и т. д.

Очевидно, что определенный интерес представляет оценка сходства (различия) между командами не отдельно по каждому показателю, а по совокупности всех рассмотренных показателей. Естественно, не все рассмотренные 56 показателей в одинаковой степени влияют на результативность команд в чемпионате. Для

Таблица 1

Средние значения антропометрических и технико-тактических показателей футбольных команд

Команды Рост, см Вес, кг Возраст, лет Время, мин Матчи Передачи вперед Передачи назад Всего передач Зенит 181,3 74,8 28,6 1350,0 18,5 414,8 190,2 607,3 Динамо 183,0 77,5 28,7 1194,8 15,8 336,7 169,7 507,5 Крылья Советов 182,0 76,7 27,7 1102,6 15,3 253,5 122,8 378,0 Кубань 182,9 76,3 26,9 1251,0 17,3 317,2 124,5 443,1 Краснодар 181,6 75,8 28,4 1128,3 15,6 290,9 122,4 414,6 Спартак 182,3 77,2 25,4 1030,8 14,3 291,2 150,3 442,8 ЦСКА 180,8 75,5 25,8 1248,3 17,3 350,5 191,2 544,3 Анжи 182,4 76,0 26,2 977,3 14,2 235,0 95,8 332,1 Рубин 180,3 74,6 27,4 1103,3 15,8 281,2 152,6 435,2 Терек 184,0 77,9 26,9 1194,3 16,7 285,1 127,7 414,2 Амкар 184,3 79,3 27,7 1121,3 15,1 245,3 106,4 352,6 Локомотив 181,8 77,9 28,2 1433,1 19,5 407,1 191,3 601,1 Урал 181,3 76,2 27,2 1079,2 15,4 240,4 127,3 368,6 Волга 183,7 77,0 29,0 1036,5 14,3 243,0 115,6 359,9 Томь 182,8 77,0 27,9 1083,7 14,8 218,2 84,9 304,0 Ростов 182,3 75,0 26,8 1343,3 18,9 322,4 156,8 481,9 Краснодар 310,6 72,9 10,7 1,3 12,0 21,0 1,9 Команды Удачные попытки передачи Точность передачи (%) Ключевые передачи Голевые передачи Созданные моменты Средняя длина передачи, м Забитые голы Спартак 353,7 73,9 8,4 1,2 9,7 20,6 1,6 ЦСКА 434,8 77,5 11,6 1,3 12,9 20,1 2,0 Анжи 245,9 72,5 6,5 0,5 7,0 19,7 0,6 Рубин 339,8 77,2 11,5 1,0 12,5 18,8 1,5 Терек 314,3 73,5 10,9 0,8 11,7 21,5 1,2 Амкар 252,1 69,1 8,0 0,8 8,8 21,6 1,4 Локомотив 475,1 76,5 11,9 1,6 13,5 20,1 1,8 Урал 283,6 73,9 10,6 0,8 11,3 20,7 1,5 Волга 265,8 68,7 8,2 0,6 8,8 22,5 0,7 Томь 206,0 67,5 8,2 0,4 8,7 22,5 0,9 Ростов 354,8 71,3 9,4 1,4 10,7 21,1 2,1 последующего многомерного анализа данных из совокупности параметров следует выделить те, которые наиболее тесно взаимосвязаны с основными итоговыми показателями результативности команд Премьер-лиги в чемпионате России (таблица 2).

Очевидно, что ключевым финальным параметром является показатель «очки в турнире», который в свою очередь взаимосвязан со всеми остальными финальными показателями. Поэтому дальнейшую интерпретацию корреляционных взаимосвязей целесообразно провести, рассмотрев данный параметр. Как показали полученные данные, корреляции параметров матчи, точность передачи, ключевые передачи с показателем «очки в турнире» умеренные, близкие к сильным. Корреляции показателей передачи вперед, передачи назад, всего передач, удачные попытки передач, голевые передачи, созданные моменты, забитые голы с параметром очки в турнире сильные. Причем увеличение значений перечисленных показателей влечет увеличение показателя «очки в турнире». Аналогичную интерпретацию можно провести по каждому из 56 параметров.

Из списка 56 показателей выбраны те, у которых коэффициент корреляции Спирмена с финальными показателями статистически значим. Таких показателей оказалось 24, это – передачи вперед, передачи назад, всего передач, точность передачи, ключевые передачи, голевые передачи, созданные моменты, средняя длина передачи, забитые голы, забитые голы левой ногой, забитые голы правой ногой, забитые голы из штрафной площади, забитые голы вне штрафной площади, всего ударов, точность ударов, удары из штрафной площади, удары вне штрафной площади, удачные отборы мяча у соперника, удачный дриблинг, карты за симуляцию, карты за неспортивное поведение, ввод мяча вратарем в игру.

Каждую из указанных команд можно представить в виде точки в пространстве размерности 24, следовательно, при помощи евклидовой метрики легко определить расстояния между командами, а значит, и оценить сходство (различие) между ними. Чем меньше расстояние, тем больше сходство, и наоборот, чем больше расстояние, тем меньше сходство. Но человек не может визуализировать объекты в пространстве размерности больше чем 3. Поэтому мы использовали метод многомерного шкалирования, который позволяет объекты многомерного пространства перенести в пространство меньшей размерности, в частности – пространство размерности 2, т. е. на плоскость, сохранив порядок расстояний между объектами. Объекты (в нашем случае команды), близкие в многомерном пространстве, сохраняют близость и в пространстве меньшей размерности.

На рисунке 1 команды изображены в виде точек на плоскости. Чем ближе команды расположены, тем большим сходством они обладают. Так, например, Зенит находится на достаточном удалении от команд ЦСКА, Ростов, Локомотив, в то время как ЦСКА, Ростов, Локомотив находятся на более близком расстоянии друг от друга. Это говорит о большем отличии по совокупности 24 показателей Зенита от ЦСКА, Ростова, Локомотива, чем отличие трех упомянутых команд друг от друга.

Для более полного понимания структуры сходства между командами использовали метод иерархической классификации кластерного анализа. На рисунке 2 приведена дендрограмма, построенная методом полных связей. Вдоль горизонтальной оси отображены названия команд. Вдоль вертикальной оси указано расстояние между командами, которое является критерием объединения в кластеры. По мере увеличения рассто-

Таблица 2

Основные итоговые показатели результативности команд Премьер-лиги в чемпионате России

Команды

Выигрыши

Ничьи

Поражения

Забитые голы

Пропущенные голы

Очки в турнире

Зенит

19

6

5

63

32

63

Динамо

15

7

8

54

37

52

Крылья Советов

6

11

13

27

46

29

Кубань

10

8

12

40

42

38

Краснодар

15

5

10

46

39

50

Спартак

15

5

10

46

36

50

ЦСКА

20

4

6

49

26

64

Анжи

3

11

16

25

42

20

Рубин

9

11

10

36

30

38

Терек

8

9

13

27

33

33

Амкар

9

11

10

36

37

38

Локомотив

17

8

5

51

23

59

Урал

9

7

14

28

46

34

Волга

6

3

21

22

65

21

Томь

8

7

15

23

39

31

Ростов

10

9

11

40

40

39

Рисунок 1. Команды в системе координат

Измерение 1, Измерение 2

2М Дилрииил рлссешия

Окймча! КймфНГ . U4U*p»H»e 1 II МЭи4р*НИ* 2

Anw

Лыкар 6

По nr j КрыпьиС

Hwepenne 1

Рисунок 2.

Дендрограмма для                               Дендрограмма для 16 перемен.

команд чемпионата                                     Метод полной связи

яния команды объединяются в группы однородности, так как постепенно понижается порог объединения. Как итог, в кластеры связывается всё большее число команд, а кластеры агрегируются в новые кластеры. На последнем шаге все команды образуют один кластер – исходную совокупность.

Из дендрограммы видно, что на начальном этапе в одну группу однородности попадают команды Волга, Крылья Советов. Далее, по мере увеличения расстояния (уменьшения сходства), к этим командам добавляются Томь, Амкар, Анжи, которые в итоге образуют единый кластер. Самостоятельный кластер также образуют

Таблица 3

Технико-тактические показатели команды Гипотетический чемпион

Матчи

Передачи вперед

Передачи назад

Всего передач

Удачные попытки передачи

Точность передачи (%)

Ключевые передачи

Голевые передачи

20

415

191,3

607,3

490,4

77,5

11,9

2,0

Созданные моменты

Средняя длина паса, м

Забитые голы

Забитые голы левой ногой

Забитые голы правой ногой

Забитые голы из штрафной площади

Забитые голы вне штрафной площади

Всего ударов

13,5

19

2,6

0,9

1,5

2

0,6

19,1

Точность ударов по воротам

Удары из штрафной площади

Удары вне штрафной площади

Удачные отборы мяча у соперника

Удачный дриблинг

Карты за симуляцию

Карты за неспортивное поведение

Ввод мяча вратарем в игру, м

39,1

9,8

9,3

24,5

10,5

0

0

45,5

Таблица 4

Коэффициенты технико-тактической подготовленности футбольных команд Премьр-лиги

Команды Кластер Расстояние до команды Гипотетический чемпион Коэффициент техникотактической подготовлености Место по коэффициенту технико-тактической подготовлености Место в чемпионате Зенит лидер 3,38 0,296 1 2 ЦСКА лидер 4,60 0,217 2 1 Локомотив лидер 5,66 0,177 3 3 Ростов лидер 7,22 0,138 4 7 Динамо средний уровень 7,34 0,136 5 4 Краснодар средний уровень 7,79 0,128 6 5 Кубань средний уровень 7,81 0,128 7 8 Рубин средний уровень 8,01 0,125 8 9 Терек средний уровень 9,09 0,110 9 12 Спартак средний уровень 9,11 0,110 10 6 Урал средний уровень 9,53 0,105 11 11 Крылья Советов аутсайдер 11,21 0,089 12 14 Амкар аутсайдер 11,76 0,085 13 10 Волга аутсайдер 12,49 0,080 14 15 Анжи аутсайдер 13,31 0,075 15 16 Томь аутсайдер 13,42 0,075 16 13 команды Спартак, Краснодар, Динамо. При увеличении расстояния к ним присоединяется кластер, состоящий из Рубина, Урала, Терека, Кубани. Команды ЦСКА, Зенит образуют единый кластер, при увеличении расстояния (уменьшении сходства) к ним присоединяются Локомотив и Ростов.

По результатам многомерного анализа представляется возможным говорить о трех основных выделенных кластерах команд: ЦСКА, Зенит, Локомотив, Ростов; Краснодар, Спартак, Терек, Кубань, Рубин, Урал, Динамо; Волга, Крылья Советов, Томь, Амкар, Анжи. Эти же кластеры можно увидеть на рисунке 2 – они очерчены линиями. Условно 1-й кластер можно назвать командами лидеров, 2-й – командами среднего уровня, 3-й – командами аутсайдеров.

Очевидно, что количество набранных очков в чемпионате и занятое соответствующее место в турнире не являются исчерпывающей характеристикой техни- ко-тактической подготовленности команды, которую целесообразно оценивать не по одному показателю (количеству набранных очков), а по совокупности. Такой совокупностью могут быть 24 выделенных показателя. Если обратиться к таблицам со средними значениями технико-тактических параметров для каждой команды, то легко заметить, что нет такой команды, которая обладала бы наилучшими значениями средних сразу по всем показателям. Так, фаворит чемпионата ЦСКА уступает Зениту по количеству передач вперед, а Зенит уступает Локомотиву по передачам назад и т. д. Добавим в список команду Гипотетический чемпион с наилучшими параметрами по всем командам. Двум показателям – средняя длина передачи (м) и средняя длина ввода мяча (м) присвоим соответственно значения 19 и 45,5 оптимальные, по мнению футбольных аналитиков. В таблице 3 отображены параметры команды Гипотетический чемпион.

Если теперь составить матрицу расстояний между командами, то по расстоянию между каждой командой и командой Гипотетический чемпион представляется возможным (по совокупности 24 показателей) судить об уровне технико-тактической подготовленности команд, который целесообразно определять посредством величины, обратной расстоянию между произвольной командой и командой Гипотетический чемпион, так как чем меньше расстояние, тем команда более технико-тактически подготовлена. Если обозначить расстояния между командами и Гипотетический чемпион через d , а коэффициент технико-тактической подготовленности – К техн , то К техн = 1 / d .

Полученные данные (по убыванию коэффициента технико-тактической подготовленности) представлены в таблице 4.

Как видно из таблицы 4, наиболее технико-тактически подготовленная команда Зенит, так как К техн принимает наибольшее значение (0,296). Далее идут ЦСКА, Локомотив, Ростов, Динамо. Краснодар занимает 6 место. Последние три места занимают команды Волга, Анжи, Томь. Значительное несоответствие уровня технико-тактической подготовленности футбольных команд и занятых мест у Терека, Спартака, Томи. Спартак и Томь сыграли лучше своих возможностей, Терек – хуже. Возможно, это является следствием определенного стечения обстоятельств.

В целом алгоритм проведенного нами анализа может быть представлен следующим образом:

– оценка технико-тактической подготовленности команд по каждому из 56 показателей;

– корреляционный анализ между этими показателями и показателями успешности выступления команд в чемпионате;

– выделение по результатам корреляционного анализа 24 показателей, в наибольшей степени влияющих на финальный результат;

– анализ сходства и различия между командами (по совокупности выделенных показателей) методами многомерного шкалирования и иерархической классификации;

– выделено 3 группы сходства (кластера) команд – кластеры лидеров, среднего уровня, аутсайдеры;

– вычисление коэффициента технико-тактической подготовленности команд по результатам чемпионата.

Таким образом, согласно полученным данным, уровень индивидуальной и общекомандной техникотактической подготовленности в значительной мере определяет рейтинг команд Российской Премьер-лиги в турнирной таблице. Для более серьезного анализа, естественно, желателен больший объем параметров, однако, даже при подобном количестве анализируемых показателей представляется возможным сделать заключение, что методы многомерного анализа позволяют анализировать большие массивы спортивных данных и выявлять в виде статистических закономерностей скрытые знания, которые могут быть использованы при организации тренировочного процесса, выработке тактики и стратегии спортивных соревнований и т. п.

Список литературы Компьютерный анализ данных как инструментарий в спортивной аналитике

  • Бушуева Т. В. Минимизация комплекса физиологических параметров функционального состояния центральной и автономной нервной системы, регистрируемых в рамках АПК «Истоки здоровья» и «Валента»/Т. В. Бушуева//Физическая культура, спорт -наука и практика. -Краснодар. -2015. -№ 1. -С. 36-43.
  • Макарова Г. А. Физиологические критерии в системе прогнозирования успешности соревновательной деятельности спортсменов в избранном годичном тренировочном цикле/Г. А. Макарова, И. Б. Барановская, Т. В. Бушуева//Физическая культура, спорт -наука и практика. -Краснодар. 2013. -№ 3. -С. 36-40.
  • Халафян А. А. STATISTICA 6. Математическая статистика с элементами теории вероятностей. -М.: Бином, 2010. -491 с.
  • Халафян А. А. STATISTICA 6. Статистический анализ данных. -М.: Бином, 2009. -491 с.
  • Сайт Squawka . -Режим доступа: http://www.squawka.com
  • Сайт «Лаборатория статистических исследований Кубанского государственного университета» . -Режим доступа http://www.statlab. kubsu.ru/sites/project_sport/project.php
Статья научная