Computer data analysis as an instrument in sports analytics
Автор: Khalaphyan A., Bushueva T., Minasyan A.
Журнал: Физическая культура, спорт - наука и практика @fizicheskaya-kultura-sport
Рубрика: Проблемы физической культуры и спорта
Статья в выпуске: 1, 2016 года.
Бесплатный доступ
The level of information technologies development and means of photo and video allow to accumulate huge amounts of statistical information in various sports. Multivariate analysis methods implemented in the statistics, allow to reveal hidden patterns which can be used in making certain correct managerial decisions in preparing for sports competitions. For example, the analysis of statistical data of the Russian championship football season of 2013-2014 the possibilities of computer data analysis methods are shown to identify statistical regularities representing a certain interest in football analytics. With the help of statistical methods implemented in STATISTICA package - correlation analysis, cluster analysis, multidimensional scaling comparative analysis of team games parameters were conducted (3 parameters - Wikipedia data, 53 -company Opta data) in the championship individually for each of the 56 indicators, and the most important set of 24 indicators. In assessing the performance of teams on 56 indicators such statistics as a selective average (arithmetical mean), a sample standard deviation were used. The uniformity of teams were highlighted. Leaders' cluster: CSKA, Zenit, Lokomotiv Rostov. Mid-level cluster: Krasnodar, Spartak, Terek, Kuban, Rubin, Ural, Dynamo. Outsiders' cluster: Volga, Krylya Sovetov, Tom, Amkar, Andzhi. The analysis of the degree of similarity (difference) between the teams were conducted by estimating the distance between them as the points of the multidimensional space. A factor to assess technical and tactical training level of the teams of Premier League on the results of the games in Russian Championship of 2013-2014 was offered.
Russian premier league, multidimensional scaling, cluster analysis, coefficient of technical and tactical training
Короткий адрес: https://sciup.org/14263988
IDR: 14263988
Текст научной статьи Computer data analysis as an instrument in sports analytics
Как известно, при помощи современных средств фото- и видеосъемки можно накапливать, хранить, обрабатывать огромные массивы числовой информации в различных видах спорта. Десятки компаний конкурируют между собой, продавая различные статистические базы, а также аппаратное и программное обеспечение для самостоятельного сбора данных. Современные компьютерные методы анализа данных позволяют выявить скрытые закономерности, которые могут быть использованы при принятии тех или иных верных управленческих решений [1, 2]. К сожалению, в отечественной спортивной аналитике использование современных математических моделей обработки полученных данных ограничено очень узким кругом работ.
Учитывая это, нами были проведены специальные исследования, основной целью которых являлось определение возможностей многомерного анализа в системе прогнозирования рейтинга футбольных команд Российской Премьер-лиги с позиции уровня их технико-тактической подготовленности.
Для решения поставленной задачи использовалась база данных антропометрических показателей и па- раметров технико-тактической подготовленности 403 футболистов, представляющих 16 клубов Российской Премьер-лиги чемпионата России по футболу сезона 2013-2014 гг. Анализировались 56 показателей: 3 показателя – данные Wikipedia, 53 показателя – данные компании Opta, крупнейшего поставщика статистики в мире (клиенты «Челси», «Манчестер Сити», «Бавария» и т. д.) [5]. При оценке данных использовались такие показатели статистики, как выборочное среднее (среднее арифметическое) и выборочное стандартное отклонение. Для оценки тесноты взаимосвязей использовался коэффициент корреляции Спирмена: при ½r½£ 0,25 – корреляция слабая, 0,25 <½r½£ 0,75 – умеренная, при ½r½³ 0,75 – сильная [5].
Для оценки степени сходства и различия команд применены многомерные статистические методы анализа данных – кластерный анализ (метод иерархической классификации) и метод многомерного шкалирования. Параметры, отражающие технико-тактические действия игры в футбол, представлены с учетом количества игроков в команде.
Вычисления были реализованы в среде статистического пакета STATISTICA [3, 4].
Из таблицы 1 (полный объем результатов [6]) следует, что средний рост, вес и возраст футболистов в командах отличаются незначительно. Но при этом самая «высокая» и «тяжелая» в среднем команда – Амкар (184,3 см и 79,3 кг соответственно), самая «низкая» и «легкая» – Рубин (180,3 см и 74,3 кг соответственно). Самая «взрослая» команда – Волга (29 лет), самая «молодая» – Спартак (25,4 года). Наиболее удачные попытки передач в среднем – у Зенита (490,4), наименее удачные – у Томи (206). Наибольшая средняя точность паса у ЦСКА – (77,5), наименьшая – у Томи (67,5). Наибольшее среднее количество забитых голов игроками – у Зенита (2,6), наименьшее – у Анжи (0,6) и т. д.
Очевидно, что определенный интерес представляет оценка сходства (различия) между командами не отдельно по каждому показателю, а по совокупности всех рассмотренных показателей. Естественно, не все рассмотренные 56 показателей в одинаковой степени влияют на результативность команд в чемпионате. Для
Таблица 1
Средние значения антропометрических и технико-тактических показателей футбольных команд
Очевидно, что ключевым финальным параметром является показатель «очки в турнире», который в свою очередь взаимосвязан со всеми остальными финальными показателями. Поэтому дальнейшую интерпретацию корреляционных взаимосвязей целесообразно провести, рассмотрев данный параметр. Как показали полученные данные, корреляции параметров матчи, точность передачи, ключевые передачи с показателем «очки в турнире» умеренные, близкие к сильным. Корреляции показателей передачи вперед, передачи назад, всего передач, удачные попытки передач, голевые передачи, созданные моменты, забитые голы с параметром очки в турнире сильные. Причем увеличение значений перечисленных показателей влечет увеличение показателя «очки в турнире». Аналогичную интерпретацию можно провести по каждому из 56 параметров.
Из списка 56 показателей выбраны те, у которых коэффициент корреляции Спирмена с финальными показателями статистически значим. Таких показателей оказалось 24, это – передачи вперед, передачи назад, всего передач, точность передачи, ключевые передачи, голевые передачи, созданные моменты, средняя длина передачи, забитые голы, забитые голы левой ногой, забитые голы правой ногой, забитые голы из штрафной площади, забитые голы вне штрафной площади, всего ударов, точность ударов, удары из штрафной площади, удары вне штрафной площади, удачные отборы мяча у соперника, удачный дриблинг, карты за симуляцию, карты за неспортивное поведение, ввод мяча вратарем в игру.
Каждую из указанных команд можно представить в виде точки в пространстве размерности 24, следовательно, при помощи евклидовой метрики легко определить расстояния между командами, а значит, и оценить сходство (различие) между ними. Чем меньше расстояние, тем больше сходство, и наоборот, чем больше расстояние, тем меньше сходство. Но человек не может визуализировать объекты в пространстве размерности больше чем 3. Поэтому мы использовали метод многомерного шкалирования, который позволяет объекты многомерного пространства перенести в пространство меньшей размерности, в частности – пространство размерности 2, т. е. на плоскость, сохранив порядок расстояний между объектами. Объекты (в нашем случае команды), близкие в многомерном пространстве, сохраняют близость и в пространстве меньшей размерности.
На рисунке 1 команды изображены в виде точек на плоскости. Чем ближе команды расположены, тем большим сходством они обладают. Так, например, Зенит находится на достаточном удалении от команд ЦСКА, Ростов, Локомотив, в то время как ЦСКА, Ростов, Локомотив находятся на более близком расстоянии друг от друга. Это говорит о большем отличии по совокупности 24 показателей Зенита от ЦСКА, Ростова, Локомотива, чем отличие трех упомянутых команд друг от друга.
Для более полного понимания структуры сходства между командами использовали метод иерархической классификации кластерного анализа. На рисунке 2 приведена дендрограмма, построенная методом полных связей. Вдоль горизонтальной оси отображены названия команд. Вдоль вертикальной оси указано расстояние между командами, которое является критерием объединения в кластеры. По мере увеличения рассто-
Таблица 2
Основные итоговые показатели результативности команд Премьер-лиги в чемпионате России
Команды |
Выигрыши |
Ничьи |
Поражения |
Забитые голы |
Пропущенные голы |
Очки в турнире |
Зенит |
19 |
6 |
5 |
63 |
32 |
63 |
Динамо |
15 |
7 |
8 |
54 |
37 |
52 |
Крылья Советов |
6 |
11 |
13 |
27 |
46 |
29 |
Кубань |
10 |
8 |
12 |
40 |
42 |
38 |
Краснодар |
15 |
5 |
10 |
46 |
39 |
50 |
Спартак |
15 |
5 |
10 |
46 |
36 |
50 |
ЦСКА |
20 |
4 |
6 |
49 |
26 |
64 |
Анжи |
3 |
11 |
16 |
25 |
42 |
20 |
Рубин |
9 |
11 |
10 |
36 |
30 |
38 |
Терек |
8 |
9 |
13 |
27 |
33 |
33 |
Амкар |
9 |
11 |
10 |
36 |
37 |
38 |
Локомотив |
17 |
8 |
5 |
51 |
23 |
59 |
Урал |
9 |
7 |
14 |
28 |
46 |
34 |
Волга |
6 |
3 |
21 |
22 |
65 |
21 |
Томь |
8 |
7 |
15 |
23 |
39 |
31 |
Ростов |
10 |
9 |
11 |
40 |
40 |
39 |
Рисунок 1. Команды в системе координат
Измерение 1, Измерение 2
2М Дилрииил рлссешия
Окймча! КймфНГ . U4U*p»H»e 1 II МЭи4р*НИ* 2
Anw
Лыкар 6
По nr j КрыпьиС
Hwepenne 1
Рисунок 2.
Дендрограмма для Дендрограмма для 16 перемен.
команд чемпионата Метод полной связи
яния команды объединяются в группы однородности, так как постепенно понижается порог объединения. Как итог, в кластеры связывается всё большее число команд, а кластеры агрегируются в новые кластеры. На последнем шаге все команды образуют один кластер – исходную совокупность.
Из дендрограммы видно, что на начальном этапе в одну группу однородности попадают команды Волга, Крылья Советов. Далее, по мере увеличения расстояния (уменьшения сходства), к этим командам добавляются Томь, Амкар, Анжи, которые в итоге образуют единый кластер. Самостоятельный кластер также образуют
Таблица 3
Технико-тактические показатели команды Гипотетический чемпион
Матчи |
Передачи вперед |
Передачи назад |
Всего передач |
Удачные попытки передачи |
Точность передачи (%) |
Ключевые передачи |
Голевые передачи |
20 |
415 |
191,3 |
607,3 |
490,4 |
77,5 |
11,9 |
2,0 |
Созданные моменты |
Средняя длина паса, м |
Забитые голы |
Забитые голы левой ногой |
Забитые голы правой ногой |
Забитые голы из штрафной площади |
Забитые голы вне штрафной площади |
Всего ударов |
13,5 |
19 |
2,6 |
0,9 |
1,5 |
2 |
0,6 |
19,1 |
Точность ударов по воротам |
Удары из штрафной площади |
Удары вне штрафной площади |
Удачные отборы мяча у соперника |
Удачный дриблинг |
Карты за симуляцию |
Карты за неспортивное поведение |
Ввод мяча вратарем в игру, м |
39,1 |
9,8 |
9,3 |
24,5 |
10,5 |
0 |
0 |
45,5 |
Таблица 4
Коэффициенты технико-тактической подготовленности футбольных команд Премьр-лиги
По результатам многомерного анализа представляется возможным говорить о трех основных выделенных кластерах команд: ЦСКА, Зенит, Локомотив, Ростов; Краснодар, Спартак, Терек, Кубань, Рубин, Урал, Динамо; Волга, Крылья Советов, Томь, Амкар, Анжи. Эти же кластеры можно увидеть на рисунке 2 – они очерчены линиями. Условно 1-й кластер можно назвать командами лидеров, 2-й – командами среднего уровня, 3-й – командами аутсайдеров.
Очевидно, что количество набранных очков в чемпионате и занятое соответствующее место в турнире не являются исчерпывающей характеристикой техни- ко-тактической подготовленности команды, которую целесообразно оценивать не по одному показателю (количеству набранных очков), а по совокупности. Такой совокупностью могут быть 24 выделенных показателя. Если обратиться к таблицам со средними значениями технико-тактических параметров для каждой команды, то легко заметить, что нет такой команды, которая обладала бы наилучшими значениями средних сразу по всем показателям. Так, фаворит чемпионата ЦСКА уступает Зениту по количеству передач вперед, а Зенит уступает Локомотиву по передачам назад и т. д. Добавим в список команду Гипотетический чемпион с наилучшими параметрами по всем командам. Двум показателям – средняя длина передачи (м) и средняя длина ввода мяча (м) присвоим соответственно значения 19 и 45,5 оптимальные, по мнению футбольных аналитиков. В таблице 3 отображены параметры команды Гипотетический чемпион.
Если теперь составить матрицу расстояний между командами, то по расстоянию между каждой командой и командой Гипотетический чемпион представляется возможным (по совокупности 24 показателей) судить об уровне технико-тактической подготовленности команд, который целесообразно определять посредством величины, обратной расстоянию между произвольной командой и командой Гипотетический чемпион, так как чем меньше расстояние, тем команда более технико-тактически подготовлена. Если обозначить расстояния между командами и Гипотетический чемпион через d , а коэффициент технико-тактической подготовленности – К техн , то К техн = 1 / d .
Полученные данные (по убыванию коэффициента технико-тактической подготовленности) представлены в таблице 4.
Как видно из таблицы 4, наиболее технико-тактически подготовленная команда Зенит, так как К техн принимает наибольшее значение (0,296). Далее идут ЦСКА, Локомотив, Ростов, Динамо. Краснодар занимает 6 место. Последние три места занимают команды Волга, Анжи, Томь. Значительное несоответствие уровня технико-тактической подготовленности футбольных команд и занятых мест у Терека, Спартака, Томи. Спартак и Томь сыграли лучше своих возможностей, Терек – хуже. Возможно, это является следствием определенного стечения обстоятельств.
В целом алгоритм проведенного нами анализа может быть представлен следующим образом:
– оценка технико-тактической подготовленности команд по каждому из 56 показателей;
– корреляционный анализ между этими показателями и показателями успешности выступления команд в чемпионате;
– выделение по результатам корреляционного анализа 24 показателей, в наибольшей степени влияющих на финальный результат;
– анализ сходства и различия между командами (по совокупности выделенных показателей) методами многомерного шкалирования и иерархической классификации;
– выделено 3 группы сходства (кластера) команд – кластеры лидеров, среднего уровня, аутсайдеры;
– вычисление коэффициента технико-тактической подготовленности команд по результатам чемпионата.
Таким образом, согласно полученным данным, уровень индивидуальной и общекомандной техникотактической подготовленности в значительной мере определяет рейтинг команд Российской Премьер-лиги в турнирной таблице. Для более серьезного анализа, естественно, желателен больший объем параметров, однако, даже при подобном количестве анализируемых показателей представляется возможным сделать заключение, что методы многомерного анализа позволяют анализировать большие массивы спортивных данных и выявлять в виде статистических закономерностей скрытые знания, которые могут быть использованы при организации тренировочного процесса, выработке тактики и стратегии спортивных соревнований и т. п.