Оценка эффективности методов компьютерной классификации животных в овцеводстве

Автор: Катков К.А.

Журнал: Вестник аграрной науки @vestnikogau

Рубрика: Сельскохозяйственные науки

Статья в выпуске: 3 (84), 2020 года.

Бесплатный доступ

Большое количество поголовья осложняет задачу качественной классификации животных в овцеводстве. Несомненным подспорьем в решении этой задачи является использование современных информационных технологий и методов компьютерного анализа данных. В ряду таких методов можно выделить методы машинного обучения, которые хорошо зарекомендовали себя во многих отраслях хозяйства. Особенностью таких методов является необходимость составления обучающих множеств. Также для классификации и оценки животных используется метод индексной селекции. Этот метод позволяет оценить животное по собственной продуктивности на основе статистических характеристик анализируемой выборки животных. В данном случае обучающие множества создавать не надо. Имеет смысл провести сравнение методов машинного обучения и метода индексной селекции при классификации овечьего поголовья с учетом нескольких хозяйственно полезных признаков. Актуальность такого сравнения определяется необходимостью определения эффективности используемых методов классификации и оценки животных. В данном исследовании тремя различными методами: методом дискриминантного анализа, методом дерева решений и методом индексной селекции проведена классификация одной и той же группы животных. Далее были определены критерии и показатели эффективности классификации животных. На основании определенных критериев и показателей была проведена оценка эффективности используемых методов классификации. Дано обоснование причин возникновения ошибок классификации. Проведенное исследование иллюстрируется диаграммами и таблицами. Выводы, полученные в ходе выполнения работы, могут помочь селекционерам в повышении эффективности селекционной работы с использованием информационных и компьютерных технологий.

Еще

Методы машинного обучения, обучающая выборка, селекционный индекс, эффективность, классификация

Короткий адрес: https://sciup.org/147230721

IDR: 147230721   |   DOI: 10.17238/issn2587-666X.2020.3.60

Текст научной статьи Оценка эффективности методов компьютерной классификации животных в овцеводстве

Введение. Методы компьютерного анализа данных в случаях большого поголовья животных значительно облегчают работу селекционера и способствуют повышению качества селекционной работы [1]. Это особенно актуально для такой отрасли животноводства, как овцеводство, где поголовье отдельных стад исчисляется сотнями животных. Среди методов классификации, которые позволяют оценить животное сразу по нескольким значимым хозяйственно полезным признакам (ХПП) можно выделить такие методы машинного обучения, как дискриминантный анализ и метод на основе дерева решений [1, 2]. Алгоритмы этих методов предполагают использование обучающих выборок, на основе которых будет классифицирована основная оцениваемая группа животных.

Также по нескольким признакам животное можно оценить методом индексной селекции [3-5]. В этом случае создание обучающих выборок не требуется, но необходима информация о коэффициентах наследуемости ХПП, используемых для формирования индексов.

Так как все указанные методы классификации оценивают животных сразу по нескольким ХПП, то возможны ошибки в классификации. Такие ошибки могут быть обусловлены разными причинами: от степени соответствия выборки ХПП нормальному закону распределения до величины коэффициентов вариации признаков. Имеет смысл сравнение различных методов классификации на основе одной и той же выборки животных. Это может иметь практическое значение в тех случаях, когда исследователь или селекционер выбирает метод классификации больших групп животных.

Целью исследования является сравнение методов машинного обучения и метода индексной селекции при классификации группы баранов на основе нескольких хозяйственно полезных признаков.

Условия, материалы и методы. Подробно алгоритм формирования селекционных индексов в овцеводстве показан в работах [4-6]. В этих работах предлагается формировать селекционные индексы на основе двух подходов. Индекс ID строится с использованием селекционного дифференциала, индекс IR – с помощью селекционного отношения.

N i 'L kD |x, - x

R где М – количество оцениваемых баранов,

X i – среднее значение i -го ХПП в выборке оцениваемых животных;

X ij – значение i -го ХПП для j -го животного.

Частные коэффициенты KiD и KiR являются функциями от среднего квадратичного отклонения ( σ i ) и коэффициента наследуемости ( hi 2 ) каждого i -го признака, участвующего в формировании индекса [5, 6].

Методика использования дискриминантного анализа подробно изложена в работах [7, 8]. Суть дискриминантного анализа сводится к определению значения дискриминантной функции. Исходя из величины этого значения классифицируемый объект относится к той или иной группе. Значение дискриминантной функции зависит от значений переменных, входящих в нее. В задаче классификации животных по нескольким ХПП такими переменными будут являться значения этих признаков. Данный метод предполагает наличие обучающего множества для каждой группы классификации.

Одним из наиболее популярных методов решения задач классификации и прогнозирования является метод деревьев решений. Данный метод достаточно подробно представлен в [9, 10]. Суть метода сводится к построению иерархической древовидной структуры, состоящей из решающих правил. Эти правила формируются структурой: «Если <Условие верно>, то <Действие 1>, иначе – <Действие 2>». Решающие правила автоматически формируются в процессе обучения ЭВМ на, так называемом, обучающем множестве (обучающей выборке).

В рамках настоящего исследования оцениваемую группу животных будем классифицировать по трем категориям. К первой категории отнесем животных, чьи показатели хозяйственно полезных признаков близки или превосходят целевые показатели по породе. Ко второй категории отнесем животных, чьи показатели ХПП превосходят средние значения признаков в анализируемой группе. К третьей категории отнесем животных, чьи значения ХПП ниже средних показателей в анализируемой выборке животных.

Для оценки эффективности того или иного метода классификации необходимо определить критерии и показатели эффективности данного целенаправленного процесса [11]. В качестве критерия оценки эффективности выберем адекватность отнесения животных к той или иной группе (категории). В качестве показателей эффективности используем значения ХПП классифицированных таким образом животных. Если значения ХПП высоки и животное отнесено к первой или второй категории, то будем считать, что классификация проведена эффективно. Если же в высшие категории попало животное с низкими показателями ХПП, то можно говорить о неэффективности того или иного метода. То же можно говорить, когда в третью категорию попадет животное с высокими значениями ХПП.

Особого внимания и анализа заслуживает «пограничное» состояние. Это тот случай, когда у животного отдельный признак (или несколько признаков) имеют высокие значения, а несколько признаков (или один признак) – низкое.

В рамках настоящего исследования применялся интегрированный математический пакет Matlab [12], в составе которого реализованы алгоритмы дискриминантного анализа и метода дерева решений.

Результаты и обсуждение. В рамках исследования проводилась классификация и оценка выборки из 99 голов баранов северо-кавказской мясошерстной породы. Использовались четыре хозяйственно полезных признака: живая масса баранов (ЖМ), длина шерсти (ДШ), настриг чистой шерсти (НШ) и тонина шерсти (Т). Значения ХПП в анализируемой группе животных представлены в виде столбцовых диаграмм на рисунке 1.

кг

см

кг

мкм

10       2       30       4       50

г)

6       70

8       90       00

количество голов

Рисунок 1 – Значения ХПП в анализируемой группе баранов: а) живая масса; б) длина шерсти; в) настриг чистой шерсти; г) тонина шерсти

Коэффициенты наследуемости и целевые показатели по используемым ХПП в анализируемой выборке животных представлены в таблице 1.

Таблица 1 – Целевые показатели и коэффициенты наследуемости

Параметры

Хозяйственно полезные признаки

ЖМ

ДШ

НШ

Т

Коэффициент наследуемости

h 2

0,35

0,22

0,13

0,06

Целевые показатели

Х Ц

90

18

6

25

Средние значения в выборке

76,77

19,96

4,87

28,6

Обучающие выборки для дискриминантного анализа и для метода дерева решений насчитывали по 10 животных для каждой категории. Значения ХПП в обучающих выборках, полученные с использованием генератора случайных чисел, представлены в таблице 2. С помощью компьютерного моделирования с использованием пакета Matlab была проведена классификация указанной выше выборки животных. Вся совокупность животных была разбита на три категории.

Таблица 2 – Обучающие выборки для методов машинного обучения

Категория

№ п/п

Хозяйственно полезные признаки

ЖМ

ДШ

НШ

Т

1

2

3

4

5

6

1-я категория

1

89,93

18,27

7,00

24,3

2

91,94

18,97

5,67

25,1

3

91,35

19,23

6,20

25,0

4

90,97

19,43

6,36

23,3

5

91,18

18,63

6,71

24,3

6

89,44

18,76

5,66

23,1

7

90,92

21,02

6,74

22,7

8

92,61

16,74

5,89

24,9

9

91,10

21,23

6,53

24,0

10

91,04

19,34

6,83

23,9

Продолжение таблицы 2

1

2

3

4

5

6

2-я категория

1

80,68

17,41

5,41

28,5

2

80,36

13,56

4,89

27,5

3

80,12

19,50

5,57

27,5

4

81,02

19,18

5,70

28,6

5

80,70

17,46

5,79

25,5

6

80,01

17,32

5,02

27,1

7

79,08

12,49

5,59

26,4

8

79,12

18,62

5,42

27,2

9

80,96

13,07

5,78

28,3

10

78,16

12,82

5,63

28,5

3-я категория

1

75,75

13,20

3,17

31,5

2

76,30

12,05

3,74

30,9

3

76,90

13,95

3,95

29,8

4

76,48

11,60

4,24

28,8

5

77,07

14,42

3,73

32,5

6

77,17

13,34

4,65

30,0

7

75,84

18,82

3,63

30,7

8

76,59

16,74

4,03

31,2

9

74,64

9,47

4,20

30,7

10

77,91

15,34

3,91

29,7

Результаты классификации представлены на рисунке 2. На этом рисунке по горизонтальной оси отложены номера животных из анализируемой выборки. Для удобства восприятия график разбит на 3 части по 33 животных в каждой. По вертикальной оси отложены номера категорий, к которым отнесено то или иное животное (1-я, 2-я или 3-я). Красными столбцами (левый столбец) представлены категории животных, полученные с помощью метода дискриминантного анализа (ДА), зелеными (средний столбец) – с помощью метода дерева решений (ДР), синими (правый столбец) – с помощ а индексной селекции (СИ).

4            45                                                  6

Номер животного (1...99)

Рисунок 2 – Результаты классификации животных

Как видно из анализа графика на рисунке 2, при классификации одной и той же группы животных разными методами получают, как одинаковые, так и различные результаты. Для 25 животных классификация тремя различными методами дала одинаковые результаты. Это составляет 25,3% от общего количества животных.

Если сравнить метод дискриминантного анализа и метод индексной селекции (ДА и СИ), то здесь наблюдается 56 одинаковых результатов, что составляет 56.6% от общего количества животных в выборке. При сравнении классификации методом дерева решений и методом индексной селекции (ДР и СИ) получено 49 одинаковых результатов, что составляет 49,5% от общего числа животных. Сравнение метода дискриминантного анализа и метода дерева решений (ДА и ДР) дает 24 одинаковых результата, что составляет 24,2% от общего количества животных в выборке.

Как видно из приведенных значений наибольшее число совпадений (56,6%) дают метод дискриминантного анализа и метод индексной селекции.

Представляет интерес рассмотрение именно различных результатов классификации. Исключим животных, отнесенных к одной и той же категории различными методами, а оставшихся запишем в таблицу с указанием значений ХПП (табл. 3). Цветом выделим различные номера категорий.

Таблица 3 – Значения ХПП животных с разной классификацией

№ жив.

Категории животных

Хозяйственно полезные признаки

ДА

ДР

СИ

ЖМ

ДШ

НЧШ

Т

1

2

3

4

5

6

7

8

1

3

2

2

85

20

4,4

28

2

3

1

2

88

18

5,0

29

3

3

1

2

90

16

5,3

28

4

3

1

2

94

20

4,4

30

5

3

1

2

86

17

5,1

28

6

3

2

3

80

16

4,2

29

8

3

2

3

80

18

4,4

29

9

3

1

2

96

18

4,8

28

10

3

1

2

94

19

5,1

29

11

3

2

3

80

19

4,4

30

12

3

2

3

80

16

4,2

28

13

3

1

3

86

20

3,9

30

14

3

1

3

90

18

4,2

29

15

3

2

2

80

17

4,5

28

17

3

2

2

80

20

4,2

28

19

2

3

2

72

20

5,3

28

21

3

2

2

80

17

4,6

28

22

3

2

3

80

17

5,0

30

25

3

2

2

84

15

4,8

28

28

3

1

3

86

12

4,7

29

29

3

2

2

84

16

5,1

28

30

2

3

3

75

18

4,6

29

31

2

3

3

64

18

5,4

30

32

2

3

3

66

18

4,9

31

33

2

3

3

66

17

4,4

28

34

2

3

3

70

18

5,1

30

Продолжение таблицы 3

1

2

3

4

5

6

7

8

35

2

3

3

69

18

5,3

31

36

2

3

2

74

18

5,2

29

37

3

2

2

84

19

4,8

31

38

3

2

3

80

18

4,0

28

39

3

1

2

90

18

5,3

29

41

3

1

2

87

17

5,1

29

42

3

2

3

80

17

4,3

28

43

3

1

2

90

19

4,4

29

46

3

1

2

86

15

5,1

27

47

3

2

3

84

17

4,6

29

49

3

1

2

96

18

5,1

29

50

3

1

2

87

18

4,1

28

52

2

3

3

63

17

4,0

29

53

2

3

3

70

16

4,7

30

54

2

3

3

71

15

4,7

28

56

2

3

3

75

18

4,7

29

57

3

2

3

79

15

4,9

31

58

2

3

2

72

19

5,3

28

60

2

3

2

69

15

4,1

25

61

3

1

2

86

15

5,1

28

62

3

2

3

82

16

4.5

28

64

3

2

3

80

16

4,3

28

65

2

3

3

74

15

5,1

28

66

2

3

2

74

18

5,6

30

67

2

3

3

75

17

5,3

31

71

3

1

2

87

16

5,0

26

72

2

3

2

78

18

5,6

30

73

2

3

2

72

15

5,1

26

74

2

3

2

74

19

5,1

26

75

2

3

3

76

16

5,2

29

76

2

3

3

70

18

4,7

31

77

2

3

2

75

16

5,4

28

79

2

3

2

76

17

5,4

29

81

2

3

3

71

14

5,4

28

83

2

3

2

77

15

4,5

26

84

2

3

2

71

16

5,5

28

85

2

3

3

74

16

4,7

29

86

2

3

2

77

17

5,6

30

87

2

3

3

64

15

4,1

27

89

3

2

2

79

13

4,5

26

90

3

2

3

83

15

4,7

29

92

2

3

3

77

15

5,4

29

93

2

3

2

78

17

5,5

30

94

2

3

2

76

18

5,4

31

95

2

3

2

67

14

4,6

26

96

2

3

3

68

17

4,6

31

98

2

3

3

68

18

4,7

29

99

2

3

2

73

20

5,1

31

Анализ данных из таблицы 3 показывает, что метод дерева решений отнес к первой категории животных с номерами 2-5, 9, 10, 13, 14, 28, 39, 41, 43, 46, 49, 50, 61, 71. При этом анализ значений ХПП для этих животных показывает, что не больше двух признаков имеют значения близкие или превышающие целевые показатели для этой породы (табл. 1). Обращают на себя внимание животные с номерами 13, 14 и 28. Метод ДР отнес их к первой категории. В то же время у этих животных значения настрига шерсти и тонины значительно хуже, чем определяют целевые показатели. Поэтому более адекватной представляется классификация методами ДА и СИ.

Далее проанализируем данные для животных с номерами: 1-15, 17, 21, 22. Этих животных метод ДА отнес к 3-й категории. В то же время три из четырех ХПП у этих животных имеют достаточно высокие показатели.

Анализ остальных значений, указанных в таблице 3, показывает, что наиболее эффективным методом классификации по критерию адекватности разнесения животных по категориям является метод на основе индексной селекции (СИ).

Выводы. Проведенное исследование позволяет сделать следующие выводы.

  • 1.    Классификацию большого поголовья животных невозможно эффективно провести без использования современных компьютерных технологий.

  • 2.    Использование методов машинного обучения при классификации животных по нескольким параметрам может сопровождаться достаточно большим количеством ошибок. Очевидно, что количество ошибок будет обратно пропорционально эффективности обучающих выборок. Чем больше состав выборки и более качественно они составлены, тем меньше будет количество ошибок. В то же время, формирование качественных обучающих выборок является весьма трудоемкой задачей.

  • 3.    Наиболее эффективным методом классификации представляется метод на основе индексной селекции. Этот метод не требует создания обучающих выборок, а ориентирован только на статистические параметры анализируемой выборки.

Благодарности . Автор выражает благодарность сотруднику ФГБНУ «Северо-Кавказский ФНАЦ» Омарову А.А за предоставление первичных данных о северо-кавказской мясошерстной породе.

Список литературы Оценка эффективности методов компьютерной классификации животных в овцеводстве

  • Михальский А.И., Новосельцева Ж.А. Методы компьютерного анализа данных в задачах по мониторингу и совершенствованию управления стадом // Проблемы биологии продуктивных животных. 2019. №1. С. 95-111.
  • Дьяконов А.Г. Анализ данных, обучение по прецедентам, логические игры, системы WEKA, RapidMiner и Ма^аЬ (Практикум на ЭВМ кафедры математических методов прогнозирования): учебное пособие. М.: Издательский отдел факультета ВМК МГУ имени М.В. Ломоносова, 2010. 278 с.
  • Михайлов Н.В., Кабанов В.Д., Каратунов Г.А. Селекционно-генетические аспекты оценки наследственных качеств животных. Новочеркасск: ДонГАУ, 1996. 63 с.
  • Интенсификация племенного отбора в свиноводстве / Н.В. Михайлов, Г.А. Каратунов, О.Л. Третьякова, Э.В. Костылев. Пос. Персияновский: ДонГАУ, 1999. 100 с.
  • Катков К.А. Формирование комбинированного селекционного индекса в овцеводстве // Вестник аграрной науки. 2019. № 5(80). С. 75-83.
  • Два подхода к формированию селекционных индексов в овцеводстве / К.А. Катков, Л.Н. Скорых, П.С. Остапчук, С.А. Емельянов, А.В. Паштецкая // Вестник АПК Ставрополья. 2019. № 2(34). С. 8-14.
  • Каримов Р.Н. Основы дискриминантного анализа: учебно-методическое пособие. Саратов: СГТУ, 2002. 108 с.
  • Факторный, дискриминантный и кластерный анализ / Дж. Ким, Ч.У. Мьюллер [и др.]. М.: Финансы и статистика, 1989. 215 с.
  • Шеннон К. Работы по теории информации и кибернетике. М.: Иностранная литература, 1963. 829 с.
  • Айвазян С. А., Мхитарян В. С Прикладная статистика и основы эконометрики, М.: Юнити, 1998. 1010 с.
  • Петухов Г.Б. Основы теории эффективности целенаправленных процессов Ч.1. Методология, методы, модели. МО СССР, 1989. 649 с.
  • Основы компьютерного моделирования / К.А. Катков, И.П. Хвостова, В.И. Лебедев, Е.Н. Косова, А.А. Плетухина, О.Л. Серветник, О.В. Вельц, М.Г. Крамаренко. Ставрополь: изд-во СКФУ, 2013. 220 с.
Еще
Статья научная