Метод интервальной оценки результатов выполнения системы одиночных тестовых заданий закрытого типа с единственным верным ответом

Автор: Печников Андрей Николаевич, Палкин Константин Сергеевич

Журнал: Образовательные технологии и общество @journal-ifets

Рубрика: Восточно-Европейская секция

Статья в выпуске: 2 т.17, 2014 года.

Бесплатный доступ

В статье рассматривается способ интервальной оценки результатов выполнения системы одиночных критериально-ориентированных тестовых заданий закрытого типа с единственным верным ответом, основанный на использовании свойства дихотомичности ответа обучаемого

Критериально-ориентированный тест, точечная оценка, интервальная оценка, доверительный интервал

Короткий адрес: https://sciup.org/14062557

IDR: 14062557

Текст научной статьи Метод интервальной оценки результатов выполнения системы одиночных тестовых заданий закрытого типа с единственным верным ответом

Ниже под термином “педагогический тест” понимается “совокупность тестовых заданий, позволяющая по результатам их выполнения объективно измерить уровень подготовленности испытуемых по конкретным разделам определенной области знания” [1]. Термин “тестовое задание” трактуется как “учебное задание специфической формы, элемент теста, минимальная законченная составляющая единица теста, по которой испытуемый в ходе выполнения теста совершает отдельное действие, а его результат регистрируются в первичном протоколе в форме отдельного ответа” [1].

Тестовые задания по форме ответов разделяют на открытые и закрытые. Задание открытого типа – “тестовое задание без указания возможных вариантов ответа; испытуемому предлагается самостоятельно указать правильный ответ” [1]. Тестовые задания закрытого типа предполагают наличие готовых вариантов ответа, его “содержание сопровождается несколькими номерованными вариантами ответа; испытуемому предлагается выбрать номера правильных ответов или расположить их заданном порядке” [1].

Тестовые задания закрытого типа могут быть представлены в нескольких формах: 1) одиночный выбор, когда тестируемый должен выбрать один вариант ответа из нескольких предложенных; 2) множественный выбор, когда тестируемый должен выбрать несколько вариантов ответа из нескольких предложенных; 3) соответствие, когда тестируемому нужно упорядочить два списка таким образом, что бы они соответствовали друг другу; 4) упорядоченный список, когда тестируемому нужно упорядочить список в заданном порядке. Наиболее распространенным видом тестовых заданий являются тестовые задания закрытого типа в форме одиночного выбора (с одним правильным вариантом ответа).

Кроме того, тесты, тестовые задания и методы оценки их результатов бывают нормативно-ориентированными и критериально-ориентированными.

Тест нормативно-ориентированный – “частный случай относительного теста, позволяющий сравнивать учебные достижения (уровень подготовленности) отдельных испытуемых друг с другом или относительно предварительно полученных тестовых норм” [1]. Тест критериально-ориентированный – “частный случай теста, предназначенного для абсолютного тестирования, позволяющий оценить, преодолел ли испытуемый определенный порог усвоения учебного материала рассматриваемый учебной программы или ее части. При этом результаты тестирования сравниваются с некоторым критерием уровня подготовленности” [1].

Достоинства и недостатки приведенных выше видов тестовых заданий и методы оценки полученных по ним результатов широко обсуждаются в педагогическом сообществе. При этом обсуждаются инструментальные средства создания тестов и способы их применения [2,3,4,5,6], оценивается влияния видов и сложности тестовых заданий на результаты тестирования [7,8,9], описываются различные методы и модели обработки первичных результатов (сырых баллов) тестирования [10,11,12,13,14].

Гораздо меньше публикаций направлено на анализ и разработку способов получения первичных результатов (сырых баллов). К числу таких способов и относится процедура оценки результатов выполнения систем критериальноориентированных тестовых заданий, представленных в форме одиночного выбора.

Анализ современного состояния проблемы

Обычно в качестве исходной характеристики результатов тестирования рассматривается вероятность p успеха, которая определяется как “вероятность того, что определенный участник тестирования верно решит тестовое задание” [15]; как “вероятность правильного ответа на задание” [16] и как “вероятность правильного выполнения заданий теста” [17].

Показатель B , которым оценивается вероятность p успеха (успешность), является оценкой вероятности только в теории. На практике он определяется в виде показателя частости вида

n

2 л

B = ^-, (1) n где: i (i = 1, n) - номер тестового задания, n - общее число тестовых заданий, Ji (Ji = 0,1) результат выполнения отдельной попытки при наличии соответствия j = 1 - ошибок нет, j = 0 - ошибки есть.

При таком подходе оценка (1) является точечной эмпирической оценкой, достоверность которой может быть оценена только на основании закона больших чисел.

Ниже предлагается метод, который позволяет оценивать безошибочность не как частость, а как вероятность, имеющую вполне определенный доверительный интервал.

Предлагаемый метод базируется на том факте, что в рассматриваемом случае успешность B является дихотомической переменной вида “да – нет (правильно – неправильно, верно - неверно и т.п.)”, а процедура ее определения в процессе решения выборки из n тестовых заданий соответствует схеме Бернулли.

Постановка и решение задачи интервальной оценки результатов тестирования

Пусть в результате решения обучаемым выборки из n тестовых заданий получен вектор (примеры векторов приведены в табл. 1)

j = ( J 1 --- j ,-, J n ) ,                                     (2)

в котором j = 0,1 есть оценки успешности выполнения соответствующего задания ( j = 1 - задание выполнено без ошибок, j = 0 - задание выполнено с ошибками). Требуется оценить вероятность p безошибочной деятельности.

Таблица 1

Некоторые варианты векторов результатов тестирования для n = 12

Вариант j

j\

J 2

J 3

j 4

j5

j 6

j 7

j 8

J 9

J 10

J 11

J 12

1

1

1

1

1

1

1

1

1

1

1

1

1

2

1

0

1

1

1

1

1

1

1

1

1

1

3

1

1

1

0

1

1

1

1

1

1

1

1

4

1

1

1

1

1

0

1

1

1

1

1

1

5

1

0

1

0

1

1

1

1

1

1

1

1

6

1

1

0

1

1

1

1

1

0

1

1

1

7

1

1

1

1

0

1

1

1

1

0

1

1

8

1

1

1

1

0

1

1

1

0

1

1

1

9

1

1

1

1

0

1

1

1

1

1

1

0

10

1

1

1

1

1

0

1

1

1

1

1

0

Введем понятие вектора непрерывного успеха h , под которым будем понимать любую часть вектора (2), каждый из элементов которой равен 1 (j = 1). Например, в табл. 1 для 6 варианта вектора J это вектора h = (j, j), h 2 = (j4, J5- J6> J7- Js),   hi з = (J10- J11- J12). Величина каждого из векторов hs непрерывного успеха оценивается как hs =Z j (s =1-m )•                              (3)

j i = 1 Ji e h s

Рассмотрим событие появления вектора (2) как совокупность двух видов событий:

  • 1)    события L , заключающееся в том, что при выполнении n заданий обучаемым было допущено k ошибок;

  • 2)    событий H , заключающихся в появлении в векторе (2) m векторов непрерывного успеха.

Поскольку   j есть дихотомическая переменная, вероятность P ( L )

наступления события L оценивается по биномиальному закону

P ( L ) = C k p" - k q k  ide C =          ,                  (4)

k !( n - k )!

где: p - вероятность безошибочного выполнения задания, q = 1 - p - вероятность выполнения задания с ошибкой, k – число заданий, выполненных с ошибкой, n -общее число заданий, n к - число заданий, выполненных без ошибок.

На том же основании вероятность  P (H)  наступления событий H оценивается по геометрическому закону

P ( H ) = p*q ,                               (5)

где: p - вероятность безошибочного выполнения задания, q = 1 — p - вероятность выполнения задания с ошибкой, h (h = 1,(n — к)) - номер i последнего задания, выполненного без ошибки.

События hs е H относятся к категории попарно несовместных событий, поэтому вероятность P ( H ) любой из их реализаций оценивается по формуле

P ( H ) = P ( h l U ... U h s U ... U h m ) = P ( h ) + ... P ( h s ) + ... P(h m ) = £ ph s q , s = 1

корректность расчетов по которой определяется выполнением условий s=m

£ hs = n k ;

s = 1

  • [ k i de j = 0

m = <                     .

I к + 1 i de j = 1

n

Эти условия вытекают из смысла задачи, принципов формирования векторов j , h s и фиксируют следующие очевидные соотношения:

  • 1.    Число m векторов непрерывного успеха всегда равно числу k допущенных ошибок, если последнее задание n выполнено с ошибкой ( jn = 0), и всегда на 1 больше числа к , если последнее задание n выполнено без ошибок ( j = 1). При этом в случае отсутствии ошибок ( k =0) вектор непрерывного успеха существует и в качестве него рассматривается сам вектор j , т.е. при k =0 имеют место соотношения:

m =1, h = n .

  • 2)    скалярная сумма величин векторов непрерывного успеха всегда равна разности между общим числом n тестовых заданий (общим числом элементов j в векторе j ) и числом k ошибок (числом элементов в векторе j , для которых наблюдался неблагополучный исход j = 0).

Обосновано, что события вида L и вида H независимы. Поэтому вероятность P(LH) их совместного наступления с учетом (4) определяется как s=m

P ( LH ) = P ( L ) P ( H ) = C nk p n k q k + 1 £ p h ,                   (9)

s = 1

а с учетом q = 1 — p по формуле s=m

P ( LH ) = C, k p n k (1 p ) k + 1 £ p h .                        (10)

s = 1

Для оценки в (9,10) неизвестного параметра p предлагается использовать метод максимального правдоподобия, при котором в качестве оценки вероятности p принимается ее значение p = arg max f (j\p) = arg max P(LH),                 (11)

p G (0,1)       1               p E (0,1)

максимизирующее вероятность P ( LH ) появления при выполнении n тестовых заданий вектора j = ( j ,..., j ,..., j ) , характеризующего результативность деятельности рассматриваемого обучаемого.

Поиск p целесообразно реализовать путем решения следующей задачи нелинейного программирования s=m

Cp - k (1 - p ) k + 1 Z p h ^ max s = 1                p

.

p e (0,1), k = 1, n, _________ s=m h = 1,(n - k), Z h = n - k s=1

Для решения (12) целесообразно использовать стандартную функцию “Solve (Поиск решения)” Microsoft Excel.

Анализ и интерпретация результатов

Сравним оценки обучаемых, полученные обычным путем и на основе предлагаемого метода.

Пусть обучаемыми выполнено 12 заданий и получены результаты, приведенные в табл. 1. Результаты оценки успешности приведены в табл. 2.

Таблица 2

Оценки успешности для вариантов результатов деятельности, приведенных в таблице 1

№ варианта

n

k

h 1

h 2

h 3

A h = h max - h min

Оценка p по модели (2)

Оценка p по модели (12)

Значение (10)

1

12

0

12

-

-

0

1,0000

0,9600

0,0150

2

12

1

1

10

-

9

0,9167

0,8757

0,0491

3

12

1

3

8

-

5

0,9167

0,8875

0,0443

4

12

1

5

6

-

1

0,9167

0,8917

0,0425

5

12

2

1

1

8

7

0,8333

0,7951

0,1003

6

12

2

2

5

3

3

0,8333

0,8129

0,0846

7

12

2

4

4

2

2

0,8333

0,8141

0,0836

8

12

2

4

3

3

1

0,8333

0,8158

0,0823

9

12

2

4

6

-

1

0,8333

0,8316

0,0403

10

12

2

5

5

-

0

0,8333

0,8333

0,0397

С учетом того, что размах A h = h max- h^ величин векторов hs объективно характеризует стабильность деятельности обучаемого, приведенные в табл. 2 данные имеют соответствующую здравому смыслу закономерность: при одном и том же числе ошибок безошибочность тем выше, чем стабильнее результаты деятельности обучаемого.

Таким образом, оценки по модели (12) ограничены сверху соответствующими оценками по модели (2) и совпадающими с ними оценками по модели (4).

При поиске p = arg max Ckpn"k (1 - p)k+1Z Ph pe(0,1)                          s=1

p ^ max при Ckpn k (1 - p)k+1 £ phs ^ min . Рассмотрим функцию s=1 s=m

F ( p , n , k , { h s } ) = Ckk p n - k (1 - p ) k + 1 £ p h s .                       (13)

s = 1

  • и найдем ее экстремальные значения в условиях

  • p , q , n , k = const ;!

’^’  ’                .                                       (14)

h = var

Очевидно, что в условиях (14) max и min функции (13) определяются s=m значением суммы £ phs , в которой все параметры фиксированы в соответствии с s=1

  • (7,8).    Найдем min £ p h s . В соответствии со следствием из теоремы о среднем h = var

s       s = 1

арифметическом и среднем геометрическом имеем место соотношение

n

n

min £ a = n " a,

i = 1

i = 1

т.е. сумма минимальна, когда все слагаемые одинаковы. Отсюда с учетом (7)

min £ phs h =var s      s=1

1 s = m

  • 1    £ h s        n - k

m

= mp s = 1   = mp m

.

Найдем max £ phs . Очевидно, что в условиях (14) с учетом (7) h. =var s s=m max £ phs = Г(m -1)p + pn-k-m+11.

  • h, =var-I

s

При поиске p = arg max Cpn-k (1 - p)k+1 £ p's p e(0,1)                     Z1

с учетом (8) определяется как абсцисса точки, в которой функции s=m                                n-k

F(p,n,k,{hs}) = C p-kqk+1 £phs = Ckkpn-k(1 -p)k+1 kp k ide s=1

Jn = 0 ,

F ( p , n , k , { h s } ) = C k p n - k q k + 1 £ p hs = C k p n - k (1 - p ) k + 1( k + 1) p k + 1 ide J„ = 1, s = 1

принимают максимальные значения.

Найдем максимальные значения функций (4,17,18) и для чего решим

следующие уравнения:

  • 1.    Для функции (4):

dP (L) = d [ Ckpn - k (1 - p) k ] dp          dp d [ pn - k (1 - p) k ]

о. dp

Введем переменные l = n - k , g = k , тогда (19) примет вид

d [ p l (1 - p ) g ] ----------------= о .

dp

Решая (20), имеем

lp l - ' (1 - p ) g - pg (1 - p ) g - 1 = 0

I p = ", -----.

Подставляя в полученное решение значения l и g , получаем

n - k

P =--- n

.

2. Для функции (17):

dP ( LH ) dp

n - k

d cy - k (1 - p ) k + 1 kp k

dp

, , n - k n - k+----- , ,, d p k (1 - p)k+1

- = 0,

^ = 0.

dp n - k       1Х(Л 1 ^

Введем переменные I = n - k +--= ( n - k ) I 1 + — I , k          v k )

g = k + 1, тогда (23)

примет вид (20). Подставляя в решение (21) принятые значения l,g , имеем

( n - k ) I 1 + 1 I

I              v k)       n - k n - k

p =----=------ 7 ----x------=--------=---- .

l + g .,    \Л 1 1   7 л n - k + k n

( n - k ) 1 + - + k + 1

V k)

Отметим, что для рассмотренного случая может существовать физическая реализация вектора j . Вектор j , соответствующий (24), должен удовлетворять условиям (7,8) и условию  hs = const. Это возможно, если hs = n—- = n -1 и mk соответственно n — целые числа.

  • k

  • 3. Для функции (18):

    dP ( LH ) dp


    d C nk p


    n - k

    n - k (1 - p ) k + 1( k + 1) p7 7 1


    dp


    ^ = 0,


Отсюда оценка p ˆ по (17) ограничена сверху оценкой по (1,4) и достигает ее

n при выполнении на векторе j условия h =— 1— целое число.

sk

n - k+----- , ,, d p    k+1(1 - p)k+1

= 0.

dp n - k        74(7    1  ^

Введем переменные I = n - k +--= ( n - k ) I 1 +--I , k + 1           V k + 1 )

g = k + 1, тогда (24)

примет вид (20). Подставив в решение (21) принятые значения l,g , имеем

l

P .

n - k n +-- k + 2

.

Оценка (26) всегда ограничена сверху оценкой (22) и разница между ними составляет

. n - k

Ap =-- n

n - k

n +-- k + 2

n - k n 2( k + 2) + n

Отметим, что для рассмотренного случая физическая реализация вектора j = (j,..., j,..., j) также может существовать. Как отмечалось выше вектор j , соответствующий (26), должен удовлетворять условиям (7, 8) и условию hs = const.

n - k n - k n    kk

Такое возможно, если h =----=----=----целое число. Поскольку --- s m k +1 k +1 k +1

никогда не бывает целым числом, то последнее условие выполняется только при

,          -z—  ~               , n - k ,_ k n = ak , где a = 2, ^. Очевидно, что h =----= (a -1)--целое при a = k + 2 и s k +1

n = k(k + 2). Значит вектор j, соответствующий (26), существует при 7 n - k  k(k + 2) - k hs = ——- =    —---= k, т.е. когда скалярная величина  hs  всех векторов непрерывного успеха равна числу k ошибок.

Продемонстрируем справедливость приведенных выше выводов на примере. Пусть k=3, тогда вектор j , который будет соответствовать (26), при n = k(k + 2) = 15, h = 3 и примет вид j = (j,,...,j,..., j,5) = (1,1,1,0,1,1,1,0,1,1,1,0,1,1,1).            (27)

В этих же условиях вектор j , соответствующий (24), примет вид j = (j;,...,j,..., j15) = (1,1,1,1,0,1,1,1,1,0,1,1,1,1,0).            (28)

Покажем, что вектор (27) по сравнению с другими векторами при n = 15, k=3 дает оценку p, которая имеет минимальное отклонение Ap = n—----= 0,0105 от n 2( k + 2) + n оценки (22), а вектор — оценку совпадающую с оценкой (22), для чего рассмотрим и оценим вектора, характеристики которых приведены в табл. 3.

Таблица 3

Оценки успешности для некоторых вариантов векторов j

n

k

h 1

h 2

h 3

h 4

A h = h max - h min

Оценка p по моделям (1,4)

Оценка p по модели (7)

A p

1

15

3

1

1

1

9

8

0,800

0,7690

0,0310

2

15

3

2

3

4

3

2

0,800

0,7882

0,0118

3

15

3

3

3

3

3

0

0,800

0,7895

0,0105

4

15

3

3

5

4

-

2

0,800

0,7985

0,0015

5

15

3

4

4

4

-

0

0,800

0,8000

0,0000

Приведенные в табл. 3 результаты расчетов в явном виде демонстрируют, что при любых сочетаниях векторов непрерывного успеха оценка p ˆ по (7) ограничена сверху оценкой по (1,4) и достигает своего максимального значения при выполнении на векторе j = ( j ,..., j ,..., j ) следующих условий:

n

  • 1)    условия h =  - 1 — целое число, для случая (17), когда j = 0 ;

s k                                                             n

  • 2)    условия hs = k , n = k ( к + 2) для случая (18), когда j = 1 .

Отсюда следует, что при определении доверительного интервала для оценок (12) корректно использование следующих формул оценки доверительных интервалов биномиального распределения:

  • 1)    оценка точного доверительного интервала:

( n к)                   ( n - к + 1) F 2( n - к + 1),2 к ,1 -^ 2

v (n — k) + (k + Г) F к+1),2( n - к )Д-£! 2   k + (n — k + 1) F2( n - к+1), 2 к ,1-^ 2 у где n - число испытаний, к - число ошибок, а Ff g а - квантиль порядка а распределения F с f,g степенями свободы;

  • 2)    оценка приближенного доверительного интервала производится в соответствии с центральной предельной теоремой, когда при больших n

распределение биномиальной случайной величины будет близко к нормальному, как

Р - u 1 - . /2

p (1 - Р )            (1 - Р )

, p + u 1 -6 /2.1 nn

где: ux_el2 - квантили стандартного нормального распределения порядка (1 - е /2).

Таким образом, применение предлагаемого метода оценки успешности обеспечивает переход от точечных оценок эмпирической частости к теоретически обоснованной оценке вероятности правильного действия или результата, которая имеет количественно оцениваемый доверительный интервал.

Статья научная