Численное моделирование инвариантности оценки знания относительно трудности тестовых заданий в рамках модели Г.Раша

Автор: Сафаров Р.Х., Панищев О.Ю.

Журнал: Образовательные технологии и общество @journal-ifets

Рубрика: Восточно-Европейская секция

Статья в выпуске: 1 т.15, 2012 года.

Бесплатный доступ

Численным моделированием процесса тестирования исследовано влияние трудности задания на оценку знания в рамках модели Раша. Показано, что математи-ко-статистические методы современной теории тестов дают объективные оценки знания испытуемых, не зависящие от трудности заданий при выполнении необходи-мых требований проведения тестирования.

Современная теория тестов, модель раша, численное моделирование, объек-тивность оценок знания

Короткий адрес: https://sciup.org/14062373

IDR: 14062373

Текст научной статьи Численное моделирование инвариантности оценки знания относительно трудности тестовых заданий в рамках модели Г.Раша

В связи с переходом наших Вузов в балльно-рейтинговую систему стало нормой плановое проведение контроля знания студентов по каждому модулю учебной дисциплины. Для успешного выполнения систематической оценки знания привлекается тематическое тестирование в дополнение к традиционным видам контроля знания [1-4].

Но здесь сталкиваются со следующей проблемой: не всякий тестовый набор заданий в состоянии обеспечить достоверную оценку знания. Известно [5], что тесты с высоким уровнем трудности приводят к заниженным оценкам испытуемых, и наоборот, легкие тесты завышают результаты тестирования. Только профессиональное проведение тестирования и корректное применение математико-статистических методов современной теории тестов для анализа данных тестирования позволяют получить достоверные оценки знания, не зависящие от трудности тестовых заданий. Продемонстрируем процедуру математической обработки результатов теста, необходи- мой для объективной оценки знания, на примере упрощенного численного моделирования процесса тестирования.

С овременная теория тестов и модель Раша

Под названием современная теория тестов понимают известную за рубежом теорию Item Response Theory (IRT), основу которой составляет модель Раша [6]. Модель Раша исходит из положения, что вероятность правильного ответа i-того испытуемого на j-тое тестовое задание определяется разностью латентных (скрытых) параметров θi - βj - уровней обученности испытуемого и трудности задания и описывается функцией успеха ij

11 + exp(-1.73(0 - в ))

Георг Раш предположил , что эта математическая модель устанавливает взаимосвязь между эмпирическими результатами тестирования и значениями латентных параметров θi и β j , при этом уровень обученности испытуемого θi и уровень трудности задания β j размещены на одной шкале и измеряются в одних и тех же единицах – логитах.

Существует несколько методов определения латентных параметров  θi и βj непосредственно из эмпирических данных тестирования, представленных дихотомической матрицей Xij , когда за верный ответ ставится 1, а за неверный ответ - 0.

Для вычисления этих величин θ i и β j воспользуемся методом параметризации, процедуру которого изложим, следуя М. Челышковой [5 ].

Индивидуальный балл i –того испытуемого определяется из выражения

m

X^ Xj

j откуда следуют доли верных

X

и неверных

qi = 1- Pi

ответов ис-

пытуемых, где m - количество заданий в тесте. На основе этих величин производится предварительная оценка обученности в логитах

00 = In pi- qi                                         (3)

Количество правильных ответов на j- тое задание вычисляется по формуле

n j  ^vj                        (4)

i

Rj и подсчитываются доли правильных

pj    ^ и неправильных ответов qj=1-pj на это задание, где n - число испытуемых в группе.

Предварительная оценка трудности задания производится в логитах

p j

На следующем этапе начальные значения логитов обученности и трудности заданий переводятся в единую интервальную шкалу стандартных оценок. Стандартизация достигается с помощью ряда специальных преобразований [7], для осуществления которых вычисляются:

  •    среднее значение 6 для множества 6 0 (i = 1,2,...,n) подсчитывают по формуле

N

_ X60

6 = -—,                      (6)

где 6 0 — предварительные значения уровня обученности i -го испытуемого;

  •    среднее значение в для множества P 0 (j = 1,2,...,m) равно

    n


    m


    где в 0 — предварительные значения логитов трудности заданий; дисперсия по множеству значений 6 0 (i = 1,2,...,n)


    n

    X ill >  - n( 6 )2

    V = —------- n -1


    • •    дисперсия по множеству P 0 (j = 1,2,...,m)

    m

    X ( в0 ) 2 - m( P ) 2

    U = j---------- ,

    m 1
    •    поправочные коэффициенты



    x     1 + U /2,89

    - v 1 - UV /8,35,


    Y =

    1 + V/2,89

    v 1 - uv/8,35.


Конечные оценки параметров в единой интервальной шкале находятся по формулам

6k. = в + Хв

i                          i ,

Bk, = в + YB0 j                      j,

Последние формулы (12) и (13) современной теории тестов обеспечивают объективность параметров испытуемых и заданий и независимость друг от друга оценок обученности и трудности задания. Но на практике, как отмечает В.Аванесов [8] , результаты не всякого тестирования согласуются с моделью Раша. Несоответствие эмпирических данных модели Раша может означать, что были нарушения в процедуре тестирования или при анализе эмпирических данных. Некоторые авторы [9, 10] пытаются улучшить теорию для того, чтобы она точнее описывала экспериментальные данные, или ведут поиски других моделей, более адекватных полученным результатам.

Здесь есть принципиально важный момент. В теории Г.Раша никогда не ставилась задача адекватного описания данных. Напротив, утверждается противоположное – не модель должна соответствовать эмпирическим данным, а данные должны соответствовать модели. В теории педагогических измерений применяется иной подход, нежели в естественных науках. Если в физике законы природы не зависят от исследователя, то тесты в немалой степени зависят от его воли. Поэтому физики стараются развить модель для лучшего согласия с экспериментом, а тестирование необходимо проводить, строго выполняя требования теории. В соответствии с этим педагогический тест образуют только те задания, которые отвечают данной модели измерения. Все остальные в тест не включаются.

Численное моделирование процесса тестирования

Проведем моделирование процесса тестирования в рамках модели Раша с целью изучения вопроса, как влияет трудность тестовых заданий на оценку знания испытуемых. Вначале установим масштаб изменения латентных параметров. Отечественная пятибалльная шкала позволяет оценивать знания учащихся с точностью не более 20%, а возможности тестовой технологии определения уровня обученности значительно выше. Но на практике достаточно ограничиться такой точностью вычисления вероятности правильного ответа по формуле успеха (1), которая обеспечивается интервалом изменения латентных параметров θ i и β j в пределах от -3 и до +3 единиц логитов, а погрешность измерения этих параметров допустим, равной Δθ~Δβ~0,3 логит [11].

Численные расчеты удобно проводить в среде MathCad, которая имеет широкие возможности стандартных статистических обработок числовых массивов и графических построений. Выберем в качестве испытуемых одну академическую группу из n=25 студентов с нормальным распределением θ - уровней обученности. С помощью функции θ = rnorm (25,0,1) образуем массив θ обученности из случайных чисел, распределенных по стандартному нормальному закону с численными характеристиками среднего значения θs=0 и стандартного отклонения Sxθ=1, а затем проведем процедуру упорядочивания этого массива по возрастанию значения θ уровня обученности. При этих характеристиках нормального распределения значения θ заключены в интервале (- 3,+3) и совпадают с принятым масштабом изменения уровня обученности.

Теперь установим масштабы изменения трудности тестовых заданий. Будем считать, что имеется банк тестовых заданий калиброванной трудности. Из опыта проведения тестирования [8] выявлено, что уровень трудности теста должен соответствовать уровню обученности испытуемых. Нет смысла задавать слабо подготовленным трудные задания, с которыми они заведомо не справятся, и наоборот, легкими вопросами не установить уровень знания. Поэтому выберем трудность теста, соответствующую уровню обученности группы. Зададим число заданий m=30 с интервалом изменения трудности в тех же пределах, что и интервал обученности группы, полагая равномерное распределение их. Среднее значение этого массива заданий равно βs =0, т.е. выдержано еще одно требование - сбалансировано число трудных и легких заданий в тесте.

Наконец, проведем моделирование процесса тестирования указанной группы испытуемых в рамках модели Раша. Согласно модели Г. Раша в качестве результатов тестирования оперируют не дихотомическими константами 0 и 1, а суммарной вероятностью ответа i – того испытуемого на задания теста, определяемой по формуле успеха (1):

m

Xi =

P ij

j

А суммарную вероятность правильных ответов на j-тое задание всей группой испытуемых определим по формуле

n

R j =∑ P ij i ,

Дальнейшие расчеты латентных параметров проведем по выше изложенной процедуре с переопределенными величинами (14) и (15). При предположении о наличии банка заданий калиброванной трудности задача сводится к нахождению только параметра обученности и на анализ следующих его значений:

  •    предварительные значения θ0, определенные в логитах по формуле (3) и

  •    конечные значения θk, вычисленные в интервальной шкале по формуле (12). Завершается анализ установлением требований к процедуре тестирования, которые обеспечивают согласие расчетных значений обученности θk с исходным θ по критерию хи-квадрат

    θ k i - θ i 2

    Δ θ



n χ2(θk -θ) = 1∑ ( ni

Имея тестовые задания с равномерным распределением β трудности, проведем моделирование процесса тестирования в группе испытуемых с нормальным распределением θ обученности и определим параметры θ0 и θk, значения которых представлены на рис.1, где сравниваются с исходной θ обученностью.

Кривые этих распределений пересекаются при β ~ θ ~ 0 так, что до пересечения трудность задания оказалась ниже обученности испытуемых, а после пересечения выше ее. Что приводит к тому, что предварительные значения обученности θ0 испытуемых оказываются завышенными при низкой трудности задания и заниженными при высокой трудности заданий. Вследствие равенства средних значений трудности βs=0 и обученности θs=0 их различия незначительны, в пределах допущенной погрешности, что подтверждается вычислением критерия χ2 (θ0-θ) = 0,78.

Рис.1.Сравнение предварительных θ 0 и конечных θ k значений обученности с исходным значением обученности θ

Общее поведение конечных значений обученности θk направлено на устранение отличий θ0 и θ, но эти изменения столь большие, что превышают различие θk и θ, даже приводят к изменению знака разности θk–θ, т.е. к неестественному поведению. Эта ситуация вызывает необходимость введения дополнительного фактора, уменьшающего эти изменения. Возможной причиной такого явления может быть, что статистическая выборка массивов испытуемых и заданий незначительна. Поэтому перенормируем поправочные коэффициенты (10) и (11), введя сигма-фактор по аналогии с эффектом Гиббса

Xa = X*σ                                   (17)

Yb = Y*σ                                   (18)

Как известно, эффект Гиббса проявляется из-за использования на практике усеченного ряда Фурье и исправляется умножением на фактор σ < 1 коэффициентов разложения.

Из условия наилучшего согласия конечных θ k с исходными

θ значениями

обученности определено значение фактора, равное σ = 0,7. Степень полученного согласия подтверждается критерием  χ2 (θk-θ) = 0,03 и демонстрируется на рис.2.

Теперь выберем задания повышенной трудности β1s=0,55, построив массив β1 при равномерном распределении 10 заданий на интервале β1= -3÷ 0 и 20 заданий на интервале β1= 0 ÷ 3. Результаты моделирования такого тестирования представлены на рис.3.

Повышенная трудность заданий понижает предварительную обученность группы от исходного значения θs = 0 до θ0s = -0,52 . Конечное значение обучен- ности, вычисленное на

Рис.2 Согласие конечных

θ k

значений обученности с исходными

θ

при введении фактора σ = 0,7

основе вышеизложенной процедуры, с включением фактора σ = 0,7, равно θks = -0,03, что отлично согласуется с исходным значением (критерий χ2 (θk-θ) =0,06).

Рис.3. Cовпадение значений конечной обученности θk с исходной θ при обученности θs=0, трудности β1s=0,55 и σ=0,7

В реальности не часто встречается нормальное распределение обученности в академических группах. Поэтому рассмотрим случай, когда группа испытуемых имеет случайное распределение обученности. С этой целью используем стандартную функцию θ1 = runif(25,-2.5,2.5) и образуем массив из 25 случайных чисел в интер- вале (-2,5; +2,5) единиц логитов. Затем отсортируем этот массив по возрастанию значений обученности с помощью функции 91= sort(91).

Аналогично этому составим тестовые задания, трудность которых распределена так же по случайному закону pi= runif 30,-3,3) с интервалом (-3;+3), перекрывающим интервал обученности группы. Используя стандартную функцию случайных чисел, можно составить группы испытуемых с различным уровнем обученности и тесты разной трудности.

Численное значение о-фактора было проверено в нескольких вариантах тестирования с различным распределением обученности тестируемых и трудности заданий и с различной трудностью тестов. Определенное из условия наилучшего согласия параметров 9k и 9 по критерию х2, значение о-фактора оказалось одинаковым во всех вариантах тестирования. В дальнейших расчетах используется это установленное значение о=0,7.

Анализ результатов численного моделирования

Имея возможность создавать массивы со случайным распределением обученности 9 и трудности заданий в, выберем 3 группы испытуемых со средним уровнем обученности 9s ~ 0, 9s = - 0,2 и 9s = +0,2. Каждая группа многократно подвергалась тестированию. Средняя трудность es этих тестов варьировалась в пределах (-0,5; +0,5) логит. Тесты с трудностью выше этого предела не позволяют получить удовлетворительное согласие конечной обученности с исходной по критерию x 2 (9ks-9) .

На основе результатов этой серии тестирования изучался вопрос, как изменяется обученность 90s с возрастанием трудности теста es. На рис.4 представлена зависимость

Рис.4. Понижение предварительной обученности группы 909s = 90s - 9s с ростом es трудности теста разности предварительной и исходной обученностей 909s = 90s - 9s от es -средней трудности теста. Массивы численных результатов тестирования 3 групп испытуемых обозначены М1, М2 и М3, соответственно. Эта зависимость оказалась линейной и не зависящей от исходной обученности группы. Вследствие этого, прямые отрезки θ0θs, соответствующие трем группам испытуемых, ложатся одна на другую.

Отметим, что при средней трудности теста βs ~ 0, т.е. при при компенсации трудных и легких заданий в тесте, предварительная обученность совпадает с исходной. Отсюда следует, что результаты тестирования с помощью теста компенсированной трудности βs ~ 0 дают достоверное оценивание знания без математической обработки их. При увеличении трудности теста оценка обученности группы линейно понижается, а при уменьшении трудности теста обученность возрастает.

Но в реальности не достигается ни удачная калибровка тестовых заданий, ни достоверное шкалирование испытуемых. Поэтому необходимо проводить математико-статистическую обработку результатов тестирования для получения объективной оценки обученности. Степень согласия конечной обученности с исходной проверялась по критерию χ2(θk-θ) < 1, но не по соответствию средних значений обученности. Известно математическое свойство теста [7], которое заключается в том, что используемый для достоверной оценки обученности тестовый набор заданий с большим разбросом трудности (большая дисперсия) уменьшает разброс конечных оценок θk обученности. Вследствие этого усредненное значение конечной обученности контингента испытуемых оказывается в окрестности θks ~ 0. Это свойство не зависит ни от трудности теста, ни от начального уровня обученности испытуемых. Такая независимость (инвариантность) обученности от трудности теста демонстрируется на рис. 5, где данные серии тестирования с задниями разной трудности дают одинаковые результаты средней обученность 3-х групп испытуемых. Необходимо особо отметить, что тестовые оценки испытуемых совпадают с исходным уровнем обученности, что непрерывно контролировалось по критерию χ2 . Это свойство инвариантности указывает на объективность тестового контроля знания.

Модель Г. Раша обладает еще одной замечательной особенностью, связанной с относительной инвариантностью оценок обученности испытуемых и трудности заданий. Дело в том, что формула успеха (1) зависит только от разности параметров θ – β.

Если испытуемый выполняет задание трудностью β с некоторой вероятностью P(θ,β), то на задание трудностью β+c с прежней вероятностью ответит более подготовленный испытуемый с обученностью θ+c, так как θ – β = (θ + c) – (β + c). Этот эффект относительной инвариантности оценок параметров обученности и трудности отражен на рис. 6.

0.8

М190к

Х-ХХ

M260j

В-В В

M360j еео

- 0.8

Зависимость обученности от ра зности

I                        I

Разность обученности и трудности.

Рис.5. Инвариантность обученности относительно трудности теста.

к

и

Щ cd К F и

5 м

0.5

мт ekj

М2 9kj

М3 Skj

Инвариантность обученности от трл дностн

0.5                                                      '

0.4

0.3

0.2

0.1

О

-0.1

-0.2

-0.3

- 0.5-0.4

-0.5

-0.5     -0.3     -0.1

o.i

о.з

0.5

- 0.5

Ml pj,M2 pj ,МЗ pj Трудность теста

0.5

Рис.6. Иллюстрация относительной инвариантности средней обученности θ0s от разности средних значений параметров θβ=θs – βs.

Для всех 3-х вариантов тестирования наблюдается одинаковое линейное возрастание предварительной обученности с ростом разности параметров θs – βs . Совпадение средних значений θ0s в области, где перекрываются значения разности θs – βs для разных вариантов тестирования, дает обоснование для вывода об относительной инвариантности оценок параметров θ и β.

Заключение

Численным моделированием процесса тестирования в рамках модели Раша продемонстрировано, как математико-статистические методы современной теории тестов приводят к достоверным оценкам испытуемых, не зависящим от трудности заданий при выполнении необходимых требований проведения тестирования.

Одно из важных требований в том, что уровень трудности теста должен соответствовать уровню обученности испытуемых. Только в этом случае, когда близки средние значения трудности теста и обученности испытуемых, и достаточно велика дисперсия массива трудности задания, оценка обученности становится наиболее эффективной, которую можно принять в качестве объективной оценки. Сокращение интервала трудности заданий в тесте, т.е. уменьшение дисперсии массива заданий, приводит к снижению контролирующей функции теста.

Другое не менее важное требование состоит в том, что среднее значение массива заданий должно быть близко к βs =0, т.е. должно быть сбалансировано число трудных и легких заданий в тесте. В случае удачно компенсированной трудности βs ~ 0 теста достигается достоверное оценивание знания без дополнительной математической обработки их.

Только при выполнении требуемых условий проведения тестирования и профессиональной обработки его результатов достигается инвариантность оценок знания относительно трудности заданий.

В нашем численном моделировании процесса тестирования остается не выполненным требование достаточной статистики массивов испытуемых и заданий. В связи с внедрением в наших ВУЗах балльно-рейтинговой системы текущий контроль знания проводится по каждому модулю изучаемой дисциплины в отдельной академической группе с помощью тематических тестов, состоящих из ~30 заданий. В таких случаях модель Раша не всегда адекватно описывает эмпирические данные тестирования. И для согласования расчетных и исходных значений обученности вынуждены ввести поправочный множитель σ-фактор, причина которого возможна, что используемые статистические выборки заданий и тестируемых не значительны .

В заключение еще раз отметим, что достоверность оценки испытуемых достигается только в случае корректного проведения тестирования и профессионального анализа его данных в рамках модели Раша .

Статья научная