Item Response Theory

Материал из Википедии — свободной энциклопедии
Перейти к: навигация, поиск

Современная теория тестирования (англ. Item Response Theory) — набор методов, позволяющий оценить вероятность правильного ответа испытуемых на задания различной трудности. Она используется для того чтобы избавиться от плохих (неинформативных) вопросов в опросе и предоставить вопросы с адекватными баллами на основе их сложности. На русском язык название Item Response Theory переводится различным образом. Ю.Нейман и В.Хлебников предлагают называть ее «Теория моделирования и параметризации педагогических тестов» (ТМППТ)[1]. В.Аванесов — «Математико-статистическая теория оценки латентных параметров заданий теста и уровня подготовленности испытуемых»[2].

В психометрии современная теория тестов (IRT) является парадигмой для проектирования, анализа и оценки тестов, опросников и подобных измерительных инструментов, отношений или других переменных. Это теория тестирования, основанная на взаимосвязи между качеством ответов на вопросы и общим качеством знания, которое проверяется в тесте. Для представления характеристик вопроса и респондента берутся несколько различных статистических моделей[3]. В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросники, современная теория тестов не предполагает, что каждый вопрос одинаково трудный. Это отличает IRT от, например, предположения Ликерта в шкалировании о том, что «все элементы считаются репликациями друг друга или другими словами: элементы считаются параллельными инструментами»[4]. Напротив, современная теория тестов рассматривает сложность каждого элемента (ICC — кривая характеристики элемента) как информацию, которая должна быть включена в масштабирование элементов.

Теория основана на применении связанных математических моделей для тестирования данных. Она по названию относится к фокусу теории вопроса. Таким образом, IRT моделирует ответ каждого испытуемого на каждый элемент теста. IRT основан на идее о том, что вероятность правильного ответа на элемент является математической функцией параметров человека и элемента.

История[править | править код]

Общим источником для создания IRT послужила так называемая логистическая функция вида , известная в биологической науке с 1844 года. С тех пор она широко применялась в биологии для моделирования прироста растительной массы или роста организмов. Как модель психологического и педагогического измерения она начала применяться, начиная с 50-х годов XX столетия. У истоков развития моделей IRT лежали стремление визуализировать формальные характеристики тестовых заданий, попытки преодолеть многочисленные недостатки классической теории тестов, повысить точность измерения и, наконец, стремление оптимизировать процедуру контроля за счет адаптации теста к уровню подготовленности студента с помощью компьютера[5].

Первоначальная работа IRT как теории возникла в 1950-х и 1960-х годах. Это были участники организации Educational Testing Service[en]: Фредерик Лорд[en], датский математик Георг Раш[en] и австрийский социолог Полом Лазарсфельдом. Ключевыми фигурами, продвигавшими прогресс IRT, являются Бенджамин Дрейк[en] и Дэвид Андрич[en].

В числе первых предпосылок к созданию IRT стали те результаты исследовательской работы Альфред Бине и Теодор Симон[6], в которых было отражено стремление авторов выявить — как, образно говоря, «работают» те задания, которые они давали детям разного возраста. Расположив затем на координатной плоскости точки, где по оси абсцисс откладывался возраст (в годах), а по оси ординат — доля правильных ответов в каждой возрастной группе испытуемых, авторы увидели, что полученные точки, после усреднения по каждой группе, напоминают кривую, позже названной характеристической.

В 1936 году M.W.Richardson провела обширное эмпирическое исследование, опросив 1200 студентов по 803 заданиям, в процессе которого студенты, в зависимости от полученного ими тестового балла, были разделены на 12 групп, по сто человек в каждой. Она первой обратила внимание на различающуюся крутизну кривых тестовых заданий и выдвинула идею рассматривать меру крутизны как примерную оценку дифференцирующей способности задания[7]. M.W.Richardson была, по-видимому, первой, осознавшей плодотворность использования усреднённых точек для графической презентации формальных характеристик заданий проектируемых тестов[8].

В частности, целью IRT является создание основы для анализа того, насколько хорошо работают оценки, и насколько хорошо работают отдельные элементы оценки. Наиболее распространенная область применения IRT — образование, где психометристы используют его для разработки и дизайна экзаменов, поддержания банков вопросов для экзаменов и сравнения трудностей вопросов для последующих версий экзаменов[9].

Функция ответа элемента (Item Response Function IRF)[править | править код]

IRF дает вероятность того, что человек с заданным уровнем способности ответит правильно.

Три параметра логистической модели[править | править код]

Рисунок 1: Пример 3PL IRF.

Например, в трёхпараметрической логистической модели (3PL) вероятность правильного ответа на дихотомический элемент i, как правило, вопрос с множественным выбором, есть:

Где указывает, что способности человека моделируются как образец из нормального распределения с целью оценки параметров элемента. После оценки параметров вопроса возможности каждого оцениваются для целей отчетности. , и — это параметры элемента. Параметры элемента определяют форму функции ответа элемента. На рисунке 1 изображен идеальный 3PL ICC.

Параметры элемента можно интерпретировать как изменение формы стандартной логистической функции:

Параметры, по которым характеризуются элементы теста:

  • b — трудность. Это значение указывает нам, насколько легок или сложен вопрос. положение функции
  • a — дискриминация. Это значение говорит нам, насколько эффективно этот вопрос может различать студентов по уровню их знания. — максимальный наклон
  • c — угадывание. Это значение указывает нам, насколько вероятно, что испытуемые могут получить правильный ответ, угадывая. — ассимптотический минимум

Модели IRT[править | править код]

Модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют единственного значения (способности) измерения . Предполагается, что модельные ответы на многомерные модели IRT предполагают возникновение множественных признаков. Однако из-за значительно большей сложности большинство исследований и применений IRT используют одномерную модель.

Модели IRT также можно классифицировать по количеству полученных ответов. Типичный элемент множественного выбора является дихотомическим; Несмотря на возможность четырех или пяти вариантов, он по-прежнему считается только правильным/неправильным. Другой класс моделей применим к политомическим результатам, где каждый ответ имеет другое значение оценки[10]. Общим примером этого являются элементы типа шкалы Ликерта, например «от 1 до 5»

Число параметров, входящих в аналитическое задание функций, является основанием для под­разделения семейств логических функций на классы.

Среди логи­стических функций различают[11]:

1) Однопараметрическую модель Г. Раша — И Где и — независимые переменные для первой и второй функ­ций соответственно; Множитель 1,7 используется для совместимости модели G.Rasch с моделью A.Fergusson, где вероятность правильного ответа на задание выражена интегралом нормального распределения, что позволяет использовать вместо логистических кривых хорошо изученную интегральную функцию нормированного нормального распределения.

Рисунок 2: Характеристические кривые заданий (ICC) в модели (1PL)

Модель Раша носит название «1 Parametric Logistic Latent Trait Model» (1PL), а модель A.Fergusson — «1 Parametric Normal Ogive Model» (1PN). Поскольку модель Раша описывает вероятность успеха испытуемого как функцию одного параметра (), то иногда ее называют однопараметрической моделью IRT.

Взаимодействие двух множеств и образует данные, обладающие свойством «совместной аддитивности» (conjoint additivity). Правильное использование модели Раша позволяет отделить оценки испытуемых от оценок трудности заданий и наоборот. Это свойство Rasch Measurement носит название separability parameter estimates — «независимость оценок заданий от испытуемых и оценок испытуемых от параметров заданий».

Рисунок 3: Характеристические кривые испытуемых (PCC) в модели 1PL.
Рисунок 4: ICC в двухпараметрической модели 2PL.
Рисунок 5: ICC в трехпараметрической модели 3PL.

На рис. 2 показаны три характеристические кривые с трудностями заданий -2, 0 и +2 логита (первое самое легкое, второе — среднее, третье самое трудное). Из приведенных зависимостей видно, что чем выше уровень подготовленности θ испытуемого, тем выше вероятность успеха в том или ином задании. Например, для испытуемого с вероятность правильно ответить на первое задание близка к единице, на второе равна 1/2 и на третье почти равна нулю. Отметим, что в точках, где вероятность правильного ответа равна 0,5. То есть, если трудность задания равна уровню подготовленности (ability) испытуемого, то он с равной вероятностью может справиться или не справиться с этим заданием.

Характеристические (логистические) кривые для заданий теста в англоязычной литературе называются Item Characteristic Curve (ICC).

На рис. 3 показаны три характеристические кривые испытуемых — «Person Characteristic Curve» (PCC). Показаны графики для трех испытуемых с уровнем подготовленности -2 логита (самый слабый), 0 логитов (средний) и +2 логита (сильный испытуемый).

Из приведенных зависимостей видно, что чем выше уровень подготовленности, тем выше вероятность правильного ответа на задание. Например, задание с трудностью b = 0 первый испытуемый ( q=-2) практически не сможет выполнить, второй q = 0) имеет вероятность выполнения задания равную 0.5, третий q=+2) легко справится с заданием, так как для него вероятность успеха почти равна единице.

2) двухпараметрическую модель А. Бирнбаума[en]

Если тест содержит задания с различной дифференцирующей способностью, то однопараметрическая модель 1PL не может описать такие эмпирические данные. Для преодоления этой трудности А.Бирнбаум ввел еще один параметр — a (item discrimination parameter).

Параметр aj определеяет наклон (крутизну) характеристической кривой j-го заданий. Примеры характеристических кривых показаны на рис. 3. Видно, что чем больше aj тем круче идет кривая, тем выше дифференцирующая способность задания.

Для еще лучшего соответствия эмпирическим данным А.Бирнбаум ввел третий параметр c — параметр угадывания. На рис. 5 приведены примеры характеристических кривых для трех заданий с трудностью β = 1, дискриминационным параметром aj = 1 и различными параметрами угадывания cj = 0, cj = 0.25, cj = 0.5.

Из приведенных графиков видно, что наличие параметра угадывания приводит к пропорциональному смещению ICC вверх на величину cj.

3) трехпараметрическую модель А. Бирнбаума

где Cj является третьим параметром модели, характеризующим вероятность правильного ответа на j-е задание в том случае, если этот ответ угадан, а не основан на знаниях.

Модель Раша[править | править код]

Характерной особенностью модели Раша является то, что характеристические кривые (ICC) не пересекаются (рис.6). Это означает, что если некоторое задание «А» легче задания «Б», то это соотношение сохраняется во всем интервале изменения θ.

Рисунок 6: Пересекающиеся ICC в трехпараметрической модели.

Совершенно иная картина наблюдается для двух- и трехпараметрической моделей. На рис.4 это хорошо видно. Задание с αj = 0,5 в области положительных значений θ является самым трудным из представленных трех заданий, то есть вероятность правильного ответа на это задание самая низкая. В области же отрицательных значений q это же задание теперь уже самое легкое — вероятность правильного ответа на него наибольшая. Получается, что для слабых учащихся это самое легкое задание, а для сильных учащихся — самое трудное.

Аналогичная картина наблюдается и для трехпараметрической модели. На рис.5 показан редкий случай непересекающихся характеристических кривых, так как для них выбраны одинаковые параметры βj=1 и αj=1, то есть все три задания имеют одинаковую трудность и одинаковый параметр дифференцирующей способности.

На рис.6 приведен другой пример. Здесь у задания с параметром cj=0 изменена трудность βj= -1, что немедленно вызвало пересечение характеристических кривых. Задание с cj=0 в области θ < -2 является самым трудным. В области -1,5 < θ < -1 это задание легче задания с cj=0,25 и труднее задания с cj=0,5. В области θ > -1 задание с cj=0 является самым легким. Подобное пересечение ICC практически всегда происходит для двух- и трехпараметрической моделей.

Таким образом, только однопараметрическая модель Раша соответствует требованиям, предъявляемым к качественному измерительному инструментарию. Именно модель RASCH MEASUREMENT больше всего пригодна для построения теста, как измерительного инструмента.

Основные допущения IRT[12][править | править код]

1) существуют латентные/скрытые параметры личности (которые недоступны для непосредственного наблюдения). Например, в интеллектуальном тестировании — это уровень подготовленности испытуемого и уровень трудности задания);

2) существуют индикаторы, которые связаны с латентными параметрами, но в отличие от них, доступны для наблюдения. По значениям индикаторов можно судить о значениях латентных параметров;

3) оцениваемый латентный параметр должен быть одномерным (шкала должна измерять одну и только одну переменную.) Если условие одномерности не выполняется, то необходимо работать над тестом, проверить согласованность заданий, размерность теста и т.д. Все задания, которые нарушают гомогенность, должны быть исключены из шкалы.

Сравнение современной и классической теорий тестов[13][править | править код]

Классическая теория тестирования (КТТ) IRT (модели Раша)
1 Оценки трудности тестовых заданий зависят от уровня подготовленности конкретной выборки испытуемых Оценки трудности тестовых заданий инвариантны относительно контингента испытуемых, по результатам тестирования которых они получены
2 Оценки уровня подготовленности испытуемых (первичные баллы) зависят от уровня трудности конкретного теста Оценки уровня подготовленности испытуемых инварианты относительно тестовых заданий, по результатам выполнения которых они получены
3 Ошибка измерения является величиной постоянной для всех испытуемых. Ошибка измерения заданий не оценивается Ошибка измерения оценивается индивидуально для каждого испытуемого и каждого задания. Причем ошибка подсчитывается непосредственно, а не косвенно
4 Методы оценивания надежности требуют существенных ограничений и дают искаженные результаты Возможно оценить отдельно надежность измерения испытуемых и надежность оценивания заданий теста
5 Шкала первичных баллов является порядковой. Никакое преобразование первичных баллов в КТТ не повышает уровня шкалы Шкала логитов является интервальной, что дает возможность перейти от ранжирования испытуемых и заданий к измерению соответственно уровня подготовленности и уровня трудности
6 Нормальное распределение баллов испытуемых и трудностей заданий теста играет существенную роль Нормальность распределения параметров не требуется
7 Способы установления соответствия между баллами испытуемых, выполнявших различные варианты, требуют трудновыполнимых предположений Возможно выполнить процедуру выравнивания показателей различных вариантов и осуществить шкалирование на единой метрической шкале. Возможно создание банков заданий
8 Не подходит для компьютерного адаптивного тестирования Вся теория компьютерного адаптивного тестирования базируется на IRT
9 Анализ концентрируется только на оценивании трудности заданий и мер испытуемых Возможен анализ влияния дополнительных факторов на оценки параметров заданий и мер испытуемых
10 Искусственное назначение весов заданиям может привести к искажению информации об уровне подготовленности испытуемых Вес (информационный вклад) тестового задания может быть вычислен отдельно вне зависимости от характеристик других заданий

См. также[править | править код]

Примечания[править | править код]

  1. Нейман Ю.М., Хлебников В.А. Введение в теорию моделирования и параметризации педагогических тестов. -М.: Прометей, -169 с. http://uss.dvfu.ru/static/kim_testing_monograph/src/glava_5.html
  2. Аванесов В.С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, №4. -С.3-20. http://uss.dvfu.ru/static/kim_testing_monograph/src/glava_5.html
  3. National Council on Measurement in Education http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI
  4. A. van Alphen, R. Halfens, A. Hasman and T. Imbos. (1994). Likert or Rasch? Nothing is more applicable than good theory. Journal of Advanced Nursing. 20, 196-201
  5. Аванесов В.С. Применение тестовых форм в Rasch Measurement // Педагогические измерения, 2005, №4. -С.3-20. http://uss.dvfu.ru/static/kim_testing_monograph/src/glava_5.html
  6. Binet A., Simon T.H. The Development of Intelligence in Young Children. Vineland, NJ: The Training School, 1916.
  7. Richardson Marion W. The Relation Between the Difficulty and the Difference Validity of a Test / Psychometrika, 1936, 1: 2, 33-49.
  8. Richardson M.W. Notes on the Rationale of Item Analysis./Psychometrika, 1936,1: 169-76.
  9. Hambleton, R. K., Swaminathan, H., & Rogers, H. J. (1991). Fundamentals of Item Response Theory. Newbury Park, CA: Sage Press.
  10. Ostini, Remo; Nering, Michael L. (2005). Polytomous Item Response Theory Models. Quantitative Applications in the Social Sciences. 144. SAGE. ISBN 978-0-7619-3068-6.
  11. http://koi.tspu.ru/koi_books/samolyuk/lek13.htm
  12. М.К. Рыбникова. Теория тестов: классическая, современная и "интеллектуальная" http://www.ht.ru/cms/component/content/article/1-aricles/109862-13022014
  13. Карданова Е.Ю. Преимущества современной теории тестирования по сравнению с классической теорией тестирования. Вопросы тестирования в образовании. 2004, № 10

Литература[править | править код]

Ссылки[править | править код]