Тест Мантеля-Хензеля

08.09.2021

Статистику Mantel-Haenszel (MH) можно использовать для сравнения двух культурных групп, когда наблюдаемые баллы по пунктам дихотомичны (правильно-неверно), а суммарный балл используется в качестве заместителя для скрытой переменной. На первом этапе сумма баллов снижается до ограниченного числа уровней баллов. В пределах каждого уровня оценки шансы правильно или неправильно ответить вычисляются в каждой из двух групп, и берется соотношение этих шансов. Затем отношения шансов усредняются по уровням оценки. Если нет однородной систематической ошибки, среднее отношение шансов должно быть равно 1. Это означает, что вероятность правильного ответа в среднем одинакова в каждой группе для субъектов с одинаковым положением в доверенном лице. Если отношение шансов значительно отклоняется от 1, имеется случай равномерного смещения.Это означает, что в одной культурной группе вероятность правильного ответа на вопрос систематически выше, чем в другой культурной группе с такой же позицией по доверенности. Поскольку MH надежен и прост в использовании, он является одним из наиболее часто используемых психометрических методов при исследовании предвзятости.

MH полезен только для демонстрации полной эквивалентности баллов, если структурная эквивалентность и метрическая эквивалентность уже были продемонстрированы с помощью других психометрических анализов. MH как таковой не дает информации о взаимосвязи между оценкой элемента и прокси внутри каждой группы. Более того, MH не является эффективным средством обнаружения неравномерного смещения, поскольку он основан на среднем соотношении шансов по уровням оценки.

Выживаемость и анализ временных рядов

Сравнение лог-рангового теста с другими тестами кривых выживаемости

Два альтернативных теста кривых выживаемости, которые могут быть рассмотрены для использования, - это тест Мантеля-Хензеля и тест пропорциональных рисков Кокса. Тест Мантеля-Хензеля почти такой же, как тест логарифмического ранга. Действительно, и Мантель, и Хэнзель внесли свой вклад в теорию логрангового теста. Однако тест Мантеля-Хензеля ограничивается двумя кривыми, тогда как тест логарифмического ранга может использовать более двух кривых. Таким образом, рекомендуется использовать лог-ранговый тест. Тест пропорциональных рисков Кокса позволяет варьировать риск смерти в рамках модели, тогда как тест логарифмического ранга предполагает, что он одинаков во всем. Предположение Кокса приводит к довольно сложной математике, и методы следует использовать осторожно и точно, чтобы избежать ряда потенциальных критических замечаний. Пользователю рекомендуется обратиться за советом к биостатисту, если показатели смертности варьируются в пределах набора данных.

Биостатистика, используемая для клинического исследования ишемической болезни сердца

Анализ категориальных переменных ответа

Если переменные отклика являются категориальными, для проверки различий между группами лечения используется критерий хи-квадрат Пирсона или точный критерий Фишера. Критерий Кокрана – Мантеля – Хензеля используется, когда мы должны стратифицировать по дополнительным переменным. Логистическая регрессия используется для моделирования взаимосвязи между двоичной выходной переменной и ковариатами. Диагностика логистической регрессии используется для подтверждения соответствия логистической модели. Полихотомическая логистическая регрессия может применяться к порядковым категориальным переменным в предположении пропорциональных шансов. Когда результат действительно полиномиальный, могут применяться обобщенные логит-модели. Регрессия Пуассона используется, если результатом является количество событий. При необходимости можно создать составные меры для объединения информации между сильно коррелированными ковариатами [12,13].

Предмет и тест смещения

Говард Уэйнер, Стивен Г. Сиречи, в Энциклопедии социальных измерений, 2005 г.

Метод Мантеля – Хензеля.

В 1959 году Mantel и Haenszel разработали сводную статистику для изучения эффективности лечения рака. Пациенты были стратифицированы по степени тяжести заболевания, и для каждого уровня тяжести была построена таблица частот 2 на 2. Одним из факторов этой таблицы было «лечение» или «контроль», а другим - «выжил» или «не выжил». Расчет степени независимости двух факторов на каждом уровне был хорошо известен. Вклад Mantel и Haenszel заключался в разработке умной схемы взвешивания, позволяющей объединить результаты всех этих таблиц 2 на 2 по стратам серьезности статистически оптимальным образом. Результирующая сводная статистика стала известна как статистика Мантеля – Хензеля в их честь.

Понятно, что если мы заменим результативность теста на серьезность, «эталонный» и «фокусный» на «лечение» и «контроль», а «правильный» и «неправильный» на «выжил» или «не выдержал», Статистику Мантеля – Хензеля можно напрямую применить к задаче оценки DIF. Признание того, что Mantel – Haenszel (MH) хорошо подходит для решения этой проблемы, заняло почти 30 лет; только в 1988 году Холланд и Тайер предложили это. MH похож на индекс стандартизации в том, что испытуемые из двух разных групп сравниваются по интересующему их уровню владения языком, а вероятность успеха по заданию сравнивается между группами. Однако он отличается тем, что учитывает отношение шансов успеха по каждому пункту, а не разницу в вероятностях. Важнее,это была хорошо изученная сводная статистика с характеристиками оптимальности, которая хорошо соответствовала моральному императиву, описанному ранее. Более того, это дешевый и простой в вычислении метод, поэтому в настоящее время он является наиболее часто используемым методом DIF.

Чтобы вычислить статистику MH, следующие частоты рассчитываются на каждом уровне переменной кондиционирования: общее количество испытуемых в каждой группе и количество испытуемых в каждой группе, которые ответили на вопрос правильно и ответили на вопрос неправильно. Пример необходимых данных только на одном уровне обусловливающей переменной представлен в Таблице I.

Таблица I. Частоты, необходимые для вычисления статистики MH на каждом уровне переменной кондиционирования

Группа Ответ Всего Верный Неверно
СправкаA jB jN r j
ФокусC jD jN f j
ВсегоM 1 jM 0 jT j

Проверенная нулевая гипотеза состоит в том, что соотношение пропорций (правильных к неправильным) для каждой группы одинаково. Используя обозначения в таблице I, отношение обычных шансов α MH оценивается как

Когда α MH = 1, вероятность правильного ответа на вопрос одинакова как для целевой, так и для контрольной группы по j уровням баллов. Значимость отклонения статистики MH легко определяется с помощью статистики хи-квадрат с одной степенью свободы:

Помимо проверки статистической значимости, можно также вычислить размер эффекта, и существуют практические правила для классификации этих размеров эффекта на малые, средние и большие DIF (Dorans & Holland, 1993).

Было показано, что метод MH особенно эффективен при обнаружении DIF. По этой причине он часто используется в качестве стандарта для сравнения в исследованиях, сравнивающих методы обнаружения DIF. Статистика MH достигает своей мощи, сосредотачивая все свидетельства на обнаружении одного параметра (следовательно, единственной степени свободы), который представляет собой степень, в которой логарифмическое отношение шансов постоянно отличается от одного по всем слоям. Он пытается обнаружить то, что стало называться равномерным DIF. Цена этой целеустремленности состоит в том, что она не может обнаружить другие отклонения; в частности, он не может обнаружить отклонения, которые систематически меняются по слоям («неоднородный» DIF). Многие исследования показали, что на образовательных тестах могут встречаться оба типа DIF. Другие методы не имеют этих ограничений, и самые мощные из них обсуждаются ниже.

Категориальные и перекрестно классифицированные данные: степень соответствия и ассоциации

Тест Кохрана-Мантеля-Хензеля (CMH) и факторы, мешающие

В парадоксе Симпсона парадоксальные выводы обычно происходили из-за игнорирования третьего фактора, например, относительного количества заявок на отделение в исследовании Беркли или размера камней в почках. Эти иногда игнорируемые третьи факторы могут быть искажающими, в которых все отношения между X и Y обусловлены их индивидуальными отношениями с третьим фактором S , или могут быть модификаторами, в которых сила связи между X и Y зависит от уровня из Sфактор. Для решения этой проблемы используется тест CMH. Если есть три номинальные переменные, например, две таблицы сопряженности 2 × 2 для проверки независимости и третья номинальная переменная, указывающая на повторы, нам нужно знать, уместно ли объединить разные повторы и получить более крупную и репрезентативную выборку. Например, сравните два вида улиток, подсчитанных выше и ниже линии прилива, чтобы определить, существует ли какая-либо связь между видами и участком. Это простая таблица 2 × 2 для номинальных переменных. Если мы сделаем это в два разных месяца, сможем ли мы объединить два набора данных? На самом деле существует третья номинальная переменная - скрытый фактор времени, очень похожий на фактор, влияющий на размер камней в почках, упомянутый ранее. Повторы могут быть в разное время, в разных местах или в разных учебных заведениях.

Чтобы проверить независимость между причиной и следствием на двух разных уровнях возможного искажающего фактора, существует метод, основанный на гипергеометрическом распределении, известный как тест Кохрана-Мантеля-Хензеля (или иногда просто как тест Мантеля-Хензеля). Нулевая гипотеза состоит в том, что отклонение O - E= 0; поскольку в таблице 2 × 2 отклонения имеют одинаковую величину в каждой ячейке, рассчитайте только отклонение в любой одной ячейке. Как показано ранее, ожидаемое значение может быть определено как O ij = R i C j N. Для верхней левой ячейки отклонение составляет O 11 - R 1 C 1 N. Выполните этот расчет для каждого слоя, вычтите 0,5 для поправки на непрерывность Йетса, а затем возведите отклонения в квадрат. Объедините эти квадраты отклонений для каждого слоя и получите средневзвешенное значение, разделив сумму квадратов отклонений на сумму их соответствующих дисперсий, рассчитанных как Дисперсия = R 1 C 1 R 2 C 2 N 2 N - 1 для каждого слоя. Окончательная формула принимает вид χ MH 2 = ∑ O ij - R i C j N - 0,5 2 ∑ R 1 R 2 C 1 C 2 N 2 N - 1, иногда записываемый как

Это значение распределяется как χ 2 с 1 степенью свободы.

Комбинированное отношение шансов: ИЛИ MH = ∑ ad N ∑ bc N.

Нулевая гипотеза состоит в том, что категории независимы, так что комбинированное отношение шансов будет равно 1. Если это не так, может иметь смысл вычислить комбинированное отношение шансов при условии, что все индивидуальные отношения шансов одинаковы по величине.

В качестве примера исследователи хотели определить связь между тиазидными диуретиками и переломами бедра (LaCroix et al., 1990). Они изучали субъектов в Восточном Бостоне, Айове и Нью-Хейвене, и данные о частоте переломов бедра представлены в таблице 14.16.

Таблица 14.16. Пример для теста CM

Возраст Номер Восточный Бостон Number Iowa Номер Нью-Хейвен Мужчины Женщины Всего Мужчины Женщины Всего Мужчины Женщины Всего 65–74 ≥ 75 Всего Хи-квадрат Соотношение шансов
11 17 28 год 7 17 24 8 1523
15 42 57 год 9 49 5812 4052
265985166682205575
1,48, Р = 0,332,04, Р = 0,161,11, P = 0,29
1,8122,241,78

В этом подмножестве их данных, хотя все отношения шансов>1, ни один из хи-квадратов не близок к P = 0,05. Вопрос в том, являются ли пол и возраст независимыми и разумно ли объединить данные из групп и получить комбинированное отношение шансов?

В этих таблицах, кажется, существует связь между возрастом и полом. Комбинированное отношение шансов составляет.

ИЛИ MH = 11 × 42 85 + 7 × 49 82 + 8 × 40 75 15 × 17 85 + 9 × 17 82 + 8 × 40 75 = 13,88 7,27 = 1,91. Это средневзвешенное значение трех отношений шансов. Тогда тест Кокрана-Мантеля-Хензеля

χ MH 2 = 26 - 19,38 - 0,5 2 4,03 + 2,70 + 3,16 = 3,79. При 1 степени свободы это означает, что P = 0,0515, так что мы можем осторожно отвергнуть нулевую гипотезу о независимости возраста и пола.

Тест можно выполнить на http://www.biostathandbook.com/cmh.html.

Мы можем использовать больше групп. В приведенном выше примере данных о приеме в Беркли используются некоторые данные, предоставленные парадоксом Интернет-проекта Симпсона по адресу http://wps.aw.com/wps/media/objects/15/15719/projects/ch2_simpson/index.html. Количество кандидатов, принятых и отклоненных четырьмя различными ведомствами, было отсортировано по полу (Таблица 14.17a).

Таблица 14.17a. Данные о поступлении в Беркли с разбивкой по отделениям и полу

А B C D M F Всего M F Всего M F Всего M F Всего Допущенный Отклоненный Всего
512 8960135317370138131269 53 94147
313 19332207 8215279244523138299437
82510893356025585417375792191393584

Для данных в целом, без учета отделов, мы имеем (Таблица 14.17b).

Таблица 14.17b. Данные о приеме объединены по отделам

Страта M F Всего Статус
Допущенный10563311387
Отклоненный 9375701507
Всего1993 г.9012894

Χ всего 2 211,90, Р χ 2 составляют, соответственно, 16,32, 0,08, 0,22 и 0,81 (все с поправкой Йейтса) с соответствующими отношениями шансов 0,35, 0,80, 0,92 и 1.22.

Тест Мантеля-Хензеля дает

Это при 1 степени свободы P = 0,055. (Я бы всегда делал этот расчет с помощью онлайн-теста из-за риска арифметических ошибок.)

Вероятно, нам не следует отвергать нулевую гипотезу,

Функционирование дифференциального элемента

Непараметрические методы DIF

Статистические методы, попадающие в эту категорию, обычно основаны на таблицах непредвиденных обстоятельств. Можно выделить три подхода:

те, которые включают проверку гипотезы о равных пропорциях;

те, которые используют категориальную модель; и

процедура одновременного теста на предвзятость (SIBTEST).

Первая группа включает χ 2 (Scheuneman, 1979), процедуру стандартизации (Dorans and Kulick, 1986) и статистику Mantel – Haenszel (MH) (Holland and Thayer, 1988); второй будет включать логит и логлинейные модели (Мелленберг, 1982), модели скрытых классов (Коэн и Болт, 2002; Де Аяла и др ., 2002) и анализ логистической регрессии (ЛР) (Сваминатан и Роджерс, 1990); и, наконец, третья группа включает структуру SIBTEST (Shealy and Stout, 1993a, 1993b). Среди этих методов наиболее часто используются MH и LR.

Процедура MH (Mantel and Haenszel, 1959) была впервые использована для анализа DIF Холландом и Тайером (1988). В настоящее время это золотой стандарт для обнаружения предметов с дифференциальным функционированием, который используется Службой образовательного тестирования. Процедура MH сравнивает выполнение заданий контрольной и целевой групп, которые ранее были сопоставлены по способности, измеряемой тестом. Наблюдаемый общий балл теста обычно используется в качестве критерия соответствия (Holland and Thayer, 1988).

В стандартной процедуре MH элемент показывает единый DIF, если шансы правильного ответа на вопрос различны для двух групп на заданном уровне j соответствующей переменной. Метод MH обеспечивает оценку размера эффекта на основе общего отношения шансов ( α ). Холланд и Тайер (1988) предложили логарифмическое преобразование α для целей интерпретации с целью получения симметричной шкалы, в которой нулевое значение указывает на отсутствие DIF, отрицательное значение указывает на то, что элемент отдает предпочтение контрольной группе по сравнению с фокусной группой. , а положительное значение указывает, что элемент легче для целевой группы, чем для контрольной группы. Это преобразование выражается как Δ α MH = –2,35 ln ( α). Цвик и Эрджикан (1989) предложили следующие правила интерпретации для оценки величины эффекта DIF:

предметы типа A / незначительный DIF: это предметы, в которых Δ α MH

предметы типа B / умеренный DIF: предметы, в которых | 1 | ≤ Δ α MH ≤ | 1,5 | и где MH оказался статистически значимым; и

элементы типа C / большие DIF: элементы, в которых Δ α MH >| 1,5 | и ЗГ оказались статистически значимыми.

Цвик и Эрджикан (1989) отмечают, что элементы типа B могут использоваться в тесте, если нет других, которые могли бы их заменить, тогда как элементы типа C будут выбраны только в том случае, если они необходимы для выполнения требований теста.

У этого метода есть несколько преимуществ, главное из которых - высокая мощность обнаружения DIF (Holland and Thayer, 1988). Кроме того, статистику легко вычислить, она включает измерение величины эффекта и может быть легко интерпретирована профессионалами, не имеющими опыта в психометрии. Кроме того, его применение не требует чрезмерно больших размеров выборки; например, Mazor et al.. (1992) обнаружили высокую степень достоверности и хороший контроль над частотой ошибок 1-го типа в выборках из 200 субъектов на группу (фокусную и контрольную). Наконец, следует отметить, что статистику MH можно рассчитать с помощью легкодоступного статистического программного обеспечения, будь то для общего использования (SPSS, SYSTAT и SAS) или более конкретных пакетов (MHDIF: Fidalgo, 1994; EZDIF: Waller, 1998a; DIFAS : Penfield, 2005). Однако есть ряд ограничений:

он не тестирует на неоднородность DIF (Роджерс и Сваминатан, 1993; Сваминатан и Роджерс, 1990; Уттаро и Миллсап, 1994), хотя Клаузер и др . (1994) предложил вариант, который полезен для его обнаружения;

он работает с разными уровнями соответствующей переменной, что в некоторой степени произвольно и может повлиять на статистические решения относительно DIF;

низкая производительность с точки зрения его способности обнаруживать DIF с размером выборки 100 или меньше на группу (Fidalgo et al ., 2004; Mazor et al ., 1992), хотя точные непараметрические методы были предложены как для бинарных, так и для политомических элементов (Meyer et al ., 2004; Parshall and Miller, 1995);

он работает с наблюдаемой метрикой баллов; и

может потребоваться очистка оценок соответствия для небольшого количества элементов или в тесте с высоким процентом элементов с различным функционированием.

LR-анализ (Swaminathan and Rogers, 1990) - это метод обнаружения различных типов DIF (однородных и неоднородных). Это более сложная и сложная процедура, чем другие, такие как статистика MH, но она обладает большей мощностью с точки зрения обнаружения неоднородного DIF (Clauser et al ., 1996; Hidalgo and López, 2004; Narayanan and Swaminathan, 1996; Rogers and Swaminathan, 1993). Более того, LR-анализ обеспечивает общую и гибкую структуру для анализа и оценки DIF, например: различные форматы элементов (дихотомические или политомические), разные критерии соответствия или комбинация других критериев, а также группирующие переменные (пол, раса, культура и язык). ) с двумя или более уровнями (Zumbo, 1999). Другими преимуществами этого метода являются:

он предлагает статистический тест и статистику величины эффекта (French and Maller, 2007; Gómez-Benito et al ., 2009; Hidalgo and López, 2004; Hidalgo and Gómez-Benito, 2006b; Jodoin and Gierl, 2001; Zumbo, 1999). ;

это полезно при относительно небольших размерах выборки (Идальго и Гомес-Бенито, 2006b, 2009); и

его можно рассчитать с помощью общедоступного программного обеспечения, будь то общие статистические пакеты (SPSS, Systat и SAS) или более конкретные приложения (LRDIF: Gómez-Benito et al ., 2005; EZDIF: Waller, 1998a).

Его ограничения включают тот факт, что его требования к размеру выборки зависят от количества категорий ответов и от степени перекоса, так что для вопросов без перекоса более низкие размеры выборки (например, 100) могут быть адекватными, и могут быть как однородные, так и неоднородные DIF. обнаружен. Еще два ограничения заключаются в том, что он работает с наблюдаемой метрикой баллов, и может потребоваться очистка сопоставимых баллов с небольшим количеством элементов.

SIBTEST (Shealy and Stout, 1993a, 1993b) теоретически основан на многомерной модели IRT. Эта процедура проверяет DIF с помощью различий в ожидаемых баллах, которые зависят от способностей в разных группах. Условные ожидаемые баллы в каждой группе оцениваются на основе действительного субтеста, свободного от DIF. Результаты, полученные этим методом, аналогичны результатам процедуры MH с точки зрения направления и количества оцененного DIF (Nandakumar, 1993; Narayanan and Swaminathan, 1994; Roussos and Stout, 1996; Shealy and Stout, 1993b).

Наиболее важные преимущества этого метода включают тот факт, что он способен обнаруживать как DIF, так и DTF, и, следовательно, он может исследовать эффекты усиления и отмены DIF. Усиление происходит, когда подмножество элементов показывает DIF только в одной из групп. Напротив, отмена происходит, когда одно подмножество элементов теста показывает DIF в одной из сравниваемых групп, а другое подмножество показывает это в другой группе; это может означать, что эффект первого подмножества элементов нивелирует эффект второго. Метод был расширен для оценки DIF в политомических элементах (Poly-SIBTEST: Chang, et al.., 1996) и для оценки неоднородного DIF (Crossing-SIBTEST: Li and Stout, 1996). Кроме того, Нандакумар и Руссос (2004) предложили другое расширение процедуры (CATSIB), в котором наблюдаемый общий балл заменяется оценками на основе IRT.

Основным недостатком этого метода является то, что определение критериев, которые будут использоваться для выбора действительного подтеста, не содержащего элементов с DIF, является сложной процедурой. Кроме того, он может оказаться неэффективным при меньших размерах выборки (Bolt, 2002). Наконец, обнаружение неоднородного DIF в политомических элементах с помощью Poly-SIBTEST оказалось несколько проблематичным.

Категориальные и перекрестно классифицированные данные

Тест Кокрана – Мантеля – Хензеля и искажающие факторы

В парадоксе Симпсона парадоксальные выводы обычно происходили из-за игнорирования третьего фактора, например, относительного количества заявок на отделение в исследовании Беркли или размера камней в почках. Эти иногда игнорируемые третьи факторы могут быть искажающими, в которых все отношения между X и Y обусловлены их индивидуальными отношениями с третьим фактором S, или могут быть модификаторами, в которых сила связи между X и Y зависит от уровня фактора S. Для решения этой проблемы используется тест Кокрана – Мантеля – Хензеля (CMH). Если есть три номинальные переменные, например, две таблицы непредвиденных обстоятельств 2 × 2 для проверки независимости и третья номинальная переменная, указывающая на повторы,нам нужно знать, уместно ли объединить разные повторы и получить более крупную и репрезентативную выборку. Например, давайте сравним два вида улиток, подсчитанных выше и ниже линии прилива, чтобы определить, существует ли какая-либо связь между видами и участком. Это простая таблица 2 × 2 для номинальных переменных. Если мы сделаем это в два разных месяца, сможем ли мы объединить два набора данных? На самом деле существует третья номинальная переменная - скрытый фактор времени, очень похожий на фактор, влияющий на размер камней в почках, упомянутый ранее.можем ли мы объединить два набора данных? На самом деле существует третья номинальная переменная - скрытый фактор времени, очень похожий на фактор, влияющий на размер камней в почках, упомянутый ранее.можем ли мы объединить два набора данных? На самом деле существует третья номинальная переменная - скрытый фактор времени, очень похожий на фактор, влияющий на размер камней в почках, упомянутый ранее.

Чтобы проверить независимость между причиной и следствием на двух разных уровнях возможного искажающего фактора, существует метод, основанный на гипергеометрическом распределении, известный как тест CMH (или иногда просто как тест Мантеля – Хензеля). Нулевая гипотеза состоит в том, что отклонение O - E = 0; поскольку в таблице 2 × 2 отклонения имеют одинаковую величину в каждой ячейке, рассчитайте только отклонение в любой одной ячейке. Как показано выше, ожидаемое значение можно определить как O ij - R i O j N. Таким образом, для верхней левой ячейки отклонение составляет O 11 - R 1 C 1 N. Выполните этот расчет для каждого слоя, вычтите 0,5 для поправки на непрерывность Йетса, а затем возведите отклонения в квадрат. (Этот расчет эквивалентен суммированию всех наблюдаемых чисел O ijи вычитая сумму всех ожидаемых чисел.) Объедините эти квадраты отклонений для каждой страты и получите средневзвешенное значение, разделив сумму квадратов отклонений на сумму их соответствующих дисперсий, рассчитанных как V ariance = R 1 C 1 R 2 C 2 N 2 (N - 1) для каждого слоя. Окончательная формула принимает вид χ MH 2 = 2 ∑ (R 1 R 2 C 1 C 2 N 2 (N - 1)), иногда записывается как

Это значение распределяется как χ 2 с 1 df.

Комбинированное отношение шансов составляет:

В качестве примера исследователи хотели определить связь между тиазидными диуретиками и переломами бедра (LaCroix et al., 1990). Они изучали субъектов в Восточном Бостоне, Айове и Нью-Хейвене, и данные о частоте переломов бедра показаны в Таблице 14.16.

Таблица 14.16. Данные о переломе бедра

Номер Номер Номер Возраст Восточный Бостон Айова Новый рай Мужчины Женщины Всего Мужчины Женщины Всего Мужчины Женщины Всего
65–74111728 год7172481523
≥75154257 год94958124052
Всего265985166682205575
Хи-квадрат1,48, Р = 0,332,04, Р = 0,161,11, P = 0,29
Соотношение шансов1,8122,241,78

Хотя все отношения шансов>1, ни один из хи-квадратов не близок к P = 0,05. Разумно ли объединить данные из групп и получить комбинированное отношение шансов? (Хотя данные здесь не показаны, в Восточном Бостоне показатели заболеваемости среди мужчин и женщин были почти одинаковыми.)

В этих таблицах, кажется, существует связь между возрастом и полом. Комбинированное отношение шансов составляет ORMH = 11 × 42 85 + 7 × 49 82 + 8 × 40 75 15 × 17 85 + 9 × 17 82 + 8 × 40 75 = 13,88 7,27 = 1,91. Это средневзвешенное значение трех отношений шансов. Тогда критерий Кокрана – Мантеля – Хензеля (Mantel, 1963; Mantel and Haenszel, 1959) равен

χ MH 2 = (| 26 - 19,38 | - 0,5) 2 4,03 + 2,70 + 3,16 = 3,79. При 1 df это означает, что P = 0,0581, так что существуют значительные возрастные различия.

Мы можем использовать больше групп. В приведенном выше примере данных о приеме в Беркли используются некоторые данные (Интернет-проект, Парадокс Симпсона). Количество кандидатов, принятых и отклоненных четырьмя различными ведомствами, было отсортировано по полу (Таблица 14.17).

Таблица 14.17. Данные о поступлении в Беркли с разбивкой по отделениям и полу

А B C D M F M F M F M F
Допущенный51289353171381315394
Отклоненный313192078279244138299
Всего82510856025417375191393

Данные в целом без учета отделов см. В Таблице 14.18.

Таблица 14.18. Данные о приеме объединены по отделам

Страта M F Всего
СтатусДопущенный1,0563311,387
Отклоненный9375701 507
Всего1,9939012 894

Суммарный χ 2 составляет 211,90, P

Тест Мантеля – Хензеля дает

Это при 1 df не совсем достигает уровня значимости 0,05. Обосновывает ли это жалобу? Нет, это не так, потому что отношение шансов для всего набора данных

o MH = 512 × 19 933 + 353 × 8 585 + 138 × 244 792 + 53 × 299 584 89 × 313 933 + 17 × 207 585 + 131 × 279 792 + 94 × 138 584 = 84,90 104,23 = 0,81. Другими словами, была тенденция к меньшему количеству допущенных мужчин!

Структурные модели реакции элемента

Модели с фиксированными эффектами: функционирование дифференциального элемента

Дифференциальное функционирование заданий (DIF) - это разница в ответах на задания между одинаково подготовленными членами двух или более групп. Например, дихотомический элемент подлежит DIF, если, условно по уровню способностей, вероятность правильного ответа различается между группами. Можно подумать о тесте на понимание иностранного языка, где предметы, относящиеся к футболу, мешают девочкам. Плохие результаты девочек по вопросам, связанным с футболом, нельзя объяснить не их низким уровнем способностей, а их незнанием футбола. Поскольку DIF крайне нежелателен при честном тестировании, было предложено несколько методов обнаружения DIF. Большинство из них основаны на оценке различий в вероятностях ответа между группами, обусловленных некоторой мерой способностей.Наиболее часто используемые методы основаны на статистике Мантеля – Хензеля, другие - на лог-линейных моделях и на моделях IRT.

В подходе Mantel – Haenszel (MH) балл респондента с правильным числом используется в качестве показателя способностей, а DIF оценивается путем проверки того, различаются ли вероятности ответа между оценочными группами. Хотя тест MH работает довольно хорошо на практике, его применение основано на предположении, что оценка правильного числа является достаточной статистикой для оценки способностей, то есть что 1PLM выдерживает. При применении теста MH в других случаях, таких как случаи, когда данные соответствуют 2PLM или 3PLM, оценка правильного числа больше не является оптимальной мерой способностей. В модели IRT способность представлена ​​скрытой переменной θ, и очевидное решение проблемы состоит в том, чтобы оценить, применяются ли одни и те же параметры элемента в подгруппах, однородных по θ.

Например, DIF можно исследовать, вводя более общую альтернативу модели 3PL, как определено в формуле. (1) дано

где x i - фоновая переменная Пол, как определено в (3), а d k - изменение уровня сложности пункта k для мужчин. Модель, определенная в (12), относится к дихотомическим элементам, но идея моделирования DIF путем введения параметров элемента в зависимости от фоновых переменных также применима к политомическим элементам.

Тесты для DIF обычно ориентированы на элементы, то есть элементы тестируются по одному. В общем, тест на DIF можно определить, выбрав модель IRT без DIF (скажем, 3PLM) в качестве нулевой гипотезы и модель IRT для DIF (скажем, модель, заданную уравнением (12)) в качестве альтернативы. . Тест может быть основан на статистике отношения правдоподобия или статистике Вальда. Обе статистики требуют оценок максимального правдоподобия как параметров в рамках нулевой модели, так и альтернативной модели. Поэтому Глас предложил использовать статистику множителя Лагранжа, которая требует только оценки нулевой модели. LM-тест основан на оценке частных производных первого порядка логарифмической функции правдоподобия альтернативной модели, оцененных с использованием оценок максимального правдоподобия нулевой модели.Величины этих частных производных первого порядка определяют ценность статистики, т. Е. Чем они ближе к нулю, тем лучше подходит модель. Статистика LM имеет асимптотическое распределение хи-квадрат со степенями свободы, равными разнице в количестве параметров двух моделей.

Таблицы V и VI дают небольшой смоделированный пример процедуры. Данные были получены в соответствии с той же схемой, что и в примере таблицы III, но с некоторыми отличиями. Во-первых, обе группы теперь состоят из 400 испытуемых, и обе группы отвечают на все 9 вопросов. Однако для моделирования DIF для первой группы параметр пункта 5 был изменен с 0,00 на 0,50. В таблице V приведены генерирующие значения параметров, оценки и стандартные ошибки. Последние два столбца таблицы V содержат значение статистики LM и соответствующую вероятность значимости. В данном случае статистика LM имеет асимптотическое распределение хи-квадрат с одной степенью свободы. Тест очень важен для пункта 5.

Таблица V. Параметры, генерирующие значения, оценки и статистика LM

Элемент б к b ˆ k se (b ˆ k) LM Pr
1−1,00-0,910,121,330,25
20,000,130,110,270,61
31,001.130,121.140,29
4−1,00-0,930,111.140,29
50,0 / 0,50,410,1118.030,00
61,001.040,120,020,90
7−1,00-0,770,120,050,83
80,000,110,110,010,92
91,001.030,110,110,74
Попβ β ˆ se (β ˆ)
11,001,000,11
Попσ г σ гSE (σ г )
11,001.010,07
21,501,410,08

Для анализа Таблицы VI элемент 5 был разделен на два виртуальных элемента: элемент 5 предполагалось администрировать для группы 1, а элемент 10 - для группы 2. Таким образом, данные теперь анализируются, предполагая, что элемент является неполным. схема администрирования, при которой группа 1 ответила на вопросы с 1 по 9, а группа 2 ответила на вопросы с 1 по 4, 10 и с 6 по 9 (в указанном порядке). Как следствие, одна группа ответила только на виртуальные элементы 5 и 10, и тест LM для DIF не может быть выполнен для этих элементов. В Таблице VI можно увидеть, что значения статистики LM для других элементов не являются значимыми, что указывает на то, что модель теперь соответствует требованиям.

Таблица VI. Параметры, генерирующие значения, оценки и статистику LM после разделения элемента DIF на два виртуальных элемента

Еще новости