10.2 - Логлинейные модели для трехкомпонентных таблиц

08.09.2021

В этом разделе мы расширим концепции, которые мы узнали о лог-линейных моделях для двусторонних таблиц, до трехсторонних таблиц. Мы узнаем, как соответствовать различным моделям независимости, обсуждаемым в Уроке 5, например, модели условной независимости, совместной независимости и однородных ассоциаций. Мы также изучим дополнительную статистику, помимо обычных \ (X ^ 2 \) и \ (G ^ 2 \) , чтобы оценить соответствие модели и выбрать «лучшую» модель.

Ключевые идеи:

  • Трехсторонние лог-линейные модели
  • Параметры Ограничения, оценка и интерпретация
  • Выбор модели и вывод для лог-линейных моделей
  • Тест на частичные ассоциации

Чтения

  • Агрести (2007) гл. 7, 8
  • Агрести (2013) гл. 8, 9

Расширение обозначения лог-линейной модели до трехкомпонентных таблиц:

Основные вопросы этого урока:

  • Что означают λ-члены в этой модели?
  • Какие гипотезы о них соответствуют уже известным нам моделям независимости?
  • Каковы эффективные способы определения и интерпретации этих моделей и таблиц?
  • Каковы эффективные способы подбора и выбора среди множества возможных моделей в трех и более измерениях?

Как и прежде для трехсторонних столов, есть несколько моделей, которые мы можем протестировать, и теперь они подходят. Мы подберем и оценим лог-линейные модели:

Цели

  • Понять структуру лог-линейных моделей в трехкомпонентных таблицах
  • Понять концепции независимости и ассоциаций, описанные с помощью лог-линейных моделей в трехкомпонентных таблицах.

Пример 10-2: Прием в аспирантуру

Вернемся к нашему знакомому набору данных о приеме в аспирантуру в Беркли:

Пусть D = отделение, S = пол и A = статус приема (отклонено или принято). Ранее мы анализировали эту таблицу как трехстороннюю, в частности, мы рассматривали частичные и маргинальные таблицы. Теперь мы посмотрим на это с точки зрения лог-линейной модели. Вы также будете работать с этим примером при выполнении следующего домашнего задания. Пусть y будет частотой или счетчиком в конкретной ячейке трехкомпонентной таблицы. См. BerkelyLoglin.sas (и berkeley.sas) или berkeleyLoglin.R (и berkeley.R).

10.2.1 - Логлинейные модели для трехкомпонентных таблиц

Расширение обозначения лог-линейной модели до трехкомпонентных таблиц:

Основные вопросы этого урока:

  • Что означают λ-члены в этой модели?
  • Какие гипотезы о них соответствуют уже известным нам моделям независимости?
  • Каковы эффективные способы определения и интерпретации этих моделей и таблиц?
  • Каковы эффективные способы подбора и выбора среди множества возможных моделей в трех и более измерениях?

Как и прежде для трехсторонних столов, есть несколько моделей, которые мы можем протестировать, и теперь они подходят. Мы подберем и оценим лог-линейные модели:

Пример 10-2: Прием в аспирантуру

Вернемся к нашему знакомому набору данных о приеме в аспирантуру Беркли:

Пусть D = отделение, S = пол и A = статус приема (отклонено или принято). Мы проанализировали это как трехкомпонентную таблицу в последнем домашнем задании, более конкретно мы рассмотрели частичные и маргинальные таблицы. Теперь посмотрим на это с логлинейной точки зрения. Пусть y i будет частотой или счетчиком в конкретной ячейке трехкомпонентной таблицы.

10.2.2 - Насыщенная логлинейная модель

Эта модель является моделью по умолчанию и служит для проверки согласия других моделей. Напомним, что насыщенная модель имеет максимальное количество параметров, и настройка насыщенной модели аналогична оценке параметров ML для распределений, подходящих для каждой ячейки таблицы непредвиденных обстоятельств.

Цель: Смоделировать количество клеток: \ (μ_ = nπ_ \)

Основные предположения:

  • Предполагается, что подсчеты N = IJK в ячейках являются независимыми наблюдениями пуассоновской случайной величины, и

Структура модели:

Ограничения параметров: могут быть разными, но ограничения типа ANOVA подразумевают:

Оценка и интерпретация параметров:

  • λ представляет собой «общий» эффект или большое среднее логарифмов ожидаемых значений и гарантирует, что \ (Σ_i Σ_j Σ_k μ + = п \)
  • \ (\ lambda_i ^ A, \ lambda_j ^ B, \ lambda_k ^ C \) представляют «основные» эффекты переменных A , B и C , или отклонения от общего среднего.
  • \ (\ lambda_ ^ , \ lambda_ ^ , \ lambda_ ^ \) представляют взаимодействие / связь между двумя переменными при контроле третьей (например, условные отношения шансов, тест на частичные ассоциации) и отражают отход от независимости
  • \ (\ lambda_ ^ \) представляет собой взаимодействие / связь между тремя переменными и отражает отход от независимости

Если существует значимый член взаимодействия, мы НЕ смотрим на члены более низкого порядка, а только интерпретируем термины более высокого порядка, потому что значения членов более низкого порядка зависят от кода и могут вводить в заблуждение. Члены высшего порядка в лог-линейных моделях соответствуют так называемой минимальной достаточной статистике (MSS) для лог-линейных моделей. MSS - это поля таблицы, и в данном случае это вся таблица, поскольку член высшего порядка - это трехсторонняя ассоциация, и у нас есть три случайные величины. Это делает его эквивалентным подгонке независимого распределения Пуассона к каждой ячейке I x J rable.

Подгонка модели: насыщенная модель имеет идеальную подгонку, \ (G ^ 2 = 0 \), df = 0. df = количество ячеек - количество уникальных параметров в модели.

Выбор модели: актуально при сравнении с более простыми моделями. Насыщенная модель - самая сложная из возможных !!

Установка в SAS и R

Используя PROC GENMOD, подгоним насыщенную лог-линейную модель.

Когда вы используете опцию order = data, GENMOD упорядочивает уровни переменных класса в том же порядке, в каком они появляются в наборе данных. Для каждой переменной класса GENMOD создает набор пустышек, используя последнююкатегорию в качестве справочной группы. Вспомните кодирование CATMOD и GENMOD из двухсторонних логлинейных моделей.

Следовательно, мы можем интерпретировать двустороннюю связь как логарифмическое отношение шансов для двух рассматриваемых переменных, при этом другая переменная остается постоянной в своей последней категории (т. Е. Условные отношения шансов).

Вот часть вывода SAS, то есть таблица оценок ML.

Перехват - это нормализующая константа, и ее следует игнорировать. Все основные эффекты для D , S и A трудно интерпретировать и они не очень значимы, поскольку у нас есть значимые двусторонние и трехсторонние ассоциации; двух- и трехсторонние ассоциации очень значимы. Например, оценочный коэффициент для ассоциации SA составляет 0,1889.

Возведение в степень этого коэффициента дает

что является оценочным отношением шансов SA для отдела F, так как этот отдел является справочным в данном анализе. Контрольной группой для S является «женщина», а контрольной группой для A - «принять». Если мы напишем таблицу 2 × 2 для S × A в отделе F, то есть «частичную» таблицу со ссылочными группами в последней строке и столбце, мы получим

для которого оценочное отношение шансов составляет:

\ (351 \ раз 24/317 \ раз 22 = 1,208 \).

Z -статистика Вальда для этого коэффициента,

что соответствует статистике хи-квадрат \ (0,62 ^ 2 = 0,38 \) со значением p 0,5359, и указывает на то, что отношение шансов SA для отдела F существенно не отличается от 1,00 или что логарифмическое отношение шансов существенно не отличается от 0 .

95% доверительный интервал для оценки параметра, то есть для логарифмического отношения шансов, составляет (-0,4092, 0,7870). Таким образом, 95% доверительный интервал для отношения шансов равен

Сравните это с выводом PROC FREQ с опцией CMH

Чтобы получить отношение шансов SA для любого другого отдела, мы должны объединить коэффициент SA с одним из коэффициентов DSA . Например, отношение шансов SA для отдела A составляет

Z -статистика Вальда для первого коэффициента DSA,

указывает на то, что отношение шансов SA для отдела A значительно отличается от отношения шансов SA в отделе F. Чтобы увидеть, значительно ли отличается отношение шансов SA в отделе A от 1,00, нам нужно будет вычислить стандартную ошибку для суммы два коэффициента, используя оценочную матрицу ковариации, или уточните модель, установив уровень интереса равным 0.

Давайте посмотрим на оценки параметров на основе выходных данных berkeleyLoglin.R. В частности, мы рассмотрим вывод, основанный на следующей строке R нашего кода:

Перехват - это нормализующая константа, и ее следует игнорировать. Все основные эффекты для D , S и A трудно интерпретировать и они не очень значимы, поскольку у нас есть значимые двусторонние и трехсторонние ассоциации; двух- и трехсторонние ассоциации очень значимы. Например, оценочный коэффициент для ассоциации SA составляет -1,0521, от

Возведение в степень этого коэффициента дает

что является оценочным отношением шансов SA для отдела А, поскольку это справочный отдел в данном анализе. Контрольной группой для S является «мужчина», а контрольной группой для A - «принять». Если мы напишем таблицу 2 × 2 для S × A в отделе A, т. Е. «Частичную» таблицу со ссылочными группами в последней строке и столбце, мы получим

для которого оценочное отношение шансов составляет:

\ (19 \ раз 512/313 \ раз 89 = 0,3492 \)

Z -статистика Вальда для этого коэффициента,

что соответствует статистике хи-квадрат \ ((- 4,005) ^ 2 = 16,04 \) со значением p, близким к 0, и указывает, что отношение шансов SA для отдела A значительно отличается от 1,00 или что логарифмическое отношение шансов значительно отличается от 0.

95% доверительный интервал для оценки параметра, то есть для логарифмического отношения шансов, составляет -1,0521 ± 1,96 (0,2627). Таким образом, 95% доверительный интервал для отношения шансов равен

Чтобы получить отношение шансов SA для любого другого отдела, мы должны объединить коэффициент SA с одним из коэффициентов DSA . Например, отношение шансов SA для отдела F составляет

и если вы сравните это с расчетом из SAS выше, мы получим то же отношение шансов, то есть 1 / 0,828 = 1,028. Отметьте заключенное в рамку объяснение в SAS выше, как мы это получили.

Z -статистика Вальда для последнего коэффициента DSA,

указывает на то, что отношение шансов SA для отдела F значительно отличается от отношения шансов SA в отделе A. Чтобы увидеть, значительно ли отличается отношение шансов SA в отделе F от 1,00, нам нужно будет вычислить стандартную ошибку для суммы два коэффициента, используя оцененную матрицу ковариации, или уточните модель, установив уровень интереса равным 0.

Однако во многих ситуациях мы прибегаем к насыщенной модели только в крайнем случае. По мере увеличения числа переменных интерпретировать насыщенные модели становится все труднее. В следующих разделах мы рассмотрим более простые модели, которые полезны для объяснения ассоциаций между интересующими дискретными переменными.

10.2.3 - Полная независимость

Цель: получить основные эффекты только для трех переменных; здесь мы проверяем полную независимость этих трех переменных.

Основные предположения:

  • Предполагается, что подсчеты N = IJK в ячейках являются независимыми наблюдениями пуассоновской случайной величины, и
  • частичных взаимодействий нет, \ (lambda_ ^ = \ lambda_ ^ = \ lambda_ ^ = 0 \) для всех i , j , k или всех условных отношений шансов = 1 или log ( oddsratio ) = 0.
  • нет взаимодействия между тремя категориальными переменными, т. е. \ (\ lambda_ ^ = 0 \) для всех i , j , k .

Структура модели:

A , B и C обозначают три категориальные переменные.

Ограничения параметров: могут быть разными, но тип ANOVA есть.

Оценка и интерпретация параметров:

Запишите модель в терминах переменных и вспомните лог-линейную запись, которую мы использовали, когда вводили модель полной независимости в примечаниях к трехкомпонентной таблице.

Подгонка модели в SAS и R

В SAS модель полной независимости ( D , S , A ) может быть адаптирована следующим образом (см. BerkeleyLoglin.sas):

Каковы предполагаемые шансы мужского и женского пола в этом примере? Из выходных данных (запустите код) оценка ML для параметра S-Male , таким образом, шансы быть мужчиной выше, чем кандидатом-женщиной:

ехр (0,382) = 1,467 = 2691/1835

с p -value

Как насчет шансов быть отвергнутым? Какие выводы можно сделать из приведенной ниже части?

Но мы действительно должны сначала проверить общее соответствие модели, чтобы определить, значимы ли эти оценки.

Модель подходит:

Статистика согласия показывает, что модель не подходит.

Если модель подходит хорошо, «Value / DF» будет близко к 1.

Вы помните, как мы получаем ДФ?

df = количество ячеек - количество подогнанных параметров в модели.

df = количество подобранных параметров в насыщенной модели - количество подогнанных параметров в нашей модели.

Напомним, что эта статистика согласия позволяет сравнить нашу подобранную модель с насыщенной моделью. Таким образом, наша модель не подходит по сравнению с насыщенной моделью.

Давайте посмотрим на части соответствующего кода R (berekeleyLoglin.R), и один из способов соответствовать модели независимости:

Каковы шансы быть кандидатом-женщиной или кандидатом-мужчиной? Видеть,

Таким образом, коэффициент равен exp (-0,3829) = 0,68. Сравните это с результатом, который мы получили от SAS (см. Выше), который составил 1,467 = 1 / 0,68. Тот же результат, только соотношение мужчин и женщин.

Можете ли вы выяснить, насколько высока вероятность быть отвергнутой?

Но мы действительно должны сначала проверить общее соответствие модели, чтобы определить, значимы ли эти оценки.

Модель подходит:

Статистика согласия показывает, что модель не подходит.

Здесь «остаточное отклонение» - это статистика отношения правдоподобия \ (G ^ 2 = 2097,7 \) с df = 16. Если соотношение (\ dfrac \) намного больше 1 , вы можете отклонить подобранную модель или вычислить p-значение для этой статистики, как мы делали в предыдущих уроках. Таким образом, модель полной независимости НЕ подходит по сравнению с насыщенной моделью, т. Е. Отвергает модель полной независимости. «Нулевое отклонение» - это отклонение для модели только с перехватом.

Далее, давайте посмотрим на пример модели совместной независимости.

10.2.4 - Совместная независимость

Две переменные, совместно независимые от третьей, например, ( DS , A ), ( DA , S ), ( SA , D ). Мы не будем рассматривать все эти потенциальные модели, а вместо этого рассмотрим одну из них. Рассмотрим, например, моделирование ( D , S ) совместно независимую от A .

Цель:

Основные предположения:

  • Предполагается, что количество N = IJK в ячейках является независимым наблюдением пуассоновской случайной величины (это всегда остается тем же самым) и
  • нет взаимодействия между тремя категориальными переменными, т. е. \ (\ lambda_ ^ = 0 \) для всех i , j , k и
  • нет частичных взаимодействий, \ (\ lambda_ ^ = \ lambda_ ^ = 0 \) для всех i , j , k или условных отношений шансов

Структура модели:

Оценка и интерпретация параметров:

В SAS эту модель можно уместить так:

Эта модель подразумевает, что связь между D и S НЕ зависит от уровня переменной A , то есть связь между отделом и полом не зависит от решения об отклонении / принятии.

Используется ли этот элемент управления для переменной A или игнорируется? (см. berkeley.sas). Поскольку мы предполагаем, что ( DS ) не зависят от уровней A , то мы предполагаем, что DS для данного A совпадает с DS, поэтому маргинальные ассоциации DS такие же, как частичные ассоциации DS для каждого уровня A , т. Е. Если это подборы модели хорошо, мы можем игнорировать A относительно D и S .

Расчетный коэффициент ассоциации DS (запуск berkeleyLoglin.sas), равный 1,9436, подразумевает

что оценочное отношение шансов

exp (1,9436) = 6,98 с 95% доверительным интервалом ( exp (1,695), exp (2,192)) = (5,45, 8,96)

с референтной группой «женский» и «отдел F».

Но мы действительно должны сначала проверить общее соответствие модели, чтобы определить, значимы ли эти оценки.

Модель подходит:

Статистика согласия показывает, что модель не подходит, поскольку «Value / df» намного больше 1. Напомним, здесь вы также можете вычислить p- значение G 2 или X 2 .

Как мы получили эти DF?

Так в чем же отсутствие посадки?

Как и раньше, смотрим на остатки. Напомним, что скорректированные остатки имеют примерно N (0, 1) распределение, например, стандартизованные остатки Пирсона (StReschi). В общем, у нас нет соответствия, (1) если у нас большое количество ячеек и скорректированные остатки больше 3, или (2) если у нас небольшое количество ячеек и скорректированные остатки больше 2. Здесь это только часть вывода для таблицы 2x2x6. Обратите внимание, что абсолютное значение StReschi для первых пяти ячеек все велико, например, в ячейке 1 StResch = -15,1632. Если вы посмотрите на остатки для других ячеек, вы заметите, что большинство из них довольно большие, что указывает на то, что эта модель плохо подходит для всех данных.

Оцените остатки:

В R есть один способ подобрать (DS, A) модель:

Из выходных данных (добавьте указанную выше функцию в berkeleyLoglin.R и запустите ее) оценочный коэффициент ассоциации DS для «женский» и «отдел F» составляет 1,9436,

Таким образом, оценочное отношение шансов равно exp (1,9436) = 6,98 с 95% доверительным интервалом ( exp (1,695), exp (2,192)) = (5,45, 8,96). Мужчины примерно в 7 раз чаще, чем женщины, попадают в отдел A (здесь эталонный уровень), чем в отдел F. Например, это то же значение, которое мы получили бы, оценив отношение шансов выборки в этой таблице.

Но мы действительно должны сначала проверить общее соответствие модели, чтобы определить, значимы ли эти оценки.

Модель подходит:

Статистика согласия показывает, что модель не подходит, поскольку "Value / df" намного больше 1, например, для статистики отклоненияc:

Напомним, здесь вы также можете вычислить p -значение G 2 , запустив 1-pchisq (877.06,11) .

Как мы получили эти DF?

Так в чем же отсутствие посадки?

Как и раньше, смотрим на остатки. Напомним, что скорректированные остатки имеют примерно N (0, 1) распределение, например, стандартизованные остатки Пирсона (StReschi). В общем, у нас нет соответствия, (1) если у нас большое количество ячеек и скорректированные остатки больше 3, или (2) если у нас небольшое количество ячеек и скорректированные остатки больше 2.

Вспомните VitaminCLoglin.R, чтобы получить остатки Пирсона, остатки (berk.join, «pearson») и стандартизировать остатки, вам необходимо скорректировать их по их значению «влияния», например остаткам (berk.join, "pearson") / sqrt (lm.influence (berk.join) $ hat). Вот значения для первых трех наблюдений, и все они очень большие.

Если вы посмотрите на остатки для других ячеек, вы заметите, что большинство из них довольно большие, что указывает на то, что эта модель плохо подходит для всех данных.

Затем давайте посмотрим, что часто является наиболее интересной моделью условной независимости.

10.2.5 - Условная независимость

Две переменные, условно независимые с учетом третьей, например, ( DA , SA ), ( DS , SA ), ( DS , DA ). Рассмотрим моделирование D независимо от A данного S .

Цель:

Основные предположения:

  • Предполагается, что подсчеты N = IJK в ячейках являются независимыми наблюдениями пуассоновской случайной величины, и
  • нет взаимодействия между тремя категориальными переменными, т. е. \ (\ lambda_ ^ = 0 \) для всех i , j , k и
  • нет частичных взаимодействий, \ (\ lambda_ ^ = 0 \) для всех i , j , k или условного отношения шансов

Структура модели:

Оценка и интерпретация параметров:

Эта модель предполагает , что коэффициенты частичных шансов характеризуются условиями взаимодействия двухстороннего, а также о том , что ассоциации между D и S не зависят от уровней А , и ассоциация между S и A не зависит от уровней D .

В SAS эта модель может быть укомплектована:

Модель подходит:

Статистика согласия показывает, что модель не подходит.

Как мы получили эти DF?

Так в чем же отсутствие посадки?

Как и раньше, смотрим на остатки. Например, скорректированный остаток для первой ячейки равен -12,14792, большое отклонение от нуля.

Мы также можем оценить отдельные параметры в целом и их значимость:

Это похоже на таблицу ANOVA в моделях ANOVA и регрессии. Все параметры существенно отличаются от нуля. То есть они вносят значительный вклад в описание отношений между нашими переменными, но общее отсутствие соответствия модели предполагает, что их недостаточно.

В R, (DS, SA) модель может быть установлена ​​как:

Модель подходит:

Статистика согласия показывает, что модель не подходит, например, остаточное отклонение: 783,6 на 10 степенях свободы.

Как мы получили эти DF?

Так в чем же отсутствие посадки?

Как и раньше, смотрим на остатки. Например, невязка Пирсона для первой ячейки составляет 7,551454, большое отклонение от нуля.

Мы также можем оценить отдельные параметры в целом и их значимость, выполнив команду anova (berk.cind):

Это похоже на таблицу ANOVA в моделях ANOVA и регрессии. Все параметры существенно отличаются от нуля. То есть они вносят значительный вклад в описание отношений между нашими переменными, но общее отсутствие соответствия модели предполагает, что их недостаточно. Если вы сравните это с таблицей ANOVA из выходных данных SAS, приведенных выше, некоторые значения отличаются из-за разного порядка, в котором мы вводили переменные в модель; точно так же, как в моделях линейной регрессии. Значения также различаются, потому что R дает вам значения для статистики отклонения (например, «Deviance Resid»), тогда как SAS дает вам обычный хи-квадрат. Чтобы вычислить p-значение здесь, например, для последнего члена, 1-pchisq (93.45, 1), которое будет почти равным 0, что указывает на то, что в целом этот член вносит значительный вклад в соответствие модели.

10.2.6 - Однородная ассоциация

Модель гомогенных ассоциаций также известна как модель без трехсторонних взаимодействийили как модель без взаимодействий второго порядка( DS , DA , SA ).

Цель: такаяже, как и раньше.

Основные предположения:

  • Предполагается, что подсчеты N = IJK в ячейках являются независимыми наблюдениями пуассоновской случайной величины, и
  • нет взаимодействия между тремя категориальными переменными, т. е. \ (\ lambda_ ^ = 0 \) для всех i , j , k

Структура модели:

Эта модель подразумевает, что ВСЕ частные отношения шансов характеризуются условиями двустороннего взаимодействия и что связи между D и S НЕ зависят от уровней переменных A , а связи между S и A НЕ зависят от уровней из D и ассоциаций между D и A не зависят от уровней S .

Подходит ли эта модель? Даже эта модель не подходит, но, кажется, подходит лучше, чем предыдущие модели, например, G 2 = 20,2251, df = 5, Value / df = 4,0450.

Оценка и интерпретация параметров:

В SAS эта модель может быть укомплектована:

Все ли термины в модели значимы (например, посмотрите «Результаты анализа типа 3»); Напомним, вам нужно использовать опцию « type3». Например, вот таблица, похожая на ANOVA, которая показывает, что ассоциация SA не кажется значительной,

A 1 302,79

Вот часть результатов «Анализ оценок параметров» с учетом значений всех параметров,

Напомним, нас интересуют члены высшего порядка, поэтому здесь двусторонние ассоциации, и они соответствуют логарифмическим отношениям шансов. Например, SA-Male, Reject - 0,0967. Что это говорит нам об оценочном соотношении шансов между полом и поступлением? Вычислите exp (0,0967) и сделайте то же самое для доверительных границ. Вы можете сделать вывод, что шансы на поступление для мужчин и женщин, без учета отделения, одинаковы. Однако эта модель не подходит, поэтому мы не можем полагаться на выводы, основанные на этой модели.

Вот один из способов подгонки этой модели в R:

Все ли термины в модели значимы, например, посмотрите на выход anova (berk.hom),

Анализ таблицы отклонений Модель: poisson, ссылка: журнал Ответ: berk.data $ Freq Термины, добавляемые последовательно (от первого до последнего) Df Deviance Resid. Df Resid. Dev NULL 23 2650.10 berk.data $ Допустить 1 230.03 22 2420.07 berk.data $ Пол 1 162.87 21 2257.19 berk.data $ Dept 5 159.52 16 2097.67 berk.data $ Пол: berk.data $ Dept 5 1220.61 11 877.06 berk.data $ Допустить: berk.data $ Dept 5 855,32 6 21,74 berk.data $ Допустить: berk.data $ Пол 1 1,53 5 20,20

Мы видим, что последний добавленный термин ассоциация SA (Admi-Gender) не внес существенного вклада в соответствие модели.

Теперь взгляните на оценки параметров и, например, на связь Пола и Допуска, где значение равно -0,09987. Вычислите exp (-0,09987) и его доверительный интервал. К чему вы пришли? Вы должны получить приблизительное отношение шансов, которое НЕ сильно отличается от 1, таким образом, пол и прием кажутся незначительно независимыми (т.е. игнорирование отдела). Однако эта модель не подходит ( G 2 = 20,05 , df = 5), поэтому мы не можем действительно полагаться на выводы, основанные на этой модели.

Далее мы исследуем еще несколько этих моделей с точки зрения соответствия модели (например, отклонение, остатки и т. Д.) И выбора модели.

10.2.7 - Итоговый вывод для примера "Допуск"

Мы рассмотрим более подробно статистический вывод и выбор модели с лог-линейными моделями для k- образных таблиц в следующей части этого урока. А пока давайте кратко рассмотрим различные части, которые мы учитываем при оценке соответствия модели и вывода на основе оценок параметров модели в контексте примера Berkeley Admissions. Напомним, что для каждой из рассмотренных ранее моделей мы рассмотрели:

  • Степень соответствия хи-квадрат общей посадке модели,
  • Остатки,
  • Тесты на частичные ассоциации и / или
  • КИ для отношений шансов

Критерии согласия на соответствие критериям хи-квадрат

Напомним, нулевая гипотеза состоит в том, что подобранная модель верна, то есть подобранная модель дает хорошее представление данных по сравнению с альтернативой, согласно которой насыщенная модель хорошо подходит.

Это глобальные тесты для общего соответствия модели, и все предположения, которые мы обсуждали относительно статистики хи-квадрат и отклонения (отношения правдоподобия), остаются в силе.

Еще новости