Оба теста неявно моделируют отношения возраст-ответ, но они делают это по-разному. Какой из них выбрать, зависит от того, как вы решите смоделировать эти отношения. Ваш выбор должен зависеть от основной теории, если она есть; о том, какую информацию вы хотите извлечь из результатов; и о том, как образец выбран. Этот ответ обсуждает эти три аспекта по порядку.
Я опишу t-критерий и логистическую регрессию, используя язык, который предполагает, что вы изучаете четко определенную группу людей и хотите сделать выводы из выборки для этой группы.
Чтобы поддержать любой вид статистического вывода, мы должны предположить, что выборка является случайной.
T-критерий предполагает, что люди из выборки, ответившие «нет», представляют собой простую случайную выборку из всех не респондентов в популяции, а люди из выборки, ответившие «да», представляют собой простую случайную выборку из всех респондентов, ответивших «да». Население.
T-критерий делает дополнительные технические предположения о распределении возрастов в каждой из двух групп населения. Существуют различные версии t-теста для обработки вероятных возможностей.
Логистическая регрессия предполагает, что все люди любого возраста являются простой случайной выборкой людей этого возраста в популяции. Отдельные возрастные группы могут демонстрировать разные показатели ответов «да». Предполагается, что эти коэффициенты, выраженные как логарифмические шансы (а не прямые пропорции), линейно связаны с возрастом (или с некоторыми определенными функциями возраста).
Логистическая регрессия легко расширяется для учета нелинейных отношений между возрастом и реакцией. Такое расширение может использоваться для оценки правдоподобия исходного линейного предположения. Это возможно с большими наборами данных, которые предоставляют достаточно деталей для отображения нелинейностей, но вряд ли будут особенно полезны с небольшими наборами данных. Общее эмпирическое правило - регрессионные модели должны иметь в десять раз больше наблюдений, чем параметров - предполагает, что для обнаружения нелинейности необходимо существенно более 20 наблюдений (для которых требуется третий параметр в дополнение к пересечению и наклону линейной функции ).
С помощью t-критерия можно определить, отличаются ли средний возраст респондентов, не принимавших и не ответивших на опрос, в популяции. Логистическая регрессия оценивает, как частота ответов варьируется в зависимости от возраста. Как таковая, она более гибкая и способна предоставлять более подробную информацию, чем t-критерий. С другой стороны, он имеет тенденцию быть менее мощным, чем критерий Стьюдента, с целью выявления различий между средними возрастами в группах.
Для пары тестов возможно продемонстрировать все четыре комбинации значимости и не значимости. Два из них являются проблемными:
T-критерий не имеет значения, но логистическая регрессия. Когда предположения обоих тестов правдоподобны, такой результат практически невозможен, потому что t-критерий не пытается обнаружить такие специфические отношения, как положено логистической регрессией. Однако, когда эти отношения являются достаточно нелинейными, чтобы побудить самых старых и самых молодых субъектов к одному мнению, а к субъектам среднего возраста - другое, расширение логистической регрессии на нелинейные отношения может обнаружить и количественно определить ту ситуацию, которую не смог обнаружить ни один t-критерий. ,
Стьюдент значительный, а логистическая регрессия - нет, как в вопросе. Это часто случается, особенно когда есть группа молодых респондентов, группа пожилых респондентов и немного людей между ними. Это может создать большое разделение между показателями ответов «нет» и «да». Это легко обнаружить с помощью t-теста. Тем не менее, логистическая регрессия либо имела бы относительно мало подробной информации о том, как частота ответов фактически изменяется с возрастом, либо имела бы неубедительную информацию: случай «полного разделения», когда все пожилые люди отвечают одним образом, а все молодые - другим способом - но в этом случае оба теста обычно имеют очень низкие значения p.
Обратите внимание, что план эксперимента может сделать недействительными некоторые допущения теста. Например, если вы выбрали людей в соответствии с их возрастом в многослойной структуре, то допущение t-критерия (что каждая группа отражает простую случайную выборку возрастов) становится сомнительным. Такой дизайн предполагает использование логистической регрессии. Если вместо этого у вас было два пула, один из которых не отвечал, а другой отвечал «да», и был выбран случайным образом из тех, кто определил их возраст, то предположения выборки для логистической регрессии сомнительны, в то время как те из t-теста сохранятся. Этот дизайн предложил бы использовать некоторую форму t-критерия.
(Второй дизайн может показаться глупым, но в обстоятельствах, когда «возраст» заменяется некоторой характеристикой, которую трудно, дорого или долго измерить, это может быть привлекательным.)