Здесь есть несколько вопросов.
Как правило, мы хотим определить минимальный размер выборки, чтобы достичь минимально приемлемого уровня статистической мощности . Требуемый размер выборки зависит от нескольких факторов, в первую очередь от величины эффекта, который вы хотите иметь возможность отличить от 0 (или от того, какой ноль вы используете, но чаще всего от 0), и минимальной вероятности уловления этого эффекта. хочу иметь. Работая с этой точки зрения, размер выборки определяется анализом мощности.
Еще одним соображением является стабильность вашей модели (как отмечает @cbeleites). По сути, когда отношение параметров, оцениваемых к количеству данных, становится близким к 1, ваша модель станет насыщенной и обязательно будет перегружена (если на самом деле в системе нет случайности). Эмпирическое правило отношения от 1 до 10 исходит из этой перспективы Обратите внимание, что наличие достаточной силы обычно покрывает эту проблему для вас, но не наоборот.
Однако правило от 1 до 10 исходит из мира линейной регрессии, и важно признать, что у логистической регрессии есть дополнительные сложности. Одна из проблем заключается в том, что логистическая регрессия работает лучше всего, когда процентное соотношение 1 и 0 составляет приблизительно 50% / 50% (как обсуждают @andrea и @psj в комментариях выше). Другая проблема, которая должна быть связана с разделением . То есть вы не хотите, чтобы все ваши 1 были собраны на одном экстремуме независимой переменной (или некоторой их комбинации), а все 0 - на другом экстремуме. Хотя это может показаться хорошей ситуацией, потому что это упростит совершенное предсказание, на самом деле процесс оценки параметров будет взорван. (@Scortchi имеет отличное обсуждение того, как бороться с разделением в логистической регрессии здесь:Как бороться с идеальным разделением в логистической регрессии? ) При большем количестве IV это становится более вероятным, даже если истинные величины эффектов остаются постоянными, особенно если ваши ответы не сбалансированы. Таким образом, вам легко может понадобиться более 10 данных на IV.
Последняя проблема с этим эмпирическим правилом заключается в том, что предполагается, что ваши IV ортогональны . Это разумно для запланированных экспериментов, но при таких наблюдательных исследованиях, как ваше, ваши IV почти никогда не будут примерно ортогональными. Существуют стратегии для решения этой ситуации (например, объединение или отбрасывание ИВ, сначала анализ основных компонентов и т. Д.), Но если он не решен (что является распространенным явлением), вам потребуется больше данных.
Резонный вопрос: какой должен быть ваш минимальный N и / или достаточен ли размер вашей выборки? Чтобы решить эту проблему, я предлагаю вам использовать методы, которые обсуждает @cbeleites; полагаться на правило от 1 до 10 будет недостаточно.
1
с) и 90 не случаями (0
с), то правило гласит: «включай только одного предиктора». Но что, если я смоделирую0
«вместо1
», а затем возьму обратную оценку предполагаемых отношений шансов? Могу ли я включить 9 предикторов? Это не имеет смысла для меня.