Размер выборки для логистической регрессии?


26

Я хочу сделать логистическую модель из моих данных опроса. Это небольшой опрос четырех жилых колоний, в котором было опрошено только 154 респондента. Моя зависимая переменная - «удовлетворительный переход к работе». Я обнаружил, что из 154 респондентов 73 сказали, что они успешно перешли на работу, а остальные нет. Таким образом, зависимая переменная имеет двоичную природу, и я решил использовать логистическую регрессию. У меня есть семь независимых переменных (три непрерывных и четыре номинальных). Согласно одному руководству, должно быть 10 случаев для каждого предиктора / независимой переменной (Agresti, 2007). Исходя из этого руководства, я чувствую, что можно проводить логистическую регрессию.

Я прав? Если нет, пожалуйста, дайте мне знать, как определить количество независимых переменных?


3
Я никогда не понимал эмпирическое правило, которое гласит: «10 случаев для каждого предсказателя» (и, к сожалению, у меня нет доступа к книге, написанной Агрести). Я имею в виду следующее: если у меня есть 100 субъектов, из которых 10 являются случаями ( 1с) и 90 не случаями ( 0с), то правило гласит: «включай только одного предиктора». Но что, если я смоделирую 0«вместо 1», а затем возьму обратную оценку предполагаемых отношений шансов? Могу ли я включить 9 предикторов? Это не имеет смысла для меня.
Боскович

Дорогая Андреа, я сказал то же самое, что ты имеешь в виду. Из 154 респондентов 73 случая (1 и остальные 0). Не могли бы вы пролить свет на мой вопрос. Спасибо!
Braj-Stat

4
В комментарии я прочитал, что нужно смотреть на минимум количества событий и не-событий. Таким образом, в примере 10/100 вы получите один предиктор независимо от того, как вы его кодируете.
PSJ

@psj, это звучит разумно. У вас есть какие-либо ссылки?
Boscovich

Ответы:


25

Здесь есть несколько вопросов.

Как правило, мы хотим определить минимальный размер выборки, чтобы достичь минимально приемлемого уровня статистической мощности . Требуемый размер выборки зависит от нескольких факторов, в первую очередь от величины эффекта, который вы хотите иметь возможность отличить от 0 (или от того, какой ноль вы используете, но чаще всего от 0), и минимальной вероятности уловления этого эффекта. хочу иметь. Работая с этой точки зрения, размер выборки определяется анализом мощности.

Еще одним соображением является стабильность вашей модели (как отмечает @cbeleites). По сути, когда отношение параметров, оцениваемых к количеству данных, становится близким к 1, ваша модель станет насыщенной и обязательно будет перегружена (если на самом деле в системе нет случайности). Эмпирическое правило отношения от 1 до 10 исходит из этой перспективы Обратите внимание, что наличие достаточной силы обычно покрывает эту проблему для вас, но не наоборот.

Однако правило от 1 до 10 исходит из мира линейной регрессии, и важно признать, что у логистической регрессии есть дополнительные сложности. Одна из проблем заключается в том, что логистическая регрессия работает лучше всего, когда процентное соотношение 1 и 0 составляет приблизительно 50% / 50% (как обсуждают @andrea и @psj в комментариях выше). Другая проблема, которая должна быть связана с разделением . То есть вы не хотите, чтобы все ваши 1 были собраны на одном экстремуме независимой переменной (или некоторой их комбинации), а все 0 - на другом экстремуме. Хотя это может показаться хорошей ситуацией, потому что это упростит совершенное предсказание, на самом деле процесс оценки параметров будет взорван. (@Scortchi имеет отличное обсуждение того, как бороться с разделением в логистической регрессии здесь:Как бороться с идеальным разделением в логистической регрессии? ) При большем количестве IV это становится более вероятным, даже если истинные величины эффектов остаются постоянными, особенно если ваши ответы не сбалансированы. Таким образом, вам легко может понадобиться более 10 данных на IV.

Последняя проблема с этим эмпирическим правилом заключается в том, что предполагается, что ваши IV ортогональны . Это разумно для запланированных экспериментов, но при таких наблюдательных исследованиях, как ваше, ваши IV почти никогда не будут примерно ортогональными. Существуют стратегии для решения этой ситуации (например, объединение или отбрасывание ИВ, сначала анализ основных компонентов и т. Д.), Но если он не решен (что является распространенным явлением), вам потребуется больше данных.

Резонный вопрос: какой должен быть ваш минимальный N и / или достаточен ли размер вашей выборки? Чтобы решить эту проблему, я предлагаю вам использовать методы, которые обсуждает @cbeleites; полагаться на правило от 1 до 10 будет недостаточно.


6
Можете ли вы дать ссылку на утверждение «Одна из проблем заключается в том, что логистическая регрессия работает лучше всего, когда процент от 1 и 0 составляет примерно 50% / 50%»? Я сам задавался вопросом об этом, так как у меня есть набор данных, который очень далек от 50/50, и я удивляюсь последствиям. (извините, что воскресил тему)
Тревор

3
Я не вижу проблем с воскрешением старого потока, когда это уместно, @Trevor. Я думаю, что вы ищете что-то вроде этого хорошего ответа от сопряженного априорного: делает-несбалансированный-образец-вопрос-когда-делает-логистическая-регрессия .
gung - Восстановить Монику

2
+1 к вопросу Тревора. Я полагаю, что логистическая регрессия продолжит извлекать выгоду из новых данных, даже если эти данные относятся к тому же случаю (несмотря на уменьшающуюся отдачу). Это на самом деле то, что беспокоило меня о методах машинного обучения, таких как случайные леса, - что они могут ухудшиться, добавив более подходящие данные обучения. Возможно, в какой-то момент логистическая регрессия сломается из-за численных соображений, если дисбаланс станет слишком серьезным. Было бы интересно узнать больше об этом.
Бен Огорек

+1, возможно это подразумевается вашим ответом, я не уверен, но мне интересно, как это работает для категориальных переменных с различными уровнями? Было бы предложено иметь 10 наблюдений за уровень?
Baxx

1
Это эмпирическое правило, @baxx, но да, чтобы сделать больше, чем просто подсчитать проценты, вам нужно как минимум 45.
gung - Восстановить Монику

16

Обычно я использую правило 15: 1 (отношение мин (события, не события) к числу параметров- кандидатов в модели). Более поздняя работа показала, что для более строгой проверки требуется 20: 1. Дополнительную информацию можно найти в моих раздаточных материалах по курсу, которые можно найти по адресу http://biostat.mc.vanderbilt.edu/rms , в частности, в качестве аргумента для минимального размера выборки 96, чтобы оценить перехват. Но требование к размеру выборки более нюансировано, и в более поздней статье это рассматривается более подробно.


14

Как правило, слишком мало случаев. сложность модели (количество параметров) означает, что модели нестабильны . Поэтому, если вы хотите узнать, в порядке ли размер выборки / сложность модели, проверьте, получаете ли вы достаточно стабильную модель.

Существует (как минимум) два разных вида нестабильности:

  1. Параметры модели сильно различаются, с незначительными изменениями в данных тренировки.

  2. Эти предсказания (для того же случай) модели обученных с незначительными изменениями в обучающих данных рознятся.

Вы можете измерить 1., посмотрев, насколько изменяются ваши модельные коэффициенты, если данные обучения слегка возмущены. Подходящая группа моделей может быть рассчитана, например, во время начальной загрузки или (повторной) процедуры перекрестной проверки.

Для некоторых типов моделей или проблем, различные параметры не подразумевают различные прогнозы. 2. Вы можете напрямую проверить нестабильность 2., посмотрев на вариации прогнозов для одного и того же случая (независимо от того, верны они или нет), рассчитанные во время внешней загрузки или повторной перекрестной проверки.


5

Не существует строгих правил, но вы можете включить все независимые переменные, если номинальные переменные не имеют слишком много категорий. Вам нужна одна «бета» для всех, кроме одного класса для каждой номинальной переменной. Так что, если номинальной переменной было сказано «область работы» и у вас есть 30 областей, то вам нужно 29 бета-версий.

Один из способов преодоления этой проблемы состоит в том, чтобы упорядочить беты или штрафовать за большие коэффициенты. Это помогает гарантировать, что ваша модель не соответствует данным. Регуляризация L2 и L1 - популярный выбор.

Другая проблема, которую стоит рассмотреть, - насколько репрезентативен ваш образец. Какое население вы хотите сделать вывод? у вас есть все разные типы людей в выборке, которые есть в популяции? будет трудно сделать точный вывод, если в вашем образце есть «дыры» (например, в выборке нет женщин в возрасте 35-50 лет или нет работников с высоким доходом и т. д.)


4

Вот актуальный ответ с сайта MedCalc, о котором писал user41466

http://www.medcalc.org/manual/logistic_regression.php

Размер выборки

Расчет размера выборки для логистической регрессии является сложной проблемой, но основывается на работе Peduzzi et al. (1996) может быть предложено следующее руководство для минимального количества случаев для включения в ваше исследование. Пусть p будет наименьшей из пропорций отрицательных или положительных случаев в популяции, а k - число ковариат (число независимых переменных), тогда минимальное количество включаемых случаев: N = 10 k / p. Например: вы включить в модель 3 ковариаты, а доля положительных случаев среди населения составляет 0,20 (20%). Минимальное количество требуемых случаев составляет N = 10 x 3 / 0,20 = 150. Если полученное число меньше 100, вы должны увеличить его до 100, как предлагает Лонг (1997).

Педуцци П., Конкато Дж., Кемпер Э., Холфорд Т.Р., Файнштейн А.Р. (1996). Имитационное исследование числа событий на переменную в логистическом регрессионном анализе. Журнал клинической эпидемиологии 49: 1373-1379.


Так что это те же 10 случаев на независимую переменную (с полом)
seanv507

1

Результаты любой логистической модели с числом наблюдений на независимую переменную в диапазоне от пяти до девяти надежны, особенно если результаты статистически значимы (Vittinghoff & McCulloch, 2007).

Vittinghoff, E. & McCulloch, CE 2007. Ослабление правила десяти событий для каждой переменной в логистике и регрессии Кокса. Американский журнал эпидемиологии, 165 (6): 710–718.


Обратите внимание, что речь идет не только о «количестве наблюдений на независимую переменную», но и о количестве «событий». Для логистической регрессии число «событий» - это число случаев в наименее частом из двух классов результатов. Это будет не более 1/2 от общего числа наблюдений, а в некоторых приложениях намного меньше, чем это.
EdM
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.