Я не согласен с другими ответами в комментариях, поэтому справедливо дать свои собственные. Пусть будет ответом (хорошие / плохие счета), а X будет ковариатами.YИкс
Для логистической регрессии модель следующая:
log(p(Y=1|X=x)p ( Y= 0 | Икс= х )) =α+ ∑Кя = 1Иксяβя
Подумайте, как данные могут быть собраны:
- Вы можете выбрать наблюдения случайно из некоторой гипотетической "популяции"
- Вы можете выбрать данные, основанные на , и посмотреть, какие значения Y встречаются.ИксY
И то, и другое подходит для приведенной выше модели, поскольку вы только моделируете распределение . Это можно назвать проспективным исследованием .Y| Икс
В качестве альтернативы:
- Вы можете выбрать наблюдения, основанные на (скажем, 100 от каждого), и увидеть относительную распространенность X (то есть, вы стратифицируете по Y ). Это называется ретроспективным или тематическим исследованием .YИксY
(Вы также можете выбрать данные, основанные на и некоторых переменных X : это будет стратифицированное исследование случай-контроль, с которым будет гораздо сложнее работать, поэтому я не буду вдаваться в подробности).YИкс
Из эпидемиологии есть хороший результат (см. Prentice and Pyke (1979) ), что для исследования случай-контроль максимальные вероятностные оценки для можно найти с помощью логистической регрессии, которая использует проспективную модель для ретроспективных данных.β
Так какое отношение это имеет к вашей проблеме?
Что ж, это означает, что если вы в состоянии собрать больше данных, вы можете просто посмотреть на плохие счета и по-прежнему использовать логистическую регрессию для оценки (но вам необходимо настроить α для учета чрезмерного представления ). Скажем, это стоит 1 доллар за каждую дополнительную учетную запись, тогда это может быть более экономичным, чем просто просмотр всех учетных записей.βяα
Но с другой стороны, если у вас уже есть ВСЕ возможные данные, нет смысла расслаивать: вы просто отбрасываете данные (даете худшие оценки), а затем остаетесь с проблемой попытки оценить .α