Я поражен, казалось бы, легкой проблемой, но я не нашел подходящего решения уже несколько недель.
У меня довольно много данных опроса / опроса (десятки тысяч респондентов, скажем, 50 тыс. На набор данных), полученных из чего-то, что, я надеюсь, называется комплексным опросом с весами, стратификацией, конкретной маршрутизацией и так далее. Для каждого респондента существуют сотни переменных, таких как демографические (возраст, регион ...), а затем в основном бинарные (не более, категориальные) переменные.
Я больше знаком с информатикой / машинным обучением, и мне пришлось много узнать о классической статистике и методологии опросов . Теперь я хочу применить классическое машинное обучение к этим данным (например, прогнозирование некоторых пропущенных значений для подмножества респондентов - в основном задача классификации). Но, подождите, и вот, я не могу найти подходящий способ сделать это. Как мне включить эти страты, веса или маршрутизацию (например: если на вопрос 1 был дан ответ с вариантом 2, задайте вопрос 3, в противном случае пропустите его)?
Простое применение моих моделей (деревья, логистическая регрессия, SVM, XGBoost ...) кажется опасным (и в большинстве случаев они терпят неудачу), поскольку они обычно предполагают, что данные поступают из простой случайной выборки или iid.
Многие методы, по крайней мере, имеют вес, но это мало помогает. Кроме того, неясно, как я должен комбинировать несбалансированные классы и веса, заданные определением опроса, не говоря об этих элементах стратификации. Кроме того, модели результатов должны быть хорошо откалиброваны - прогнозируемое распределение должно быть очень близко к исходному. Хорошая эффективность прогнозирования - не единственный критерий. Я изменил показатель оптимизации, чтобы учесть это (например, расстояние прогнозируемого распределения от истинного распределения + точность / MCC), и это помогло в некоторых случаях, зачем наносить ущерб производительности в других.
Есть ли какой-то канонический способ как решить эту проблему? Для меня это кажется крайне недооцененной областью исследований. ИМО многие опросы могли бы извлечь выгоду из силы ОД, но нет источников. Как будто это два мира, не взаимодействующие друг с другом.
Что я нашел до сих пор:
- http://civilstat.com/2014/08/statistical-modeling-the-two-cultures-breiman/
Например, я до сих пор знаю только одну статью (Toth & Eltinge, 2011) о том, как создавать деревья регрессии, когда ваши данные поступают из сложной выборочной съемки.
- http://ccsg.isr.umich.edu/index.php/chapters/statistical-analysis-chapter#nine
В недавнем метаанализе 150 выборочных исследовательских работ, в которых анализируются несколько опросов со сложными схемами выборки, было обнаружено, что аналитические ошибки, вызванные незнанием или неправильным использованием сложных конструктивных особенностей выборки, были частыми.
- https://www.fhwa.dot.gov/2015datapalooza/presentations/PolicyDev.4_Pierce.pdf
Связанные с CV вопросы, но ни один из них не содержит ни одного полезного ответа о том, как к этому подойти (либо ответа нет, ни того, что я прошу, ни представить вводящие в заблуждение рекомендации):