Скажем, у нас есть выборка из двух групп населения: A
и B
. Давайте предположим, что эти группы состоят из отдельных лиц, и мы решили описать людей с точки зрения особенностей. Некоторые из этих функций являются категориальными (например, они ездят на работу?), А некоторые являются числовыми (например, их высота). Давайте назовем эти функции: . Мы собираем сотни этих функций (например, n = 200), допустим для простоты, без ошибок и шумов для всех людей.
Мы предполагаем, что две популяции разные. Наша цель - ответить на следующие два вопроса:
- Они на самом деле значительно отличаются?
- Что существенно отличается между ними?
Могут помочь такие методы, как деревья решений (например, случайные леса) и анализ линейной регрессии. Например, можно посмотреть на важность признаков в случайных лесах или на соответствующие коэффициенты в линейной регрессии, чтобы понять, что может отличать эти группы, и исследовать отношения между признаками и популяциями.
Прежде чем я пойду по этому пути, я хочу понять, какие у меня есть варианты: что хорошо и современно, а что плохо. Обратите внимание, что моя цель - не предсказание как таковое, а тестирование и выявление каких-либо существенных различий между группами.
Каковы некоторые принципиальные подходы к решению этой проблемы?
Вот некоторые проблемы, которые у меня есть:
Такие методы, как линейный регрессионный анализ, могут не полностью отвечать (2), верно? Например, одно совпадение может помочь найти некоторые различия, но не все существенные различия. Например, мультиколлинеарность может помешать нам выяснить, как все функции варьируются в разных группах (по крайней мере, для одного соответствия). По той же причине, я ожидаю, что ANOVA также не может дать полный ответ на (2).
Не совсем ясно, как прогнозирующий подход будет отвечать (1). Например, какую функцию классификации / прогнозирования потерь мы должны минимизировать? И как мы можем проверить, значительно ли отличаются группы, когда мы подходим? Наконец, я беспокоюсь, что ответ, который я получу (1), может зависеть от конкретного набора моделей классификации, которые я использую.