Каковы практические и интерпретационные различия между альтернативами и логистической регрессией?

Недавний вопрос об альтернативах логистической регрессии в R дал множество ответов, включая randomForest, gbm, rpart, bayesglm и обобщенные аддитивные модели. Каковы практические и интерпретационные различия между этими методами и логистической регрессией? Какие предположения они делают (или не делают) относительно логистической регрессии? Подходят ли для проверки гипотез? И т.п.

r hypothesis-testing logistic random-forest

— russellpierce
источник

Отказ от ответственности: это, безусловно, далеко не полный ответ на вопрос!

Я думаю, что необходимо рассмотреть как минимум два уровня, прежде чем проводить различие между всеми такими методами:

подходит ли одна модель или нет: это помогает противостоять таким методам, как логистическая регрессия или RF или градиентное усиление (или, в более общем случае, методам ансамбля ), а также акцентировать внимание на оценке параметров (с соответствующими асимптотическими или бутстраповыми доверительными интервалами) по сравнению с классификацией или расчет точности прогноза;
учитываются ли все переменные или нет: это основа выбора признаков в том смысле, что штрафование или регуляризация позволяют справляться с «нерегулярными» наборами данных (например, большим и / или маленьким ) и улучшать обобщаемость результатов. $p$ $n$

Вот еще несколько моментов, которые, я думаю, имеют отношение к этому вопросу.

В случае, если мы рассматриваем несколько моделей - одна и та же модель устанавливается на разных подмножествах (отдельных лицах и / или переменных) имеющихся данных, или разные конкурентные модели устанавливаются на одном наборе данных - перекрестная проверка может использоваться, чтобы избежать переоснащение и выполнение выбора модели или функции, хотя CV не ограничивается этими конкретными случаями (например, его можно использовать с GAM или штрафными GLM). Также существует традиционная проблема интерпретации: более сложные модели часто подразумевают более сложную интерпретацию (больше параметров, более строгие предположения и т. Д.).

Повышение градиента и RFs преодолевают ограничения единого дерева решений, благодаря Boosting , основная идея которого состоит в том, чтобы объединить выходные данные нескольких слабых алгоритмов обучения, чтобы построить более точное и стабильное правило принятия решений, и Bagging, где мы "усредняем" результаты по пересчитанные наборы данных. В целом, они часто рассматриваются как своего рода черные ящики по сравнению с более «классическими» моделями, в которых предусмотрены четкие спецификации модели (я могу представить три класса моделей: параметрические , полупараметрические , непараметрические ), но Я думаю, что обсуждение проходило в этой другой теме . Две культуры: статистика против машинного обучения? предоставить интересные точки зрения.

Вот пара статей о выборе функций и некоторых методах ML:

Saeys, Y, Inza, I, и Larrañaga, P. Обзор методов выбора признаков в биоинформатике , Bioinformatics (2007) 23 (19): 2507-2517.
Догерти, ER, Хуа Дж, и Сима, C. Эффективность методов выбора признаков , Current Genomics (2009) 10 (6): 365–374.
Boulesteix, AL и Strobl, C. Оптимальный выбор классификатора и отрицательное смещение в оценке частоты ошибок: эмпирическое исследование по многомерному прогнозированию , BMC Medical Research Methodology (2009) 9:85.
Каруана, Р. и Никулеску-Мизил, А. Эмпирическое сравнение алгоритмов контролируемого обучения . Материалы 23-й Международной конференции по машинному обучению (2006 г.).
Фридман, Дж., Хасти, Т. и Тибширани, Р. Аддитивная логистическая регрессия: статистический взгляд на повышение , Ann. Statist. (2000) 28 (2): 337-407. (С обсуждением)
Олден, JD, Лоулер, JJ, и Пофф, NL. Методы машинного обучения без слез: учебник для экологов , Q Rev Biol. (2008) 83 (2): 171-93.

И, конечно, «Элементы статистического обучения » Хасти и др. Полны иллюстраций и ссылок. Также обязательно ознакомьтесь с учебными пособиями по статистическому анализу данных от Эндрю Мура.

— хл
источник