Ответы:
Экономная модель - это модель, которая достигает желаемого уровня объяснения или предсказания с минимально возможным количеством переменных-предикторов.
Для оценки модели существуют разные методы в зависимости от того, что вы хотите знать. Как правило, существует два способа оценки модели: на основе прогнозов и на основе достоверности соответствия текущим данным. В первом случае вы хотите узнать, адекватно ли предсказывает ваша модель новые данные, во втором - узнать, адекватно ли ваша модель описывает отношения в ваших текущих данных. Это две разные вещи.
Наилучшим способом оценки моделей, используемых для прогнозирования, является перекрестная проверка. Очень кратко, вы сократили свой набор данных, например. 10 различных частей, используйте 9 из них, чтобы построить модель и предсказать результаты для десятого набора данных. Простое среднее квадратическое различие между наблюдаемыми и прогнозируемыми значениями дает вам показатель точности прогнозирования. Повторяя это десять раз, вы вычисляете среднеквадратичную разницу для всех десяти итераций, чтобы получить общее значение со стандартным отклонением. Это позволяет еще раз сравнить две модели по точности их прогнозирования с использованием стандартных статистических методов (t-критерий или ANOVA).
Вариант на тему - критерий ПРЕССА (прогнозируемая сумма квадратов), определяемый как
Где - это прогнозируемое значение для i-го наблюдения с использованием модели, основанной на всех наблюдениях, за вычетом i-го значения. Этот критерий особенно полезен, если у вас мало данных. В этом случае разделение данных, как в методе перекрестной проверки, может привести к подмножествам данных, которые слишком малы для стабильной подгонки.
Позвольте мне сначала заявить, что это действительно отличается в зависимости от используемой вами модели. Например, критерий отношения правдоподобия может работать для обобщенных аддитивных смешанных моделей при использовании классического гауссова для ошибок, но не имеет смысла в случае биномиального варианта.
Во-первых, у вас есть более интуитивные методы сравнения моделей. Вы можете использовать Информационный критерий Айкаке (AIC) или Байесовский информационный критерий (BIC), чтобы сравнить качество соответствия для двух моделей. Но ничто не говорит вам, что обе модели действительно отличаются.
Еще один критерий Ср Мэллоу. По сути, это проверяет возможные смещения в вашей модели, сравнивая модель со всеми возможными подмоделями (или их тщательный выбор). Смотрите также http://www.public.iastate.edu/~mervyn/stat401/Other/mallows.pdf
Если модели, которые вы хотите сравнить, являются вложенными моделями (т. Е. Все предикторы и взаимодействия более экономной модели встречаются и в более полной модели), вы можете использовать формальное сравнение в форме теста отношения правдоподобия (или хи-квадрат или F-критерий в соответствующих случаях, например, при сравнении простых линейных моделей с наименьшими квадратами). Этот тест по существу контролирует, действительно ли дополнительные предикторы или взаимодействия действительно улучшают модель. Этот критерий часто используется в пошаговых методах прямого или обратного хода.
У вас есть защитники, и у вас есть враги этого метода. Я лично не поддерживаю автоматический выбор моделей, особенно если речь идет об описании моделей, и это по ряду причин:
В общем, я вижу больше в сравнении выбранного набора моделей, выбранных заранее. Если вас не волнует статистическая оценка модели и проверка гипотез, вы можете использовать перекрестную проверку для сравнения точности прогнозирования ваших моделей.
Но если вам действительно нужен выбор переменных для прогнозирующих целей, вы можете взглянуть на другие методы выбора переменных, такие как машины опорных векторов, нейронные сети, случайные леса и тому подобное. Они гораздо чаще используются, например, в медицине, чтобы выяснить, какой из тысячи измеренных белков может адекватно предсказать, есть ли у вас рак или нет. Просто чтобы привести (известный) пример:
http://www.nature.com/nm/journal/v7/n6/abs/nm0601_673.html
http://www.springerlink.com/content/w68424066825vr3l/
Все эти методы имеют варианты регрессии и для непрерывных данных.
Использование выбора вперед или назад является обычной стратегией, но я не могу ее рекомендовать. Результаты такого построения модели все неверны. Значения p слишком низкие, коэффициенты смещены от 0, и есть другие связанные проблемы.
Если вам нужно сделать автоматический выбор переменных, я бы порекомендовал использовать более современный метод, такой как LASSO или LAR.
Я написал презентацию SAS на эту тему, озаглавленную «Остановка поэтапно: почему пошаговые и подобные методы плохие и что вы должны использовать»
Но, если возможно, я бы вообще избегал этих автоматизированных методов и полагался на предметную экспертизу. Одна идея состоит в том, чтобы сгенерировать 10 или около того разумных моделей и сравнить их на основе информационного критерия. @ Ник Саббе перечислил несколько из них в своем ответе.
Ответ на это будет во многом зависеть от вашей цели. Возможно, вы ищете статистически значимые коэффициенты, или вы можете избежать как можно большего количества ошибочных классификаций при прогнозировании результатов новых наблюдений, или вы можете просто заинтересоваться моделью с наименьшим количеством ложных срабатываний; возможно, вам просто нужна кривая, которая «ближе всего» к данным.
В любом из вышеперечисленных случаев вам нужна какая-то мера того, что вы ищете. Некоторые популярные меры с различными приложениями: AUC, BIC, AIC, остаточная ошибка, ...
Вы рассчитываете показатель, который наилучшим образом соответствует вашей цели для каждой модели, а затем сравниваете «баллы» для каждой модели. Это приводит к лучшей модели для вашей цели.
Некоторые из этих мер (например, AIC) придают дополнительное значение количеству ненулевых коэффициентов в модели, поскольку использование слишком большого количества может просто перегрузить данные (так что модель бесполезна, если вы используете ее для новых данных, не говоря уже о население). Могут быть и другие причины требовать, чтобы модель содержала «как можно меньше» переменных, например, если просто измерить их все для прогнозирования. «Простота» или «небольшое количество переменных» в модели обычно называют ее скупостью.
Короче говоря, экономная модель - это «простая» модель, не содержащая слишком много переменных.
Как и в случае с вопросами такого типа, я отошлю вас к превосходной книге « Элементы статистического обучения» для более подробной информации по этому вопросу и связанным с ним вопросам.
Я нашел обсуждение здесь интересным, особенно дебаты между Parsimonious и Model с большим количеством коэффициентов и переменных.
Мой проф. Позднее доктор Стив делал акцент на скупой модели с низким R ^ 2 по сравнению с другими моделями с лучшим соответствием / большим R ^ 2.
Спасибо за всю рыбу здесь!
Акаша