В значительной степени вы можете делать все, что вам нравится, при условии, что вы держите достаточно данных случайным образом, чтобы протестировать любую модель, которую вы придумали, на основе сохраненных данных. Разделение на 50% может быть хорошей идеей. Да, вы теряете некоторую способность обнаруживать отношения, но то, что вы получаете, огромно; а именно, возможность тиражировать вашу работу до ее публикации. Независимо от того, насколько сложны статистические методы, которые вы применяете, вы будете шокированы тем, как много «значимых» предикторов оказываются совершенно бесполезными при применении к данным подтверждения.
Помните также, что «релевантность» для предсказания означает больше, чем низкое значение p. В конце концов, это только означает, что, вероятно, отношения, обнаруженные в этом конкретном наборе данных, не являются случайными. Для прогнозирования на самом деле более важно найти переменные, которые оказывают существенное влияние на прогноз (без чрезмерного соответствия модели); то есть, чтобы найти переменные, которые, вероятно, являются «реальными» и, когда они варьируются в пределах разумного диапазона значений (а не только значений, которые могут встречаться в вашей выборке!), приводят к значительному изменению предсказания. Если у вас есть данные для подтверждения модели, вам будет удобнее временно сохранять незначительные «значимые» переменные, которые могут не иметь низких значений p.
По этим причинам (и основываясь на точном ответе chl), хотя я нашел ступенчатые модели, сравнения AIC и поправки Бонферрони весьма полезными (особенно с сотнями или тысячами возможных предикторов в игре), они не должны быть единственными определяющими, какие переменные введите вашу модель. Также не следует упускать из виду руководство, данное теорией: переменные, имеющие сильное теоретическое обоснование для того, чтобы быть в модели, обычно должны храниться, даже если они незначительны, при условии, что они не создают плохо обусловленных уравнений ( например, коллинеарность) ,
NB . После того, как вы определились с моделью и подтвердили ее полезность с помощью данных об удержании, можно объединить оставшиеся данные с данными об удержании для окончательной оценки. Таким образом, ничего не теряется с точки зрения точности, с которой вы можете оценить коэффициенты модели.