(Этот вопрос может показаться, что он лучше подходит для Philosophy SE. Я надеюсь, что статистики смогут уточнить мои неправильные представления о высказываниях Бокса и Шмуэли, поэтому я публикую его здесь).
Джордж Бокс (из известности ARIMA) сказал:
«Все модели ошибочны, но некоторые полезны».
Галит Шмуэли в своей знаменитой статье «Объяснить или предсказать» утверждает (и цитирует других, кто с ней согласен), что:
Объяснения и предсказания - это не одно и то же, и что некоторые модели хорошо объясняют, хотя и плохо предсказывают.
Я чувствую, что эти принципы как-то противоречивы.
Если модель плохо предсказывает, полезно ли это?
Что еще более важно, если модель хорошо объясняет (но не обязательно хорошо предсказывает), то она должна быть верной (то есть не ошибочной), так или иначе. Так как же это сочетается с тем, что у Бокса «все модели неправильны»?
Наконец, если модель хорошо объясняет, но плохо предсказывает, как она научна? Большинство научных критериев демаркации (верификация, фальсификационизм и т. Д.) Подразумевают, что научное утверждение должно иметь предсказательную силу или в разговорной речи: теория или модель верна, только если она может быть проверена эмпирически (или фальсифицирована), что означает, что она должен прогнозировать будущие результаты.
Мои вопросы:
- Действительно ли утверждение Бокса и идеи Шмуэли противоречивы или я что-то упускаю, например, может ли модель не обладать предсказательной силой, но все же быть полезной?
- Если утверждения Бокса и Шмуэли не противоречат друг другу, что означает, что модель ошибочна и плохо предсказывает, но все же обладает объяснительной силой? Говоря иначе: если человек отнимает правильность и способность к предсказанию, что остается от модели?
Какие эмпирические подтверждения возможны, когда модель обладает объяснительной силой, но не предсказательной силой? Шмуэли упоминает такие вещи, как: используйте AIC для объяснения и BIC для предсказания и т. Д., Но я не понимаю, как это решает проблему. С прогнозирующими моделями вы можете использовать AIC, или BIC, или регуляризацию , или и т. Д., Но в конечном итоге именно из-за выборочного тестирования и производительности в производстве определяется качество модели. Но для моделей, которые хорошо объясняют, я не понимаю, как какая-либо функция потерь может действительно оценить модель. В философии науки есть понятие недоопределениячто представляется здесь уместным: для любого данного набора данных всегда можно разумно выбрать некоторое распределение (или смесь распределений) и функцию потерь таким образом, чтобы они соответствовали данным (и, следовательно, можно требовать их объяснения). Более того, порог, по которому должен быть ниже, чтобы кто-то мог утверждать, что модель адекватно объясняет данные, является произвольным (вроде как р-значения, почему это а не или ?).
- Исходя из вышеизложенного, как можно объективно проверить модель, которая хорошо объясняет, но плохо предсказывает, так как тестирование вне образца невозможно?