Я читал линейные модели Faraway из учебника с R (1-е издание) в прошлые выходные. У Faraway была глава под названием «Статистическая стратегия и модель неопределенности». Он описал (стр 158) , что он искусственно созданный некоторые данные , используя очень сложную модель, то он попросил своих студентов моделировать данные и сравнить студентов предсказанные результаты против чтения результатов. К сожалению, большинство учеников переоценили данные тестирования и дали прогнозные значения совершенно не на должном уровне. Чтобы объяснить это явление, он написал что-то очень впечатляющее для меня:
«Причина, по которой модели были такими разными, заключалась в том, что студенты применяли различные методы в разных порядках. Некоторые делали выбор переменных до преобразования, а другие - наоборот. Некоторые повторяли метод после изменения модели, а другие - нет. Я перешел к стратегиям. что некоторые из студентов использовали и не могли найти ничего явно неправильного в том, что они сделали. Один студент допустил ошибку при вычислении его или ее прогнозируемых значений, но в оставшейся части явно не было ничего плохого. Результаты выполнения этого задания не показали любые отношения с этим на экзаменах ".
Меня учили, что точность прогнозирования модели - это «золотой критерий» для нас, чтобы выбрать лучшую производительность модели. Если я не ошибаюсь, это также популярный метод, используемый в соревнованиях Kaggle. Но здесь Фарауэй заметил нечто иное: модель прогнозирования не имела ничего общегос возможностью участия статистики. Другими словами, можем ли мы построить лучшую модель с точки зрения предсказательной силы, на самом деле не зависит от того, насколько мы опытны. Вместо этого это определяется огромной «неопределенностью модели» (слепая удача?). Мой вопрос: верно ли это и в анализе реальных данных? Или я был перепутан с чем-то очень простым? Потому что, если это правда, то последствия для анализа реальных данных огромны: без знания «реальной модели», лежащей в основе данных, нет существенной разницы между работой, проделанной опытными / неопытными статистиками: оба являются просто дикими догадками перед данные обучения доступны.