Я не уверен, к чему относится этот вопрос: перекрестная проверка или рабочее место. Но мой вопрос смутно связан со статистикой.
Этот вопрос (или, я думаю, вопросы) возник во время моей работы в качестве "стажера по науке о данных". Я строил эту модель линейной регрессии и изучал остаточный график. Я видел явные признаки гетероскедастичности. Я помню, что гетероскедастичность искажает многие статистические данные, такие как доверительный интервал и t-критерий. Поэтому я использовал взвешенный метод наименьших квадратов, следуя тому, что я узнал в колледже. Мой менеджер увидел это и посоветовал мне не делать этого, потому что «я все усложнял», что для меня вовсе не было убедительной причиной.
Другим примером будет «удаление пояснительной переменной, поскольку ее значение p незначительно». Быть может, этот совет просто не имеет смысла с логической точки зрения. Согласно тому, что я узнал, незначительное значение p может быть вызвано разными причинами: случайностью, использованием неправильной модели, нарушением предположений и т. Д.
Еще один пример - я использовал перекрестную проверку в k-кратном порядке для оценки своей модели. Согласно результату, просто лучше, чем . Но у нас есть более низкая для модели 1, и причина связана с перехватом . Однако мой руководитель, похоже, предпочитает модель 2, потому что она имеет более высокое . Его причины (такие как убедительны, или перекрестная проверка - это подход машинного обучения, а не статистический подход) просто не кажутся достаточно убедительными, чтобы изменить свое мнение.
Как человек, который только что закончил колледж, я очень растерялся. Я очень увлечен применением правильной статистики для решения реальных проблем, но я не знаю, что из следующего верно:
- Статистика, которую я узнал сама, просто неверна, поэтому я просто делаю ошибки.
- Существует огромная разница между теоретической статистикой и построением моделей в компаниях. И хотя теория статистики верна, люди просто не следуют ей.
- Менеджер неправильно использует статистику.
Обновление от 17.04.2017: Я решил продолжить работу над кандидатской диссертацией. в статистике. Спасибо всем за ваш ответ.