Остерегайтесь переоснащения . Более точная модель сбора данных из системы не может быть лучшим предиктором будущего поведения системы.
На изображении выше показаны две модели некоторых данных.
Линейная линия несколько точна на тренировочных данных (точки на графике), и (можно было бы ожидать) она будет несколько точнее на данных тестирования (где точки, вероятно, будут для x <5 и x> -5 ).
Напротив, полином на 100% точен для обучающих данных, но (если у вас нет никаких оснований полагать, что полином 9-й степени является разумным по какой-то физической причине), вы могли бы предположить, что он будет крайне плохим предиктором для x> 5 и х <-5.
Линейная модель является «менее точной» и основана на любом сравнении ошибок с данными, которые мы собрали. Но это более обобщенно.
Кроме того, инженеры должны меньше беспокоиться о своей модели и больше о том, что люди будут делать с моделью.
Если я скажу вам, что мы идем на прогулку в жаркий день, и это продлится 426 минут. Вы, вероятно, принесете меньше воды, чем если я скажу, что прогулка продлится 7 часов, и даже меньше, чем если я скажу, что прогулка продлится 4-8 часов. Это потому, что вы реагируете на мой подразумеваемый уровень уверенности в моем прогнозе, а не на середину моего заявленного времени.
Если вы дадите людям точную модель, люди уменьшат вероятность ошибки. Это приводит к большим рискам.
Если взять пример с прогулки в жаркий день, если я знаю, что прогулка займет 4-8 часов в 95% случаев с некоторой неопределенностью в отношении навигации и скорости ходьбы. Прекрасное знание нашей скорости ходьбы уменьшит неопределенность цифры 4-8, но это не окажет значительного влияния на «шанс того, что мы будем так долго, что вода станет проблемой», потому что это почти полностью обусловлено неопределенной навигацией, а не неуверенная скорость ходьбы.