У меня были похожие вопросы, когда читал статьи из других областей. И задал много вопросов, связанных с этим, например, в сообществе Data Data Mining:
зачем использовать квадратичные потери по вероятностям вместо логистических потерь?
Здесь я представлю много личных мнений.
Я чувствую, что функция потери не имеет большого значения во многих случаях практического использования. Некоторые исследователи могут знать больше о квадрате потерь и строить его систему, она все еще работает и решает реальные проблемы. Исследователи могут никогда не узнать логистическую потерю или потерю петли, и захотят попробовать. Кроме того, они, возможно, не заинтересованы в поиске оптимальной математической модели, но хотят решать реальные задачи, которые никто не пытался решить раньше.
Это еще один пример: если вы проверите этот ответ на мой вопрос, все они похожи. Каково влияние выбора различных функций потерь в классификации для приблизительной оценки 0-1?
Больше мыслей: исследование машинного обучения может потратить много времени на то, какую модель выбрать, и как оптимизировать модель. Это потому, что исследователь машинного обучения может не иметь возможности собирать больше данных / получать больше мер. И работа исследователя машинного обучения становится лучше по математике, а не лучше решает конкретную проблему реального мира.
С другой стороны, в реальном мире, если данные лучше, они бьют все. Таким образом, выбор нейронной сети или случайного леса может не иметь большого значения. Все эти модели похожи на человека, который хочет использовать машинное обучение в качестве инструмента для решения реальных проблем. Человек, не заинтересованный в разработке математики или инструментов, может тратить больше времени на использование определенных знаний предметной области, чтобы улучшить систему.
Как я уже упоминал в комментарии. И если кто-то небрежно относится к математике, он / она все еще сможет построить что-то, что работает.