Я хочу знать, является ли процесс, описанный ниже, действительным / приемлемым и доступно ли любое обоснование.
Идея: контролируемые алгоритмы обучения не предполагают базовых структур / распределений данных. В конце дня они выводят точечные оценки. Я надеюсь как-то количественно оценить неопределенность оценок. Теперь процесс построения модели ML по своей природе является случайным (например, в выборке для перекрестной проверки для настройки гиперпараметра и в подвыборке в стохастическом GBM), поэтому конвейер моделирования даст мне разные выходные данные для одних и тех же предикторов с каждым другим начальным числом. Моя (наивная) идея состоит в том, чтобы запускать этот процесс снова и снова, чтобы придумать распределение прогноза, и я могу, надеюсь, сделать заявления о неопределенности прогнозов.
Если это имеет значение, наборы данных, с которыми я работаю, обычно очень малы (~ 200 строк).
Имеет ли это смысл?
Чтобы уточнить, я на самом деле не запускаю данные в традиционном смысле (то есть я не перевыбор данных). Один и тот же набор данных используется в каждой итерации, я просто использую случайность в xval и стохастической GBM.