Вопросы с тегом «overfitting»

Ошибка моделирования (особенно ошибка выборки) вместо воспроизводимых и информативных связей между переменными улучшает статистику соответствия модели, но уменьшает скупость и ухудшает объяснительную и прогнозную достоверность.

2
Можно ли (теоретически) обучить нейронную сеть с меньшим количеством тренировочных выборок, чем весами?
Прежде всего: я знаю, что для обучения нейронной сети нет общего количества выборок. Это зависит от слишком многих факторов, таких как сложность задачи, шум в данных и так далее. И чем больше у меня будет обучающих образцов, тем лучше будет моя сеть. Но мне было интересно: возможно ли теоретически обучить …

1
Точный критерий Фишера и гипергеометрическое распределение
Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст …

1
Как выбрать наилучшее соответствие без чрезмерных данных? Моделирование бимодального распределения с N нормальными функциями и т. Д.
У меня есть явно бимодальное распределение значений, которое я стараюсь соответствовать. Данные могут хорошо соответствовать либо 2 нормальным функциям (бимодальным), либо 3 нормальным функциям. Кроме того, существует вероятная физическая причина для сопоставления данных с 3. Чем больше параметров введено, тем более идеальным будет соответствие, поскольку при достаточном количестве констант можно …

4
Переоснащение с помощью линейных классификаторов
Сегодня наш профессор заявил в классе, что «переоснащение линейными классификаторами невозможно». Я считаю, что это неправильно, поскольку даже линейные классификаторы могут быть чувствительны к выбросам в обучающем наборе - возьмем, например, машину векторов поддержки с жестким полем: один единственный шумный объект данных может изменить, какая гиперплоскость будет использоваться для разделения …

1
Требуется ли перекрестная проверка для моделирования со случайными лесами?
Насколько я видел, мнения об этом, как правило, расходятся. Лучшая практика, безусловно, диктует использование перекрестной проверки (особенно если сравнивать RF с другими алгоритмами в одном наборе данных). С другой стороны, первоначальный источник утверждает, что факт ошибки OOB, рассчитанный во время обучения модели, является достаточным показателем эффективности тестового набора. Даже Тревор …


2
Ясное объяснение «численной устойчивости матричной инверсии» в регрессии гребня и ее роль в уменьшении избыточного соответствия
Я понимаю, что мы можем использовать регуляризацию в задаче регрессии наименьших квадратов как w∗=argminw[(y−Xw)T(y−Xw)+λ∥w∥2]w∗=argminw⁡[(y−Xw)T(y−Xw)+λ‖w‖2]\boldsymbol{w}^* = \operatorname*{argmin}_w \left[ (\mathbf y-\mathbf{Xw})^T(\boldsymbol{y}-\mathbf{Xw}) + \lambda\|\boldsymbol{w}\|^2 \right] и что эта проблема имеет решение в закрытой форме как: w^=(XTX+λI)−1XTy.w^=(XTX+λI)−1XTy.\hat{\boldsymbol{w}} = (\boldsymbol{X}^T\boldsymbol{X}+\lambda\boldsymbol{I})^{-1}\boldsymbol{X}^T\boldsymbol{y}. Мы видим, что во 2-м уравнении регуляризация просто добавляет λλ\lambda к диагонали XTXXTX\boldsymbol{X}^T\boldsymbol{X} , что …

1
Является ли насыщенная модель частным случаем переоборудованной модели?
Я пытаюсь понять, что такое насыщенная модель. AFAIK это когда у тебя столько функций, сколько наблюдений. Можно ли сказать, что насыщенная модель является частным случаем чрезвычайно переоснащенной модели?

1
Почему обратное исключение оправдано при множественной регрессии?
Не приводит ли это к переоснащению? Могут ли мои результаты быть более надежными, если я добавлю процедуру «домкрат» или процедуру начальной загрузки как часть анализа?

2
Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным
У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с помощью интерактивного процесса. Например, следуя совету в Стратегиях регрессионного …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.