Я использую регрессионные модели LOESS в R, и я хочу сравнить результаты 12 разных моделей с различными размерами выборки. Я могу описать реальные модели более подробно, если это поможет с ответом на вопрос.
Вот размеры выборки:
Fastballs vs RHH 2008-09: 2002
Fastballs vs LHH 2008-09: 2209
Fastballs vs RHH 2010: 527
Fastballs vs LHH 2010: 449
Changeups vs RHH 2008-09: 365
Changeups vs LHH 2008-09: 824
Changeups vs RHH 2010: 201
Changeups vs LHH 2010: 330
Curveballs vs RHH 2008-09: 488
Curveballs vs LHH 2008-09: 483
Curveballs vs RHH 2010: 213
Curveballs vs LHH 2010: 162
Модель регрессии LOESS представляет собой поверхностную посадку, где местоположение X и местоположение Y каждого шага бейсбола используется для прогнозирования sw, вероятности колебательного удара. Тем не менее, я хотел бы сравнить все 12 из этих моделей, но установка одного и того же диапазона (т. Е. Диапазона = 0,5) будет иметь разные результаты, поскольку существует такой широкий диапазон размеров выборки.
Мой основной вопрос: как вы определяете продолжительность своей модели? Более высокий диапазон сглаживает подгонку больше, в то время как более низкий диапазон охватывает больше трендов, но вносит статистический шум, если данных слишком мало. Я использую более высокий диапазон для меньших размеров выборки и более низкий диапазон для больших размеров выборки.
Что мне делать? Какое хорошее правило при установке диапазона для моделей регрессии LOESS в R? Заранее спасибо!