Гибкие и негибкие модели в машинном обучении


10

Я столкнулся с простым вопросом о сравнении гибких моделей (т.е. сплайнов) с негибкими моделями (например, линейной регрессией) при различных сценариях. Вопрос в том:

В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:

  1. Количество предикторов чрезвычайно велико, а количество наблюдений n мало? пN
  2. Дисперсия погрешности, т.е. , чрезвычайно высока?σ2знак равноVar(е)

Я думаю, что для (1), когда мало, негибкие модели лучше (не уверен). Для (2) я не знаю, какая модель (относительно) лучше.N


Ошибка обобщения далеко не тривиальна. К сожалению, практические правила не очень помогают в этом отношении.
Марк Клазен

8
Похоже, это от Джеймса, Виттена, Хасти, Тибширани, Введение в статистическое обучение
Ноэль Эванс,

1. Гибкий метод будет соответствовать небольшому количеству наблюдений. 2. Гибкие методы соответствуют шуму в терминах ошибок и увеличивают дисперсию.
Занарк

Ответы:


3

В этих двух ситуациях сравнительная гибкая и негибкая модель производительности также зависит от:

  • истинное отношение y = f (x) близко к линейному или очень нелинейное;
  • Вы настраиваете / ограничиваете степень гибкости «гибкой» модели при ее подгонке.

Если отношение близко к линейному, и вы не ограничиваете гибкость, то линейная модель должна давать лучшую погрешность теста в обоих случаях, потому что гибкая модель, вероятно, будет соответствовать в обоих случаях.

Вы можете посмотреть на это так:

  • В обоих случаях данные не содержат достаточно информации об истинном отношении (в первом случае отношение является многомерным, а у вас недостаточно данных, во втором случае оно искажено шумом), но
    • линейная модель приносит некоторую внешнюю априорную информацию об истинных отношениях (ограничивает класс подгоночных отношений линейными) и
    • эта предварительная информация оказывается правильной (истинное отношение близко к линейному).
  • В то время как гибкая модель не содержит предварительной информации (она может соответствовать чему угодно), она подходит для шума.

Однако, если истинное отношение очень нелинейное, трудно сказать, кто победит (оба проиграют :)).

Если вы настраиваете / ограничиваете степень гибкости и делаете это правильно (скажем, путем перекрестной проверки), то гибкая модель должна победить во всех случаях.


4

Конечно, это зависит от базовых данных, которые вы всегда должны изучать, чтобы выяснить некоторые из его характеристик, прежде чем пытаться соответствовать модели, но то, что я выучил как общие практические правила:

  • Гибкая модель позволяет в полной мере использовать преимущества большого размера выборки (большое n).
  • Для нахождения нелинейного эффекта потребуется гибкая модель.
  • Гибкая модель приведет к тому, что вы поместите слишком много шума в задачу (когда дисперсия условий ошибки высока).

1

Что касается второй части, я думаю, что более гибкая модель будет пытаться вписаться в модель, и данные обучения содержат высокий уровень шума, поэтому гибкая модель также попытается изучить этот шум и приведет к большему количеству ошибок при тестировании. Я знаю источник этого вопроса, так как я тоже читаю ту же книгу :)


1

В первой части я бы ожидал, что негибкая модель будет работать лучше при ограниченном количестве наблюдений. Когда n очень мало, обе модели (гибкая или негибкая) не дадут достаточно хорошего прогноза. Тем не менее, гибкая модель, как правило, будет соответствовать данным и будет работать хуже, когда речь идет о новом наборе тестов.

В идеале я бы собрал больше наблюдений для улучшения подгонки, но если это не так, то я бы использовал негибкую модель, пытаясь минимизировать ошибку теста с помощью нового набора тестов.


0

е

Точность Y как прогноза для Y зависит от двух величин, которые мы будем называть приводимой ошибкой и неприводимой ошибкой . В основном,е^ее^е^еY^знак равное(Икс)YεИксεеε


Я не понимаю этого.
Майкл Р. Черник,

0

Для каждой из частей (a) - (d) укажите, является ли i. или ii. правильно, и объясните свой ответ. В целом, ожидаем ли мы, что эффективность гибкого статистического метода обучения будет лучше или хуже, чем у негибкого метода, когда:

Размер выборки n чрезвычайно велик, а количество предикторов p мало?

Лучше. Гибкий метод будет соответствовать данным ближе и с большим размером выборки, будет работать лучше, чем негибкий подход.

Количество предикторов p чрезвычайно велико, а количество наблюдений n мало?

Хуже. Гибкий метод будет соответствовать небольшому количеству наблюдений.

Отношения между предикторами и ответом сильно нелинейны?

Лучше. С большей степенью свободы гибкий метод подойдет лучше, чем негибкий.

Дисперсия погрешностей, т.е. σ2 = Var (ε), чрезвычайно высока?

Хуже. Гибкий метод будет соответствовать шуму с точки зрения погрешности и увеличит дисперсию.

Взято отсюда .

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.