Выбор между моделью линейной регрессии или моделью нелинейной регрессии

Как выбрать между использованием модели линейной регрессии или модели нелинейной регрессии?

Моя цель - предсказать Y.

В случае простого набора данных и я мог легко решить, какую регрессионную модель использовать, построив график рассеяния. $x$ $y$

В случае многокамерных варианта как и . Как я могу решить, какую регрессионную модель использовать? То есть, как я решу поступить с простой линейной моделью или нелинейными моделями, такими как квадрик, куб и т. Д. $x_1,x_2,...x_n$ $y$

Есть ли какой-либо метод или статистический подход или графические графики, чтобы сделать вывод и решить, какую регрессионную модель следует использовать?

— shakthydoss
источник

«Нелинейная модель» - довольно широкая категория. Вы имели это в виду? Каковы ваши цели анализа?

— Shadowtalker

Это зависит от ваших целей. Вы строите модель прогнозирования / прогнозирования?

— Аксакал

Прогноз - моя цель.

— Shakthydoss

Если вам нужен что-то вроде подхода «построить данные», но для нескольких предикторов, есть дополнительные переменные графики, которые могут иметь некоторое значение. Но если ваша цель - прогнозирование, проблема в том, что вы выбираете, что делать, основываясь на просмотре данных, поэтому на ваших данных он будет выглядеть намного лучше, чем на других данных (и с таким подход к выбору модели) - для правильной оценки предикативной способности выборки вам необходимо оценить вещи на несдержанной выборке / рассмотреть что-то вроде перекрестной проверки.

— Glen_b

Вы можете найти полезную связанную с этим дискуссию, которую я начал некоторое время назад.

— Александр Блех

Ответы:

Это область статистики, которая называется выбором модели. Много исследований сделано в этой области, и нет однозначного и простого ответа.

$X_1, X_2$ $X_3$ $X_3^2$ $X_1, X_2$ $X_3$ $X_1, X_2, X_3$ $X_3^2$ (сложная модель). В построении модели у вас есть (как минимум) одна из следующих двух основных целей:

$X_1$ $Y$ $X_2,...X_p$
$Y$ $Y$

Если ваша цель номер 1, то я рекомендую тест вероятностного отношения (LRT). LRT используется, когда у вас есть вложенные модели, и вы хотите знать, «являются ли данные значительно более вероятными из сложной модели, чем экономная модель?». Это даст вам представление о том, какая модель лучше объясняет связь между вашими данными.

$k$

— TrynnaDoStat
источник

Пожалуйста, не могли бы вы сделать / объяснить разницу между целями (1) и (2) более выраженными? В настоящее время нет большой разницы.

— ttnphns

@ttnphns Я добавил краткое описание двух целей.

— TrynnaDoStat

@TrynnaDoStat Просто смутило здесь утверждение. Выберите модель, которая лучше всего подходит для прогнозирования. Под лучшей моделью вы подразумеваете выбор между линейной (экономной) моделью и сложной моделью .... верно? Поскольку то, что я знаю, является k-кратным, то для проверки эффективности модели на невидимых данных используются незаполненные резюме. Они не используются для выбора модели. Я запутался здесь.

— tushaR

Когда я использую Google для «линейной или нелинейной модели регрессии», я получаю ссылки, которые ведут к этой книге: http://www.graphpad.com/manuals/prism4/RegressionBook.pdf Эта книга не интересна, и я не не доверяйте в 100% (по некоторым причинам).

Я также нашел эту статью: http://hunch.net/?p=524 с заголовком: почти все естественные проблемы требуют нелинейности

Я также нашел похожий вопрос с довольно хорошим объяснением: /programming/1148513/difference-between-a-linear-problem-and-a-non-linear-problem-essence-of-dot-pro

Исходя из моего опыта, когда вы не знаете, какую модель использовать, используйте обе и попробуйте другие функции.

— 404pio
источник

Как вы заявляете, линейные модели, как правило, проще, чем нелинейные модели, то есть они работают быстрее (построение и прогнозирование), их легче интерпретировать и объяснять, и, как правило, они просты в измерениях ошибок. Таким образом, цель состоит в том, чтобы выяснить, соответствуют ли предположения линейной регрессии вашим данным (если вы не поддерживаете линейную, то просто переходите к нелинейной). Обычно вы повторяете график одной переменной со всеми переменными индивидуально, сохраняя все остальные переменные постоянными.

Возможно, еще важнее то, что вы хотите знать, можете ли вы применить какое-то преобразование, взаимодействие с переменной или фиктивную переменную для перемещения ваших данных в линейное пространство. Если вы можете проверить допущения или если вы знаете свои данные достаточно хорошо, чтобы применить хорошо мотивированные или иным образом разумно обоснованные преобразования или модификации, то вы захотите продолжить это преобразование и использовать линейную регрессию. Когда у вас есть остатки, вы можете отобразить их в зависимости от прогнозируемых значений или независимых переменных, чтобы дополнительно решить, нужно ли переходить к нелинейным методам.

Здесь, в герцоге, есть отличная разбивка предположений о линейной регрессии . Перечислены четыре основных допущения, каждое из которых разбито на влияние на модель, способы ее диагностики в данных и возможные способы «исправить» (т.е. преобразовать или добавить) данные, чтобы сделать предположение выполненным. Вот небольшая выдержка сверху, суммирующая четыре допущения, которые вы рассмотрели, но вы должны пойти туда и прочитать разбивки.

Существует четыре основных предположения, которые оправдывают использование моделей линейной регрессии для целей вывода или прогнозирования:

(i) линейность и аддитивность отношений между зависимыми и независимыми переменными:

(а) Ожидаемое значение зависимой переменной - это прямолинейная функция каждой независимой переменной, в которой остальные фиксированы.

(б) Наклон этой линии не зависит от значений других переменных.

(c) Влияние различных независимых переменных на ожидаемое значение зависимой переменной является аддитивным.

(ii) статистическая независимость ошибок (в частности, отсутствует корреляция между> последовательными ошибками в случае данных временных рядов)

(iii) гомоскедастичность (постоянная дисперсия) ошибок

(а) в зависимости от времени (в случае данных временных рядов)

(б) против прогнозов

(в) по сравнению с любой независимой переменной

(iv) нормальность распределения ошибок.

— wwwslinger
источник