Разница между регрессионным анализом и подгонкой кривой


17

Кто-нибудь может объяснить мне реальные различия между регрессионным анализом и подгонкой кривой (линейной и нелинейной), с примером, если это возможно?

Кажется, что оба пытаются найти связь между двумя переменными (зависимыми и независимыми), а затем определяют параметр (или коэффициент), связанный с предлагаемыми моделями. Например, если у меня есть набор данных, таких как:

Y = [1.000 1.000 1.000 0.961 0.884 0.000] 
X = [1.000 0.063 0.031 0.012 0.005 0.000]

Кто-нибудь может предложить формулу корреляции между этими двумя переменными? Мне трудно понять разницу между этими двумя подходами. Если вы предпочитаете подкреплять свой ответ другими наборами данных, то все в порядке, поскольку кажется, что этот вариант трудно уместить (возможно, только для меня).

Приведенный выше набор данных представляет оси и y кривой рабочей характеристики приемника (ROC), где y - истинно положительная скорость (TPR), а x - ложно-положительная скорость (FPR).ИксYYИкс

Я пытаюсь подогнать кривую или выполнить регрессионный анализ в соответствии с моим первоначальным вопросом, пока не уверен, среди этих точек, чтобы оценить TPR для любого конкретного FPR (или наоборот).

Во-первых, является ли научно приемлемым найти такую ​​функцию подгонки кривой между двумя независимыми переменными (TPR и FPR)?

Во-вторых, с научной точки зрения приемлемо найти такую ​​функцию, если я знаю, что распределения фактических отрицательных и фактических положительных случаев не являются нормальными?


1
Термины (к сожалению) по-разному используются разными людьми и в разных контекстах. Можете ли вы дать ссылку / привести пример, где люди проводят различие между ними?
gung - Восстановить Монику

Вот что я пытаюсь выяснить, как они отличаются и как я могу различить их.
Али Султан

1
Справедливо, но кто-то сказал вам, что они должны быть другими?
gung - Восстановить Монику

2
На этом сайте некоторые люди использовали «подгонку кривой» в смысле, который нельзя считать регрессией. Например, некоторые из них рассматривают оценку плотности как форму «подгонки кривой» к гистограмме.
whuber

Ответы:


22

Я сомневаюсь, что существует четкое и последовательное различие между статистически мыслящими науками и областями между регрессией и подгонкой кривой .

Регрессия без квалификации подразумевает линейную регрессию и оценку методом наименьших квадратов. Это не исключает других или более широких смыслов: действительно, если вы разрешите логит, пуассон, отрицательную биномиальную регрессию и т. Д. И т. Д., Становится все труднее увидеть, что моделирование в некотором смысле не является регрессией.

Подгонка кривой буквально предлагает кривую, которая может быть нарисована на плоскости или, по крайней мере, в низкоразмерном пространстве. Регрессия не так ограничена и может предсказать поверхности в многомерном пространстве.

При построении кривой может использоваться или не использоваться линейная регрессия и / или метод наименьших квадратов. Это может относиться к подгонке полинома (степенной ряд) или набора синусоидальных и косинусных терминов или каким-либо другим образом фактически квалифицироваться как линейная регрессия в ключевом смысле подбора функциональной формы, линейной по параметрам. Действительно аппроксимация кривой, когда нелинейная регрессия также является регрессией.

Термин подгонка кривой может использоваться в уничижительном, уничижительном, оскорбительном или пренебрежительном смысле («это просто подгонка кривой!») Или (почти полная противоположность) он может относиться к подгонке конкретной кривой, тщательно выбранной с конкретной физической (биологической, экономическое, что угодно) обоснование или адаптация к конкретным видам начального или ограничивающего поведения (например, всегда положительное, ограниченное в одном или обоих направлениях, монотонное, с перегибом, с одной точкой поворота, колебательное и т. д.).

Одна из нескольких нечетких проблем здесь заключается в том, что одна и та же функциональная форма может быть в лучшем случае эмпирической в ​​одних обстоятельствах и превосходной теорией в других. Ньютон учил, что траектории снарядов могут быть параболическими и поэтому естественным образом подгоняются квадратиками, в то время как квадратик, приспособленный к возрастной зависимости в социальных науках, часто является просто выдумкой, которая соответствует некоторой кривизне данных. Экспоненциальный распад - действительно хорошее приближение для радиоактивных изотопов и иногда не слишком сумасшедшее предположение о том, как стоимость земли уменьшается с расстоянием от центра.

Ваш пример не получает никаких откровений от меня. Здесь важно то, что при очень небольшом наборе данных и отсутствии точной информации о том, каковы переменные или как они должны себя вести, было бы безответственно или глупо предлагать модельную форму. Возможно, данные должны резко возрасти от (0, 0) и затем приблизиться к (1, 1), или, возможно, что-то еще. Вы говорите нам!

Заметка. Ни регрессия, ни аппроксимация кривой не ограничиваются отдельными предикторами или отдельными параметрами (коэффициентами).


2
«Кривое прилегание» означает для меня нечто теоретическое (например, низость). Экономисты иногда выводят теоретическую подгонку функции как «диаграмму», которая звучит похоже на некоторые способы подбора кривой. Я думаю, что у него (например, низость) есть свои плюсы и минусы, если их правильно понять. Трудно понять, как кто-то имел в виду термины отчетливо без большего контекста.
gung - Восстановить Монику

1
@ Gung Я думаю, что есть несколько схожих, шутливых, с использованием нескольких естественных (и неестественных) наук. Одна из проблем заключается в том, что при наличии достаточного количества параметров у вас обязательно будет много места для маневра. Мне напоминают о моделях временных рядов, которые допускают не только ARIMA, но и синусоидальные условия и шаги, пандусы и пики, где бы данные ни указывали.
Ник Кокс,

Во-вторых, @gung, аппроксимация кривой имеет более непараметрический оттенок, по крайней мере для меня.
Кристоф Ханк

1
@ChristophHanck Пожалуйста, не вносите "непараметрический" в это! Обсуждение уже достаточно грязное!
Ник Кокс

1
@ Gung: Думая о сглаживании сплайнов и методах RKHS в целом, как об основе «подбора кривой», например, я считаю, что «подгонка кривой» гораздо более теоретическая, чем «регрессия». (+1 к NickCox за этот ответ)
usεr11852 говорит восстановить Monic

8

В дополнение к отличному ответу @ NickCox (+1) я хотел бы поделиться своим субъективным впечатлением по этой нечеткой теме терминологии . Я думаю, что довольно тонкая разница между этими двумя терминами заключается в следующем. С одной стороны, регрессия часто, если не всегда, подразумевает аналитическое решение (ссылка на регрессоры подразумевает определение их параметров , отсюда мой аргумент об аналитическом решении). С другой стороны, аппроксимация кривой не обязательно подразумевает создание аналитического решения, и IMHO часто может использоваться и используется как исследовательский подход .


2
Разве нельзя использовать что-то с аналитическим решением для исследовательских целей? Я не думаю, что получаю сопротивление, которое вы делаете.
говорит амеба, восстанови Монику

@amoeba: аналитические решения, безусловно, могут быть использованы и для поисковых исследований. Однако я хочу сказать о самой популярной подразумеваемой сути рассматриваемых терминов.
Александр Блех
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.