Как интерполяция связана с концепцией регрессии?


17

Кратко объясните, что подразумевается под интерполяцией. Как это связано с понятием регрессии?

Интерполяция - это искусство чтения между строками таблицы, а в элементарной математике этот термин обычно обозначает процесс вычисления промежуточных значений функции из набора заданных или табличных значений этой функции.

Я не могу дать ответ на второй вопрос. Пожалуйста помоги


4
Целью регрессии является определение функции для описания ожидаемого значения (зависимой переменной) с учетом (независимых переменных). Интерполяция использует регрессию для прогнозирования значения при заданных значениях . Разница невелика, но проявляется в моделях, где коррелируют, потому что тогда прогнозируемые значения обычно отличаются от их значений регрессии. Ни регрессия, ни предсказание не применимы непосредственно к интерполяции в математических таблицах, которые обычно предполагают, что нет случайной ошибки, а их алгоритмыYXX YYXY все еще можно использовать.
бывают

2
Это работа для какого-то класса?
Glen_b

Ответы:


23

Основным отличием интерполяции от регрессии является определение проблемы, которую они решают.

Учитывая точек данных, при интерполяции вы ищете функцию некоторой предопределенной формы, значения которой в этих точках точно соответствуют заданным. Это означает, что для заданных пар ( x i , y i ) вы ищете F некоторой предопределенной формы, которая удовлетворяет F ( x i ) = y i . Я думаю, что чаще всего F выбирается как полином, сплайн (полиномы низкой степени на интервалах между заданными точками).n(Икся,Yя)FF(xi)=yiF

Когда вы делаете регрессию, вы ищете функцию, которая минимизирует некоторую стоимость, обычно сумму квадратов ошибок. Вам не требуется, чтобы функция имела точные значения в заданных точках, вам просто нужно хорошее приближение. В общем, ваш найденной функции может не удовлетворяют условию F ( х я ) = у я для любой точки данных, но функции затрат, то есть Е п I = 1 ( F ( х я ) - у я ) 2 будет наименьшим возможным всех функций данной формы.FF(xi)=yii=1n(F(xi)yi)2

Хорошим примером того, почему вы можете захотеть только приблизить, а не интерполировать, являются цены на фондовом рынке. Вы можете взять цены за последние единиц времени и попытаться интерполировать их, чтобы получить некоторый прогноз цены в следующую единицу времени. Это довольно плохая идея, потому что нет никаких оснований полагать, что отношения между ценами могут быть точно выражены полиномом. Но линейная регрессия может помочь, поскольку цены могут иметь некоторый «уклон», и линейная функция может быть хорошим приближением, по крайней мере, локально (подсказка: это не так просто, но регрессия определенно является лучшей идеей, чем интерполяция в этом случае ).k


Хороший ответ. Я бы добавил, что с регрессией за этим стоит статистическая модель, которая определяет отношение между и X в терминах некоторого распределения, где мы оцениваем его среднее значение (или медиану, или квантили и т. Д. В разных вариантах регрессии), например, в статистике. .stackexchange.com / questions / 173660 /…YИкс
Тим

Разве описанный вами пример не будет экстраполяцией, а не интерполяцией?
bi_scholar

6

Два предыдущих ответа объяснили связь между линейной интерполяцией и линейной регрессией (или даже общей интерполяцией и полиномиальной регрессией). Но важная связь заключается в том, что после подбора регрессионной модели вы можете использовать ее для интерполяции между данными точками данных.


Поэтому, когда я регрессирую, скажем, по росту относительно пола, я могу интерполировать, чтобы найти ожидаемый рост наполовину мужчины, наполовину женщины! Этот причудливый пример подчеркивает основной недостаток этого ответа, который заключается в предположении, что все регрессоры в регрессионной модели должны быть непрерывными переменными.
whuber

2
Мой ответ применим, когда все предикторные переменные непрерывны ..
Майкл Р. Черник

4

Надеюсь, это произойдет довольно быстро с простым примером и визуализацией.

Предположим, у вас есть следующие данные:

X  Y
1  6
10 15
20 25
30 35
40 45
50 55

Мы можем использовать регрессию для моделирования Y как ответ на X. Используя R: lm(y ~ x)

Результатом является пересечение 5 и коэффициент для x, равный 1. Что означает, что произвольный Y может быть вычислен для данного X как X + 5. Как изображение, вы можете увидеть это следующим образом:

введите описание изображения здесь

Обратите внимание, что если вы пошли к оси X, где-нибудь вдоль нее, и нарисовали линию до подгоночной линии, а затем нарисовали линию к оси Y, вы можете получить значение, независимо от того, предоставил ли я точку значения для Y. Регрессия сглаживает области без данных, оценивая базовые отношения.


2

Основное различие между ч / б Интерполяция и регрессия заключается в следующем: Интерполяция: предположим, что имеется n точек (например, 10 точек данных), при интерполяции мы подгоним кривую, проходящую через все точки данных (т.е. здесь 10 точек данных), с степень многочлена (количество точек данных -1; т. е. здесь оно равно 9). где в регрессии не все точки данных имеют только набор из них, необходимый для подгонки кривой.

как правило, порядок интерполяции и регрессии будет (1,2 или 3), если порядок больше 3, на кривой будет видно больше колебаний.


2
Это подразумевает, что интерполяция основана на полиномах, но есть несколько других методов, таких как кубический сплайн, кусочно-кубический Эрмит, ближайший сосед и т. Д.
Ник Кокс

@Nick Хотя вы правы, любопытно, что каждый метод, который вы называете, на самом деле основан на полиномах! Возможно, самый простой, самый известный неполиномиальный интерполятор - это обратное взвешивание (IDW).
whuber

@whuber Согласен; если многочлены можно применять с ограничениями, то большинство методов соответствуют требованиям, например, ближайший сосед = кусочно-постоянная и т. д.
Ник Кокс

2

Регрессия - это процесс нахождения линии наилучшего соответствия [1]. Интерполяция - это процесс использования линии наилучшего соответствия для оценки значения одной переменной по значению другой, при условии, что значение, которое вы используете, находится в диапазоне ваших данных. Если он находится за пределами диапазона, вы должны использовать экстраполяцию [1].

[1] http://mathhelpforum.com/advanced-applied-math/182558-interpolation-vs-regression.html


2
Этот ответ не отличает интерполяцию от экстраполяции. Вы утверждаете, что это одно и то же? Кстати, математические форумы (и даже учебники и статьи), как правило, не являются хорошими источниками информации по статистическим вопросам, потому что они имеют тенденцию фокусироваться на узких математических значениях, которые, хотя и правильны и полезны в чисто математических приложениях, могут не применяться более широко. ,
Whuber

1

При интерполяции или подгонке сплайнов мы получаем числовые данные (с интерполяцией между каждой парой исходных данных) большего размера, которые при построении графика создают эффект гладкой кривой. В действительности, между каждой парой исходных данных устанавливается отдельный многочлен, поэтому вся кривая после интерполяции представляет собой кусочно-непрерывную кривую, где каждый кусочек формируется из другого многочлена.

Если требуется параметрическое представление исходных числовых данных, необходимо выполнить регрессию. Вы также можете попытаться подогнать полином высокого порядка к сплайну. В любом случае, представление будет приближенным. Вы также можете проверить, насколько точна аппроксимация.


Похоже, у вас еще не было возможности прочитать комментарий Ника Кокса , который указывает, что не все интерполяторы являются (локальными) полиномами.
whuber

0

И регрессия, и интерполяция используются для прогнозирования значений переменной (Y) для заданного значения другой переменной (X). В регрессии мы можем предсказать любое значение зависимой переменной (Y) для данного значения независимой переменной (X), даже если оно выходит за пределы диапазона табличных значений. Но в случае интерполяции мы можем только предсказать значения зависимой переменной (Y) для значения независимой переменной (X), которое находится в диапазоне заданных значений X.


0

Интерполяция - это процесс подгонки числа точек между x = a и x = b точно к интерполяционному полиному. Интерполяция может использоваться, чтобы найти приблизительное значение (или отсутствующее значение) y в области x = [a, b] с большей точностью, чем метод регрессии.

С другой стороны, регрессия - это процесс подгонки ряда точек к кривой, проходящей через или около точек с минимальной квадратической ошибкой. Регрессия не будет приближаться к значению y в области x = [a, b] с такой же точностью, как интерполяция, однако регрессия обеспечивает лучшие прогнозы, чем интерполяция для значений y в области между x = (- бесконечность, a) и x = ( б + бесконечность).

Таким образом, интерполяция обеспечивает лучшую точность значения y в области известного диапазона x, в то время как регрессия обеспечивает лучшие прогнозы y в области ниже и за пределами известного диапазона x.


3
Это не определение интерполяции, что используется многочлен. Другие гладкие функции могут быть уместными.
Ник Кокс

3
Есть другие проблемы с вашими претензиями. Например, регрессия может быть более точной, чем интерполяция. Статистическое различие между этими двумя процедурами весьма отличается от того, что вы представляете: пожалуйста, смотрите другие посты в этой теме.
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.