Основным отличием интерполяции от регрессии является определение проблемы, которую они решают.
Учитывая точек данных, при интерполяции вы ищете функцию некоторой предопределенной формы, значения которой в этих точках точно соответствуют заданным. Это означает, что для заданных пар ( x i , y i ) вы ищете F некоторой предопределенной формы, которая удовлетворяет F ( x i ) = y i . Я думаю, что чаще всего F выбирается как полином, сплайн (полиномы низкой степени на интервалах между заданными точками).n( хя, уя)FF( хя)=yiF
Когда вы делаете регрессию, вы ищете функцию, которая минимизирует некоторую стоимость, обычно сумму квадратов ошибок. Вам не требуется, чтобы функция имела точные значения в заданных точках, вам просто нужно хорошее приближение. В общем, ваш найденной функции может не удовлетворяют условию F ( х я ) = у я для любой точки данных, но функции затрат, то есть Е п I = 1 ( F ( х я ) - у я ) 2 будет наименьшим возможным всех функций данной формы.FF(xi)=yi∑ni=1(F(xi)−yi)2
Хорошим примером того, почему вы можете захотеть только приблизить, а не интерполировать, являются цены на фондовом рынке. Вы можете взять цены за последние единиц времени и попытаться интерполировать их, чтобы получить некоторый прогноз цены в следующую единицу времени. Это довольно плохая идея, потому что нет никаких оснований полагать, что отношения между ценами могут быть точно выражены полиномом. Но линейная регрессия может помочь, поскольку цены могут иметь некоторый «уклон», и линейная функция может быть хорошим приближением, по крайней мере, локально (подсказка: это не так просто, но регрессия определенно является лучшей идеей, чем интерполяция в этом случае ).k