Каково статистическое обоснование интерполяции?


16

Предположим, что у нас есть две точки (на следующем рисунке: черные кружки), и мы хотим найти значение для третьей точки между ними (крестик). Действительно, мы собираемся оценить это на основе наших экспериментальных результатов, черные точки. Простейший случай - нарисовать линию, а затем найти значение (т. Е. Линейную интерполяцию). Если у нас были опорные точки, например, коричневые точки с обеих сторон, мы бы предпочли получить от них выгоду и построить нелинейную кривую (зеленая кривая).

Вопрос в том, что является статистическим обоснованием для обозначения красного креста в качестве решения? Почему другие кресты (например, желтые) не являются ответами, где они могут быть? Какой вывод или (?) Подталкивает нас к принятию красного?

Я разработаю свой оригинальный вопрос на основе ответов, полученных на этот очень простой вопрос.

введите описание изображения здесь


7
Это очень хорошо поставленный и интересный вопрос. Возможно, вы захотите провести различие между интерполяцией временных рядов и другими формами интерполяции (такими как расщепление или пространственная интерполяция) из-за внутренней направленности временных рядов.
whuber

1
Я высоко ценю этот очень мотивационный комментарий.
Разработчик

Ответы:


14

Любая форма подбора функций, даже непараметрических (которые обычно делают предположения о гладкости соответствующей кривой), включает в себя предположения и, следовательно, скачок веры.

Древнее решение линейной интерполяции - это то, что «просто работает», когда ваши данные достаточно мелко «достаточно» (если вы посмотрите на круг достаточно близко, он тоже выглядит плоским - просто спросите Колумба), и даже выполнимо до компьютерного века (что не так для многих современных сплайн-решений). Имеет смысл предположить, что функция будет «продолжаться в одной и той же (т.е. линейной) материи» между двумя точками, но есть нет априорных оснований для этого ( за исключением знания о понятиях , под руку).

Быстро становится ясно, когда у вас есть три (или более) неколинейных точки (например, когда вы добавляете коричневые точки выше), что линейная интерполяция между каждой из них вскоре будет включать острые углы в каждой из них, что обычно нежелательно. Вот где другие варианты вступают в силу.

Однако без дальнейшего знания предметной области невозможно с уверенностью утверждать, что одно решение лучше другого (для этого вам нужно будет знать, каково значение других точек, что не соответствует цели подгонки функции в первое место).

С другой стороны, и, возможно, более уместно для вашего вопроса, в «условиях регулярности» (читай: предположения : если мы знаем, что функция, например, гладкая), как линейная интерполяция, так и другие популярные решения могут быть доказаны как «разумные» приближения. Тем не менее: это требует допущений, и для этого у нас, как правило, нет статистики.


Это хороший ответ, и мой кандидат будет отмечен как ответ. Я понял, что для такого общего выбора нет статистического обоснования, верно?
Разработчик

На самом деле я верю, что нет ни одного, нет.
Ник Сэбб

2
Некоторая литература (включая конкурсы по интерполяции образцов известных наборов данных) частично подтверждает этот ответ, но не полностью. Можно многое узнать о пространственной корреляции данных с помощью статистического анализа данных без каких-либо «условий регулярности». Необходима модель данных как образец одной реализации случайного процесса вместе с (1) эргодической гипотезой и (в большинстве случаев) (2) некоторым предположением стационарности. В этих рамках интерполяция становится предсказанием ожидания, но допускаются даже недифференцируемые кривые.
whuber

1
@whuber: Я вышел из своей зоны комфорта здесь, но все, что после «условий регулярности» в вашем комментарии звучит как довольно солидное количество предположений (стационарность, скорее всего, равносильна условию регулярности, не так ли?). На самом деле, я думаю, что это будет зависеть от того, будет ли размер вашей выборки большим по сравнению с нарушениями в функциональной форме ... Можете ли вы дать ссылку на статью или тому подобное, где это не так?
Ник Сэбб

2
Ты ничего не можешь сделать без предположений, Ник! Но регулярность (например, плавность функции) не обязательна: ее можно вывести из данных, по крайней мере, по шкале, на которой выполняется выборка функции. (Стационарность - гораздо более мягкое предположение, чем гладкость.) Вы правы в том, что необходимы большие выборки, но в 2D можно многому научиться даже при 30-50 хорошо выбранных местах выборок. Литература большая; например, большинство вопросов математической геологии посвящены этому. Строгое представление см. В Пространственной статистике
whuber

0

Вы можете составить линейное уравнение для линии наилучшего соответствия (например, y = 0,4554x + 0,7525), однако это будет работать только при наличии помеченной оси. Однако это не даст вам точного ответа только наилучшим образом по отношению к другим пунктам.


Но регрессия не является интерполяцией .
Scortchi - Восстановить Монику

1
@ Scortchi Я считаю, что регрессия может быть понята как интерполяция. Однако предложение регрессии в качестве решения не дает ответа на вопрос, который просит нас объяснить, почему любой вид интерполяции оправдан (и косвенно предлагает нам описать предположения, необходимые для его обоснования).
whuber

@whuber: Спасибо. Я думал об интерполяции, по крайней мере в прототипе, как о соединении точек - stats.stackexchange.com/a/33662/17230 .
Scortchi - Восстановить Монику

@Scortchi Этот поток в первую очередь касается математической концепции интерполяции в таблице. В комментарии к его вопросу я указал на традиционное статистическое понимание интерполяции, которое немного отличается. Регрессия работает в обоих мирах: функция регрессии может служить в качестве математического интерполятора (для четко определенной функции, выбранной в таблице), а также статистического интерполятора (посредством статистических предсказаний значений случайного процесса, обусловленного конечное число значений, полученных из этого процесса).
whuber

1
@Cagdas Единственный способ идеально реконструировать функцию из конечных данных - это предоставить достаточно ограничений для функции, чтобы для нее был только один кандидат в зависимости от данных! В частности, учитывая количество точек данныхN и учитывая опоры функции (но не зависящие от ее значений на этих опорах), множество возможных функций должно быть не более чем конечномерным многообразием размерности N,
whuber
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.