Экстраполяция v. Интерполяция


28

В чем разница между экстраполяцией и интерполяцией, и как наиболее точно использовать эти термины?

Например, я видел утверждение в документе, использующее интерполяцию как:

«Процедура интерполирует форму оценочной функции между точками бина»

Предложение, которое использует как экстраполяцию, так и интерполяцию, например:

Предыдущий шаг, где мы экстраполировали интерполированную функцию, используя метод Kernel, на левый и правый температурные хвосты.

Может ли кто-нибудь предоставить ясный и простой способ их различения и руководство, как правильно использовать эти термины на примере?




@ usεr11852 Я думаю, что эти два вопроса охватывают схожую основу, но различаются, потому что этот вопрос требует контраста с интерполяцией.
mkt - Восстановить Монику

Было ли это различие между интерполяцией и экстраполяцией строго формализовано общепринятым способом (например, с помощью выпуклых оболочек) или эти термины все еще подлежат человеческому суждению и интерпретации?
Ник Алджер

Ответы:


51

Чтобы добавить наглядное объяснение этому: давайте рассмотрим несколько моментов, которые вы планируете смоделировать.

введите описание изображения здесь

Они выглядят так, как будто их можно было бы описать прямой линией, поэтому вы подгоняете к ним линейную регрессию:

введите описание изображения здесь

Эта линия регрессии позволяет вам как интерполировать (генерировать ожидаемые значения между вашими точками данных), так и экстраполировать (генерировать ожидаемые значения вне диапазона ваших точек данных). Я выделил экстраполяцию красным цветом и самый большой регион интерполяции синим цветом. Чтобы было ясно, даже крошечные области между точками интерполируются, но я выделяю только большую.

введите описание изображения здесь

Почему экстраполяция обычно вызывает больше беспокойства? Потому что вы, как правило, гораздо менее уверены в форме отношений за пределами диапазона ваших данных. Подумайте, что может произойти, если вы соберете еще несколько точек данных (пустые кружки):

введите описание изображения здесь

Оказывается, что отношения не были хорошо отражены с вашими гипотетическими отношениями в конце концов. Прогнозы в экстраполированной области далеко. Даже если вы угадали точную функцию, которая правильно описывает эти нелинейные отношения, ваши данные не охватили достаточный диапазон, чтобы вы могли хорошо уловить нелинейность, так что вы, возможно, все еще были довольно далеко. Обратите внимание, что это проблема не только для линейной регрессии, но и для любых отношений вообще - поэтому экстраполяция считается опасной.

Прогнозы в интерполированной области также неверны из-за отсутствия нелинейности в подгонке, но их ошибка прогнозирования намного ниже. Нет никакой гарантии, что между вашими точками (т. Е. Областью интерполяции) не будет неожиданной связи, но, как правило, она менее вероятна.


Я добавлю, что экстраполяция - это не всегда ужасная идея - если вы экстраполируете чуть-чуть за пределы диапазона ваших данных, вы, вероятно, не ошибетесь (хотя это возможно!). Древние, у которых не было хорошей научной модели мира, не ошиблись бы, если бы прогнозировали, что солнце снова взойдет на следующий день и на следующий день после этого (хотя когда-нибудь в будущем даже это не удастся).

2

Редактируйте на основе комментариев: будь то интерполяция или экстраполяция, всегда лучше иметь некоторую теорию, чтобы оправдать ожидания. Если необходимо выполнить моделирование без теории , риск от интерполяции обычно меньше, чем от экстраполяции. Тем не менее, по мере увеличения разрыва между точками данных интерполяция также становится все более и более чреватой риском.


5
Мне нравится ваш ответ, и я считаю, что он дополняет мой и ни в коем случае не конкурирует. Но маленький момент, важный для некоторых читателей, заключается в том, что красному и зеленому довольно сложно различить визуально.
Ник Кокс

1
@NickCox Хороший вопрос, спасибо, что подняли это - я теперь изменил цветовую схему.
mkt - Восстановить Монику

1
@leftaroundabout Моя точка зрения заключалась в том, что модель кривой Килинга настолько сильна, что экстраполяции, игнорирующие экономику и физику, все еще достаточно точны в масштабе от года до нескольких десятилетий. Я отметил «последние несколько десятилетий» именно потому, что это временная шкала, на которой у нас были измерения с высоким разрешением. Это пример, когда экстраполяция не привела бы вас к серьезным ошибкам, и я думаю, это стоит отметить. Я думаю, что потребовалось бы преднамеренное неверное прочтение, чтобы утверждать, что этот ответ защищает экстраполяцию без теории.
mkt - Восстановить Монику

1
В связи с этим я дал «пример Турции» Талеба в этом ответе как предупреждение для людей, которые используют экстраполяцию.
JM не статистика

1
Экстраполяция особенно проблематична, когда у вас есть переоснащение; например, при использовании полиномиальной модели значительный выход за пределы набора данных приведет к взрыву члена наивысшего порядка.
накопление

21

По сути, интерполяция - это операция в рамках поддержки данных или между существующими известными точками данных; экстраполяция выходит за рамки поддержки данных . Иначе говоря, критерий: где пропущенные значения?

Одна из причин такого различия состоит в том, что экстраполяцию обычно труднее делать хорошо, и даже опасно, статистически, если не практически. Это не всегда так: например, речные паводки могут сокрушить средства измерения расхода или даже ступени (вертикальный уровень), разрывая пробел в измеренной записи. В этих обстоятельствах интерполяция разряда или стадии также затруднена, и пребывание в поддержке данных не сильно помогает.

В долгосрочной перспективе качественные изменения обычно заменяют количественные изменения. Около 1900 года существовала большая обеспокоенность тем, что рост конного движения затопит города с преимущественно нежелательными экскрементами. Экспонента в экскрементах была заменена двигателем внутреннего сгорания и его различными экспонентами.

Тренд есть тренд, это тренд,
но вопрос в том, согнется ли он?
Изменит ли он свой курс
Неожиданной силой
И придет ли преждевременный конец?

- Александр Кернкросс

Кернкросс, А. 1969. Экономическое прогнозирование. Экономический журнал , 79: 797-812. doi: 10.2307 / 2229792 (цитата на с.797)


1
Хороший ответ. Интерпретация = для сглаживания внутри, экстраполяция = для сглаживания.
Ядерный Ван

1
ИМО это правильный ответ. «Поддержка данных» является ключевым моментом; даже если точка, которую вы хотите достичь, находится между двумя измеренными значениями, она все равно может находиться за пределами поддержки данных. Например, если у вас есть данные о благосостоянии людей древнеримской эпохи и современности, но не между ними, то интерполяция в средние века будет очень проблематичной. Я бы назвал это экстраполяцией. OTOH, если у вас есть данные, разбросанные редко, но равномерно в течение всего промежутка времени, тогда интерполяция к определенному году гораздо более вероятна.
оставил около

1
@leftaroundabout То, что интерполяция может быть выполнена из-за огромного разрыва в данных, не делает его экстраполяцией. Вы ошибаетесь по поводу целесообразности процедуры для самой процедуры. Иногда интерполяция тоже плохая идея.
mkt - Восстановить Монику

1
@mkt: Я расскажу о том, что его первый пример можно считать экстраполяцией, поскольку интерполяция и экстраполяция не так хорошо определены, как нам хотелось бы думать. Простое преобразование переменных может превратить интерполяцию в экстраполяцию. В его примере использование чего-то вроде функций расстояния вместо необработанного времени означает, что в то время как в необработанном времени мы интерполируем, в расстояниях мы экстраполируем ... и использование необработанных времен, вероятно, было бы плохой идеей.
Клифф AB

1
Это мой ответ. Я не чувствую в этом необходимости. Широкое различие между интерполяцией и экстраполяцией не исключает того, что будет немного трудно решить, что предпринимается. Если у вас большая дыра в середине пространства данных, маркировка может пойти в любую сторону. Как указывало на некоторые шутки, тот факт, что конец дня и начало ночи сливаются друг с другом, не делает различие между днем ​​и ночью бессмысленным или бесполезным.
Ник Кокс

12

TL; DR версия:

  • Inter поляция имеет место между существующими точками данных.
  • Extra поляция происходит за их пределами.

Мнемоника: при интерполяции => в сторону.

FWIW: префикс промежуточный между , и заменитель за его пределами . Подумайте также о межгосударственных магистралях, которые проходят между штатами, или о внеземных землях из-за пределов нашей планеты.


1

Пример:

Исследование: хотите подобрать простую линейную регрессию по росту к возрасту для девочек в возрасте 6-15 лет. Размер выборки составляет 100, возраст рассчитывается по (дата измерения - дата рождения) /365,25.

После сбора данных модель подгоняется и получает оценку пересечения b0 и наклона b1. это означает, что мы имеем E (рост | возраст) = b0 + b1 * возраст.

Если вам нужен средний рост для 13 лет, вы обнаружите, что в вашей выборке из 100 девочек нет 13-летней девочки, одной из них 12,83 года, а одной 13,24.

Теперь вы включаете возраст = 13 в формулу E (рост | возраст) = b0 + b1 * возраст. Это называется интерполяцией, потому что 13-летний возраст охватывает диапазон ваших данных, используемых для соответствия модели.

Если вы хотите получить средний рост для 30-летнего возраста и использовать эту формулу, это называется экстраполяцией, поскольку 30-летний возраст выходит за пределы возраста, указанного в ваших данных.

Если модель имеет несколько ковариат, вам нужно быть осторожным, потому что трудно нарисовать границу, охватываемую данными.

В статистике мы не выступаем за экстраполяцию.


«В статистике мы не выступаем за экстраполяцию». Большая часть анализа временных рядов делает именно это ...
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.