Чтобы добавить наглядное объяснение этому: давайте рассмотрим несколько моментов, которые вы планируете смоделировать.
Они выглядят так, как будто их можно было бы описать прямой линией, поэтому вы подгоняете к ним линейную регрессию:
Эта линия регрессии позволяет вам как интерполировать (генерировать ожидаемые значения между вашими точками данных), так и экстраполировать (генерировать ожидаемые значения вне диапазона ваших точек данных). Я выделил экстраполяцию красным цветом и самый большой регион интерполяции синим цветом. Чтобы было ясно, даже крошечные области между точками интерполируются, но я выделяю только большую.
Почему экстраполяция обычно вызывает больше беспокойства? Потому что вы, как правило, гораздо менее уверены в форме отношений за пределами диапазона ваших данных. Подумайте, что может произойти, если вы соберете еще несколько точек данных (пустые кружки):
Оказывается, что отношения не были хорошо отражены с вашими гипотетическими отношениями в конце концов. Прогнозы в экстраполированной области далеко. Даже если вы угадали точную функцию, которая правильно описывает эти нелинейные отношения, ваши данные не охватили достаточный диапазон, чтобы вы могли хорошо уловить нелинейность, так что вы, возможно, все еще были довольно далеко. Обратите внимание, что это проблема не только для линейной регрессии, но и для любых отношений вообще - поэтому экстраполяция считается опасной.
Прогнозы в интерполированной области также неверны из-за отсутствия нелинейности в подгонке, но их ошибка прогнозирования намного ниже. Нет никакой гарантии, что между вашими точками (т. Е. Областью интерполяции) не будет неожиданной связи, но, как правило, она менее вероятна.
Я добавлю, что экстраполяция - это не всегда ужасная идея - если вы экстраполируете чуть-чуть за пределы диапазона ваших данных, вы, вероятно, не ошибетесь (хотя это возможно!). Древние, у которых не было хорошей научной модели мира, не ошиблись бы, если бы прогнозировали, что солнце снова взойдет на следующий день и на следующий день после этого (хотя когда-нибудь в будущем даже это не удастся).
2
Редактируйте на основе комментариев: будь то интерполяция или экстраполяция, всегда лучше иметь некоторую теорию, чтобы оправдать ожидания. Если необходимо выполнить моделирование без теории , риск от интерполяции обычно меньше, чем от экстраполяции. Тем не менее, по мере увеличения разрыва между точками данных интерполяция также становится все более и более чреватой риском.