Причина, по которой графики повсеместно используются для введения простой регрессии - реакции, предсказываемой одним предиктором, - в том, что они помогают пониманию.
Тем не менее, я верю, что могу дать что-то из аромата, которое поможет понять, что происходит. В этом я в основном сосредоточусь на попытках передать некоторые из понимания, которое они дают, что может помочь с некоторыми из других аспектов, с которыми вы обычно сталкиваетесь при чтении о регрессии. Так что этот ответ в основном будет касаться определенного аспекта вашего поста.
Представьте, что вы сидите перед большим прямоугольным столом, например обычным офисным столом, один полный размах руки (возможно, 1,8 метра), а может быть, и вдвое меньше.
Вы сидите перед столом в обычном положении, в середине одной длинной стороны. На этом столе большое количество гвоздей (с довольно гладкими головками) было забито в верхнюю поверхность, так что каждый из них немного приподнимается (достаточно, чтобы чувствовать, где они находятся, и достаточно, чтобы привязать к ним веревку или прикрепить резинку ).
Эти гвозди находятся на разных расстояниях от вашего края стола таким образом, что по направлению к одному концу (скажем, к левому концу) они, как правило, ближе к вашему краю стола, а затем, когда вы двигаетесь к другому концу, головки гвоздя как правило, подальше от вашего края.
Далее представьте, что было бы полезно иметь представление о том, как далеко в среднем гвозди находятся от вашего края в любой заданной позиции вдоль вашего края.
Выберите какое-нибудь место вдоль края стола и поместите туда свою руку, затем протяните руку прямо через стол, осторожно перетаскивая руку прямо назад к себе, затем снова в сторону, перемещая руку назад и вперед по головкам гвоздя. Вы сталкиваетесь с несколькими дюжинами ударов от этих гвоздей - те, которые находятся в пределах этой узкой ширины вашей руки (когда она движется прямо от вашего края, на постоянном расстоянии от левого конца стола), разрез или полоса, шириной около десяти сантиметров ,
Идея состоит в том, чтобы определить среднее расстояние до гвоздя от вашего края стола в этой маленькой секции. Интуитивно понятно, что это всего лишь середина ударов, которые мы ударили, но если бы мы измерили каждое расстояние до гвоздя в этой части стола шириной в руку, мы могли бы легко вычислить эти средние значения.
Например, мы могли бы использовать Т-квадрат , голова которого скользит по краю стола, а стержень которого движется к другой стороне стола, но чуть выше стола, поэтому мы не ударяем гвоздями, когда он скользит влево или правильно - проходя данный гвоздь, мы можем получить его расстояние вдоль стержня Т-квадрата.
Таким образом, в последовательности мест вдоль нашего края мы повторяем это упражнение, обнаруживая все гвозди в полосе шириной руки, идущей к нам и от нас, и определяя их среднее расстояние. Возможно, мы разделим стол на полосы шириной руки вдоль нашего края (чтобы каждый гвоздь встречался ровно в одной полосе).
Теперь представьте, что, скажем, 21 такая полоса, первая на левом краю и последняя на правом краю. Средства удаляются от нашего стола, когда мы продвигаемся по полосам.
Эти средства образуют простую непараметрическую регрессионную оценку ожидания y (нашего расстояния), заданного x (расстояние вдоль нашего края от левого конца), то есть E (y | x). В частности, это бинарная непараметрическая оценка регрессии, также называемая регрессионной
Если эти полоски означают регулярное увеличение, то есть среднее значение, как правило, увеличивается примерно на то же количество на полоску, как мы перемещались по полосам, тогда мы могли бы лучше оценить нашу функцию регрессии, предполагая, что ожидаемое значение y было линейным функция х - то есть, что ожидаемое значение у данного х было константой плюс кратное х. Здесь константа представляет, где гвозди имеют тенденцию быть, когда мы в точке х равен нулю (часто мы можем поместить это в крайний левый край, но это не обязательно должно быть), а конкретное кратное х является тем, насколько быстро в среднем среднее значение меняется, когда мы движемся на один сантиметр (скажем) вправо.
Но как найти такую линейную функцию?
Представьте, что мы наматываем одну резиновую полосу на каждую головку гвоздя и прикрепляем каждую к длинной тонкой палочке, которая лежит чуть выше стола, на вершине гвоздя, так, чтобы она лежала где-то рядом с «серединой» каждой полоски, которой мы были за.
Мы прикрепляем ленты таким образом, чтобы они растягивались только в направлении к нам и от нас (не влево или вправо) - влево, чтобы они потянули так, чтобы направление растяжения было направлено палкой под прямым углом, но здесь мы предотвращаем это, так что их направление растяжения остается только в направлениях к нашему краю стола или от него. Теперь мы позволяем палочке оседать, когда полосы тянут ее к каждому гвоздю, с более удаленными гвоздями (с более растянутыми резиновыми полосами), тянущими соответственно сильнее, чем гвозди рядом с палкой.
Тогда объединенный результат всех полос, натягивающих палку, будет (в идеале, по крайней мере) тянуть палку, чтобы минимизировать сумму квадратов длин растянутых резиновых полос; в этом направлении непосредственно через стол расстояние от нашего края стола до палки в любой заданной позиции x будет нашей оценкой ожидаемого значения y для x.
По сути, это оценка линейной регрессии.
Теперь представьте, что вместо гвоздей у нас есть большое количество фруктов (например, маленьких яблок), свисающих с большого дерева, и мы хотим найти среднее расстояние между фруктами над землей, которое зависит от положения на земле. Представьте себе, что в этом случае высота над землей увеличивается по мере того, как мы идем вперед, и немного больше, когда мы движемся вправо, снова в обычном порядке, поэтому каждый шаг вперед обычно меняет среднюю высоту примерно на одну и ту же величину, а каждый шаг к право также изменит среднее значение примерно на постоянную величину (но эта величина изменения среднего в шаговом праве отличается от величины изменения шага вперед).
Если мы минимизируем сумму квадратов вертикальных расстояний от плодов до тонкого плоского листа (возможно, тонкого листа очень жесткого пластика), чтобы выяснить, как изменяется средняя высота при движении вперед или вправо, это будет линейная регрессия с двумя предикторами - множественная регрессия.
Это только два случая, которые графики могут помочь понять (они могут быстро показать то, что я только что подробно описал, но, надеюсь, вы знаете, есть основа для концептуализации тех же идей). Помимо этих двух самых простых случаев, у нас остается только математика.
Теперь возьмите пример цены вашего дома; Вы можете изобразить площадь каждого дома на расстоянии вдоль вашего края стола - представить наибольший размер дома как позицию рядом с правым краем, каждый другой размер дома будет находиться на некотором расстоянии слева, где определенное количество сантиметров будет представлять некоторое количество квадратных метров. Теперь расстояние представляет цену продажи. Представьте самый дорогой дом как какое-то определенное расстояние около самого дальнего края стола (как всегда, край, самый дальний от вашего стула), а каждый смещенный сантиметр будет представлять собой некоторое количество риалов.
А пока представьте, что мы выбрали представление так, чтобы левый край стола соответствовал нулевой площади дома, а ближний край - цене дома 0. Затем мы вбиваем гвоздь для каждого дома.
У нас, вероятно, не будет никаких гвоздей около левого края нашего края (они могут быть в основном вправо и от нас), потому что это не обязательно хороший выбор масштаба, но ваш выбор модели без перехватов делает это лучший способ обсудить это.
Теперь в вашей модели вы заставляете палку проходить через петлю веревки в левом углу ближнего края стола - таким образом вынуждаете подобранную модель иметь нулевую цену для нулевой области, что может показаться естественным - но представьте, если есть некоторые довольно постоянные компоненты цены, которые влияли на каждую продажу. Тогда имеет смысл иметь перехват, отличный от нуля.
В любом случае, с добавлением этой петли, то же упражнение с резинкой, что и раньше, найдет нашу оценку методом наименьших квадратов линии.