Похоже, вы используете R
. Если это так, обратите внимание , что вы можете определить точки на диаграмме рассеяния с использованием ? Идентифицировать . Я думаю, что здесь происходит несколько вещей. Во-первых, у вас есть очень влиятельная точка на графике LN_RT_vol_in ~ LN_AT_vol_in
(выделенная) около (.2, 1,5). Скорее всего, это будет стандартизированный остаток около -3,7. Эффект этой точки будет состоять в том, чтобы сгладить линию регрессии, наклонив ее более горизонтально, чем резко восходящая линия, которую вы в противном случае получили бы. Результатом этого является то, что все ваши остатки будут повернуты против часовой стрелки относительно того места, где они в противном случае находились бы в пределах residual ~ predicted
графика (по крайней мере, если думать в терминах этого ковариата и игнорировать другой).
Тем не менее, видимая прямая линия остатков, которую вы видите, все равно будет там, поскольку они существуют где-то в трехмерном облаке ваших исходных данных. Их может быть трудно найти на любом из краевых участков. Вы можете использовать функцию Identif (), чтобы помочь, и вы также можете использовать пакет rgl для создания динамической трехмерной диаграммы рассеяния, которую вы можете свободно вращать с помощью мыши. Тем не менее, обратите внимание, что все остатки по прямой линии ниже 0 в их прогнозируемом значении и имеют остатки ниже 0 (т.е. они находятся ниже подогнанной линии регрессии); это дает вам подсказку, где искать. Снова глядя на ваш сюжетLN_RT_vol_in ~ LN_AT_vol_in
Думаю, я их увижу. Существует довольно прямое скопление точек, идущих по диагонали вниз и влево от (-.01, -1.00) у нижнего края облака точек в этом регионе. Я подозреваю, что это те вопросы, о которых идет речь.
Другими словами, остатки выглядят именно так, потому что они уже где-то в пространстве данных. По сути, это то, что предлагает @ttnphns, но я не думаю, что оно является постоянной величиной в любом из исходных измерений - это постоянная в измерении под углом к вашим исходным осям. Я также согласен с @MichaelChernick, что эта очевидная прямолинейность в остаточном графике, вероятно, безвредна, но ваши данные на самом деле не очень нормальны. Однако они несколько нормальны, и у вас, кажется, имеется приличное количество данных, так что CLT может охватить вас, но вы можете захотеть запустить его на всякий случай. Наконец, я бы волновался, что этот «выброс» влияет на ваши результаты; надежный подход , вероятно , заслуживает.