Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!
Есть ли причина того, что я могу придумать, чтобы преобразовать данные с квадратным корнем? Я имею в виду, что я всегда наблюдаю, что R ^ 2 увеличивается. Но это, вероятно, только из-за центрирования данных! Любая мысль ценится!
Ответы:
В общем, параметрическая регрессия / GLM предполагают, что отношение между переменной и каждой переменной X является линейным, что остатки после подбора модели соответствуют нормальному распределению и что размер остатков остается примерно одинаковым на всем протяжении вдоль вашей подходящей линии (ей). Если ваши данные не соответствуют этим предположениям, преобразования могут помочь.
Должно быть интуитивно понятно, что если пропорционален X 2, то укоренение Y в квадрате линеаризует это соотношение, приводя к модели, которая лучше соответствует предположениям и объясняет большую дисперсию (имеет более высокий R 2 ). Квадратный корень Y также помогает, когда у вас есть проблема, что размер ваших остатков постепенно увеличивается по мере того, как ваши значения Xувеличение (т. е. разброс точек данных вокруг подобранной линии становится более заметным при перемещении по ней). Подумайте о форме функции квадратного корня: сначала она резко возрастает, но затем насыщается. Таким образом, применение преобразования квадратного корня раздувает меньшие числа, но стабилизирует большие. Таким образом, вы можете думать об этом как о перемещении небольших остатков при низких значениях сторону от выровненной линии и прижимании больших остатков при высоких значениях X к линии. (Это умственное сокращение, а не правильная математика!)
Как говорят Дмитрий и Окрам, это лишь одна из возможных трансформаций, которая поможет в определенных обстоятельствах, и такие инструменты, как формула Бокса-Кокса, могут помочь вам выбрать наиболее полезную. Я бы посоветовал вам привыкнуть всегда смотреть графики остатков на соответствие значениям (а также график нормальной вероятности или гистограммы остатков), когда вы подходите к модели. Вы обнаружите, что часто сможете увидеть из этого, какой вид преобразования поможет.
Однако это априори фиксированное значение может быть (и, вероятно, является) не оптимальным. В R вы можете рассмотреть функцию из car
библиотеки, powerTransform
которая помогает оценить оптимальное значение для преобразований Бокса-Кокса для каждой из переменных, участвующих в линейной регрессии, или любых данных, с которыми вы работаете (подробности см. В разделе example(powerTransform)
).
Когда переменная следует распределению Пуассона, результаты преобразования квадратного корня будут намного ближе к гауссову.
Матрица расстояний, рассчитанная с помощью Брея-Кертиса, обычно не является метрической для некоторых данных, что приводит к отрицательным собственным значениям. Одним из решений этой проблемы является ее преобразование (логарифмическое, квадратное или двойное квадратное).