Я думал, что понял эту проблему, но теперь я не так уверен, и я хотел бы проверить с другими, прежде чем продолжить.
У меня есть две переменные, Xи Y. Yявляется отношением, и оно не ограничено 0 и 1 и обычно нормально распределено. Xявляется пропорцией, и он ограничен 0 и 1 (он работает от 0,0 до 0,6). Когда я запускаю линейную регрессию , Y ~ Xи я считаю, что Xи Yсущественно линейно связаны. Все идет нормально.
Но потом я исследовать дальше , и я начинаю думать , что , может быть , Xи Yотношения «s может быть более криволинейным по сравнению с линейными. Для меня это выглядит как отношения Xи Yможет быть ближе к Y ~ log(X), Y ~ sqrt(X)или Y ~ X + X^2, или что - то в этом роде. У меня есть эмпирические основания полагать, что отношения могут быть криволинейными, но нет оснований полагать, что любое нелинейное отношение может быть лучше, чем любое другое.
У меня есть пара связанных вопросов здесь. Во-первых, моя Xпеременная принимает четыре значения: 0, 0,2, 0,4 и 0,6. Когда я записываю или преобразовываю квадратные корни этих данных, расстояние между этими значениями искажается, так что значения 0 находятся намного дальше от всех остальных. Из-за отсутствия лучшего способа спросить, это то, что я хочу? Я предполагаю, что это не так, потому что я получаю очень разные результаты в зависимости от уровня искажения, которое я принимаю. Если это не то, чего я хочу, как мне этого избежать?
Во-вторых, чтобы преобразовать эти данные в лог, я должен добавить некоторую сумму к каждому Xзначению, потому что вы не можете взять журнал 0. Когда я добавляю очень маленькую сумму, скажем, 0,001, я получаю очень существенное искажение. Когда я добавляю большее количество, скажем 1, я получаю очень мало искажений. Есть ли «правильное» количество для добавления к Xпеременной? Или неуместно добавлять что-либо в Xпеременную вместо выбора альтернативного преобразования (например, корень куба) или модели (например, логистическая регрессия)?
То, что мне удалось найти там по этому вопросу, заставляет меня чувствовать, что я должен действовать осторожно. Для других пользователей R этот код будет создавать некоторые данные с такой же структурой, как у меня.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

