Я думал, что понял эту проблему, но теперь я не так уверен, и я хотел бы проверить с другими, прежде чем продолжить.
У меня есть две переменные, X
и Y
. Y
является отношением, и оно не ограничено 0 и 1 и обычно нормально распределено. X
является пропорцией, и он ограничен 0 и 1 (он работает от 0,0 до 0,6). Когда я запускаю линейную регрессию , Y ~ X
и я считаю, что X
и Y
существенно линейно связаны. Все идет нормально.
Но потом я исследовать дальше , и я начинаю думать , что , может быть , X
и Y
отношения «s может быть более криволинейным по сравнению с линейными. Для меня это выглядит как отношения X
и Y
может быть ближе к Y ~ log(X)
, Y ~ sqrt(X)
или Y ~ X + X^2
, или что - то в этом роде. У меня есть эмпирические основания полагать, что отношения могут быть криволинейными, но нет оснований полагать, что любое нелинейное отношение может быть лучше, чем любое другое.
У меня есть пара связанных вопросов здесь. Во-первых, моя X
переменная принимает четыре значения: 0, 0,2, 0,4 и 0,6. Когда я записываю или преобразовываю квадратные корни этих данных, расстояние между этими значениями искажается, так что значения 0 находятся намного дальше от всех остальных. Из-за отсутствия лучшего способа спросить, это то, что я хочу? Я предполагаю, что это не так, потому что я получаю очень разные результаты в зависимости от уровня искажения, которое я принимаю. Если это не то, чего я хочу, как мне этого избежать?
Во-вторых, чтобы преобразовать эти данные в лог, я должен добавить некоторую сумму к каждому X
значению, потому что вы не можете взять журнал 0. Когда я добавляю очень маленькую сумму, скажем, 0,001, я получаю очень существенное искажение. Когда я добавляю большее количество, скажем 1, я получаю очень мало искажений. Есть ли «правильное» количество для добавления к X
переменной? Или неуместно добавлять что-либо в X
переменную вместо выбора альтернативного преобразования (например, корень куба) или модели (например, логистическая регрессия)?
То, что мне удалось найти там по этому вопросу, заставляет меня чувствовать, что я должен действовать осторожно. Для других пользователей R этот код будет создавать некоторые данные с такой же структурой, как у меня.
X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)