Вопросы с тегом «data-transformation»

Математическое переопределение, часто нелинейное, значений данных. Данные часто преобразуются либо для соответствия допущениям статистической модели, либо для того, чтобы сделать результаты анализа более понятными.

2
Как выбрать лучшее преобразование для достижения линейности?
Я хочу сделать множественную линейную регрессию, а затем предсказать новые значения с небольшой экстраполяцией. У меня есть переменная ответа в диапазоне от -2 до +7 и три предиктора (диапазоны от +10 до +200). Распределение почти нормальное. Но отношения между ответом и предикторами не являются линейными, я вижу кривые на графиках. …

3
Линейная модель Гетероскедастичность
У меня есть следующая линейная модель: журнал( Y+ 1 )log⁡(Y+1)\log(Y + 1) > summary(Y) Min. :-0.0005647 1st Qu.: 0.0001066 Median : 0.0003060 Mean : 0.0004617 3rd Qu.: 0.0006333 Max. : 0.0105730 NA's :30.0000000 Как я могу преобразовать переменные, чтобы улучшить ошибку и дисперсию предсказания, особенно для крайних правых значений?

4
Как интерпретировать логарифмически преобразованные коэффициенты в линейной регрессии?
Моя ситуация такова: У меня есть 1 непрерывная зависимая и 1 непрерывная предикторная переменная, которую я логарифмически преобразовал, чтобы нормализовать их остатки для простой линейной регрессии. Буду признателен за любую помощь в том, как я могу связать эти преобразованные переменные с их исходным контекстом. Я хочу использовать линейную регрессию, чтобы …

1
Когда следует преобразовывать переменные предиктора при выполнении множественной регрессии?
В настоящее время я беру свой первый примененный класс линейной регрессии на уровне выпускника, и я борюсь с преобразованиями предикторных переменных в множественной линейной регрессии. Текст, который я использую, Катнер и др. «Прикладные линейные статистические модели», похоже, не охватывает вопрос, который у меня возникает. (кроме предположения, что существует метод Бокса-Кокса …

2
Можно ли напрямую читать столбцы CSV как категориальные данные?
Мне нужно проанализировать с помощью R данные медицинского обследования (с более 100 кодированными столбцами), которое приходит в CSV. Я буду использовать погремушку для некоторого начального анализа, но за кадром это все еще R. Если я читаю файл .csv () , столбцы с числовыми кодами рассматриваются как числовые данные. Я знаю, …

5
Какие другие нормализующие преобразования обычно используются помимо общих, таких как квадратный корень, лог и т. Д.?
При анализе результатов тестов (например, в области образования или психологии) общие методы анализа часто предполагают, что данные обычно распределяются. Однако, возможно, чаще, чем нет, баллы имеют тенденцию иногда сильно отличаться от нормальных. Я знаком с некоторыми основными нормализующими преобразованиями, такими как: квадратные корни, логарифмы, обратные преобразования для уменьшения положительного перекоса, …

1
Почему мы не можем использовать
Представьте, что у нас есть модель линейной регрессии с зависимой переменной . Мы находим его . Теперь мы делаем другую регрессию, но на этот раз для , и аналогично находим ее . Мне сказали, что я не могу сравнить оба чтобы увидеть, какая модель лучше подходит. Это почему? Причиной для …

2
Преобразовать распределение Пуассона в нормальное распределение
Прежде всего, я имею опыт работы в области компьютерных наук, но сейчас я пытаюсь научить себя основам статистики. У меня есть некоторые данные, которые я думаю, имеет распределение Пуассона У меня есть два вопроса: Это распределение Пуассона? Во-вторых, возможно ли преобразовать это в нормальное распределение? Любая помощь будет оценена. Спасибо …

1
Если квадрат временного ряда является стационарным, является ли исходный временной ряд стационарным?
Я нашел решение, которое гласило, что если квадрат временного ряда является стационарным, то же самое происходит и с исходным временным рядом, и наоборот. Однако я не могу доказать это, у кого-то есть идея, если это правда, и если это как вывести это?

2
Преобразование статистики заказов
X1,...,XnX1,...,XnX_1, ... , X_nY1,...,YnY1,...,YnY_1, ..., Y_nU(0,a)U(0,a)U(0,a)Zn=nlogmax(Y(n),X(n))min(Y(n),X(n))Zn=nlog⁡max(Y(n),X(n))min(Y(n),X(n))Z_n= n\log\frac{\max(Y_{(n)},X_{(n)})}{\min(Y_{(n)},X_{(n)})}Exp(1)Exp(1)\text{Exp}(1) Я начал эту проблему, установив Тогда будет распределяться как а будет распределяться как Плотности можно легко найти как и{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}{X1,...,Xn,Y1,...Yn}={Z1,...,Zn}\{X_1,...,X_n,Y_1,...Y_n\} = \{Z_1,...,Z_n\}max(Yn,Xn)=Z(2n)max(Yn,Xn)=Z(2n)\max(Y_n,X_n)= Z_{(2n)}мин(Yn,Xn)=Z(1)1-(1-z( зa)2 н(Za)2N(\frac{z}{a})^{2n}мин ( YN, XN) = Z( 1 )мин(YN,ИксN)знак равноZ(1)\min(Y_n,X_n)= Z_{(1)}fZ 1 (z)=(2n)(1-z1−(1−za)2n1−(1−za)2n1 - (1 - \frac{z}{a})^{2n} fZ ( 2 n …

2
Результаты регрессии имеют неожиданную верхнюю границу
Я пытаюсь предсказать балансовую оценку и попробовал несколько различных методов регрессии. Одна вещь, которую я заметил, заключается в том, что прогнозируемые значения имеют некоторую верхнюю границу. То есть фактический баланс находится в , но мои прогнозы достигают вершины около . На следующем графике показан фактический баланс против прогнозируемого (прогнозируется с …

1
Стандартизация функций при использовании LDA в качестве этапа предварительной обработки
Если для уменьшения размерности (или преобразования после уменьшения размерности с помощью PCA) используется мультиклассовый линейный дискриминантный анализ (или я иногда также читаю множественный дискриминантный анализ), я понимаю, что в целом «нормализация по Z-шкале» (или стандартизация) Функции не будут необходимы, даже если они измерены в совершенно разных масштабах, правильно? Поскольку LDA …

2
Помогите мне приспособить эту нелинейную множественную регрессию, которая бросила вызов всем предыдущим усилиям
РЕДАКТИРОВАТЬ: С момента создания этого поста, я добавил еще один пост здесь . Краткое содержание текста ниже: я работаю над моделью и пробовал линейную регрессию, преобразования Бокса-Кокса и GAM, но не добился большого прогресса Используя R, я в настоящее время работаю над моделью, чтобы предсказать успех игроков бейсбола низшей лиги …

1
Нахождение распределения статистики
Учусь на тест. Не могу ответить на этот. Пусть iid случайных величин. определятьX1,i,X2,i,X3,i,i=1,…,nX1,i,X2,i,X3,i,i=1,…,nX_{1,i},X_{2,i},X_{3,i}, i=1,\ldots,nN(0,1)N(0,1)\mathcal{N}(0,1) Wi=(X1,i+X2,iX3,i)/1+X23,i−−−−−−−√,i=1,…,nWi=(X1,i+X2,iX3,i)/1+X3,i2,i=1,…,nW_i = (X_{1,i} + X_{2,i}X_{3,i})/\sqrt{1 + X_{3,i}^2}, i = 1, \ldots, n , и ,W¯¯¯¯¯n=n−1∑ni=1WiW¯n=n−1∑i=1nWi\overline{W}_n = n^{-1}\sum_{i=1}^nW_i S2n=(n−1)−1∑ni=1(Wi−W¯¯¯¯¯n)2,n≥2.Sn2=(n−1)−1∑i=1n(Wi−W¯n)2,n≥2.S_n^2 = (n-1)^{-1}\sum_{i=1}^n(W_i - \overline{W}_n)^2, n \ge 2. Каково распределение , ?W¯¯¯¯¯nW¯n\overline{W}_nS2nSn2S_n^2 Как получить представление о лучшем методе, который …

4
Коробка Кокса Преобразования для регрессии
Я пытаюсь согласовать линейную модель с некоторыми данными только одним предиктором (скажем, (x, y)). Данные таковы, что для малых значений x значения y обеспечивают плотное прилегание к прямой линии, однако при увеличении значений x значения y становятся более изменчивыми. Вот пример таких данных (R код) y = c(3.2,3.4,3.5,3.8,4.2,5.5,4.5,6.8,7.4,5.9) x = …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.