Вопросы с тегом «data-transformation»

Математическое переопределение, часто нелинейное, значений данных. Данные часто преобразуются либо для соответствия допущениям статистической модели, либо для того, чтобы сделать результаты анализа более понятными.

12
Как мне преобразовать неотрицательные данные, включая нули?
Если у меня сильно искажены положительные данные, я часто беру логи. Но что мне делать с сильно искаженными неотрицательными данными, которые содержат нули? Я видел два использованных преобразования: журнал( х + 1 )log⁡(x+1)\log(x+1) который имеет аккуратную особенность, которая 0 отображается на 0. журнал( х + с )log⁡(x+c)\log(x+c) где c либо …


2
Когда (и почему) вы должны взять журнал распределения (чисел)?
Скажем, у меня есть некоторые исторические данные, например, прошлые цены на акции, колебания цен на авиабилеты, прошлые финансовые данные компании ... Теперь кто-то (или какая-то формула) приходит и говорит «давайте возьмем / используем журнал дистрибутива», и вот куда я иду ПОЧЕМУ ? Вопросов: ПОЧЕМУ в первую очередь стоит взять журнал …

8
В линейной регрессии, когда уместно использовать лог независимой переменной вместо фактических значений?
Я ищу лучшее распределение для рассматриваемой независимой переменной, или чтобы уменьшить влияние выбросов или что-то еще?

1
Почему преобразование квадратного корня рекомендуется для данных подсчета?
Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является канонической ссылкой . Это похоже на …

5
Какое маленькое количество должно быть добавлено к x, чтобы избежать взятия нуля?
Я проанализировал свои данные такими, какие они есть. Теперь я хочу посмотреть на мои анализы после регистрации всех переменных. Многие переменные содержат много нулей. Поэтому я добавляю небольшое количество, чтобы избежать взятия нулевого журнала. Пока что я добавил 10 ^ -10, без какого-либо обоснования, просто потому, что я чувствовал, что …

8
Имеет ли смысл когда-либо рассматривать категориальные данные как непрерывные?
Отвечая на этот вопрос о дискретных и непрерывных данных, я уверенно утверждал, что редко имеет смысл рассматривать категориальные данные как непрерывные. На первый взгляд это кажется само собой разумеющимся, но интуиция часто является плохим руководством для статистики, или, по крайней мере, моим. Так что теперь я задаюсь вопросом: это правда? …

3
Когда подходят логарифмические шкалы?
Я читал, что использование логарифмических масштабов при построении графиков / графиков целесообразно в определенных обстоятельствах, например, по оси Y в диаграмме временных рядов. Тем не менее, я не смог найти однозначного объяснения, почему это так, или когда это было бы уместно. Пожалуйста, имейте в виду, что я не статистик, поэтому …

3
Бокс-Кокса как преобразование для независимых переменных?
Существует ли преобразование типа Бокса-Кокса для независимых переменных? То есть преобразование, которое оптимизирует переменную так, чтобы она более подходила для линейной модели?Иксxxy~f(x) Если да, есть ли функция для выполнения этого R?

1
Горячее против фиктивного кодирования в Scikit-Learn
Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых имеет n значений. Одно горячее кодирование заканчивается переменными kn , а …

1
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?
Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я преобразую поездный набор и использую вычисления на тестовом наборе? например (trainData …

4
Нормализация против масштабирования
В чем разница между данными «нормализация» и данными «масштабирование»? До сих пор я думал, что оба термина относятся к одному и тому же процессу, но теперь я понимаю, что есть нечто большее, чего я не знаю / не понимаю. Также, если есть разница между нормализацией и масштабированием, когда мы должны …

3
Интерпретация логарифмически преобразованного предиктора и / или ответа
Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

1
Регрессия: Преобразование переменных
При преобразовании переменных, вы должны использовать все те же преобразования? Например, могу ли я выбрать по-разному преобразованные переменные, как в: Пусть - возраст, стаж работы, стаж проживания и доход.Икс1, х2, х3x1,x2,x3x_1,x_2,x_3 Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3) Или вы должны соответствовать своим преобразованиям и использовать все то же самое? …

1
Альтернативы одностороннему ANOVA для гетероскедастических данных
У меня есть данные от 3 групп биомассы водорослей ( , , ), которые содержат неравные размеры выборки ( , , ), и я хотел бы сравнить, если эти группы принадлежат к одной популяции.B C n A = 15 n B = 13 n C = 12AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Односторонний ANOVA определенно …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.