Статистика и большие данные r

3

Каков наилучший способ изменить / реструктурировать данные?

Я научный сотрудник лаборатории (волонтер). Мне и небольшой группе было поручено провести анализ данных для набора данных, извлеченных из большого исследования. К сожалению, данные были собраны с помощью какого-то онлайн-приложения, и оно не было запрограммировано на вывод данных в наиболее удобной форме. Картинки ниже иллюстрируют основную проблему. Мне сказали, что …

12 r excel data-cleaning

5

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Модель Лмера не сходится

Мои данные описаны здесь. Что может вызвать «Ошибка () модель сингулярной ошибки» в AOV при подборе повторяющихся мер ANOVA? Я пытаюсь увидеть эффект взаимодействия, используя lmerмой базовый случай: my_null.model <- lmer(value ~ Condition+Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) my.model <- lmer(value ~ Condition*Scenario+ (1|Player)+(1|Trial), data = my, REML=FALSE) Запуск anovaдает …

12 r lme4-nlme

2

Ступенчатая регрессия в R - Критическое значение p

Какое критическое значение p используется step()функцией в R для ступенчатой регрессии? Я предполагаю, что это 0,15, но верно ли мое предположение? Как я могу изменить критическое значение p?

12 r regression p-value stepwise-regression

2

Дисперсионно-ковариационная матричная интерпретация

Предположим, у нас есть линейная модель Model1и vcov(Model1)дает следующую матрицу: (Intercept) latitude sea.distance altitude (Intercept) 28.898100 -23.6439000 -34.1523000 0.50790600 latitude -23.643900 19.7032500 28.4602500 -0.42471450 sea.distance -34.152300 28.4602500 42.4714500 -0.62612550 altitude 0.507906 -0.4247145 -0.6261255 0.00928242 Для этого примера, что на самом деле отображает эта матрица? Какие предположения мы можем безопасно сделать …

12 r interpretation multicollinearity assumptions covariance-matrix

1

Рассчитать логарифмическое правдоподобие «вручную» для обобщенной нелинейной регрессии наименьших квадратов (nlme)

Я пытаюсь вычислить логарифмическую вероятность для обобщенной нелинейной регрессии наименьших квадратов для функции оптимизированной с помощью функция в пакете R , используя ковариационную матрицу дисперсии, генерируемую расстояниями на филогенетическом дереве, предполагающем броуновское движение ( из пакета). Следующий воспроизводимый код R подходит для модели gnls с использованием данных x, y и …

12 r maximum-likelihood least-squares nonlinear-regression mixed-model

4

Проверка гипотезы на разницу в медиане между более чем двумя образцами

Вопрос Результаты тестов трех групп людей сохраняются в виде отдельных векторов в R. set.seed(1) group1 <- rnorm(100, mean = 75, sd = 10) group2 <- rnorm(100, mean = 85, sd = 10) group3 <- rnorm(100, mean = 95, sd = 10) Я хочу знать, есть ли значительная разница в медиане …

12 r hypothesis-testing multiple-comparisons mean median

5

Термин частота / обратная частота документа (TF / IDF): взвешивание

У меня есть набор данных, который представляет 1000 документов и все слова, которые появляются в нем. Таким образом, строки представляют документы, а столбцы представляют слова. Так, например, значение в ячейке обозначает время, когда слово встречается в документе(i,j)(i,j)(i,j)jjj . Теперь я должен найти «веса» слов, используя метод tf / idf, но …

12 r data-mining feature-selection

4

В R как вычислить значение p для площади под ROC

Я изо всех сил пытаюсь найти способ вычислить значение p для области под характеристикой оператора приемника (ROC). У меня есть непрерывная переменная и результат диагностического теста. Я хочу посмотреть, является ли AUROC статистически значимым. Я нашел много пакетов, имеющих дело с кривыми ROC: pROC, ROCR, caTools, верификация, Epi. Но даже …

12 r p-value roc

1

Путаница с lmer и p-значениями: как p-значения из пакета memisc сравниваются с MCMC?

У меня сложилось впечатление, что функция lmer()в lme4пакете не производит p-значения (см. lmerP-значения и все такое ). Я использую MCMC сгенерированных значений р вместо как на этот вопрос: Значительный эффект в lme4смешанной модели и на этот вопрос: Не удается найти р-значения в выводе из lmer()в lm4пакете вR . Недавно я …

12 r mixed-model p-value mcmc lme4-nlme

1

Как преобразовать вывод фитинга lm () с кубическим сплайном в уравнение регрессии

У меня есть код и вывод, и я хотел бы построить модель. Я не знаю, как построить модель, используя этот вывод: require("splines") x <- c(0.2, 0.23, 0.26, 0.29, 0.33, 0.46, 0.53 ) y <- c(0.211, 0.2026, 0.2034, 0.2167, 0.2177, 0.19225, 0.182) fit <- lm(y ~ ns(x,3)) summary(fit) Обратите внимание, что …

12 r splines

4

Лучший способ просто хранить данные для статистического анализа в R [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я уже некоторое время использую текстовые файлы для хранения своих данных для R без каких-либо проблем. Но для недавнего …

12 r dataset

1

Критерии выбора «лучшей» модели в скрытой марковской модели

У меня есть набор данных временного ряда, к которому я пытаюсь подогнать скрытую марковскую модель (HMM), чтобы оценить количество скрытых состояний в данных. Мой псевдокод для этого следующий: for( i in 2 : max_number_of_states ){ ... calculate HMM with i states ... optimal_number_of_states = "model with smallest BIC" ... } …

12 r aic hidden-markov-model bic spss manova time-series r lme4-nlme regression modeling negative-binomial bayesian bugs state-space-models hypothesis-testing data-transformation factor-analysis sem

2

Смешанная модель с 1 наблюдением за уровень

Я подгоняю модель случайных эффектов glmerк некоторым бизнес-данным. Цель состоит в том, чтобы проанализировать показатели продаж по дистрибьюторам с учетом региональных различий. У меня есть следующие переменные: distcode: идентификатор дистрибьютора, около 800 уровней region: географический идентификатор верхнего уровня (север, юг, восток, запад) zone: география среднего уровня region, около 30 уровней …

12 r regression mixed-model lme4-nlme

1

Первые шаги в обучении для прогнозирования финансовых временных рядов с использованием машинного обучения

Я пытаюсь понять, как использовать машинное обучение для прогнозирования финансовых временных рядов на 1 или более шагов в будущее. У меня есть финансовые временные ряды с некоторыми описательными данными, и я хотел бы сформировать модель и затем использовать модель для прогнозирования n шагов вперед. Что я делал до сих пор: …

12 r time-series machine-learning random-forest finance

Вопросы с тегом «r»