Статистика и большие данные r

3

Кластер больших данных в R и имеет ли значение выборка?

Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

13 r clustering sampling large-data

1

R-квадрат в линейной модели отклонения стихов в обобщенной линейной модели?

Вот мой контекст для этого вопроса: Из того, что я могу сказать, мы не можем запустить обычную регрессию наименьших квадратов в R при использовании взвешенных данных и surveyпакета. Здесь мы должны использовать svyglm(), который вместо этого запускает обобщенную линейную модель (что может быть тем же самым? Я нечеткий здесь с …

13 r generalized-linear-model least-squares r-squared deviance

1

Понимание прогнозов из логистической регрессии

Мои прогнозы, основанные на модели логистической регрессии (glm в R), не ограничены между 0 и 1, как я ожидал. Мое понимание логистической регрессии состоит в том, что ваши входные параметры и параметры модели объединяются линейно, и ответ преобразуется в вероятность с помощью функции связи logit. Поскольку функция логита ограничена между …

13 r regression logistic generalized-linear-model

2

Для случайной матрицы разве SVD не должен вообще ничего объяснять? Что я делаю неправильно?

Если бы я построил двумерную матрицу, состоящую полностью из случайных данных, я ожидал бы, что компоненты PCA и SVD по существу ничего не объясняют. Вместо этого кажется, что первый столбец SVD, кажется, объясняет 75% данных. Как это может быть? Что я делаю неправильно? Вот сюжет: Вот код R: set.seed(1) rm(list=ls()) …

13 r pca svd

2

Существует ли пакет R для продольных двоичных откликов с непрерывным временем?

bildПакет , кажется, превосходный пакет для последовательных бинарных ответов. Но это на дискретное время. Я хотел бы указать плавную функцию времени для связи отношения шансов текущего отклика Y с двоичными откликами, измеренными в более ранние времена, или, по крайней мере, марковской версией первого порядка этого. Я считаю, что это называется …

13 r repeated-measures binary-data panel-data

2

Числовые решатели для стохастических дифференциальных уравнений в R: есть ли?

Я ищу общий, чистый и быстрый (т. Е. Использующий подпрограммы C ++) R-пакет для имитации путей из неоднородной нелинейной диффузии типа (1) с использованием схемы Эйлера-Маруямы, схемы Мильштейна (или любой другой). Это предназначено для встраивания в больший код оценки и поэтому заслуживает оптимизации. dИксT= ф( θ , т , ХT)dт …

13 r simulation stochastic-processes markov-process

1

Линейная регрессия и пространственная автокорреляция

Я хочу предсказать высоту деревьев в определенной области, используя некоторые переменные, полученные с помощью дистанционного зондирования. Как приблизительная биомасса и т. Д. Я хочу сначала использовать линейную регрессию (я знаю, что это не лучшая идея, но это обязательный шаг для моего проекта). Я хотел знать, насколько сильно пространственная автокорреляция может …

13 r multiple-regression spatial autocorrelation

3

Действительно ли компоненты PCA представляют собой процент дисперсии? Могут ли они составить более 100%?

«Машинное обучение для хакеров» О'Рейли говорит, что каждый основной компонент представляет собой процент дисперсии. Я процитировал соответствующую часть страницы ниже (глава 8, с.207). Говоря с другим экспертом, они согласились, что это процент. Однако 24 компонента составляют 133,2095%. Как это может быть? Убедившись в том, что мы можем использовать PCA, как …

13 r pca

1

В чем разница между wilcox.test и coin :: wilcox_test в R?

Эти две функции существуют в R, но я не знаю их различий. Кажется, что они возвращают одинаковые p-значения только при вызове wilcox.testс correct=FALSE, и wilcox_test(в пакете для монет) с distribution="aymptotic". Для других значений они возвращают разные p-значения. Также wilcox.testвсегда возвращает W = 0 для моего набора данных, независимо от настроек …

13 r hypothesis-testing p-value wilcoxon-mann-whitney

1

Помогите мне понять в байесовском GLM

Я пытаюсь запустить байесовский логит на данных здесь . Я использую bayesglm()в armпакете в R. Кодирование достаточно просто: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) дает следующий вывод: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 …

13 r bayesian p-value

2

Как получить результаты специального теста Tukey HSD в таблице, показывающей сгруппированные пары?

Я хотел бы выполнить специальный тест TukeyHSD после моей двусторонней Anova с R, получив таблицу, содержащую отсортированные пары, сгруппированные по значительным различиям. (Извините за формулировку, я все еще новичок со статистикой.) Я хотел бы иметь что-то вроде этого: Итак, сгруппированы по звездам или буквам. Любая идея? Я протестировал функцию HSD.test()из …

13 r anova multiple-comparisons post-hoc tukey-hsd

1

Прогнозы с использованием glmnet в R

Я пытаюсь смоделировать некоторые данные, используя glmnetпакет в R. Допустим, у меня есть следующие данные training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (Это упрощение; мои данные намного сложнее.) Затем я использовал следующий код для …

13 r glmnet

6

Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?

Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не …

13 r categorical-data random-forest

2

Генерация выборок данных из регрессии Пуассона

Мне было интересно, как вы будете генерировать данные из уравнения регрессии Пуассона в R? Я немного растерялся, как подойти к проблеме. Поэтому, если я предполагаю, что у нас есть два предиктора и X 2, которые распределены N ( 0 , 1 ) . И перехват равен 0, и оба коэффициента …

13 r regression poisson-distribution simulation

2

Что такое чанк-тесты?

В ответ на вопрос о выборе модели в наличии мультиколлинеарности , Франк Харрелл предложил : Поместите все переменные в модель, но не проверяйте влияние одной переменной, скорректированной с учетом влияния конкурирующих переменных ... Кусочные тесты конкурирующих переменных являются мощными, потому что коллинеарные переменные объединяют силы в общем тесте ассоциации множественной …

13 r model-selection multicollinearity

Вопросы с тегом «r»