Статистика и большие данные r

4

Как выполнить уменьшение размерности с PCA в R

У меня большой набор данных, и я хочу уменьшить размерность. Сейчас везде читаю, что могу использовать для этого PCA. Тем не менее, я все еще не понимаю, что делать после вычисления / выполнения PCA. В R это легко сделать с помощью команды princomp. Но что делать после расчета СПС? Если …

30 r pca

3

Как узнать, является ли временной ряд стационарным или нестационарным?

Я использую R, я искал на Google и выяснил , что kpss.test(), PP.test()и adf.test()используются , чтобы знать о стационарности временных рядов. Но я не статистика, которая может интерпретировать свои результаты > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > …

30 r time-series stationarity augmented-dickey-fuller kpss-test

3

Какой хороший способ использовать R для создания диаграммы рассеяния, которая разделяет данные по обработке?

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я очень плохо знаком с R и статистикой в целом, но мне нужно составить график рассеяния, который, я думаю, может быть за …

30 r data-visualization scatterplot

2

Интерпретация болтов в анализе главных компонентов

Я наткнулся на этот хороший учебник: Руководство по статистическому анализу с использованием R. Глава 13. Анализ основных компонентов: Олимпийский гепатлон о том, как делать PCA на языке R. Я не понимаю интерпретацию рисунка 13.3: Итак, я строю первый собственный вектор против второго собственного вектора. Что это значит? Предположим, что собственное …

30 r pca data-visualization interpretation biplot

3

Насколько хорошо R масштабируется для текстовых задач классификации? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыт 10 месяцев назад . Я пытаюсь ускорить работу с R. Я в конечном итоге хочу использовать библиотеки R для классификации текста. Мне было просто …

30 r machine-learning svm text-mining random-forest

1

Как центрирование влияет на PCA (для SVD и собственного разложения)?

Какое значение имеет центрирование (или де-смысл) ваших данных для PCA? Я слышал, что это облегчает математику или препятствует доминированию переменных на первом компьютере, но я чувствую, что пока не смог твердо понять концепцию. Например, главный ответ здесь. Как центрирование данных избавляет от перехвата в регрессии и PCA? описывает, как не …

30 r pca svd eigenvalues centering

3

Какая разница инфляции фактор я должен использовать:

Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vifфункции в пакете R car. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значениеVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Чтобы настроить размер доверительного эллипсоида, функция также печатает GVIF ^ [1 / (2 * df)], где df - степени свободы, связанные с термином. Я …

30 r multicollinearity vif

4

В чем разница между тестом Макнемара и тестом хи-квадрат, и как вы знаете, когда их использовать?

Я пытался читать из разных источников, но мне все еще не ясно, какой тест будет уместным в моем случае. Есть три разных вопроса о моем наборе данных: Испытуемые проверяются на инфекции от X в разное время. Я хочу знать, связана ли доля положительного для X после доли с положительным для …

30 r chi-squared mcnemar-test

5

Что означает глубина взаимодействия в GBM?

У меня был вопрос о параметре глубины взаимодействия в gbm в R. Это может быть вопрос noob, за который я прошу прощения, но как параметр, который, я считаю, обозначает количество терминальных узлов в дереве, в основном указывает X-way взаимодействие между предикторами? Просто пытаюсь понять, как это работает. Кроме того, я …

30 r machine-learning boosting gbm

2

Интерпретация сюжета (глм.модель)

Может кто-нибудь сказать мне, как интерпретировать графики «остатки против подгонки», «нормальный q-q», «масштаб-местоположение» и «остатки против плеча»? Я подгоняю биномиальный GLM, сохраняю его и затем строю.

30 r logistic data-visualization generalized-linear-model qq-plot

5

Как работать с иерархическими / вложенными данными в машинном обучении

Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Как стандартные ошибки вычисляются для подобранных значений из логистической регрессии?

Когда вы прогнозируете подходящее значение из модели логистической регрессии, как рассчитываются стандартные ошибки? Я имею в виду для подогнанных значений , а не для коэффициентов (которые включают информационную матрицу Фишера). Я только узнал, как получить числа R(например, здесь, в r-help, или здесь, в переполнении стека), но не могу найти формулу. …

29 r regression logistic mathematical-statistics references

1

Выбор характеристик и модель с glmnet по данным метилирования (p >> N)

Я хотел бы использовать GLM и Elastic Net, чтобы выбрать эти релевантные функции + построить модель линейной регрессии (т. Е. Как прогнозирование, так и понимание, поэтому было бы лучше оставить с относительно небольшим количеством параметров). Выход непрерывный. Это генов на случаев. Я читал об этом пакете, но я не уверен …

29 r regularization glmnet elastic-net underdetermined

3

Какой тест я могу использовать для сравнения уклонов двух или более регрессионных моделей?

Я хотел бы проверить разницу в ответе двух переменных на один предиктор. Вот минимальный воспроизводимый пример. library(nlme) ## gls is used in the application; lm would suffice for this example m.set <- gls(Sepal.Length ~ Petal.Width, data = iris, subset = Species == "setosa") m.vir <- gls(Sepal.Length ~ Petal.Width, data = …

29 r data-visualization multivariate-analysis hypothesis-testing

2

Вычислить матрицу перехода (Маркова) в R

Есть ли способ в R (встроенная функция) вычислить матрицу переходов для цепи Маркова из набора наблюдений? Например, взять набор данных, подобный следующему, и вычислить матрицу перехода первого порядка? dat<-data.frame(replicate(20,sample(c("A", "B", "C","D"), size = 100, replace=TRUE)))

29 r markov-process

Вопросы с тегом «r»