Вопросы с тегом «r»

Используйте этот тег для любого * по теме * вопроса, который (a) включает `R` либо в качестве критической части вопроса, либо в ожидаемом ответе, & (b) не * просто * о том, как использовать` R`.

3
Кластер больших данных в R и имеет ли значение выборка?
Я новичок в науке о данных, и у меня проблема с поиском кластеров в наборе данных с 200 000 строк и 50 столбцов в R. Поскольку данные имеют как числовые, так и номинальные переменные, такие методы, как K-средства, которые используют евклидову меру расстояния, не кажутся подходящим выбором. Поэтому я перехожу …

1
R-квадрат в линейной модели отклонения стихов в обобщенной линейной модели?
Вот мой контекст для этого вопроса: Из того, что я могу сказать, мы не можем запустить обычную регрессию наименьших квадратов в R при использовании взвешенных данных и surveyпакета. Здесь мы должны использовать svyglm(), который вместо этого запускает обобщенную линейную модель (что может быть тем же самым? Я нечеткий здесь с …

1
Понимание прогнозов из логистической регрессии
Мои прогнозы, основанные на модели логистической регрессии (glm в R), не ограничены между 0 и 1, как я ожидал. Мое понимание логистической регрессии состоит в том, что ваши входные параметры и параметры модели объединяются линейно, и ответ преобразуется в вероятность с помощью функции связи logit. Поскольку функция логита ограничена между …

2
Для случайной матрицы разве SVD не должен вообще ничего объяснять? Что я делаю неправильно?
Если бы я построил двумерную матрицу, состоящую полностью из случайных данных, я ожидал бы, что компоненты PCA и SVD по существу ничего не объясняют. Вместо этого кажется, что первый столбец SVD, кажется, объясняет 75% данных. Как это может быть? Что я делаю неправильно? Вот сюжет: Вот код R: set.seed(1) rm(list=ls()) …
13 r  pca  svd 

2
Существует ли пакет R для продольных двоичных откликов с непрерывным временем?
bildПакет , кажется, превосходный пакет для последовательных бинарных ответов. Но это на дискретное время. Я хотел бы указать плавную функцию времени для связи отношения шансов текущего отклика Y с двоичными откликами, измеренными в более ранние времена, или, по крайней мере, марковской версией первого порядка этого. Я считаю, что это называется …

2
Числовые решатели для стохастических дифференциальных уравнений в R: есть ли?
Я ищу общий, чистый и быстрый (т. Е. Использующий подпрограммы C ++) R-пакет для имитации путей из неоднородной нелинейной диффузии типа (1) с использованием схемы Эйлера-Маруямы, схемы Мильштейна (или любой другой). Это предназначено для встраивания в больший код оценки и поэтому заслуживает оптимизации. dИксT= ф( θ , т , ХT)dт …

1
Линейная регрессия и пространственная автокорреляция
Я хочу предсказать высоту деревьев в определенной области, используя некоторые переменные, полученные с помощью дистанционного зондирования. Как приблизительная биомасса и т. Д. Я хочу сначала использовать линейную регрессию (я знаю, что это не лучшая идея, но это обязательный шаг для моего проекта). Я хотел знать, насколько сильно пространственная автокорреляция может …

3
Действительно ли компоненты PCA представляют собой процент дисперсии? Могут ли они составить более 100%?
«Машинное обучение для хакеров» О'Рейли говорит, что каждый основной компонент представляет собой процент дисперсии. Я процитировал соответствующую часть страницы ниже (глава 8, с.207). Говоря с другим экспертом, они согласились, что это процент. Однако 24 компонента составляют 133,2095%. Как это может быть? Убедившись в том, что мы можем использовать PCA, как …
13 r  pca 

1
В чем разница между wilcox.test и coin :: wilcox_test в R?
Эти две функции существуют в R, но я не знаю их различий. Кажется, что они возвращают одинаковые p-значения только при вызове wilcox.testс correct=FALSE, и wilcox_test(в пакете для монет) с distribution="aymptotic". Для других значений они возвращают разные p-значения. Также wilcox.testвсегда возвращает W = 0 для моего набора данных, независимо от настроек …

1
Помогите мне понять в байесовском GLM
Я пытаюсь запустить байесовский логит на данных здесь . Я использую bayesglm()в armпакете в R. Кодирование достаточно просто: df = read.csv("http://dl.dropbox.com/u/1791181/bayesglm.csv", header=T) library(arm) model = bayesglm(PASS ~ SEX + HIGH, family=binomial(link="logit"), data=df) summary(model) дает следующий вывод: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 0.10381 0.10240 1.014 0.311 SEXMale 0.02408 …
13 r  bayesian  p-value 

2
Как получить результаты специального теста Tukey HSD в таблице, показывающей сгруппированные пары?
Я хотел бы выполнить специальный тест TukeyHSD после моей двусторонней Anova с R, получив таблицу, содержащую отсортированные пары, сгруппированные по значительным различиям. (Извините за формулировку, я все еще новичок со статистикой.) Я хотел бы иметь что-то вроде этого: Итак, сгруппированы по звездам или буквам. Любая идея? Я протестировал функцию HSD.test()из …

1
Прогнозы с использованием glmnet в R
Я пытаюсь смоделировать некоторые данные, используя glmnetпакет в R. Допустим, у меня есть следующие данные training_x <- data.frame(variable1 = c(1, 2, 3, 2, 3), variable2 = c(1, 2, 3, 4, 5)) y <- c(1, 2, 3, 4, 5) (Это упрощение; мои данные намного сложнее.) Затем я использовал следующий код для …
13 r  glmnet 

6
Случайный лес: как обрабатывать новые уровни факторов в тестовом наборе?
Я пытаюсь делать прогнозы, используя модель случайного леса в R. Однако я получаю ошибки, так как некоторые факторы имеют разные значения в тестовом наборе, чем в обучающем наборе. Например, фактор Cat_2имеет значения 34, 68, 76и т. Д. В тестовом наборе, которые не отображаются в обучающем наборе. К сожалению, я не …

2
Генерация выборок данных из регрессии Пуассона
Мне было интересно, как вы будете генерировать данные из уравнения регрессии Пуассона в R? Я немного растерялся, как подойти к проблеме. Поэтому, если я предполагаю, что у нас есть два предиктора и X 2, которые распределены N ( 0 , 1 ) . И перехват равен 0, и оба коэффициента …

2
Что такое чанк-тесты?
В ответ на вопрос о выборе модели в наличии мультиколлинеарности , Франк Харрелл предложил : Поместите все переменные в модель, но не проверяйте влияние одной переменной, скорректированной с учетом влияния конкурирующих переменных ... Кусочные тесты конкурирующих переменных являются мощными, потому что коллинеарные переменные объединяют силы в общем тесте ассоциации множественной …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.