Статистика и большие данные r

3

Логистическая регрессия: Scikit Learn против glmnet

Я пытаюсь продублировать результаты из sklearnбиблиотеки логистической регрессии, используя glmnetпакет в R. Из sklearnрегрессионной логистической документации , она пытается свести к минимуму функцию стоимости при l2 казни minw,c12wTw+C∑i=1Nlog(exp(−yi(XTiw+c))+1)minw,c12wTw+C∑i=1Nlog⁡(exp⁡(−yi(XiTw+c))+1)\min_{w,c} \frac12 w^Tw + C\sum_{i=1}^N \log(\exp(-y_i(X_i^Tw+c)) + 1) Из виньеток из glmnetего реализация минимизирует несколько иной стоимость функции минβ, β0- [ 1NΣя = …

15 r logistic python scikit-learn glmnet

3

Может ли модель для неотрицательных данных со сгущением в нули (Tweedie GLM, нулевое раздувание GLM и т. Д.) Предсказать точные нули?

Распределение Твиди может моделировать искаженные данные с точечной массой в нуле, когда параметр (показатель степени в отношении средней дисперсии) находится между 1 и 2.pпp Точно так же модель с нулевой раздувкой (будь то непрерывная или дискретная) может иметь большое количество нулей. У меня возникают проблемы с пониманием, почему, когда я …

15 r generalized-linear-model prediction zero-inflation tweedie-distribution

2

Какую меру ошибки обучения сообщать для случайных лесов?

В настоящее время я подгоняю случайные леса для задачи классификации, используя randomForestпакет в R, и не уверен, как сообщить об ошибке обучения для этих моделей. Моя ошибка обучения близка к 0%, когда я вычисляю ее, используя прогнозы, которые я получаю с помощью команды: predict(model, data=X_train) где X_trainданные обучения. В ответ …

15 r machine-learning classification random-forest overfitting

1

У меня есть линия наилучшего соответствия. Мне нужны данные, которые не изменят мою линию наилучшего соответствия

Я делаю презентацию о примерочных линиях. У меня есть простая линейная функция, . Я пытаюсь получить разбросанные точки данных, которые я могу поместить в график рассеяния, чтобы моя линия лучше соответствовала тому же уравнению.y=1x+by=1x+by=1x+b Я хотел бы изучить эту технику в R или Excel - в зависимости от того, что …

15 r regression least-squares excel

1

Многомерные биологические временные ряды: VAR и сезонность

У меня есть многомерный набор данных временных рядов, включающий взаимодействующие биологические и экологические переменные (плюс, возможно, некоторые экзогенные переменные). Помимо сезонности, в данных нет четкой долгосрочной тенденции. Моя цель - увидеть, какие переменные связаны друг с другом. Прогнозирование на самом деле не искали. Будучи новичком в анализе временных рядов, я …

15 r time-series var seasonality

1

Почему я не могу сопоставить вывод glmer (family = binomial) с ручной реализацией алгоритма Гаусса-Ньютона?

Я хотел бы сравнить выходные данные lmer (действительно glmer) с примером игрушечного бинома. Я прочитал виньетки и, кажется, понимаю, что происходит. Но, видимо, я не. Застряв, я исправил «правду» в терминах случайных эффектов и пошел оценивать только фиксированные эффекты. Я включаю этот код ниже. Чтобы увидеть, что это законно, вы …

15 r mixed-model optimization lme4-nlme

1

Лучший способ визуально представить отношения из множественной линейной модели

У меня есть линейная модель с примерно 6 предикторами, и я собираюсь представить оценки, значения F, значения p и т. Д. Однако мне было интересно, какой будет лучший визуальный график для представления отдельного влияния одного предиктора на переменная ответа? Разброс точек? Условный участок? Эффект сюжета? и т.д? Как бы я …

15 r regression data-visualization multiple-regression partial-plot

4

Статистика Юнга-Бокса для остатков ARIMA в R: запутанные результаты испытаний

У меня есть временной ряд, который я пытаюсь прогнозировать, для которого я использовал сезонную модель ARIMA (0,0,0) (0,1,0) [12] (= fit2). Это отличается от того, что R предложил с auto.arima (R-вычисленный ARIMA (0,1,1) (0,1,0) [12] был бы более подходящим, я назвал его fit1). Тем не менее, в последние 12 месяцев …

15 r time-series statistical-significance arima residuals

2

Как сделать регрессию с кодированием эффекта вместо фиктивного кодирования в R?

В настоящее время я работаю над регрессионной моделью, в которой у меня есть только категориальные / факторные переменные в качестве независимых переменных. Моя зависимая переменная является логит-преобразованным коэффициентом. Довольно просто запустить нормальную регрессию в R, так как R автоматически знает, как кодировать манекены, как только они имеют тип «фактор». Однако …

15 r regression categorical-data categorical-encoding

1

Нахождение локальных экстремумов функции плотности с использованием сплайнов

Я пытаюсь найти локальные максимумы для функции плотности вероятности (найдены с использованием densityметода R ). Я не могу сделать простой метод «осмотреть соседей» (когда нужно осмотреть точку, чтобы увидеть, является ли это локальным максимумом по отношению к ее соседям), поскольку существует большой объем данных. Кроме того, кажется более эффективным и …

15 r pdf splines maximum

4

Эффективное обновление линейной регрессии при добавлении наблюдений и / или предикторов в R

Мне было бы интересно найти пути в R для эффективного обновления линейной модели при добавлении наблюдения или предиктора. У biglm есть возможность обновления при добавлении наблюдений, но мои данные достаточно малы, чтобы находиться в памяти (хотя у меня есть большое количество экземпляров для обновления). Есть способы сделать это голыми руками, …

15 r regression computational-statistics linear-model

2

Понимание запаздывания в расширенном тесте Дики Фуллера R

Я поигрался с некоторым модульным тестированием корня в R, и я не совсем уверен, что делать с параметром k lag. Я использовал дополненной тест Дики Фуллера и тест Филиппс Перрона из tseries пакета. Очевидно, что параметр по умолчанию (для ) зависит только от длины ряда. Если я выберу разные k-значения, …

15 r time-series trend

2

Что такое «базовый уровень» в кривой точного отзыва

Я пытаюсь понять точную кривую отзыва, я понимаю, что такое точность и отзыв, но не понимаю, что такое базовое значение. Я читал эту ссылку https://classeval.wordpress.com/introduction/introduction-to-the-precision-recall-plot/ и я не понимаю часть базовой линии, как показано в «Кривая точного восстановления идеального классификатора», что она делает? и как мы это вычисляем? Это просто …

15 r machine-learning classification precision-recall

1

Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?

Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

15 r repeated-measures multiple-comparisons post-hoc lsmeans bayesian posterior marginal integral anova time-series regularization machine-learning pca computational-statistics references inference regression cross-validation python random-forest chi-squared spearman-rho r machine-learning confidence-interval bagging clustering feature-selection model-selection bic hypothesis-testing kurtosis r regression residuals terminology

3

Проверьте, совпадают ли многомерные распределения

Допустим, у меня есть две или более выборочных совокупностей n-мерных непрерывнозначных векторов. Есть ли непараметрический способ проверить, относятся ли эти образцы к одному и тому же распределению? Если это так, есть ли функция в R или Python для этого?

15 r distributions nonparametric python

Вопросы с тегом «r»