Статистика и большие данные r

2

Почему lrtest () не соответствует anova (test = «LRT»)

Я искал способы сделать тест отношения правдоподобия в R, чтобы сравнить подгонки модели. Сначала я сам его кодировал, затем нашел и anova()функцию по умолчанию, и также lrtest()в lmtestпакете. Когда я проверял, тем не менее, anova()всегда выдает немного другое значение p, чем у двух других, даже если для параметра «test» установлено …

15 r anova likelihood-ratio

1

Может ли логистическая регрессия glmnet напрямую обрабатывать факторные (категориальные) переменные без использования фиктивных переменных? [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 3 года назад . Я строю логистическую регрессию в R, используя метод LASSO с функциями cv.glmnetдля выбора lambdaи glmnetдля окончательной модели. Я уже …

15 r logistic categorical-data lasso glmnet

1

Как случайные эффекты только с одним наблюдением повлияют на обобщенную линейную смешанную модель?

У меня есть набор данных, в котором переменная, которую я хотел бы использовать в качестве случайного эффекта, имеет только одно наблюдение для некоторых уровней. Основываясь на ответах на предыдущие вопросы, я понял, что в принципе это может быть хорошо. Могу ли я установить смешанную модель с объектами, которые имеют только …

14 r mixed-model generalized-linear-model glmm lme4-nlme

3

За каким распределением следует обратный нормальный CDF бета-случайной величины?

Предположим, вы определили: X∼Beta(α,β)X∼Beta(α,β)X\sim\mbox{Beta}(\alpha,\beta) Y∼Φ−1(X)Y∼Φ−1(X)Y\sim \Phi^{-1}(X) где Φ−1Φ−1\Phi^{-1} - обратная величина CDF стандартного нормального распределения . Мой вопрос: существует ли простое распределение, за которым следует , или которое может приближаться к ? YYYYYYЯ спрашиваю, потому что у меня есть сильное подозрение, основанное на результатах моделирования (показанных ниже), что YYY сходится …

14 r normal-distribution mathematical-statistics beta-distribution

2

Различные результаты от randomForest через каретку и базового пакета randomForest

Я немного растерялся: чем могут отличаться результаты обученной модели с помощью каретки от модели в оригинальной упаковке? Я прочитал , нужна ли предварительная обработка перед прогнозированием с использованием FinalModel из RandomForest с пакетом Caret? но я не использую никакой предварительной обработки здесь. Я тренировал разные случайные леса, используя набор карет …

14 r machine-learning random-forest caret train

1

От exp (коэффициентов) к коэффициенту шансов и их интерпретации в логистической регрессии с факторами

Я запустил линейную регрессию приема в колледж против баллов SAT и семейного / этнического происхождения. Данные являются вымышленными. Это продолжение предыдущего вопроса, на который уже дан ответ. Вопрос сосредоточен на сборе и интерпретации отношений шансов, оставляя оценки SAT в стороне для простоты. Переменные Accepted(0 или 1) и Background(«красный» или «синий»). …

14 r regression logistic

3

Как рассчитать перекрытие между эмпирическими плотностями вероятности?

Я ищу метод для расчета области перекрытия между двумя оценками плотности ядра в R, как мера сходства между двумя выборками. Чтобы уточнить, в следующем примере мне нужно было бы количественно определить площадь области пурпурного перекрытия: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), value=c(rnorm(50), runif(30, 0, 3))) ggplot(d, aes(value, fill=variable)) …

14 r probability pdf kernel-smoothing

1

Проверка отношения правдоподобия - lmer R - Не вложенные модели

В настоящее время я рассматриваю некоторые работы и наткнулся на следующее, что мне кажется неправильным. Две смешанные модели установлены (в R), используя lmer. Модели не являются вложенными и сравниваются с помощью тестов отношения правдоподобия. Короче, вот воспроизводимый пример того, что у меня есть: set.seed(105) Resp = rnorm(100) A = factor(rep(1:5,each=20)) …

14 r lme4-nlme likelihood-ratio nested-models

1

Как извлечь случайные выборки из непараметрического оценочного распределения?

У меня есть выборка из 100 точек, которые являются непрерывными и одномерными. Я оценил его непараметрическую плотность, используя методы ядра. Как я могу получить случайные выборки из этого предполагаемого распределения?

14 r sampling kernel-smoothing

3

Можно ли восстановить нормальное распределение по размеру выборки, а также по минимальным и максимальным значениям? Я могу использовать среднюю точку для прокси среднего

Я знаю, что это может быть немного странно, статистически, но это моя проблема. У меня много данных о диапазоне, то есть минимальный, максимальный и размер выборки переменной. Для некоторых из этих данных у меня также есть среднее, но не много. Я хочу сравнить эти диапазоны друг с другом, чтобы количественно …

14 r normal-distribution estimation missing-data order-statistics

3

Взвешивание более свежих данных в модели Random Forest

Я обучаю классификационную модель случайному лесу, чтобы различать 6 категорий. Мои транзакционные данные имеют около 60 тыс. Наблюдений и 35 переменных. Вот пример того, как это выглядит примерно. _________________________________________________ |user_id|acquisition_date|x_var_1|x_var_2| y_vay | |-------|----------------|-------|-------|--------| |111 | 2013-04-01 | 12 | US | group1 | |222 | 2013-04-12 | 6 | PNG …

14 r machine-learning classification random-forest

3

Понимание доверительной полосы от полиномиальной регрессии

Я пытаюсь понять результат, который вижу на графике ниже. Обычно я использую Excel и получаю линию линейной регрессии, но в приведенном ниже случае я использую R и получаю полиномиальную регрессию с помощью команды: ggplot(visual1, aes(ISSUE_DATE,COUNTED)) + geom_point() + geom_smooth() Поэтому мои вопросы сводятся к следующему: Что такое серая область (стрелка …

14 r regression data-visualization outliers

3

Алгоритм дерева регрессии с моделями линейной регрессии в каждом листе

Короткая версия: я ищу R-пакет, который может строить деревья решений, тогда как каждый лист в дереве решений является полной моделью линейной регрессии. AFAIK, библиотека rpartсоздает деревья решений, в которых зависимая переменная является постоянной в каждом листе. Есть ли другая библиотека (или rpartнастройка, о которой я не знаю), которая может создавать …

14 r regression rpart cart

1

Нелинейная смешанная регрессия эффектов в R

Удивительно, но я не смог найти ответ на следующий вопрос с помощью Google: У меня есть некоторые биологические данные от нескольких людей, которые показывают примерно сигмовидное поведение роста во времени. Таким образом, я хочу смоделировать это с использованием стандартного логистического роста P(t) = k*p0*exp(r*t) / (k+p0*(exp(r*t)-1)) где p0 является начальным …

14 r nonlinear-regression mixed-model growth-model

1

Сводит ли средне-объективная оценка к минимуму среднего абсолютного отклонения?

Это продолжение, но также другой вопрос моего предыдущего . Я читал в Википедии, что « Средне-несмещенный оценщик минимизирует риск по отношению к функции потери абсолютного отклонения, как это наблюдал Лаплас ». Тем не менее, мои результаты моделирования Монте-Карло не поддерживают этот аргумент. Я предполагаю выборку из логарифмически нормального населения, , …

14 r unbiased-estimator median lognormal mad

Вопросы с тегом «r»