Статистика и большие данные

9

Как получить p-значение (проверить значимость) эффекта в смешанной модели lme4?

Я использую lme4 в R, чтобы соответствовать смешанной модели lmer(value~status+(1|experiment))) где значение непрерывно, статус и эксперимент являются факторами, и я получаю Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance …

56 r hypothesis-testing mixed-model p-value lme4-nlme

6

Какой метод можно использовать для определения сезонности в данных?

Я хочу определить сезонность в данных, которые я получаю. Есть некоторые методы, которые я нашел, такие как сезонный подсерийный график и график автокорреляции, но дело в том, что я не понимаю, как читать график, кто-нибудь может помочь? Другое дело, есть ли другие методы для определения сезонности с или без окончательного …

56 time-series seasonality

12

Программное обеспечение, необходимое для очистки данных от графика [закрыто]

У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это проблема интеллектуального анализа данных и обратная визуализация данных.

56 data-visualization data-mining software

8

Зачем продолжать учить и использовать проверку гипотез (когда есть доверительные интервалы)?

Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если таковое имеется) должно быть дано студентам? Только традиция? Мнения будут очень приветствоваться.

56 hypothesis-testing confidence-interval teaching

2

В чем разница между частичной вероятностью, профильной вероятностью и предельной вероятностью?

Я вижу, что эти термины используются, и я все время путаю их. Есть ли простое объяснение различий между ними?

56 estimation maximum-likelihood

13

Каковы прорывы в статистике за последние 15 лет?

Я до сих пор помню документ «Анналы статистики» Фридмана-Хасти-Тибширани об усилении, а также комментарии других авторов (включая Фрейнда и Шапира) по тем же вопросам. В то время очевидно, что Boosting рассматривался как прорыв во многих отношениях: выполнимый в вычислительном отношении метод ансамбля с превосходными, но загадочными характеристиками. Примерно в то …

56 mathematical-statistics history

4

Как распределяется минимум набора случайных величин?

Если являются независимыми одинаково распределенными случайными величинами, что можно сказать о распределении в целом?X1,...,XnX1,...,XnX_1, ..., X_nmin(X1,...,Xn)min(X1,...,Xn)\min(X_1, ..., X_n)

56 distributions random-variable minimum

6

Какую реализацию теста перестановки в R использовать вместо t-тестов (парных и непарных)?

У меня есть данные из эксперимента, которые я проанализировал с помощью t-тестов. Зависимая переменная масштабируется по интервалу, а данные либо непарные (т. Е. 2 группы), либо парные (т. Е. Внутри-субъекты). Например (в рамках предметов): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, …

56 r t-test nonparametric permutation-test

5

Как именно «модель случайных эффектов» в эконометрике относится к смешанным моделям вне эконометрики?

Раньше я думал, что «модель случайных эффектов» в эконометрике соответствует «смешанной модели со случайным перехватом» вне эконометрики, но теперь я не уверен. Является ли? Эконометрика использует такие термины, как «фиксированные эффекты» и «случайные эффекты», несколько иначе, чем литература по смешанным моделям, и это вызывает печальную путаницу. Рассмотрим простую ситуацию, когда …

56 mixed-model econometrics panel-data lme4-nlme plm

8

Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?

Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения. Так, например, если я читаю о результатах …

56 r dataset simulation random-generation

2

Более определенное обсуждение выбора переменных

Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить …

55 regression feature-selection model-selection

2

Почему усадка работает?

Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико, почему сокращение параметра не приводит к худшему прогнозу?

55 lasso regularization ridge-regression intuition shrinkage

1

Тест Вальда для логистической регрессии

Насколько я понимаю, критерий Вальда в контексте логистической регрессии используется для определения значимости определенной предикторной переменной или нет. Он отвергает нулевую гипотезу о том, что соответствующий коэффициент равен нулю.ИксXX Тест состоит из деления значения коэффициента на стандартную ошибку .σσ\sigma Что меня смущает, так это то, что также известен как Z-оценка …

55 logistic z-statistic

10

Каковы некоторые примеры анахронической практики в статистике?

Я имею в виду практики, которые все еще сохраняют свое присутствие, хотя проблемы (обычно вычислительные), с которыми они были разработаны, в основном были решены. Например, коррекция непрерывности Йетса не была изобретена , чтобы аппроксимировать точный критерий Фишера с тестом, но это уже не практично , так как программное обеспечение может …

55 references philosophical

4

Выбор между LM и GLM для лог-преобразованной переменной ответа

Я пытаюсь понять философию использования Обобщенной линейной модели (GLM) по сравнению с линейной моделью (LM). Я создал пример набора данных ниже, где: журнал( у) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon В этом примере ошибка εε\varepsilon зависит от величины Yyy , поэтому я предположил бы, что линейная модель лог-преобразованного …

55 r generalized-linear-model linear-model gamma-distribution link-function