Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

9
Как получить p-значение (проверить значимость) эффекта в смешанной модели lme4?
Я использую lme4 в R, чтобы соответствовать смешанной модели lmer(value~status+(1|experiment))) где значение непрерывно, статус и эксперимент являются факторами, и я получаю Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: Groups Name Variance …

6
Какой метод можно использовать для определения сезонности в данных?
Я хочу определить сезонность в данных, которые я получаю. Есть некоторые методы, которые я нашел, такие как сезонный подсерийный график и график автокорреляции, но дело в том, что я не понимаю, как читать график, кто-нибудь может помочь? Другое дело, есть ли другие методы для определения сезонности с или без окончательного …

12
Программное обеспечение, необходимое для очистки данных от графика [закрыто]
У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это проблема интеллектуального анализа данных и обратная визуализация данных.

8
Зачем продолжать учить и использовать проверку гипотез (когда есть доверительные интервалы)?
Зачем продолжать учить и использовать тестирование гипотез (со всеми его сложными концепциями и которые являются одними из самых статистических грехов) для задач, где существует интервальная оценка (уверенность, начальная загрузка, достоверность или что-то еще)? Какое лучшее объяснение (если таковое имеется) должно быть дано студентам? Только традиция? Мнения будут очень приветствоваться.


13
Каковы прорывы в статистике за последние 15 лет?
Я до сих пор помню документ «Анналы статистики» Фридмана-Хасти-Тибширани об усилении, а также комментарии других авторов (включая Фрейнда и Шапира) по тем же вопросам. В то время очевидно, что Boosting рассматривался как прорыв во многих отношениях: выполнимый в вычислительном отношении метод ансамбля с превосходными, но загадочными характеристиками. Примерно в то …


6
Какую реализацию теста перестановки в R использовать вместо t-тестов (парных и непарных)?
У меня есть данные из эксперимента, которые я проанализировал с помощью t-тестов. Зависимая переменная масштабируется по интервалу, а данные либо непарные (т. Е. 2 ​​группы), либо парные (т. Е. Внутри-субъекты). Например (в рамках предметов): x1 <- c(99, 99.5, 65, 100, 99, 99.5, 99, 99.5, 99.5, 57, 100, 99.5, 99.5, 99, …

5
Как именно «модель случайных эффектов» в эконометрике относится к смешанным моделям вне эконометрики?
Раньше я думал, что «модель случайных эффектов» в эконометрике соответствует «смешанной модели со случайным перехватом» вне эконометрики, но теперь я не уверен. Является ли? Эконометрика использует такие термины, как «фиксированные эффекты» и «случайные эффекты», несколько иначе, чем литература по смешанным моделям, и это вызывает печальную путаницу. Рассмотрим простую ситуацию, когда …

8
Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?
Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения. Так, например, если я читаю о результатах …

2
Более определенное обсуждение выбора переменных
Фон Я занимаюсь клиническими исследованиями в области медицины и прошел несколько курсов по статистике. Я никогда не публиковал статью с использованием линейной / логистической регрессии и хотел бы правильно выбирать переменные. Интерпретируемость важна, поэтому нет причудливых методов машинного обучения. Я суммировал мое понимание выбора переменных - кто-то возражал бы пролить …

2
Почему усадка работает?
Чтобы решить проблемы выбора модели, ряд методов (LASSO, гребневая регрессия и т. Д.) Будут сжимать коэффициенты переменных-предикторов к нулю. Я ищу интуитивное объяснение того, почему это улучшает способность к прогнозированию. Если истинное влияние переменной на самом деле было очень велико, почему сокращение параметра не приводит к худшему прогнозу?

1
Тест Вальда для логистической регрессии
Насколько я понимаю, критерий Вальда в контексте логистической регрессии используется для определения значимости определенной предикторной переменной или нет. Он отвергает нулевую гипотезу о том, что соответствующий коэффициент равен нулю.ИксXX Тест состоит из деления значения коэффициента на стандартную ошибку .σσ\sigma Что меня смущает, так это то, что также известен как Z-оценка …

10
Каковы некоторые примеры анахронической практики в статистике?
Я имею в виду практики, которые все еще сохраняют свое присутствие, хотя проблемы (обычно вычислительные), с которыми они были разработаны, в основном были решены. Например, коррекция непрерывности Йетса не была изобретена , чтобы аппроксимировать точный критерий Фишера с тестом, но это уже не практично , так как программное обеспечение может …

4
Выбор между LM и GLM для лог-преобразованной переменной ответа
Я пытаюсь понять философию использования Обобщенной линейной модели (GLM) по сравнению с линейной моделью (LM). Я создал пример набора данных ниже, где: журнал( у) = x + εlog⁡(y)=x+ε\log(y) = x + \varepsilon В этом примере ошибка εε\varepsilon зависит от величины Yyy , поэтому я предположил бы, что линейная модель лог-преобразованного …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.