Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

5
Как работать с моделью саморазрушительного прогнозирования?
Я смотрел презентацию специалиста по ML из крупного ритейлера, где они разработали модель для прогнозирования событий на складе. Давайте на минутку предположим, что со временем их модель становится очень точной, не будет ли это как-то «самоубийственно»? То есть, если модель действительно работает хорошо, то они смогут предвидеть события, отсутствующие на …


1
Когда вложенная перекрестная проверка действительно необходима и может иметь практическое значение?
При использовании перекрестной проверки для выбора модели (такой как, например, настройка гиперпараметра) и для оценки производительности лучшей модели следует использовать вложенную перекрестную проверку . Внешний цикл предназначен для оценки производительности модели, а внутренний цикл - для выбора наилучшей модели; модель выбирается на каждом внешнем обучающем наборе (с использованием внутренней петли …

1
В чем разница между метрополисом Гастингсом, Гиббсом, Важностью и Отбором?
Я пытался изучить методы MCMC и наткнулся на выборку Metropolis Hastings, Gibbs, Важность и Отклонение. Хотя некоторые из этих различий очевидны, т. Е. То, как Гиббс является особым случаем Метрополиса Гастингса, когда у нас есть полные условия, другие менее очевидны, например, когда мы хотим использовать MH в семплере Гиббса и …

6
Как ученые выяснили форму функции плотности вероятности нормального распределения?
Это, вероятно, любительский вопрос, но меня интересует, как ученые пришли к форме функции плотности вероятности нормального распределения? В основном меня беспокоит то, что для кого-то, возможно, было бы более интуитивно понятно, что функция вероятности нормально распределенных данных имеет форму равнобедренного треугольника, а не кривой колокола, и как бы вы доказали …

6
Почему знаменатель оценки ковариации не должен быть n-2, а не n-1?
Знаменатель (несмещенной) оценки дисперсии равен поскольку имеется наблюдений и оценивается только один параметр.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Кроме того, мне интересно, почему знаменатель ковариации не должен быть когда оцениваются два параметра?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

10
Почему время выживания считается экспоненциально распределенным?
Из этого поста я изучаю анализ выживания в UCLA IDRE, и меня обвинили в разделе 1.2.1. Учебник говорит: ... если было известно, что времена выживания экспоненциально распределены , то вероятность наблюдения времени выживания ... Почему время выживания считается экспоненциально распределенным? Это кажется очень неестественным для меня. Почему не распространяется нормально? …

2
Логистическая регрессия против LDA как классификаторы двух классов
Я пытаюсь обернуть голову вокруг статистической разницы между линейным дискриминантным анализом и логистической регрессией . Правильно ли я понимаю, что для двух классов задачи классификации LDA предсказывает две функции нормальной плотности (по одной для каждого класса), которые создают линейную границу, где они пересекаются, тогда как логистическая регрессия только предсказывает нечетно-логическую …

2
Как мне узнать, какой метод перекрестной проверки является лучшим?
Я пытаюсь выяснить, какой метод перекрестной проверки лучше всего подходит для моей ситуации. Следующие данные являются лишь примером для проработки проблемы (в R), но мои реальные Xданные ( xmat) связаны друг с другом и в разной степени связаны с yпеременной ( ymat). Я предоставил код R, но мой вопрос не …

2
Насколько достоверны доверительные интервалы для lmer объектов через пакет эффектов?
EffectsПакет предоставляет очень быстрый и удобный способ для построения результатов линейной модели смешанного эффекта, полученных с помощью lme4пакета . В effectфункции вычисляет доверительные интервалы (ДИ) очень быстро, но , как заслуживающие доверия этих доверительные интервалы? Например: library(lme4) library(effects) library(ggplot) data(Pastes) fm1 <- lmer(strength ~ batch + (1 | cask), Pastes) …

5
Значение «положительной зависимости» как условия использования обычного метода контроля FDR
Бенджамини и Хохберг разработали первый (и, я думаю, до сих пор наиболее широко используемый) метод контроля частоты ложных обнаружений (FDR). Я хочу начать с набора значений P, каждое для отдельного сравнения, и решить, какие из них являются достаточно низкими, чтобы их можно было назвать «открытием», контролируя FDR до указанного значения …

1
Альтернативы одностороннему ANOVA для гетероскедастических данных
У меня есть данные от 3 групп биомассы водорослей ( , , ), которые содержат неравные размеры выборки ( , , ), и я хотел бы сравнить, если эти группы принадлежат к одной популяции.B C n A = 15 n B = 13 n C = 12AAABBBCCCnA=15nA=15n_A=15nB=13nB=13n_B=13nC=12nC=12n_C=12 Односторонний ANOVA определенно …

4
Как интерпретировать коэффициенты из подгонки полиномиальной модели?
Я пытаюсь создать полином второго порядка, соответствующий некоторым имеющимся у меня данным. Допустим, я заговорю это подходит с ggplot(): ggplot(data, aes(foo, bar)) + geom_point() + geom_smooth(method="lm", formula=y~poly(x, 2)) Я получил: Таким образом, подгонка второго порядка работает довольно хорошо. Я рассчитываю это с R: summary(lm(data$bar ~ poly(data$foo, 2))) И я получаю: …

5
Является ли p-значение бесполезным и опасным для использования?
Эта статья « Шансы, постоянно обновляемая» из NY Times привлекла мое внимание. Короче говоря, говорится, что [Байесовская статистика] оказывается особенно полезной при решении сложных проблем, в том числе поисков, подобных той, которую береговая охрана использовала в 2013 году, чтобы найти пропавшего рыбака Джона Олдриджа (хотя пока не до сих пор …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.