Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных


3
Brain-teaser: Какова ожидаемая длина последовательности iid, которая монотонно увеличивается при получении из равномерного распределения [0,1]?
Это вопрос интервью для позиции количественного аналитика, о котором сообщается здесь . Предположим, что мы рисуем из равномерного распределения а ничьи идентифицированы, какова ожидаемая длина монотонно увеличивающегося распределения? Т.е. мы прекращаем рисование, если текущее рисование меньше или равно предыдущему.[0,1][0,1][0,1] Я получил первые несколько: \ Pr (\ text {length} = 2) …

3
Почему смесь двух нормально распределенных переменных является только бимодальной, если их средние значения отличаются как минимум в два раза от стандартного стандартного отклонения?
Под смесь двух нормальных распределений: https://en.wikipedia.org/wiki/Multimodal_distribution#Mixture_of_two_normal_distributions «Смесь из двух нормальных распределений имеет пять параметров для оценки: два средних, две дисперсии и параметр смешивания. Смесь из двух нормальных распределений с равными стандартными отклонениями является бимодальной, только если их средние значения отличаются, по меньшей мере, в два раза от общего стандартного отклонения …
28 bimodal 

2
Белый шум в статистике
Я часто вижу термин белый шум, возникающий при чтении различных статистических моделей. Однако я должен признать, что я не совсем уверен, что это значит. Обычно его сокращают до . Означает ли это, что он обычно распространяется или может следовать за любым распределением?WN(0,σ2)WN(0,σ2)WN(0,σ^2)

4
Дает ли равномерное распределение многих p-значений статистическое свидетельство того, что H0 истинно?
Один статистический тест может подтвердить, что нулевая гипотеза (H0) ложна, и, следовательно, альтернативная гипотеза (H1) верна. Но это не может использоваться, чтобы показать, что H0 истинно, потому что отказ отклонить H0 не означает, что H0 истинно. Но давайте предположим, что у вас есть возможность выполнять статистический тест много раз, потому …

4
Экстраполяция v. Интерполяция
В чем разница между экстраполяцией и интерполяцией, и как наиболее точно использовать эти термины? Например, я видел утверждение в документе, использующее интерполяцию как: «Процедура интерполирует форму оценочной функции между точками бина» Предложение, которое использует как экстраполяцию, так и интерполяцию, например: Предыдущий шаг, где мы экстраполировали интерполированную функцию, используя метод Kernel, …


1
Насколько некорректна модель регрессии, когда предположения не выполняются?
При подборе регрессионной модели, что произойдет, если предположения о выходных данных не будут выполнены, а именно Что произойдет, если остатки не будут гомоскедастичными? Если остатки показывают растущий или убывающий паттерн на графике Остатки против Приспособленного. Что произойдет, если остатки не распределены нормально и не пройдут тест Шапиро-Уилка? Критерий нормальности по …

1
Значение «Частота» для данных интервалов секунд / минут в R
Я использую R (3.1.1) и модели ARIMA для прогнозирования. Я хотел бы знать, каким должен быть параметр «частоты», который назначается в ts()функции , если я использую данные временных рядов, которые: разделено минутами и распространяется в течение 180 дней (1440 минут / день) отделяется секундами и распространяется на 180 дней (86 …


1
Приближение функции потерь XGBoost с расширением Тейлора
В качестве примера возьмем целевую функцию модели XGBoost на -й итерации:ttt L(t)=∑i=1nℓ(yi,y^(t−1)i+ft(xi))+Ω(ft)L(t)=∑i=1nℓ(yi,y^i(t−1)+ft(xi))+Ω(ft)\mathcal{L}^{(t)}=\sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)}+f_t(\mathbf{x}_i))+\Omega(f_t) где - функция потерь, - выходной файл ', а - регуляризация. Одним из (многих) ключевых шагов для быстрого расчета является приближение:ℓℓ\ellftftf_ttttΩΩ\Omega L(t)≈∑i=1nℓ(yi,y^(t−1)i)+gtft(xi)+12hif2t(xi)+Ω(ft),L(t)≈∑i=1nℓ(yi,y^i(t−1))+gtft(xi)+12hift2(xi)+Ω(ft),\mathcal{L}^{(t)}\approx \sum_{i=1}^n\ell(y_i,\hat{y}_i^{(t-1)})+g_tf_t(\mathbf{x}_i)+\frac{1}{2}h_if_t^2(\mathbf{x}_i)+\Omega(f_t), где и - первая и вторая производные функции потерь.gigig_ihihih_i То, что я прошу, это убедительные …

2
Почему p-значения вводят в заблуждение после пошагового выбора?
Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю. Я слышал, что следует рассматривать все переменные, оставшиеся в …

2
Какие аспекты набора данных «Iris» делают его таким успешным, как набор данных для примера / обучения / тестирования
Набор данных "Iris", вероятно, знаком большинству людей здесь - это один из канонических тестовых наборов данных и примерный набор данных для всего - от визуализации данных до машинного обучения. Например, все в этом вопросе в конечном итоге использовали его для обсуждения диаграмм рассеяния, разделенных обработкой. Что делает набор данных Iris …
28 dataset 

7
Как называется статистическая ошибка, из-за которой результаты предыдущих бросков монет влияют на представления о последующих бросках монет?
Как все мы знаем, если вы подбрасываете монету с равным шансом посадки голов, как и с хвостами, то если вы подбрасываете монету много раз, половину времени вы получите головы, а половину - хвосты. Обсуждая это с другом, они сказали, что если вы перевернете монету 1000 раз, и, скажем, первые 100 …

5
Разница между байесовскими сетями и марковским процессом?
В чем разница между байесовской сетью и марковским процессом? Я полагал, что понял принципы обоих, но теперь, когда мне нужно сравнить два, я чувствую себя потерянным Они значат почти то же самое для меня. Конечно, нет. Ссылки на другие ресурсы также приветствуются.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.