Статистика и большие данные

14

Простой алгоритм онлайн-определения выбросов общего временного ряда

Я работаю с большим количеством временных рядов. Эти временные ряды в основном представляют собой измерения сети, проводимые каждые 10 минут, и некоторые из них являются периодическими (т. Е. Пропускная способность), а некоторые другие - нет (т. Е. Объем трафика маршрутизации). Я хотел бы, чтобы простой алгоритм для онлайн "обнаружения выбросов". …

88 time-series outliers mathematical-statistics real-time

30

Есть ли способ запомнить определения ошибок типа I и типа II?

Я не статистик по образованию, я инженер-программист. И все же статистика выходит очень много. На самом деле, вопросы, связанные с ошибками типа I и типа II, часто возникают в ходе моего обучения на экзамене на сертифицированного специалиста по разработке программного обеспечения (математика и статистика составляют 10% экзамена). У меня возникают …

88 terminology type-i-and-ii-errors

2

Насколько мы должны бояться предупреждений о сходимости в lme4?

Если мы подгоняем блеск, мы можем получить предупреждение, которое говорит нам, что модели трудно сойтись ... например >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Другой способ проверить сходимость, обсуждаемую в этой теме @Ben Bolker: relgrad <- …

88 r mixed-model lme4-nlme

3

Что такое дефицит ранга и как с ним бороться?

Подгонка логистической регрессии с использованием lme4 заканчивается Error in mer_finalize(ans) : Downdated X'X is not positive definite. Вероятной причиной этой ошибки, очевидно, является недостаток ранга. Что такое дефицит ранга и как мне его устранить?

87 r logistic lme4-nlme

5

Каковы основные различия между K-средних и K-ближайшими соседями?

Я знаю, что k-means не контролируется и используется для кластеризации и т. Д., А k-NN контролируется. Но я хотел узнать конкретные различия между ними?

86 machine-learning k-means k-nearest-neighbour

2

Учитывая мощь компьютеров в наши дни, есть ли причина для проведения теста хи-квадрат, а не для точного теста Фишера?

Учитывая, что в настоящее время программное обеспечение может так легко выполнять точный расчет теста Фишера , есть ли обстоятельства, когда теоретически или практически критерий хи-квадрат на самом деле предпочтительнее точного теста Фишера? Преимущества точного теста Фишера включают в себя: масштабирование до таблиц сопряженности больше 2х2 (т. е. любой таблицы r …

86 chi-squared contingency-tables fishers-exact

3

Какие примеры, когда «наивный бутстрап» терпит неудачу?

Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике TTT данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику TTT на каждый образец начальной загрузки , чтобы создать оценочное распределение для …

86 hypothesis-testing confidence-interval bootstrap

9

Что именно является доверительным интервалом?

Я примерно и неофициально знаю, что такое доверительный интервал. Однако я не могу обернуться вокруг одной довольно важной детали: согласно Википедии: Доверительный интервал не предсказывает, что истинное значение параметра имеет конкретную вероятность нахождения в доверительном интервале с учетом фактически полученных данных. Я также видел подобные замечания, сделанные в нескольких местах …

86 confidence-interval definition

9

Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?

В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные. Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я …

85 regression intuition multicollinearity

17

Включая взаимодействие, но не основные эффекты в модели

Является ли когда-либо обоснованным включение двустороннего взаимодействия в модель без учета основных эффектов? Что, если ваша гипотеза касается только взаимодействия, вам все равно нужно включить основные эффекты?

85 regression modeling interaction regression-coefficients

24

Практические правила для «современной» статистики

Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа …

85 modeling eda rule-of-thumb

16

При каких условиях корреляция подразумевает причинно-следственную связь?

Все мы знаем мантру «корреляция не подразумевает причинно-следственную связь», которую разыгрывают все студенты первого курса статистики. Есть некоторые хорошие примеры здесь , чтобы проиллюстрировать эту идею. Но иногда корреляция делает подразумевает причинно - следственную связь. Следующий пример взят из этой страницы Википедии Например, можно провести эксперимент на идентичных близнецах, которые, …

85 correlation causality

4

Как выбрать библиотеку nlme или lme4 R для моделей со смешанными эффектами?

У меня подходят несколько смешанных моделей эффектов ( в частности , продольные модели) с использованием lme4в Rно хотел бы, чтобы действительно мастер модели и код , который идет с ними. Однако, прежде чем погрузиться обеими ногами (и купить несколько книг), я хочу убедиться, что я изучаю правильную библиотеку. Я привык …

85 r mixed-model lme4-nlme

8

Если среднее значение настолько чувствительно, зачем использовать его в первую очередь?

Это известный факт, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь? Возможно, я могу придумать одну вещь: понять наличие выбросов, то есть если медиана далека от среднего значения, тогда распределение искажено и, возможно, необходимо изучить данные, чтобы решить, …

84 mathematical-statistics mean median

1

Как применить нейронную сеть для прогнозирования временных рядов?

Я новичок в машинном обучении, и я пытался понять, как применить нейронную сеть для прогнозирования временных рядов. Я нашел ресурс, связанный с моим запросом, но я все еще немного потерян. Я думаю, что базовое объяснение без особых подробностей поможет. Допустим, у меня есть несколько ценовых значений для каждого месяца в …

83 time-series forecasting neural-networks