Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

14
Простой алгоритм онлайн-определения выбросов общего временного ряда
Я работаю с большим количеством временных рядов. Эти временные ряды в основном представляют собой измерения сети, проводимые каждые 10 минут, и некоторые из них являются периодическими (т. Е. Пропускная способность), а некоторые другие - нет (т. Е. Объем трафика маршрутизации). Я хотел бы, чтобы простой алгоритм для онлайн "обнаружения выбросов". …

30
Есть ли способ запомнить определения ошибок типа I и типа II?
Я не статистик по образованию, я инженер-программист. И все же статистика выходит очень много. На самом деле, вопросы, связанные с ошибками типа I и типа II, часто возникают в ходе моего обучения на экзамене на сертифицированного специалиста по разработке программного обеспечения (математика и статистика составляют 10% экзамена). У меня возникают …

2
Насколько мы должны бояться предупреждений о сходимости в lme4?
Если мы подгоняем блеск, мы можем получить предупреждение, которое говорит нам, что модели трудно сойтись ... например >Warning message: In checkConv(attr(opt, "derivs"), opt$par, ctrl = control$checkConv, : Model failed to converge with max|grad| = 0.00389462 (tol = 0.001) Другой способ проверить сходимость, обсуждаемую в этой теме @Ben Bolker: relgrad <- …

3
Что такое дефицит ранга и как с ним бороться?
Подгонка логистической регрессии с использованием lme4 заканчивается Error in mer_finalize(ans) : Downdated X'X is not positive definite. Вероятной причиной этой ошибки, очевидно, является недостаток ранга. Что такое дефицит ранга и как мне его устранить?
87 r  logistic  lme4-nlme 


2
Учитывая мощь компьютеров в наши дни, есть ли причина для проведения теста хи-квадрат, а не для точного теста Фишера?
Учитывая, что в настоящее время программное обеспечение может так легко выполнять точный расчет теста Фишера , есть ли обстоятельства, когда теоретически или практически критерий хи-квадрат на самом деле предпочтительнее точного теста Фишера? Преимущества точного теста Фишера включают в себя: масштабирование до таблиц сопряженности больше 2х2 (т. е. любой таблицы r …

3
Какие примеры, когда «наивный бутстрап» терпит неудачу?
Предположим, у меня есть набор данных выборки из неизвестного или сложного распределения, и я хочу сделать некоторый вывод по статистике TTT данных. Моя склонность по умолчанию является просто генерировать кучу образцов бутстраповских с заменой, и вычислить мою статистику TTT на каждый образец начальной загрузки , чтобы создать оценочное распределение для …

9
Что именно является доверительным интервалом?
Я примерно и неофициально знаю, что такое доверительный интервал. Однако я не могу обернуться вокруг одной довольно важной детали: согласно Википедии: Доверительный интервал не предсказывает, что истинное значение параметра имеет конкретную вероятность нахождения в доверительном интервале с учетом фактически полученных данных. Я также видел подобные замечания, сделанные в нескольких местах …

9
Есть ли интуитивное объяснение, почему мультиколлинеарность является проблемой линейной регрессии?
В вики обсуждаются проблемы, возникающие, когда мультиколлинеарность является проблемой линейной регрессии. Основная проблема заключается в том, что мультиколлинеарность приводит к нестабильным оценкам параметров, что очень затрудняет оценку влияния независимых переменных на зависимые переменные. Я понимаю технические причины проблем (возможно, не в состоянии инвертировать , плохо обусловленные т. Д.), Но я …

17
Включая взаимодействие, но не основные эффекты в модели
Является ли когда-либо обоснованным включение двустороннего взаимодействия в модель без учета основных эффектов? Что, если ваша гипотеза касается только взаимодействия, вам все равно нужно включить основные эффекты?

24
Практические правила для «современной» статистики
Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа …

16
При каких условиях корреляция подразумевает причинно-следственную связь?
Все мы знаем мантру «корреляция не подразумевает причинно-следственную связь», которую разыгрывают все студенты первого курса статистики. Есть некоторые хорошие примеры здесь , чтобы проиллюстрировать эту идею. Но иногда корреляция делает подразумевает причинно - следственную связь. Следующий пример взят из этой страницы Википедии Например, можно провести эксперимент на идентичных близнецах, которые, …

4
Как выбрать библиотеку nlme или lme4 R для моделей со смешанными эффектами?
У меня подходят несколько смешанных моделей эффектов ( в частности , продольные модели) с использованием lme4в Rно хотел бы, чтобы действительно мастер модели и код , который идет с ними. Однако, прежде чем погрузиться обеими ногами (и купить несколько книг), я хочу убедиться, что я изучаю правильную библиотеку. Я привык …

8
Если среднее значение настолько чувствительно, зачем использовать его в первую очередь?
Это известный факт, что медиана устойчива к выбросам. Если это так, то когда и почему мы будем использовать среднее значение в первую очередь? Возможно, я могу придумать одну вещь: понять наличие выбросов, то есть если медиана далека от среднего значения, тогда распределение искажено и, возможно, необходимо изучить данные, чтобы решить, …

1
Как применить нейронную сеть для прогнозирования временных рядов?
Я новичок в машинном обучении, и я пытался понять, как применить нейронную сеть для прогнозирования временных рядов. Я нашел ресурс, связанный с моим запросом, но я все еще немного потерян. Я думаю, что базовое объяснение без особых подробностей поможет. Допустим, у меня есть несколько ценовых значений для каждого месяца в …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.