Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

4
В чем разница?
Разница в различиях уже давно популярна как не экспериментальный инструмент, особенно в экономике. Может ли кто-нибудь дать четкий и нетехнический ответ на следующие вопросы о разнице в различиях. Что такое разностная оценка? Почему оценка разницы в разнице используется? Можем ли мы доверять оценкам разницы в разнице?

9
Почему люди используют р-значения вместо вычисления вероятности модели данных данных?
Грубо говоря, значение p дает вероятность наблюдаемого исхода эксперимента с учетом гипотезы (модели). Имея эту вероятность (p-значение), мы хотим оценить нашу гипотезу (насколько она вероятна). Но не будет ли более естественным рассчитать вероятность гипотезы с учетом наблюдаемого исхода? Более подробно. У нас есть монета. Мы переворачиваем это 20 раз и …

3
Понимание роли дисконтного фактора в обучении с подкреплением
Я учу себя изучению подкрепления и пытаюсь понять концепцию дисконтированного вознаграждения. Таким образом, награда необходима, чтобы сообщить системе, какие пары состояние-действие хороши, а какие плохи. Но то, что я не понимаю, - то, почему дисконтированное вознаграждение необходимо. Почему должно иметь значение, достигнуто ли хорошее состояние скорее раньше, чем позже? Я …

3
Обобщение закона повторных ожиданий
Я недавно столкнулся с этой личностью: E[E(Y|X,Z)|X]=E[Y|X]E[E(Y|X,Z)|X]=E[Y|X]E \left[ E \left(Y|X,Z \right) |X \right] =E \left[Y | X \right] Я, конечно, знаком с более простой версией этого правила, а именно, что но я не смог найти оправдания для его обобщение.E[E(Y|X)]=E(Y)E[E(Y|X)]=E(Y)E \left[ E \left(Y|X \right) \right]=E \left(Y\right) Я был бы признателен, если …

3
Как визуализировать подходящую модель множественной регрессии?
В настоящее время я пишу статью с несколькими множественными регрессионными анализами. Хотя визуализация одномерной линейной регрессии проста с помощью диаграмм рассеяния, мне было интересно, есть ли хороший способ визуализации множественных линейных регрессий? В настоящее время я просто строю графики рассеяния как зависимая переменная против 1-й независимой переменной, затем против 2-й …

2
Почему модели временных рядов MA (q) называют «скользящими средними»?
Когда я читаю «скользящее среднее» относительно временного ряда, я думаю что-то вроде или, возможно, взвешенный средний, например, . (Я понимаю, что на самом деле это модели AR (3), но именно к этому мой мозг подскакивает.) Почему MA (q) моделирует формулы ошибочных терминов или «инновации»? Какое отношение имеет отношение к скользящей …

3
Можно ли интерпретировать бутстрап с байесовской точки зрения?
Хорошо, это вопрос, который не дает мне спать по ночам. Может ли процедура начальной загрузки быть интерпретирована как аппроксимация некоторой байесовской процедуры (кроме байесовской начальной загрузки)? Мне действительно нравится байесовская «интерпретация» статистики, которую я нахожу приятной и понятной. Однако у меня также есть слабость к процедуре начальной загрузки, которая настолько …

4
Принимая ожидание серии Тейлор (особенно остаток)
Мой вопрос касается попыток обосновать широко используемый метод, а именно, взять ожидаемое значение ряда Тейлора. Предположим, у нас есть случайная величина с положительным средним и дисперсией . Кроме того, у нас есть функция, скажем, .μ σ 2 log ( x )XXXμμ\muσ2σ2\sigma^2log(x)log⁡(x)\log(x) Выполняя разложение Тейлора вокруг среднего значения, мы получаем где, …

4
Обучение дерева решений против несбалансированных данных
Я новичок в области интеллектуального анализа данных и пытаюсь настроить дерево решений на основе набора данных, который сильно разбалансирован. Однако у меня проблемы с плохой точностью прогнозирования. Данные состоят из студентов, изучающих курсы, а переменная класса - это статус курса, который имеет два значения - отозванный или текущий. Возраст Этнос …

4
Какие ссылки следует привести, чтобы использовать 30 как достаточно большой размер выборки?
Я много раз читал / слышал, что размер выборки, по крайней мере, 30 единиц, считается «большой выборкой» (предположения о нормальности средств обычно приблизительно соответствуют CLT, ...). Поэтому в своих экспериментах я обычно генерирую образцы по 30 единиц. Можете ли вы дать мне некоторые ссылки, которые должны быть указаны при использовании …

3
Регрессия за результат (отношение или доля) между 0 и 1
Я думаю о построении модели, предсказывающей отношение , где и и . Таким образом, соотношение будет между и .а / бa/ba/ba > 0 b > 0 0 1a ≤ ba≤ba \le bа > 0a>0a > 0б > 0b>0b > 0000111 Я мог бы использовать линейную регрессию, хотя она, естественно, не …

3
Методы регуляризации для логистической регрессии
Регуляризация с использованием таких методов, как Ridge, Lasso, ElasticNet, довольно распространена для линейной регрессии. Я хотел знать следующее: применимы ли эти методы для логистической регрессии? Если да, есть ли различия в том, как их нужно использовать для логистической регрессии? Если эти методы не применимы, как можно упорядочить логистическую регрессию?

2
Метод максимального правдоподобия и метод наименьших квадратов
В чем основное различие между оценкой максимального правдоподобия (MLE) и оценкой наименьших квадратов (LSE)? Почему мы не можем использовать MLE для прогнозирования значений в линейной регрессии и наоборот?Yyy Любая помощь по этой теме будет принята с благодарностью.

2
Что такое maxout в нейронной сети?
Кто-нибудь может объяснить, что делают блоки maxout в нейронной сети? Как они работают и чем они отличаются от обычных единиц? Я попытался прочитать статью «Maxout Network» за 2013 год, написанную Goodfellow et al. (из группы профессора Йошуа Бенжио), но я не совсем понимаю.

7
Почему Random Forest не обрабатывает пропущенные значения в предикторах?
Каковы теоретические причины не обрабатывать пропущенные значения? Машины повышения градиента, деревья регрессии обрабатывают пропущенные значения. Почему Случайный Лес не делает это?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.