Статистика и большие данные

4

Точный тест Фишера в таблицах непредвиденных обстоятельств больше 2х2

Меня учили применять точный тест Фишера только в таблицах непредвиденных обстоятельств, которые были 2x2. Вопросов: Сам Фишер когда-либо предполагал, что этот тест будет использоваться в таблицах размером более 2х2 (мне известно о том, как он разработал этот тест, пытаясь угадать, может ли пожилая женщина сказать, было ли молоко добавлено в …

29 spss stata contingency-tables fishers-exact

3

Справедлив ли критерий Колмогорова-Смирнова с дискретными распределениями?

Я сравниваю пример и проверяю, распространяется ли он как какой-то дискретный дистрибутив. Однако я не уверен, что Колмогоров-Смирнов подает заявку. Википедия, кажется, подразумевает, что это не так. Если это не так, как я могу проверить распределение образца?

29 hypothesis-testing discrete-data kolmogorov-smirnov

11

Статистические подкасты

Какие подкасты связаны со статистическим анализом? Я нашел несколько аудиозаписей лекций в колледже на ITunes U, но мне неизвестны какие-либо статистические подкасты. Самая близкая вещь, о которой я знаю, это подкаст по исследованию операций «Наука о лучшем» . Это касается статистических вопросов, но это не конкретно статистическое шоу.

29 references

5

Как рассчитать взвешенное стандартное отклонение? В Excel?

Итак, у меня есть набор данных процентов, например, так: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Я хочу найти стандартное отклонение в процентах, но взвешенное для их объема данных. т.е. первая и последняя …

29 standard-deviation excel weighted-mean

6

Процедура выбора переменной для двоичной классификации

Какие переменные / характеристики вы предпочитаете для бинарной классификации, когда в наборе обучения гораздо больше переменных / функций, чем наблюдений? Цель здесь состоит в том, чтобы обсудить, какова процедура выбора признаков, которая наилучшим образом уменьшает ошибку классификации. Мы можем зафиксировать обозначения для согласованности: для пусть { x i 1 , …

29 machine-learning classification multiple-comparisons multivariate-analysis feature-selection

6

Как я могу проверить справедливость d20?

Как я могу проверить справедливость двадцатигранного кубика (d20)? Очевидно, я бы сравнил распределение значений с равномерным распределением. Я смутно помню использование теста хи-квадрат в колледже. Как я могу применить это, чтобы увидеть, честен ли кубик?

29 hypothesis-testing chi-squared goodness-of-fit uniform dice

3

Как выполнить ортогональную регрессию (наименьших квадратов) с помощью PCA?

Я всегда использую lm()в R для выполнения линейной регрессии yyy на xxx . Эта функция возвращает коэффициент ββ\beta такой, что y=βx.y=βx.y = \beta x. Сегодня я узнал об общих наименьших квадратах, и эту princomp()функцию (анализ основных компонентов, PCA) можно использовать для ее выполнения. Это должно быть хорошо для меня (точнее). …

29 r pca least-squares deming-regression total-least-squares

6

Тест на конечную дисперсию?

Можно ли проверить на конечность (или существование) дисперсии случайной величины для данной выборки? Как ноль, либо {дисперсия существует и является конечной}, либо {дисперсия не существует / бесконечна} будет приемлемым. С философской точки зрения (и в вычислительном отношении) это кажется очень странным, потому что не должно быть никакой разницы между населением …

29 hypothesis-testing variance central-limit-theorem

3

Что такое коллектор?

В технике уменьшения размерности, такой как анализ главных компонентов, LDA и т. Д., Часто используется термин «многообразие». Что такое многообразие в нетехническом термине? Если точка принадлежит сфере, размер которой я хочу уменьшить, и если есть шум y, а x и y некоррелированы, то фактические точки x будут далеко отделены друг …

29 terminology manifold-learning

1

Каковы недостатки средней абсолютной ошибки в процентах (MAPE)?

Процент ошибки Среднего Absolute ( Мапэ ) является общей точностью или мера ошибки для временных рядов или других предсказаний, MAPE = 100NΣт = 1N| T- FT|AT% ,MAPE=100n∑t=1n|At−Ft|At%, \text{MAPE} = \frac{100}{n}\sum_{t=1}^n\frac{|A_t-F_t|}{A_t}\%, где - фактические данные, а соответствующие прогнозы или прогнозы.F tATAtA_tFTFtF_t MAPE - это процент, поэтому мы можем легко сравнить его …

29 accuracy mape

1

Интервал прогнозирования начальной загрузки

Существует ли какой-либо метод начальной загрузки для вычисления интервалов прогнозирования для точечных прогнозов, полученных, например, с помощью линейной регрессии или другого метода регрессии (k-ближайший сосед, деревья регрессии и т. Д.)? Почему-то я чувствую, что иногда предлагаемый способ просто перехватить точечный прогноз (см., Например, интервалы прогнозирования для регрессии kNN ) не …

29 bootstrap prediction-interval

2

Зачем использовать стратифицированную перекрестную проверку? Почему это не наносит ущерба дисперсии?

Мне сказали, что полезно использовать стратифицированную перекрестную проверку, особенно когда классы ответов не сбалансированы. Если одна из целей перекрестной проверки состоит в том, чтобы помочь учесть случайность нашей исходной выборки обучающих данных, то, безусловно, создание одинакового распределения классов для каждого сгиба будет работать против этого, если вы не уверены, что …

29 cross-validation resampling stratification

1

Метрики ошибок для перекрестной проверки моделей Пуассона

Я перекрестно проверяю модель, которая пытается предсказать счет. Если бы это была проблема бинарной классификации, я бы вычислял AUC вне складывания, а если бы это была проблема регрессии, я бы вычислял среднеквадратичное среднеквадратичное значение или MAE. Для модели Пуассона какие метрики ошибок я могу использовать для оценки «точности» прогнозов вне …

29 cross-validation poisson-distribution count-data deviance scoring-rules

4

Псевдо-R2 Макфаддена Интерпретация

У меня есть бинарная модель логистической регрессии с псевдо R-квадратом Макфаддена 0,192 с зависимой переменной, называемой платежом (1 = оплата и 0 = нет оплаты). Какова интерпретация этого псевдо R-квадрата? Является ли это относительным сравнением для вложенных моделей (например, модель с 6 переменными имеет псевдо R-квадрат Макфаддена 0,192, тогда как …

29 regression self-study logistic

3

Полиномиальная регрессия с использованием scikit-learn

Я пытаюсь использовать scikit-learn для полиномиальной регрессии. Из того, что я прочитал, полиномиальная регрессия является частным случаем линейной регрессии. Я прыгал, что, возможно, одна из обобщенных линейных моделей Scikit может быть параметризована для соответствия полиномам более высокого порядка, но я не вижу возможности сделать это. Мне удалось использовать опорный вектор-регрессор …

29 regression machine-learning large-data polynomial scikit-learn