Статистика и большие данные

2

Я читаю об энтропии и мне трудно понять, что это означает в непрерывном случае. На вики-странице указано следующее: Распределение вероятностей событий в сочетании с объемом информации о каждом событии образует случайную величину, ожидаемое значение которой представляет собой средний объем информации или энтропию, генерируемую этим распределением. Так что, если я вычислю …

32 entropy

3

Почему инверсия ковариационной матрицы дает частичные корреляции между случайными величинами?

Я слышал, что частичные корреляции между случайными переменными можно найти, инвертировав ковариационную матрицу и взяв соответствующие ячейки из такой результирующей матрицы точности (этот факт упоминается в http://en.wikipedia.org/wiki/Partial_correlation , но без доказательства) , Почему это так?

32 covariance covariance-matrix linear-algebra partial-correlation matrix-inverse

2

Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?

В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других? Например, есть два …

32 random-forest multicollinearity ensemble

5

Почему существует два варианта «гетероскедастика» или «гетероскедастика»?

Я часто вижу как «гетероскедастическое», так и «гетероскедастическое», а также «гомоскедастическое» и «гомоскедастическое». Кажется, нет никакой разницы в значении между вариантами «с» и «к», просто орфографическое различие, связанное с греческой этимологией слова. Каково происхождение двух разных написаний? Является ли одно использование более распространенным, чем другое, и отражают ли они различия …

32 terminology heteroscedasticity etymology

7

Почему запятая является плохим разделителем / разделителем записей в файлах CSV?

Я читал эту статью, и мне любопытно найти правильный ответ на этот вопрос. Единственное, что мне приходит в голову, это, возможно, то, что в некоторых странах десятичный разделитель - это запятая, и это может быть проблемой при обмене данными в CSV , но я не совсем уверен в своем ответе.

32 project-management

3

Можно ли изменить гипотезу, чтобы она соответствовала наблюдаемым данным (иначе говоря, промысловая экспедиция) и избежать увеличения ошибок типа I?

Хорошо известно, что исследователи должны тратить время на наблюдение и изучение существующих данных и исследований, прежде чем формировать гипотезу, а затем собирать данные для проверки этой гипотезы (имея в виду проверку значимости нулевой гипотезы). Многие основные статистические книги предупреждают, что гипотезы должны быть сформированы априори и не могут быть изменены …

32 hypothesis-testing

2

Логистическая регрессия: переменные Бернулли против биномиального ответа

Я хочу выполнить логистическую регрессию со следующим биномиальным ответом и с и качестве моих предикторов. Икс1Икс1X_1Икс2Икс2X_2 Я могу представить те же данные, что и ответы Бернулли, в следующем формате. Результаты логистической регрессии для этих двух наборов данных в основном одинаковы. Остатки отклонения и AIC различны. (Разница между нулевым отклонением и …

32 logistic binomial aic bernoulli-distribution deviance

1

Сравнение двух моделей с использованием функции anova () в R

Из документации для anova(): Когда задана последовательность объектов, anova проверяет модели друг против друга в указанном порядке ... Что значит проверять модели друг против друга? И почему порядок имеет значение? Вот пример из учебника GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, …

32 r anova

1

Обнаружение аномалий связи во временной сети

Я наткнулся на эту статью, в которой используется обнаружение аномалий ссылок для прогнозирования актуальных тем, и я нахожу это невероятно интригующим: статья «Обнаружение новых тем в социальных сетях с помощью обнаружения аномалий ссылок» . Я хотел бы скопировать его на другой набор данных, но я недостаточно знаком с методами, чтобы …

32 time-series machine-learning outliers python change-point

5

Рекомендации AIC при выборе модели

Обычно я использую BIC, так как я понимаю, что он ценит скупость сильнее, чем AIC. Однако сейчас я решил использовать более комплексный подход и хотел бы также использовать AIC. Я знаю, что Raftery (1995) представил хорошие рекомендации для различий BIC: 0-2 - слабое, 2-4 - положительное свидетельство того, что одна …

32 r model-selection references aic bic

3

Ядро логистической регрессии против SVM

Как всем известно, SVM может использовать метод ядра для проецирования точек данных в верхние пространства, чтобы точки могли быть разделены линейным пространством. Но мы также можем использовать логистическую регрессию, чтобы выбрать эту границу в пространстве ядра, так в чем же преимущества SVM? Поскольку SVM использует разреженную модель, в которой вклады …

32 svm

3

Можно ли найти комбинированное стандартное отклонение?

Предположим, у меня есть 2 комплекта: Набор A : количество элементов , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Набор B : количество элементов , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Я могу легко найти комбинированное среднее ( ), но как мне найти комбинированное стандартное отклонение?μμ\mu

32 standard-deviation

3

Наборы данных, построенные с целью, аналогичной таковой в квартете Анскомба

Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать важность определенных аспектов статистического анализа.

32 regression data-visualization dataset

4

Реализация CRF в Python

Существует ли популярная реализация условных случайных полей в Python ? Я не могу найти что-то, что широко используется и популярно!

32 machine-learning classification python conditional-random-field

2

Существует ли примерная версия одностороннего чебышевского неравенства?

Меня интересует следующая односторонняя версия неравенства Чебышева Кантелли : P ( X- E ( X) ≥ t ) ≤ V a r ( X)V a r (X) + т2,п(Икс-Е(Икс)≥T)≤Вaр(Икс)Вaр(Икс)+T2, \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. По сути, если вы знаете среднее значение и …

32 probability mathematical-statistics probability-inequalities mean