Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Что энтропия говорит нам?
Я читаю об энтропии и мне трудно понять, что это означает в непрерывном случае. На вики-странице указано следующее: Распределение вероятностей событий в сочетании с объемом информации о каждом событии образует случайную величину, ожидаемое значение которой представляет собой средний объем информации или энтропию, генерируемую этим распределением. Так что, если я вычислю …
32 entropy 

3
Почему инверсия ковариационной матрицы дает частичные корреляции между случайными величинами?
Я слышал, что частичные корреляции между случайными переменными можно найти, инвертировав ковариационную матрицу и взяв соответствующие ячейки из такой результирующей матрицы точности (этот факт упоминается в http://en.wikipedia.org/wiki/Partial_correlation , но без доказательства) , Почему это так?

2
Не будут ли сильно коррелированные переменные в случайном лесу искажать точность и выбор характеристик?
В моем понимании, сильно коррелированные переменные не будут вызывать проблемы мультиколлинеарности в модели случайного леса (пожалуйста, исправьте меня, если я ошибаюсь). Однако, с другой стороны, если у меня будет слишком много переменных, содержащих аналогичную информацию, будет ли модель слишком весить для этого набора, а не для других? Например, есть два …

5
Почему существует два варианта «гетероскедастика» или «гетероскедастика»?
Я часто вижу как «гетероскедастическое», так и «гетероскедастическое», а также «гомоскедастическое» и «гомоскедастическое». Кажется, нет никакой разницы в значении между вариантами «с» и «к», просто орфографическое различие, связанное с греческой этимологией слова. Каково происхождение двух разных написаний? Является ли одно использование более распространенным, чем другое, и отражают ли они различия …

7
Почему запятая является плохим разделителем / разделителем записей в файлах CSV?
Я читал эту статью, и мне любопытно найти правильный ответ на этот вопрос. Единственное, что мне приходит в голову, это, возможно, то, что в некоторых странах десятичный разделитель - это запятая, и это может быть проблемой при обмене данными в CSV , но я не совсем уверен в своем ответе.

3
Можно ли изменить гипотезу, чтобы она соответствовала наблюдаемым данным (иначе говоря, промысловая экспедиция) и избежать увеличения ошибок типа I?
Хорошо известно, что исследователи должны тратить время на наблюдение и изучение существующих данных и исследований, прежде чем формировать гипотезу, а затем собирать данные для проверки этой гипотезы (имея в виду проверку значимости нулевой гипотезы). Многие основные статистические книги предупреждают, что гипотезы должны быть сформированы априори и не могут быть изменены …

2
Логистическая регрессия: переменные Бернулли против биномиального ответа
Я хочу выполнить логистическую регрессию со следующим биномиальным ответом и с и качестве моих предикторов. Икс1Икс1X_1Икс2Икс2X_2 Я могу представить те же данные, что и ответы Бернулли, в следующем формате. Результаты логистической регрессии для этих двух наборов данных в основном одинаковы. Остатки отклонения и AIC различны. (Разница между нулевым отклонением и …

1
Сравнение двух моделей с использованием функции anova () в R
Из документации для anova(): Когда задана последовательность объектов, anova проверяет модели друг против друга в указанном порядке ... Что значит проверять модели друг против друга? И почему порядок имеет значение? Вот пример из учебника GenABEL : > modelAdd = lm(qt~as.numeric(snp1)) > modelDom = lm(qt~I(as.numeric(snp1)>=2)) > modelRec = lm(qt~I(as.numeric(snp1)>=3)) anova(modelAdd, modelGen, …
32 r  anova 

1
Обнаружение аномалий связи во временной сети
Я наткнулся на эту статью, в которой используется обнаружение аномалий ссылок для прогнозирования актуальных тем, и я нахожу это невероятно интригующим: статья «Обнаружение новых тем в социальных сетях с помощью обнаружения аномалий ссылок» . Я хотел бы скопировать его на другой набор данных, но я недостаточно знаком с методами, чтобы …

5
Рекомендации AIC при выборе модели
Обычно я использую BIC, так как я понимаю, что он ценит скупость сильнее, чем AIC. Однако сейчас я решил использовать более комплексный подход и хотел бы также использовать AIC. Я знаю, что Raftery (1995) представил хорошие рекомендации для различий BIC: 0-2 - слабое, 2-4 - положительное свидетельство того, что одна …

3
Ядро логистической регрессии против SVM
Как всем известно, SVM может использовать метод ядра для проецирования точек данных в верхние пространства, чтобы точки могли быть разделены линейным пространством. Но мы также можем использовать логистическую регрессию, чтобы выбрать эту границу в пространстве ядра, так в чем же преимущества SVM? Поскольку SVM использует разреженную модель, в которой вклады …
32 svm 

3
Можно ли найти комбинированное стандартное отклонение?
Предположим, у меня есть 2 комплекта: Набор A : количество элементов , ,n=10n=10n= 10μ=2.4μ=2.4\mu = 2.4σ=0.8σ=0.8\sigma = 0.8 Набор B : количество элементов , ,n=5n=5n= 5μ=2μ=2\mu = 2σ=1.2σ=1.2\sigma = 1.2 Я могу легко найти комбинированное среднее ( ), но как мне найти комбинированное стандартное отклонение?μμ\mu

3
Наборы данных, построенные с целью, аналогичной таковой в квартете Анскомба
Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать важность определенных аспектов статистического анализа.


2
Существует ли примерная версия одностороннего чебышевского неравенства?
Меня интересует следующая односторонняя версия неравенства Чебышева Кантелли : P ( X- E ( X) ≥ t ) ≤ V a r ( X)V a r (X) + т2,п(Икс-Е(Икс)≥T)≤Вaр(Икс)Вaр(Икс)+T2, \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. По сути, если вы знаете среднее значение и …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.