Статистика и большие данные

3

При объединении p-значений, почему бы не просто усреднить?

Недавно я узнал о методе Фишера для комбинирования p-значений. Это основано на том факте, что значение p при нулевом значении соответствует равномерному распределению и что которое, я думаю, это гений Но мой вопрос: зачем идти по этому извилистому пути? и почему бы не (что не так) просто использовать среднее значение …

44 hypothesis-testing p-value multiple-comparisons central-limit-theorem combining-p-values

1

Вычисление дисперсии Коэна (и стандартных ошибок)

Статистика Каппа ( κκ\kappa ) была введена Коэном в 1960 году [1] для измерения согласия между двумя оценщиками. Однако его дисперсия была источником противоречий довольно долгое время. Мой вопрос о том, какой расчет отклонений является лучшим для больших выборок. Я склонен полагать, что проверенный и подтвержденный Fleiss [2] будет правильным …

44 estimation variance reliability cohens-kappa

7

Почему кто-то использует байесовский подход с «неинформативным» неподобающим предшествующим вместо классического подхода?

Если интерес представляет собой просто оценка параметров модели (точечная и / или интервальная оценка) и предшествующая информация не является надежной, слабой (я знаю, что это немного расплывчато, но я пытаюсь создать сценарий, в котором выбор до этого сложно) ... Почему кто-то решил использовать байесовский подход с «неинформативными» неподходящими априорными вместо …

44 bayesian inference prior likelihood information

4

Статистические модели шпаргалки

Мне было интересно, есть ли статистическая модель "шпаргалка", которая перечисляет любую или более информацию: когда использовать модель когда не использовать модель обязательные и дополнительные входы ожидаемые результаты Была ли модель протестирована в различных областях (политика, био, инженерия, производство и т. д.)? это принято на практике или в исследованиях? ожидаемое отклонение …

44 references modeling

8

Строгое определение выброса?

Люди часто говорят о работе с выбросами в статистике. Что меня беспокоит в этом, так это то, что, насколько я могу судить, определение выброса является полностью субъективным. Например, если истинное распределение некоторой случайной величины является очень тяжелым или бимодальным, любая стандартная визуализация или сводная статистика для обнаружения выбросов будет неправильно …

44 outliers definition

5

Почему множественное сравнение является проблемой?

Мне трудно понять, в чем на самом деле проблема множественных сравнений . По простой аналогии говорят, что человек, который примет много решений, совершит много ошибок. Поэтому применяются очень консервативные меры предосторожности, такие как коррекция Бонферрони, с тем чтобы сделать вероятность того, что этот человек совершит любую ошибку, настолько низко, насколько …

44 hypothesis-testing multiple-comparisons

6

Почему мультиколлинеарность не проверяется в современной статистике / машинном обучении

В традиционной статистике при построении модели мы проверяем мультиколлинеарность, используя такие методы, как оценки коэффициента инфляции дисперсии (VIF), но в машинном обучении вместо этого мы используем регуляризацию для выбора признаков и, похоже, не проверяем, коррелированы ли функции вообще. Зачем мы это делаем?

44 regression machine-learning multicollinearity regularization vif

4

Существует ли тест для определения значимости избыточной дисперсии GLM?

Я создаю пуассоновские GLM в R. Чтобы проверить избыточную дисперсию, я смотрю на отношение остаточного отклонения к степеням свободы, предоставляемым summary(model.name). Есть ли предельное значение или критерий для того, чтобы это соотношение считалось "значительным"? Я знаю, что если это> 1, то данные перераспределены, но если у меня коэффициенты относительно близки …

44 statistical-significance overdispersion

2

Нужна ли средняя нормализация и масштабирование функций для кластеризации k-средних?

Каковы наилучшие (рекомендуемые) этапы предварительной обработки перед выполнением k-средних?

44 clustering normalization k-means

4

Как статистически сравнить два временных ряда?

У меня есть два временных ряда, показанных на графике ниже: На графике показаны все детали обоих временных рядов, но я могу легко сократить их до совпадений, если это необходимо. У меня вопрос: какие статистические методы я могу использовать для оценки различий между временными рядами? Я знаю, что это довольно широкий …

44 r time-series

6

Как избежать наложения меток на графике R? [закрыто]

Я пытаюсь обозначить довольно простую диаграмму рассеяния в R. Это то, что я использую: plot(SI, TI) text(SI, TI, Name, pos=4, cex=0.7) Результат посредственный, как вы можете видеть (нажмите, чтобы увеличить): Я пытался компенсировать это с помощью textxyфункции, но это не лучше . Увеличение самого изображения не работает для плотных кластеров. …

44 r data-visualization scatterplot

4

Какая функция активации для выходного слоя?

Хотя выбор функций активации для скрытого слоя достаточно ясен (в основном сигмовидный или танх), мне интересно, как выбрать функцию активации для выходного слоя. Распространенными являются линейные функции, сигмовидные функции и функции softmax. Однако когда я должен использовать какой?

44 neural-networks

3

Проверка равенства коэффициентов двух разных регрессий

Это кажется основной проблемой, но я только что понял, что на самом деле не знаю, как проверить равенство коэффициентов двух разных регрессий. Может кто-нибудь пролить некоторый свет на это? Более формально, предположим, что я запустил следующие две регрессии: и где относится к матрице проектирования регрессии , а к вектору коэффициентов …

44 hypothesis-testing inference

5

Важно ли масштабировать данные перед кластеризацией?

Я нашел это руководство , в котором предлагается запускать функцию масштабирования функций перед кластеризацией (я считаю, что она преобразует данные в z-показатели). Мне интересно, нужно ли это? Я спрашиваю в основном потому, что есть хорошая точка локтя, когда я не масштабирую данные, но она исчезает, когда она масштабируется. :)

44 clustering k-means

4

Стандартная ошибка для среднего значения выборки биномиальных случайных величин

Предположим, я провожу эксперимент, который может иметь 2 результата, и я предполагаю, что базовое «истинное» распределение 2 результатов - это биномиальное распределение с параметрами и : .nnnpppBinomial(n,p)Binomial(n,p){\rm Binomial}(n, p) Я могу вычислить стандартную ошибку, , из формы дисперсии : где . Итак, . Для стандартной ошибки я получаю: , но …

44 binomial standard-error