Статистика и большие данные robust

14

Почему надежная (и устойчивая) статистика не заменила классические методы?

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту …

82 model-selection nonparametric outliers robust philosophical

3

Почему мы так заботимся о нормально распределенных членах ошибки (и гомоскедастичности) в линейной регрессии, когда нам это не нужно?

Я полагаю, что расстраиваюсь каждый раз, когда слышу, как кто-то говорит, что ненормальность остатков и / или гетероскедастичность нарушают допущения OLS. Для оценки параметров в модели МНК ни одно из этих предположений не является необходимым по теореме Гаусса-Маркова. Я вижу, как это важно в тестировании гипотез для модели OLS, потому …

52 regression assumptions normality-assumption robust teaching

4

Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем отбросить точку данных с очень большими …

50 regression linear-model outliers robust fused-lasso

4

Репликация «надежного» параметра Stata в R

Я пытался повторить результаты опции Stata robustв R. Я использовал rlmкоманду из пакета MASS, а также команду lmrobиз пакета "robustbase". В обоих случаях результаты сильно отличаются от «надежного» параметра в Stata. Кто-нибудь может предложить что-то в этом контексте? Вот результаты, которые я получил, запустив надежную опцию в Stata: . reg …

39 r stata robust robust-standard-error

6

Какой будет надежная байесовская модель для оценки масштаба примерно нормального распределения?

Существует ряд надежных оценок масштаба . Ярким примером является медианой абсолютное отклонение , которое относится к стандартному отклонению , как σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 . В байесовской структуре существует ряд способов надежной оценки местоположения примерно нормального распределения (скажем, нормального, загрязненного выбросами), например, можно предположить, что данные распределены как при распределении, так …

32 r bayesian estimation standard-deviation robust

8

Замена выбросов на среднее

Этот вопрос был задан моим другом, который не разбирается в Интернете. У меня нет статистики, и я искал в интернете этот вопрос. Вопрос в том, можно ли заменить выбросы средним значением? если это возможно, есть ли какие-либо книги / журналы, чтобы подтвердить это утверждение?

31 mean outliers robust winsorizing

2

Являются ли 50% доверительные интервалы более достоверными, чем 95% доверительные интервалы?

Мой вопрос вытекает из этого комментария к сообщению в блоге Эндрю Гельмана, в котором он выступает за использование 50% -ных доверительных интервалов вместо 95% -ных доверительных интервалов, хотя не на том основании, что они более надежно оценены: Я предпочитаю интервалы от 50% до 95% по 3 причинам: Вычислительная стабильность, Более …

30 confidence-interval assumptions robust

2

Почему мы должны использовать t ошибок вместо обычных ошибок?

В этом посте Эндрю Гельмана есть следующий отрывок: Байесовские модели 50-летней давности кажутся безнадежно простыми (за исключением, конечно, простых задач), и я ожидаю, что сегодняшние байесовские модели будут казаться безнадежно простыми, спустя 50 лет. (Просто для простого примера: мы, вероятно, должны обычно использовать t вместо обычных ошибок практически везде, но …

30 distributions bayesian normal-distribution model robust

2

Ошибка «система вычислительно единственная» при запуске GLM

Я использую пакет robustbase для запуска оценки glm. Однако, когда я делаю это, я получаю следующую ошибку: Error in solve.default(crossprod(X, DiagB * X)/nobs, EEq) : system is computationally singular: reciprocal condition number = 1.66807e-16 Что это значит / указывает? И как я могу это отладить? PS. Если вам понадобится что-нибудь …

29 r generalized-linear-model robust

4

Почему RANSAC не наиболее широко используется в статистике?

Исходя из области компьютерного зрения, я часто использовал метод RANSAC (Random Sample Consensus) для подгонки моделей к данным с большим количеством выбросов. Тем не менее, я никогда не видел, чтобы он использовался статистиками, и у меня всегда было впечатление, что его не считают «статистически обоснованным» методом. Почему это так? Это …

26 outliers bootstrap robust

5

Насколько надежен независимый выборочный t-критерий, когда распределение образцов ненормальное?

Я читал, что t- тест является «достаточно надежным», когда распределение выборок отклоняется от нормального. Конечно, важны именно выборочные распределения различий. У меня есть данные для двух групп. Одна из групп сильно отклонена от зависимой переменной. Размер выборки довольно мал для обеих групп (n = 33 в одной и 45 в …

24 t-test assumptions normality-assumption robust

4

Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Является ли взвешенный

Я оценил надежную линейную модель Rс весами ММ, используя rlm()пакет MASS. `R`` не предоставляет значение для модели, но я хотел бы иметь его, если это значимое количество. Мне также интересно знать, есть ли смысл иметь значение которое взвешивает общую и остаточную дисперсию так же, как взвешивания наблюдений в устойчивой регрессии. …

19 r goodness-of-fit r-squared robust rlm

5

Какие надежные методы корреляции действительно используются?

Я планирую провести симуляционное исследование, в котором сравниваю эффективность нескольких надежных методов корреляции с различными распределениями (искаженное, с выбросами и т. Д.). Под устойчивым я имею в виду идеальный случай быть устойчивым к: а) перекосам, б) выбросам и в) тяжелым хвостам. Наряду с корреляцией Пирсона в качестве базовой линии, я …

18 r correlation robust spearman-rho winsorizing

4

Среднее и Медианное свойства

Может кто-нибудь объяснить мне ясную математическую логику, которая связывает два утверждения (а) и (б) вместе? Давайте иметь набор значений (некоторое распределение). Сейчас, а) Медиана не зависит от каждого значения [оно зависит только от одного или двух средних значений]; б) Медиана - это локус минимальной суммы абсолютных отклонений от нее. И …

18 mean median robust sensitivity-analysis

Вопросы с тегом «robust»