Статистика и большие данные modeling

3

Когда я не могу заменить случайную величину на ее среднее значение?

Частое упрощение в моделировании и симуляции заключается в замене случайной величины ее средним значением. Когда это упрощение приведет к неправильному выводу?

10 modeling mean random-variable

3

Тест ассоциации для нормально распределенного DV по направленным независимым переменным?

Существует ли проверка гипотезы о том, связана ли нормально-распределенная зависимая переменная с направленно-распределенной переменной? Например, если пояснительная переменная является временем суток (и если предположить, что такие вещи, как день недели, месяц года и т. Д. Не имеют значения), - это то, как следует учитывать тот факт, что в 11 часов …

10 hypothesis-testing modeling circular-statistics

1

Подгонка распределения к пространственным данным

Перекрестная публикация моего вопроса от mathoverflow, чтобы найти некоторую помощь по конкретной статистике. Я изучаю физический процесс, генерирующий данные, которые красиво проецируются в два измерения с неотрицательными значениями. Каждый процесс имеет (спроецированную) дорожку из точек - - см. Изображение ниже.ИксИксxYYy Образцы треков выделены синим цветом, проблемный тип трека был нарисован …

10 distributions modeling predictive-models fitting curve-fitting

1

Как мне включить инновационный выброс при наблюдении 48 в мою модель ARIMA?

Я работаю над набором данных. После использования некоторых методов идентификации моделей я разработал модель ARIMA (0,2,1). Я использовал detectIOфункцию в пакете TSAв R, чтобы обнаружить инновационный выброс (IO) на 48-м наблюдении за моим исходным набором данных. Как включить этот выброс в мою модель, чтобы я мог использовать его для целей …

10 r time-series arima outliers hypergeometric fishers-exact r time-series intraclass-correlation r logistic glmm clogit mixed-model spss repeated-measures ancova machine-learning python scikit-learn distributions data-transformation stochastic-processes web standard-deviation r machine-learning spatial similarities spatio-temporal binomial sparse poisson-process r regression nonparametric r regression logistic simulation power-analysis r svm random-forest anova repeated-measures manova regression statistical-significance cross-validation group-differences model-comparison r spatial model-evaluation parallel-computing generalized-least-squares r stata fitting mixture hypothesis-testing categorical-data hypothesis-testing anova statistical-significance repeated-measures likert wilcoxon-mann-whitney boxplot statistical-significance confidence-interval forecasting prediction-interval regression categorical-data stata least-squares experiment-design skewness reliability cronbachs-alpha r regression splines maximum-likelihood modeling likelihood-ratio profile-likelihood nested-models

2

Модель подгонки для двух нормальных распределений в PyMC

Поскольку я инженер-программист, пытающийся узнать больше статистики, вам придется простить меня, прежде чем я начну, это серьезная новая территория ... Я изучал PyMC и работал над некоторыми (очень) простыми примерами. Одна проблема, которую я не могу получить (и не могу найти связанных примеров), - это подгонка модели к данным, сгенерированным …

10 modeling python pymc

1

Являются ли регрессии с ошибками Student-T бесполезными?

Пожалуйста, смотрите редактировать. Когда у вас есть данные с тяжелыми хвостами, выполнение регрессии с ошибками Student-T кажется интуитивно понятным. Исследуя эту возможность, я наткнулся на эту статью: Breusch, TS, Robertson, JC, & Welsh, AH (01 ноября 1997 г.). Новая одежда императора: критика многомерной регрессионной модели. Statistica Neerlandica, 51, 3.) ( …

10 regression mathematical-statistics modeling robust

1

Помощь в моделировании SEM (OpenMx, polycor)

У меня много проблем с одним набором данных, к которому я пытаюсь применить SEM. Мы предполагаем наличие 5 скрытых факторов A, B, C, D, E с показателями соотв. A1 - A5 (упорядоченные факторы), B1 - B3 (количественные), C1, D1, E1 (все три последних упорядоченных фактора, всего 2 уровня для E1. …

10 r modeling multiple-regression sem

1

Существует ли концепция «достаточных» данных для обучения статистическим моделям?

Я работаю над большим количеством статистических моделей, таких как скрытые марковские модели и модели гауссовой смеси. Я вижу, что для обучения хороших моделей в каждом из этих случаев требуется большой (> 20000 предложений для НММ) объем данных, который берется из аналогичных сред в качестве конечного использования. Мой вопрос: Существует ли …

10 modeling hidden-markov-model gaussian-mixture

5

Смещается ли логистическая регрессия, когда переменная результата делится на 5% - 95%?

Я строю модель склонности, используя логистическую регрессию для служебного клиента. Меня беспокоит то, что из всей выборки мои «плохие» аккаунты составляют всего 5%, а остальные все хороши. Я предсказываю «плохо». Будет ли результат смещен? Что является оптимальным соотношением «плохое к хорошему» для построения хорошей модели?

10 logistic modeling

4

Я работаю в области интеллектуального анализа данных, и у меня было очень мало формального обучения статистике. В последнее время я читаю много работ, посвященных байесовским парадигмам для изучения и майнинга, что мне очень интересно. У меня вопрос (в нескольких частях), учитывая проблему, есть ли общие рамки, по которым можно построить …

10 bayesian modeling references eda

1

Какова вероятность этого процесса?

Пациент госпитализирован. Продолжительность их пребывания зависит от двух факторов: тяжести травмы и суммы, которую их страховка готова заплатить, чтобы удержать их в больнице. Некоторые пациенты уйдут преждевременно, если их страховка решит прекратить оплачивать свое пребывание. Предположим следующее: 1) Продолжительность пребывания распределена по Пуассону (предположим, что на данный момент это может …

10 maximum-likelihood modeling

9

Инструменты для моделирования финансовых временных рядов

Какие современные инструменты (на основе Windows) вы предлагаете для моделирования финансовых временных рядов?

10 modeling time-series finance software

2

Статистический вывод при неправильной спецификации модели

У меня есть общий методологический вопрос. Возможно, ответили раньше, но я не могу найти соответствующую ветку. Я буду признателен за указатели на возможные дубликаты. ( Вот превосходный, но без ответа. Это также похоже по духу, даже с ответом, но последний слишком конкретен с моей точки зрения. Это также близко, обнаружено …

9 modeling inference misspecification

2

Моделирование игроков в крикет, получающих игроков с битой

У меня есть набор данных, детализирующий большое количество игр в крикет (несколько тысяч). В крикет "боулеры" неоднократно бросают мяч в ряд "игроков с битой". Котелок пытается вытащить игрока с битой. В этом отношении он очень похож на кувшины и баттеры в бейсболе. Если бы я взял весь набор данных и …

9 probability modeling games

5

Какой хороший способ графического представления очень большого количества парных точек данных?

В моей области обычным способом построения парных данных является серия тонких наклонных отрезков, накладывающих их на медиану и КИ медианы для двух групп: Однако этот тип графика становится намного сложнее для чтения, так как количество точек данных становится очень большим (в моем случае у меня порядка 10000 пар): Уменьшение альфы …

9 generalized-linear-model data-visualization modeling interpretation paired-data

Вопросы с тегом «modeling»