Статистика и большие данные modeling

2

Обратное тестирование или перекрестная проверка, когда процесс построения модели был интерактивным

У меня есть несколько прогностических моделей, производительность которых я хотел бы протестировать (например, взять мой набор данных, «перемотать» его к предыдущему моменту времени и посмотреть, как модель будет работать перспективно). Проблема в том, что некоторые из моих моделей были созданы с помощью интерактивного процесса. Например, следуя совету в Стратегиях регрессионного …

9 cross-validation modeling outliers splines overfitting

5

Логистическая регрессия на больших данных

У меня есть набор данных около 5000 функций. Для этих данных я сначала использовал тест Chi Square для выбора функции; после этого я получил около 1500 переменных, которые показали связь значимости с переменной отклика. Теперь мне нужно приспособить логистическую регрессию к этому. Я использую пакет glmulti для R (пакет glmulti …

9 r logistic generalized-linear-model modeling regression-strategies

4

Моделирование футбольных матчей

В Dixon, Coles ( 1997 ) они использовали оценку максимального правдоподобия для двух модифицированных независимых моделей Пуассона в (4.3) для моделирования результатов в футболе. Я пытаюсь использовать R для того, чтобы «воспроизвести» альфа и бета, а также параметры домашнего эффекта (стр. 274, Таблица 4) без использования каких-либо пакетов (использование обычных …

9 r modeling maximum-likelihood games

3

Какую модель можно использовать, когда допущение о постоянной дисперсии нарушается?

Поскольку мы не можем соответствовать модели ARIMA, когда допущение о постоянной дисперсии нарушается, какую модель можно использовать для соответствия одномерным временным рядам?

9 time-series modeling forecasting arima

2

Как смоделировать сумму случайных величин Бернулли для зависимых данных?

У меня есть почти такие же вопросы, как этот: Как я могу эффективно моделировать сумму случайных величин Бернулли? Но настройка совсем другая: P ( X i = 1 ) = p i N p iS= ∑я = 1 , NИксяSзнак равноΣязнак равно1,NИксяS=\sum_{i=1,N}{X_i} , , ~ 20, ~ 0,1п( Хя= 1 …

9 distributions modeling binomial random-variable non-independent

1

Должен ли я перетасовать свои данные?

У нас есть набор биологических образцов, которые было довольно дорого получить. Мы провели эти выборки с помощью серии тестов, чтобы сгенерировать данные, которые используются для построения прогнозной модели. Для этого мы разделили образцы на тренировочный (70%) и испытательный (30%) наборы. Мы успешно создали модель и применили ее на испытательном стенде, …

9 classification modeling experiment-design cross-validation bootstrap

2

Рассчитать кривую ROC для данных

Итак, у меня есть 16 испытаний, в которых я пытаюсь идентифицировать человека по биометрической характеристике, используя расстояние Хэмминга. Мой порог установлен на 3,5. Мои данные ниже, и только пробная версия 1 является истинным положительным результатом: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

10

Как вы рисуете структурные уравнения / модели MPLUS?

Я ищу программный инструмент (желательно с открытым исходным кодом) для эффективного и красивого построения структурных уравнений / моделей смесей. Изучив xfig и graphviz, я теперь придерживаюсь общего пакета векторной графики inkscape, потому что он кажется наиболее гибким. Я хотел бы опросить сообщество stat.stackexchange: Как вы рисуете свои структурные уравнения / …

9 data-visualization modeling sem software

2

Измерение качества соответствия в модели, которая объединяет два распределения

У меня есть данные с двойным пиком, которые я пытаюсь смоделировать, и между пиками достаточно совпадений, поэтому я не могу обработать их независимо. Гистограмма данных может выглядеть примерно так: Для этого я создал две модели: одна использует два распределения Пуассона, а другая использует два отрицательных биномиальных распределения (для учета избыточной …

9 modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio

3

Вычисление лучшего подмножества предикторов для линейной регрессии

Какие методы доступны для выбора предикторов в многомерной линейной регрессии с подходящими предикторами, чтобы найти «оптимальное» подмножество предикторов без явного тестирования всех 2 p подмножеств? В «Прикладном анализе выживания» Хосмер и Лемешоу ссылаются на метод Кука, но я не могу найти оригинальную статью. Кто-нибудь может описать этот метод или, что …

9 modeling regression multivariable model-selection feature-selection

4

Расчет соотношения выборочных данных, используемых для подбора модели / обучения и проверки

Предоставил размер выборки «N», который я планирую использовать для прогнозирования данных. Каковы некоторые из способов подразделить данные так, чтобы я использовал некоторые из них для установления модели, а остальные данные для проверки модели? Я знаю, что нет черно-белого ответа на этот вопрос, но было бы интересно узнать некоторые «практические правила» …

9 machine-learning modeling sample validation

Вопросы с тегом «modeling»