Вопросы с тегом «descriptive-statistics»

Описательные статистические данные суммируют особенности выборки, такие как среднее и стандартное отклонения, медиана и квартили, максимум и минимум. С несколькими переменными, могут включать корреляции и кросс-таблицы. Может включать в себя визуальные отображения - графы, гистограммы, диаграммы рассеяния и так далее.

5
В чем разница между нормализацией и стандартизацией?
На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они кажутся взаимозаменяемыми и с другими возможностями. …


3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

4
Как «сложить» стандартное отклонение?
У меня есть среднемесячное значение и стандартное отклонение, соответствующее этому среднему. Сейчас я вычисляю среднегодовое значение как сумму среднемесячных значений, как я могу представить стандартное отклонение для суммированного среднего значения? Например, учитывая выход из ветровой электростанции: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 …

8
Какую хорошую базовую статистику использовать для порядковых данных?
У меня есть некоторые порядковые данные, полученные из вопросов опроса. В моем случае это ответы в стиле Лайкерта (категорически не согласен-не согласен-нейтрален-согласен-полностью согласен). По моим данным они кодируются как 1-5. Я не думаю, что средства здесь много значат, так что какая основная сводная статистика считается полезной?


8
Современный преемник исследовательского анализа данных Тьюки?
Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?

5
Корреляции между непрерывными и категориальными (номинальными) переменными
Я хотел бы найти корреляцию между непрерывной (зависимой переменной) и категориальной (номинальной: пол, независимая переменная) переменной. Непрерывные данные обычно не распространяются. Прежде чем я вычислил его с помощью Спирмена . Однако мне сказали, что это неправильно.ρρ\rho При поиске в интернете я обнаружил, что коробочный график может дать представление о том, …

3
Эмпирические отношения между средним, медианой и модой
Для унимодального распределения, которое умеренно искажено, мы имеем следующие эмпирические отношения между средним, медианой и модой: Как были эти отношения получен?(Mean - Mode)∼3(Mean - Median)(Mean - Mode)∼3(Mean - Median) \text{(Mean - Mode)}\sim 3\,\text{(Mean - Median)} Карл Пирсон нарисовал тысячи таких отношений до того, как сформировал этот вывод, или есть логическая …

8
Функция графического обзора данных (сводная) в R
Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с усами) и некоторым …

6
Почему знаменатель оценки ковариации не должен быть n-2, а не n-1?
Знаменатель (несмещенной) оценки дисперсии равен поскольку имеется наблюдений и оценивается только один параметр.n−1n−1n-1nnn V(X)=∑ni=1(Xi−X¯¯¯¯)2n−1V(X)=∑i=1n(Xi−X¯)2n−1 \mathbb{V}\left(X\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)^{2}}{n-1} Кроме того, мне интересно, почему знаменатель ковариации не должен быть когда оцениваются два параметра?n−2n−2n-2 Cov(X,Y)=∑ni=1(Xi−X¯¯¯¯)(Yi−Y¯¯¯¯)n−1Cov(X,Y)=∑i=1n(Xi−X¯)(Yi−Y¯)n−1 \mathbb{Cov}\left(X, Y\right)=\frac{\sum_{i=1}^{n}\left(X_{i}-\overline{X}\right)\left(Y_{i}-\overline{Y}\right)}{n-1}

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
Как интерпретировать коэффициент вариации?
Я пытаюсь понять Коэффициент Вариации . Когда я пытаюсь применить его к следующим двум образцам данных, я не могу понять, как интерпретировать результаты. Допустим, образец 1 равен а образец 2 - . Здесь образец 2 образец 1 как вы можете видеть.10 , 15 , 17 , 22 , 21 , …

5
Как работать с иерархическими / вложенными данными в машинном обучении
Я объясню мою проблему на примере. Предположим, вы хотите предсказать доход человека с учетом некоторых атрибутов: {Возраст, Пол, Страна, Регион, Город}. У вас есть тренировочный набор данных, как так train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", "M","F","M","F", "F","F","F","M")), Income=c(31,42,71,65, 50,51,101,38, 47,50,55,23)) train …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 

2
Является ли вариация такой же, как дисперсия?
Это мой первый вопрос о перекрестной проверке здесь, поэтому, пожалуйста, помогите мне, даже если это кажется тривиальным :-) Прежде всего, вопрос может быть результатом языковых различий или, возможно, у меня есть реальные недостатки в статистике. Тем не менее, вот оно: В статистике населения, вариации и дисперсии одни и те же …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.