Вопросы с тегом «gini»

2
Какова связь между показателем GINI и отношением логарифмического правдоподобия?
Я изучаю деревья классификации и регрессии, и одним из показателей местоположения разделения является оценка GINI. Теперь я привык определять лучшее место разделения, когда логарифм отношения правдоподобия одних и тех же данных между двумя распределениями равен нулю, что означает, что вероятность членства одинаково вероятна. Моя интуиция говорит, что должна быть какая-то …

1
Использует ли случайный лес Бреймана прирост информации или индекс Джини?
Я хотел бы знать, использует ли случайный лес Бреймана (случайный лес в пакете R randomForest) в качестве критерия расщепления (критерий для выбора атрибута) получение информации или индекс Джини? Я пытался выяснить это на http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm и в документации для пакета randomForest в R. Но единственное, что я обнаружил, это то, что …

1
logloss vs gini / auc
Я обучил две модели (двоичные классификаторы с использованием h2o AutoML) и хочу выбрать одну для использования. У меня есть следующие результаты: model_id auc logloss logloss_train logloss_valid gini_train gini_valid DL_grid_1 0.542694 0.287469 0.092717 0.211956 0.872932 0.312975 DL_grid_2 0.543685 0.251431 0.082616 0.186196 0.900955 0.312662 aucи loglossстолбцы метрики кросс-валидации (кросс проверки использует только …

1
Зачем использовать нормализованный счет Джини вместо AUC в качестве оценки?
Конкурс Kaggle в прогнозировании безопасного водителя Порто Сегуро использует нормализованную оценку Джини в качестве метрики оценки, и мне стало любопытно узнать причины такого выбора. Каковы преимущества использования нормализованной оценки Джини вместо наиболее обычных показателей, таких как AUC, для оценки?

1
В чем разница между интерпретацией кривой GINI и AUC?
Мы использовали для создания кривой GINI, используя лифт, созданный с помощью процента хороших и плохих для моделирования системы показателей. Но то, что я изучил, это то, что кривая ROC создается с использованием матрицы путаницы со спецификой (1- истинный отрицательный) в качестве оси x и чувствительностью (истинный положительный) в качестве оси …
13 roc  gini 

3
Разница сводная статистика: коэффициент Джини и стандартное отклонение
Есть несколько сводных статистических данных. Если вы хотите описать разброс распределения, вы можете использовать, например, стандартное отклонение или коэффициент Джини . Я знаю, что стандартное отклонение основано на центральной тенденции, то есть отклонении от среднего, а коэффициент Джини является общим измерением дисперсии. Я также знаю, что коэффициент Джини имеет нижнюю …

4
Пытаетесь вычислить индекс Джини при распределении репутации StackOverflow?
Я пытаюсь вычислить индекс Джини для распределения репутации SO с помощью SO Data Explorer. Уравнение, которое я пытаюсь реализовать, таково: Где: = количество пользователей на сайте; = серийный идентификатор пользователя (1 - 1 225 000); = репутация пользователя .niyiiG(S)=1n−1(n+1−2(∑ni=1( n + 1 - i ) yяΣNя = 1Yя) )грамм(S)знак равно1N-1(N+1-2(Σязнак …
11 gini 

1
Коэффициент Джини и границы погрешности
У меня есть временной ряд данных с N = 14 счетчиками в каждый момент времени, и я хочу вычислить коэффициент Джини и стандартную ошибку для этой оценки в каждый момент времени. Поскольку у меня есть только N = 14 отсчетов в каждый момент времени, я продолжил вычисление дисперсии складного ножа, …

5
Как измерить дисперсию в данных частоты слов?
Как я могу определить количество дисперсии в векторе количества слов? Я ищу статистику, которая будет высокой для документа A, потому что она содержит много разных слов, которые встречаются редко, и низкой для документа B, потому что она содержит одно слово (или несколько слов), которые встречаются часто. В более общем смысле, …

1
Как сравнить наблюдаемые и ожидаемые события?
Предположим, у меня есть одна выборка частот из 4 возможных событий: Event1 - 5 E2 - 1 E3 - 0 E4 - 12 и у меня есть ожидаемые вероятности того, что мои события произойдут: p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 С суммой наблюдаемых частот …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.