Вопросы с тегом «binning»

Биннинг означает группировку непрерывной переменной по дискретным категориям. В частности, он используется в отношении гистограмм, но может также использоваться в более общем смысле в смысле увеличения.

4
Оценка приблизительного распределения данных на основе гистограммы
Предположим, я хочу посмотреть, являются ли мои данные экспоненциальными на основе гистограммы (то есть смещены вправо). В зависимости от того, как я сгруппирую или скопирую данные, я могу получить совершенно разные гистограммы. Один из наборов гистограмм, по-видимому, будет экспоненциальным. Другой набор покажет, что данные не являются экспоненциальными. Как сделать так, …

7
В чем выгода разделения непрерывной переменной-предиктора?
Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы сохраняли переменную непрерывной, и это не было действительно …

3
Преимущества использования QQ-графиков над гистограммами
В этом комментарии Ник Кокс написал: Объединение в классы - древний метод. Хотя гистограммы могут быть полезны, современное статистическое программное обеспечение позволяет легко и целесообразно адаптировать распределения к необработанным данным. Биннинг просто отбрасывает детали, которые имеют решающее значение при определении того, какие распределения правдоподобны. Контекст этого комментария предлагает использовать QQ-графики …

2
Когда мы должны дискретизировать / bin непрерывные независимые переменные / функции, а когда нет?
Когда мы должны дискретизировать / bin независимые переменные / функции, а когда нет? Мои попытки ответить на вопрос: В общем, мы не должны bin, потому что binning потеряет информацию. Биннинг на самом деле увеличивает степень свободы модели, поэтому после биннинга возможна чрезмерная подгонка. Если у нас модель «высокого смещения», биннинг …

2
Влияние границ бина на основе данных на критерий пригодности хи-квадрат?
Оставляя в стороне очевидную проблему малой мощности хи-квадрата в подобных обстоятельствах, представьте себе, что вы проводите проверку качества хи-квадрата для некоторой плотности с неопределенными параметрами путем объединения данных. Для конкретности, скажем, экспоненциальное распределение с неизвестным средним и размером выборки, скажем, 100. Чтобы получить разумное количество ожидаемых наблюдений на одну ячейку, …

3
Лучший способ поставить две гистограммы в одном масштабе?
Допустим, у меня есть два распределения, которые я хочу сравнить в деталях, то есть таким образом, чтобы форма, масштаб и сдвиг были легко видны. Хороший способ сделать это - построить гистограмму для каждого распределения, поместить их в один и тот же масштаб Х и сложить одну под другой. При этом, …

2
Оптимальное биннинг по отношению к заданной переменной отклика
Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и "has_back_pains" (бинарная). Я хочу разделить высоту на 3 интервала (группы) не более, …

5
Интерпретация теоремы Байеса применительно к положительным результатам маммографии
Я пытаюсь обернуть голову вокруг результата теоремы Байеса, примененного к классическому примеру маммографии, с идеальным поворотом маммограммы. Это, Заболеваемость раком:.01.01.01 Вероятность положительной маммографии у пациента с раком:111 Вероятность положительной маммографии, учитывая, что пациент не имеет рака:.01.01.01 Байес: P (рак | маммография +) =1⋅.01(1⋅.01)+(.091⋅.99)1⋅.01(1⋅.01)+(.091⋅.99)\dfrac {1 \cdot .01}{(1 \cdot .01) + (.091 …

2
Как «разумно» собрать коллекцию отсортированных данных?
Я пытаюсь разумно отсортировать коллекцию. У меня есть коллекция из частей данных. Но я знаю , что это припадки данных в неравных размеров бункеров. Я не знаю, как правильно выбирать конечные точки для правильного размещения данных. например:Nnnмmm Скажем, у меня в коллекции 12 предметов, и я знаю, что данные поместятся …

5
Почему следует избегать биннинга любой ценой?
Итак, я прочитал несколько постов о том, почему всегда следует избегать биннинга. Популярной ссылкой для этого утверждения является эта ссылка . Основным препятствием является то, что точки биннинга (или точки отсечения) являются довольно произвольными, а также в результате потери информации, и что сплайны должны быть предпочтительными. Тем не менее, в …

2
Количество бинов при вычислении взаимной информации
Я хочу количественно определить отношения между двумя переменными, A и B, используя взаимную информацию. Способ вычислить его - связать наблюдения (см. Пример кода Python ниже). Однако какие факторы определяют, какое количество лотков является разумным? Мне нужно, чтобы вычисления были быстрыми, поэтому я не могу просто использовать много контейнеров, чтобы быть …

1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 

2
Формула Доана для группировки гистограмм
Я реализую различные алгоритмы, чтобы оценить лучшее количество бинов для использования для гистограмм. Большинство из тех, что я реализую, описаны на странице «Гистограмма» в Википедии в разделе « Количество бинов и ширина » *. Я застрял в проблеме с формулой Доана: 1 + log(n) + log(1 + kurtosis(data) * sqrt(n …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.