Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

8
Целевая функция, функция затрат, функция потерь: одно и то же?
В машинном обучении люди говорят о целевой функции, функции стоимости, функции потерь. Это просто разные названия одной и той же вещи? Когда их использовать? Если они не всегда ссылаются на одно и то же, в чем различия?

8
Расчет оптимального количества бинов в гистограмме
Я заинтересован в поиске как можно более оптимального метода для определения количества бинов, которые я должен использовать в гистограмме. Мои данные должны быть в диапазоне от 30 до 350 объектов максимум, и в частности я пытаюсь применить пороговое значение (как метод Оцу), где "хорошие" объекты, которых у меня должно быть …

2
KL расхождение между двумя одномерными гауссианами
Мне нужно определить KL-расхождение между двумя гауссианами. Я сравниваю свои результаты с этими , но я не могу воспроизвести их результаты. Мой результат, очевидно, неверен, потому что KL не 0 для KL (p, p). Интересно, где я делаю ошибку и спрашиваю, может ли кто-нибудь ее заметить. Пусть и . Из …

9
Вероятность единственного реального будущего события: что это значит, когда они говорят, что «Хиллари имеет 75% шансов на победу»?
Поскольку выборы - одноразовое событие, это не эксперимент, который можно повторить. Так что же технически означает утверждение «Хиллари имеет 75% шанс на победу» ? Я ищу статистически правильное определение, а не интуитивное или концептуальное. Я - любитель статистики, который пытается ответить на этот вопрос, который возник в ходе обсуждения. Я …

7
Книга Почему Иудеи Перл: Почему он избивает статистику?
Я читаю Книгу Почему Иудеи Перл, и она становится у меня под кожей 1 . В частности, мне кажется, что он безоговорочно избивает «классическую» статистику, выдвигая аргумент, что статистика никогда не сможет исследовать причинно-следственные связи, никогда не будет интересоваться причинно-следственными связями и что статистика «стала моделью предприятие по сокращению данных …
79 causality 

5
В чем разница между обучением вне политики и вне политики?
Сайт искусственного интеллекта определяет обучение вне политики и вне политики следующим образом: «Учащийся вне политики изучает значение оптимальной политики независимо от действий агента. Q-learning - учащийся вне политики. Учащийся вне политики изучает значение политики, проводимой агентом, включая этапы исследования «. Я хотел бы попросить вашего разъяснения по этому поводу, потому …

6
Как определить, достаточно ли данных «кластеризовано», чтобы алгоритмы кластеризации давали значимые результаты?
Как бы вы узнали, что ваши (высокоразмерные) данные демонстрируют достаточную кластеризацию, так что результаты kmeans или другого алгоритма кластеризации действительно значимы? В частности, для алгоритма k-средних, насколько должно быть снижение дисперсии внутри кластера, чтобы фактические результаты кластеризации были значимыми (а не ложными)? Должна ли кластеризация быть очевидной при построении размерно-уменьшенной …


5
Как вручную вычислить площадь под кривой (AUC) или c-статистику
Меня интересует вычисление площади под кривой (AUC) или c-статистика вручную для бинарной модели логистической регрессии. Например, в наборе данных проверки у меня есть истинное значение для зависимой переменной, сохранение (1 = сохранено; 0 = не сохранено), а также прогнозируемое состояние хранения для каждого наблюдения, сгенерированного моим регрессионным анализом с использованием …

3
Пример: регрессия LASSO с использованием glmnet для двоичного результата
Я начинаю баловаться с использованием glmnetс LASSO регрессией , где мой результат представляет интерес дихотомический. Я создал небольшой фрейм данных ниже: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

7
В чем выгода разделения непрерывной переменной-предиктора?
Мне интересно, каково значение брать непрерывную переменную предиктора и разбивать ее (например, на квинтили), прежде чем использовать ее в модели. Мне кажется, что при биннинге переменной мы теряем информацию. Это просто для того, чтобы мы могли моделировать нелинейные эффекты? Если бы мы сохраняли переменную непрерывной, и это не было действительно …

3
Когда R в квадрате отрицательный?
Насколько я понимаю, не может быть отрицательным, поскольку это квадрат R. Однако я запустил простую линейную регрессию в SPSS с одной независимой переменной и зависимой переменной. Мой вывод SPSS дает мне отрицательное значение для . Если бы я должен был вычислить это вручную из R, то был бы положительным. Что …

6
Кластеризация на выходе t-SNE
У меня есть приложение, в котором было бы удобно кластеризовать зашумленный набор данных, прежде чем искать эффекты подгрупп в кластерах. Сначала я посмотрел на PCA, но для достижения 90% изменчивости требуется ~ 30 компонентов, поэтому кластеризация на нескольких компьютерах приведет к выбросу большого количества информации. Затем я попробовал t-SNE (впервые), …

1
Корреляция между номинальной (IV) и непрерывной (DV) переменной
У меня есть номинальная переменная (разные темы разговора, закодированные как topic0 = 0 и т. Д.) И ряд масштабных переменных (DV), таких как продолжительность разговора. Как я могу получить корреляции между номинальными и масштабными переменными?

3
Как получить симпатичный график результатов кластерного анализа k-средних?
Я использую R для K-средних кластеров. Я использую 14 переменных для запуска K-средних Что такое симпатичный способ представить результаты К-средних? Существуют ли какие-либо реализации? Сложно ли иметь 14 переменных, чтобы представить результаты? Я нашел нечто под названием GGcluster, которое выглядит круто, но оно все еще находится в разработке. Я также …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.