Статистика и большие данные theory

3

Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?

В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования переменной?

57 modeling predictive-models feature-selection theory standardization

6

Каковы основные теоремы в машинном (глубоком) обучении?

Аль Рахими недавно выступил с весьма провокационным докладом в NIPS 2017, сравнивая современное машинное обучение с алхимией. Одним из его утверждений является то, что нам нужно вернуться к теоретическим разработкам, чтобы иметь простые теоремы, доказывающие основополагающие результаты. Когда он сказал это, я начал искать основные теоремы для ML, но не …

45 machine-learning deep-learning theory

8

В чем суть теоремы Байеса?

Каковы основные идеи, то есть понятия, связанные с теоремой Байеса ? Я не прошу каких-либо выводов сложных математических обозначений.

36 probability bayesian theory

7

Как вы передаете красоту центральной предельной теоремы не статистику?

Мой отец - энтузиаст математики, но не очень интересуется статистикой. Было бы неплохо попытаться проиллюстрировать некоторые замечательные статистические данные, и CLT является главным кандидатом. Как бы вы передали не статистику математическую красоту и влияние центральной предельной теоремы?

33 theory central-limit-theorem

8

Какие теории должен знать каждый статистик?

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. Я думаю об этом с очень простой точки зрения минимальных требований. Каковы основные теории, которые отраслевой (не академический) статистик должен знать, понимать …

30 theory careers law-of-large-numbers

4

Как вы интерпретируете RMSLE (среднеквадратичная логарифмическая ошибка)?

Я принимал участие в конкурсе по машинному обучению, где они использовали RMSLE (среднеквадратичная логарифмическая ошибка) для оценки производительности, прогнозирующей цену продажи категории оборудования. Проблема в том, что я не уверен, как интерпретировать успех моего конечного результата. Например , если я достиг RMSLE из я мог поднять его экспоненциальную мощность и …

29 regression machine-learning interpretation measurement-error theory

3

В повышении, почему ученики «слабые»?

Смотрите также похожий вопрос на stats.SE . В таких алгоритмах повышения , как AdaBoost и LPBoost, известно, что «слабые» ученики, которых нужно объединить, должны работать лучше, чем шанс быть полезными, из Википедии: Используемые им классификаторы могут быть слабыми (т. Е. Отображать значительную частоту ошибок), но до тех пор, пока их …

28 machine-learning theory boosting

1

Вычисление повторяемости эффектов по модели Лмера

Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

3

Лучший бандитский алгоритм?

Самым известным бандитским алгоритмом является верхний предел доверия (UCB), который популяризировал этот класс алгоритмов. С тех пор я предполагаю, что теперь есть лучшие алгоритмы. Каков текущий лучший алгоритм (с точки зрения либо эмпирической производительности, либо теоретических границ)? Является ли этот алгоритм оптимальным в некотором смысле?

27 machine-learning algorithms theory reinforcement-learning multiarmed-bandit

8

Почему так важно иметь принципиальные и математические теории для машинного обучения?

Мне было интересно, почему так важно иметь принципиальное / теоретическое машинное обучение? С личной точки зрения, как человек, я могу понять, почему принципиальное машинное обучение было бы важно: людям нравится понимать, что они делают, мы находим красоту и удовлетворение от понимания. с теоретической точки зрения математика это весело когда есть …

25 machine-learning neural-networks conv-neural-network theory

1

Выбор среди правильных правил подсчета очков

В большинстве ресурсов о правильных правилах оценки упоминается ряд различных правил оценки, таких как потеря журнала, оценка Бриера или сферическая оценка. Тем не менее, они часто не дают больших указаний на различия между ними. (Приложение A: Википедия .) Выбор модели, которая максимизирует логарифмическую оценку, соответствует выбору модели максимального правдоподобия, которая …

22 machine-learning classification model-selection theory scoring-rules

4

Что означает «беспристрастность»?

Что значит сказать, что «дисперсия является необъективной оценкой». Что означает преобразование смещенной оценки в несмещенную оценку с помощью простой формулы. Что именно делает это преобразование? Кроме того, какова практическая польза от этого преобразования? Вы конвертируете эти баллы при использовании определенного вида статистики?

21 theory unbiased-estimator descriptive-statistics

4

Что такое проклятие размерности?

В частности, я ищу ссылки (документы, книги), которые будут строго показывать и объяснять проклятие размерности. Этот вопрос возник после того, как я начал читать эту белую бумагу по Лафферти и Вассермана. В третьем абзаце упоминается «хорошо известное» уравнение, из которого следует, что наилучшая скорость сходимости равна n−4/(4−d)n−4/(4−d)n^{-4/(4-d)} ; если кто-то …

21 theory

5

Введение в теорию меры

Мне интересно узнать больше о непараметрических байесовских (и связанных с ними) методах. Я имею опыт работы в области компьютерных наук, и хотя я никогда не проходил курсы по теории меры или теории вероятностей, у меня было ограниченное количество формальных занятий по вероятности и статистике. Кто-нибудь может порекомендовать читаемое введение в …

21 probability bayesian references theory

2

Есть ли статистическое приложение, которое требует строгой согласованности?

Мне было интересно, если кто-то знает или существует приложение в статистике, в котором требуется сильная согласованность оценки вместо слабой согласованности. То есть для приложения необходима строгая согласованность, и приложение не будет работать со слабой согласованностью.

20 hypothesis-testing theory asymptotics estimators consistency

Вопросы с тегом «theory»