Статистика и большие данные

2

Когда использовать методы регуляризации для регрессии?

При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS? В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности прогнозирования.

83 regression least-squares lasso ridge-regression fused-lasso

7

Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой

Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения? Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? КKK, Ответ на этот вопрос предполагает, что модели, изученные с помощью перекрестной проверки …

83 machine-learning variance cross-validation bias bias-variance-tradeoff

5

Процентиль против квантиля против квартиля

В чем разница между тремя терминами ниже? процентиль квантиль квартиль

83 descriptive-statistics quantiles median percentage

14

Почему надежная (и устойчивая) статистика не заменила классические методы?

При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту …

82 model-selection nonparametric outliers robust philosophical

8

Линия наилучшего соответствия не выглядит как подходящая. Почему?

Посмотрите на этот график Excel: Линия наилучшего соответствия «здравого смысла» будет представлять собой почти вертикальную линию, проходящую через центр точек (отредактировано вручную красным цветом). Однако линейная линия тренда, определенная в Excel, представляет собой показанную диагональную черную линию. Почему Excel создал что-то, что (для человеческого глаза) кажется неправильным? Как я могу …

82 regression excel intuition

2

функция активации tanh против функции активации сигмоида

Функция активации tanh: t a n h ( x ) = 2 ⋅ σ( 2 х ) - 1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 Где , сигмовидная функция, определяется как: \ sigma (x) = \ frac {e ^ x} {1 + e …

82 machine-learning neural-networks optimization cost-maximization

5

Что означает «решение в закрытой форме»?

Я часто сталкивался с термином «решение в закрытой форме». Что означает решение в закрытой форме? Как определить, существует ли решение в близкой форме для данной проблемы? Ища в Интернете, я нашел некоторую информацию, но ничего в контексте разработки статистической или вероятностной модели / решения. Я очень хорошо понимаю регрессию, поэтому, …

82 regression machine-learning probability terminology stochastic-processes

3

Что такое лассо в регрессионном анализе?

Я ищу нетехническое определение лассо и для чего оно используется.

82 regression lasso regularization shrinkage

2

Модифицированная теорема Байеса в XKCD: на самом деле довольно разумно?

Я знаю, что это комикс, известный тем, что он использует определенные аналитические тенденции , но на самом деле он выглядит довольно разумным после нескольких минут просмотра. Кто-нибудь может рассказать мне, что делает эта « модифицированная теорема Байеса »?

81 bayesian hierarchical-bayesian

4

В чем разница между моделями с нулевой раздувкой и препятствиями?

Интересно, есть ли четкая разница между так называемыми распределениями с нулевым раздуванием (моделями) и так называемыми распределениями с барьером в нуле (моделями)? Термины встречаются в литературе довольно часто, и я подозреваю, что они не совпадают, но не могли бы вы объяснить мне разницу в простых терминах?

81 zero-inflation

3

Имеет ли значение несбалансированный образец при выполнении логистической регрессии?

Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов я использую, классификации никогда не становятся лучше, чем …

81 regression logistic sample-size unbalanced-classes

10

Понимание «дисперсии» интуитивно

Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит? Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу объяснить это. Но когда вы объясняете явления …

81 distributions variance standard-deviation inference intuition

6

Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам?

Недавний вопрос о разнице между доверием и достоверными интервалами заставил меня начать перечитывать статью Эдвина Джейнса на эту тему: Jaynes, ET, 1976. «Доверительные интервалы против байесовских интервалов», в Основах теории вероятностей, статистического вывода и статистических теорий науки, WL Harper и CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf …

81 bayesian confidence-interval

9

Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?

Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?111555"statistical significance"666101010 Есть ли фундаментальная математическая причина для этого или это просто широко распространенное соглашение?

80 hypothesis-testing statistical-significance p-value history

6

Разница между доверительными интервалами и интервалами прогнозирования

Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?Е^[ Y| …

80 regression confidence-interval predictive-models prediction-interval