Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Когда использовать методы регуляризации для регрессии?
При каких обстоятельствах следует рассмотреть использование методов регуляризации (регрессия ребра, лассо или наименьших углов) вместо OLS? В случае, если это поможет вести дискуссию, мой главный интерес - повышение точности прогнозирования.

7
Смещение и отклонение в перекрестном подтверждении по сравнению с K-кратной проверкой
Как разные методы перекрестной проверки сравниваются с точки зрения дисперсии модели и смещения? Мой вопрос частично мотивирован этой веткой: Оптимальное количество сгибов в перекрестной проверке с кратным распределением : всегда ли лучший выбор - резюме с пропуском? КKK, Ответ на этот вопрос предполагает, что модели, изученные с помощью перекрестной проверки …


14
Почему надежная (и устойчивая) статистика не заменила классические методы?
При решении бизнес-задач с использованием данных обычно используется хотя бы одно ключевое предположение о том, что подкрепляющая классическая статистика недопустима. В большинстве случаев никто не удосуживается проверить эти предположения, поэтому вы никогда не узнаете. Например, то, что многие из распространенных веб-метрик являются «длинными хвостами» (относительно нормального распределения), к настоящему моменту …

8
Линия наилучшего соответствия не выглядит как подходящая. Почему?
Посмотрите на этот график Excel: Линия наилучшего соответствия «здравого смысла» будет представлять собой почти вертикальную линию, проходящую через центр точек (отредактировано вручную красным цветом). Однако линейная линия тренда, определенная в Excel, представляет собой показанную диагональную черную линию. Почему Excel создал что-то, что (для человеческого глаза) кажется неправильным? Как я могу …


5
Что означает «решение в закрытой форме»?
Я часто сталкивался с термином «решение в закрытой форме». Что означает решение в закрытой форме? Как определить, существует ли решение в близкой форме для данной проблемы? Ища в Интернете, я нашел некоторую информацию, но ничего в контексте разработки статистической или вероятностной модели / решения. Я очень хорошо понимаю регрессию, поэтому, …


2
Модифицированная теорема Байеса в XKCD: на самом деле довольно разумно?
Я знаю, что это комикс, известный тем, что он использует определенные аналитические тенденции , но на самом деле он выглядит довольно разумным после нескольких минут просмотра. Кто-нибудь может рассказать мне, что делает эта « модифицированная теорема Байеса »?

4
В чем разница между моделями с нулевой раздувкой и препятствиями?
Интересно, есть ли четкая разница между так называемыми распределениями с нулевым раздуванием (моделями) и так называемыми распределениями с барьером в нуле (моделями)? Термины встречаются в литературе довольно часто, и я подозреваю, что они не совпадают, но не могли бы вы объяснить мне разницу в простых терминах?

3
Имеет ли значение несбалансированный образец при выполнении логистической регрессии?
Итак, я думаю, что у меня есть достаточно приличная выборка, принимая во внимание эмпирическое правило 20: 1: довольно большая выборка (N = 374) для в общей сложности 7 потенциальных переменных-предикторов. Моя проблема заключается в следующем: независимо от того, какой набор переменных предикторов я использую, классификации никогда не становятся лучше, чем …

10
Понимание «дисперсии» интуитивно
Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит? Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу объяснить это. Но когда вы объясняете явления …

6
Есть ли примеры, когда байесовские достоверные интервалы явно уступают частым доверительным интервалам?
Недавний вопрос о разнице между доверием и достоверными интервалами заставил меня начать перечитывать статью Эдвина Джейнса на эту тему: Jaynes, ET, 1976. «Доверительные интервалы против байесовских интервалов», в Основах теории вероятностей, статистического вывода и статистических теорий науки, WL Harper и CA Hooker (eds.), D. Reidel, Dordrecht, p. 175; ( pdf …

9
Что касается значений р, почему 1% и 5%? Почему не 6% или 10%?
Что касается p-значения s, мне интересно, почему % и % кажутся золотым стандартом для . Почему не другие значения, такие как % или %?111555"statistical significance"666101010 Есть ли фундаментальная математическая причина для этого или это просто широко распространенное соглашение?

6
Разница между доверительными интервалами и интервалами прогнозирования
Для интервала прогнозирования в линейной регрессии вы все еще используете E [ Y | х ] = ^ & beta ; 0 + β 1 х генерировать интервал. Вы также используете это, чтобы сгенерировать доверительный интервал E [ Y | х 0 ] . В чем разница между двумя?Е^[ Y| …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.