Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Являются ли 50% доверительные интервалы более достоверными, чем 95% доверительные интервалы?
Мой вопрос вытекает из этого комментария к сообщению в блоге Эндрю Гельмана, в котором он выступает за использование 50% -ных доверительных интервалов вместо 95% -ных доверительных интервалов, хотя не на том основании, что они более надежно оценены: Я предпочитаю интервалы от 50% до 95% по 3 причинам: Вычислительная стабильность, Более …

3
В чем причина проблемы дисбаланса классов?
В последнее время я много размышлял о «проблеме дисбаланса классов» в машинном / статистическом обучении и все глубже погружаюсь в ощущение, что я просто не понимаю, что происходит. Сначала позвольте мне определить (или попытаться) определить мои термины: Проблема дисбаланса классов в машинном / статистическом обучении заключается в том, что некоторые …

4
Означает ли среднее = мода симметричное распределение?
Я знаю, что этот вопрос задавался со средним регистром = медианой, но я не нашел ничего, связанного со средним = модой. Если мода равна среднему значению, могу ли я всегда заключить, что это симметричное распределение? Буду ли я вынужден знать также медиану для этого способа?


2
Существует ли надежный непараметрический доверительный интервал для среднего перекошенного распределения?
Очень искаженные распределения, такие как log-normal, не дают точных доверительных интервалов начальной загрузки. Вот пример, показывающий, что левая и правая области хвоста далеки от идеальных 0,025 независимо от того, какой метод начальной загрузки вы используете в R: require(boot) n <- 25 B <- 1000 nsim <- 1000 set.seed(1) which <- …

2
В чем разница между цензурой и усечением?
В книге « Статистические модели и методы для данных за всю жизнь» написано: Цензура: когда наблюдение является неполным по какой-либо случайной причине. Обрезание: когда неполный характер наблюдения обусловлен систематическим процессом отбора, присущим дизайну исследования. Что подразумевается под «систематическим процессом отбора, присущим дизайну исследования» в определении усечения? В чем разница между …

2
Обучение под наблюдением, обучение без учителя и обучение с подкреплением: основы рабочего процесса
Контролируемое обучение 1) Человек строит классификатор на основе входных и выходных данных 2) Этот классификатор обучается с обучающим набором данных 3) Этот классификатор тестируется с тестовым набором данных 4) Развертывание, если выход удовлетворительный Для использования, когда «я знаю, как классифицировать эти данные, мне просто нужно, чтобы вы (классификатор) отсортировали их». …

3
Анализ латентного класса и кластерный анализ - различия в выводах?
Каковы различия в выводах, которые можно сделать из анализа скрытого класса (LCA) по сравнению с кластерным анализом? Верно ли, что LCA принимает скрытую переменную, лежащую в основе классов, тогда как кластерный анализ представляет собой эмпирическое описание коррелированных атрибутов из алгоритма кластеризации? Кажется, что в социальных науках, LCA приобрел популярность и …

2
Почему мы должны использовать t ошибок вместо обычных ошибок?
В этом посте Эндрю Гельмана есть следующий отрывок: Байесовские модели 50-летней давности кажутся безнадежно простыми (за исключением, конечно, простых задач), и я ожидаю, что сегодняшние байесовские модели будут казаться безнадежно простыми, спустя 50 лет. (Просто для простого примера: мы, вероятно, должны обычно использовать t вместо обычных ошибок практически везде, но …

2
Сверточные нейронные сети: разве центральные нейроны не представлены чрезмерно в выходных данных?
[Этот вопрос также был задан при переполнении стека] Короче вопрос Я изучаю сверточные нейронные сети и считаю, что эти сети не обрабатывают каждый входной нейрон (пиксель / параметр) одинаково. Представьте, что у нас есть глубокая сеть (много слоев), которая применяет свертку к некоторому входному изображению. Нейроны в «середине» изображения имеют …

7
Вывод против оценки?
Каковы различия между «выводом» и «оценкой» в контексте машинного обучения ? Как новичок, я чувствую , что мы заключаем случайные величины и оценку параметров модели. Правильно ли это понимание? Если нет, то какие именно различия, и когда я должен использовать какие? Кроме того, какой из них является синонимом «учиться»?

13
Какова интуиция за формулой условной вероятности?
Формула для условной вероятности от AA\text{A} происходящее при условии , что BB\text{B} произошло то: P(A | B)=P(A∩B)P(B).P(A | B)=P(A∩B)P(B). P\left(\text{A}~\middle|~\text{B}\right)=\frac{P\left(\text{A} \cap \text{B}\right)}{P\left(\text{B}\right)}. Мой учебник объясняет интуицию за этим в терминах диаграммы Венна. Принимая во внимание тот факт, что BB\text{B} произошел, единственный способ возникновения - это попадание события на пересечение и …

6
Если «корреляция не подразумевает причинно-следственную связь», то, если я найду статистически значимую корреляцию, как я могу доказать причинность?
Я понимаю, что корреляция - это не причинно-следственная связь . Предположим, мы получаем высокую корреляцию между двумя переменными. Как вы проверяете, действительно ли эта корреляция вызвана причинностью? Или, в каких именно условиях мы можем использовать экспериментальные данные для определения причинно-следственной связи между двумя или более переменными?

2
Сколько стикеров мне нужно, чтобы завершить мой альбом FIFA Panini?
Я играю на альбоме FIFA Panini Online Sticker Album , который представляет собой интернет-адаптацию классических альбомов Panini, которые обычно публикуются для чемпионата мира по футболу, чемпионата Европы и, возможно, других турниров. Альбом имеет заполнители для 424 различных стикеров. Цель игры - собрать все 424. Стикеры поставляются в пачках по 5 …

2
Что такое квазибиномиальное распределение (в контексте GLM)?
Я надеюсь, что кто-то может дать интуитивный обзор того, что такое квазибиномиальное распределение и что оно делает. Меня особенно интересуют эти моменты: Чем квазибиномиал отличается от биномиального распределения. Когда переменная отклика представляет собой пропорцию (примерные значения включают 0,23, 0,11, 0,78, 0,98), квазибиномиальная модель будет работать в R, а биномиальная модель …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.