Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
(Почему) SOM в стиле Кохонена потерял популярность?
Насколько я могу судить, SOM в стиле Кохонена достигли пика примерно в 2005 году и в последнее время не пользовались такой большой пользой. Я не нашел ни одной статьи, в которой говорилось бы, что SOM были включены в другой метод или оказались эквивалентными чему-то другому (во всяком случае, в более …

3
Предварительная подготовка в глубокой сверточной нейронной сети?
Кто-нибудь видел какую-нибудь литературу по предварительной подготовке в глубокой сверточной нейронной сети? Я видел только неконтролируемую предварительную подготовку в автоэнкодере или ограниченных машинах Больцмана.

2
Это современная методология регрессии?
Я давно слежу за соревнованиями в Kaggle и осознаю, что многие выигрышные стратегии предполагают использование хотя бы одного из «больших троек»: мешки, бустинг и стекирование. Для регрессий вместо того, чтобы концентрироваться на построении одной наилучшей из возможных моделей регрессии, кажется, что создание моделей множественной регрессии, таких как (обобщенная) линейная регрессия, …

2
Различия между расстоянием Бхаттачарья и расхождением КЛ
Я ищу интуитивное объяснение для следующих вопросов: В статистике и теории информации, в чем разница между расстоянием Бхаттачарьи и расхождением KL, как мерами разницы между двумя дискретными распределениями вероятностей? Разве они не имеют абсолютно никаких отношений и измеряют расстояние между двумя вероятностными распределениями совершенно по-другому?

2
В поисках квартилей в R
Я изучаю учебник по статистике, изучая R, и наткнулся на камень преткновения в следующем примере: После просмотра ?quantileя попытался воссоздать это в R следующим образом: > nuclear <- c(7, 20, 16, 6, 58, 9, 20, 50, 23, 33, 8, 10, 15, 16, 104) > quantile(nuclear) 0% 25% 50% 75% 100% …
33 r  quantiles 

8
Можно ли удалять выбросы из данных?
Я искал способ удалить выбросы из набора данных, и я нашел этот вопрос . В некоторых комментариях и ответах на этот вопрос, однако, люди упоминали, что удаление выбросов из данных является плохой практикой. В моем наборе данных у меня есть несколько выбросов, которые, скорее всего, связаны только с ошибками измерения. …
33 outliers 

1
В чем заключается интуитивная причина ротации в Факторном анализе / PCA и как выбрать подходящую ротацию?
Мои вопросы Какова интуитивная причина ротации факторов в факторном анализе (или компонентов в PCA)? Насколько я понимаю, если переменные почти одинаково загружены в верхних компонентах (или факторах), то, очевидно, трудно дифференцировать компоненты. Таким образом, в этом случае можно использовать вращение, чтобы лучше дифференцировать компоненты. Это верно? Каковы последствия выполнения вращений? …

2
Степени свободы в тесте Хосмера-Лемешоу
Статистика теста для теста Хосмера-Лемешова (HLT) на пригодность (GOF) модели логистической регрессии определяется следующим образом: Затем выборка разбивается на децилей, , , для каждого дециля вычисляются следующие величины:d=10d=10d=10D1,D2,…,DdD1,D2,…,DdD_1, D_2, \dots , D_{d} O1d=∑i∈DdyiO1d=∑i∈DdyiO_{1d}=\displaystyle \sum_{i \in D_d} y_i , т.е. наблюдаемое количество положительных случаев в ;DdDdD_d O0d=∑i∈Dd(1−yi)O0d=∑i∈Dd(1−yi)O_{0d}=\displaystyle \sum_{i \in D_d} (1-y_i) …

3
Интерпретация остаточных диагностических графиков для моделей GLM?
Я ищу рекомендации о том, как интерпретировать остаточные графики моделей GLM. Особенно пуассоновские, отрицательные биномиальные, биномиальные модели. Что мы можем ожидать от этих графиков, когда модели «правильные»? (например, мы ожидаем, что дисперсия будет расти по мере увеличения прогнозируемого значения при работе с моделью Пуассона) Я знаю, что ответы зависят от …

7
Парадокс Дня Рождения с (огромным) поворотом: вероятность того, чтобы разделить точно такую ​​же дату рождения с партнером?
У меня та же дата рождения, что и у моего парня, та же дата, но и в том же году, наши рождения разделены всего лишь на 5 часов или около того. Я знаю, что шансы встретить кого-то, кто родился в тот же день, что и у меня, достаточно высоки, и …

4
(Почему) у переоснащенных моделей, как правило, большие коэффициенты?
Я полагаю, что чем больше коэффициент для переменной, тем больше у модели способности «качаться» в этом измерении, обеспечивая повышенную возможность подгонки к шуму. Хотя я думаю, что у меня есть разумное представление о связи между дисперсией в модели и большими коэффициентами, у меня нет такого хорошего представления о том, почему …


4
Происхождение порога «5 » для принятия доказательств в физике элементарных частиц?
В новостях говорится, что CERN объявит завтра, что бозон Хиггса был экспериментально обнаружен с 5 свидетельствами. Согласно этой статье:σσ\sigma 5 соответствует вероятности 99,9994% того, что данные, которые видят детекторы CMS и ATLAS, представляют собой не просто случайный шум, а вероятность 0,00006% того, что их обманули; 5 - это необходимая уверенность …

5
Может ли SVM выполнять потоковое обучение по одному примеру за раз?
У меня есть набор потоковых данных, примеры доступны по одному за раз. Я должен был бы сделать мультиклассовую классификацию на них. Как только я подал учебный пример в учебный процесс, я должен отказаться от этого примера. Параллельно я также использую новейшую модель для прогнозирования немеченых данных. Насколько я знаю, нейронная …

5
Является ли выборочная ковариационная матрица всегда симметричной и положительно определенной?
При вычислении ковариационной матрицы образца гарантируется ли получение симметричной и положительно определенной матрицы? В настоящее время моя задача имеет выборку из 4600 векторов наблюдения и 24 измерений.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.