Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Когда функция биномиального распределения выше / ниже предельной функции распределения Пуассона?
Обозначим через биномиальную функцию распределения (DF) с параметрами и вычисленными при : и пусть обозначает пуассоновский DF с параметром оцененным при : B(n,p,r)B(n,p,r)B(n,p,r)n∈Nn∈Nn \in \mathbb Np∈(0,1)p∈(0,1)p \in (0,1)r∈{0,1,…,n}r∈{0,1,…,n}r \in \{0,1,\ldots,n\}B(n,p,r)=∑i=0r(ni)pi(1−p)n−i,B(n,p,r)=∑i=0r(ni)pi(1−p)n−i,\begin{equation} B(n,p,r) = \sum_{i=0}^r \binom{n}{i} p^i (1-p)^{n-i}, \end{equation}F(ν,r)F(ν,r)F(\nu,r)a∈R+a∈R+a \in \mathbb R^+r∈{0,1,2,…}r∈{0,1,2,…}r \in \{0,1,2,\ldots\}F(a,r)=e−a∑i=0raii!.F(a,r)=e−a∑i=0raii!.\begin{equation} F(a,r) = e^{-a} \sum_{i=0}^r \frac{a^i}{i!}. \end{equation} Рассмотрим p→0p→0p …

8
Распределение в форме плато?
Я ищу распределение, в котором плотность вероятности быстро уменьшается после некоторой точки, находящейся вдали от среднего значения, или, по моим собственным словам, «распределение в форме плато». Что-то среднее между гауссовым и униформой.

1
Что делает команда anova () с объектом модели lmer?
Надеюсь, что это вопрос, который кто-то здесь может ответить для меня о природе разложения сумм квадратов из модели смешанных эффектов lmer(из пакета lme4 R). Прежде всего я должен сказать, что мне известно о противоречиях с использованием этого подхода, и на практике я бы с большей вероятностью использовал загрузочный LRT для …

9
Зачем использовать векторную модель коррекции ошибок?
Меня смущает модель коррекции ошибок вектора ( VECM ). Техническая справка: VECM предлагает возможность применять векторную авторегрессионную модель ( VAR ) к интегрированным многомерным временным рядам. В учебниках они называют некоторые проблемы в применении VAR к интегрированным временным рядам, наиболее важной из которых является так называемая ложная регрессия (t-статистика очень …

8
Какие предметы по математике вы бы предложили для подготовки данных и машинного обучения?
Я пытаюсь составить самостоятельную учебную программу по математике, чтобы подготовиться к изучению интеллектуального анализа данных и машинного обучения. Это мотивировано тем, что я начал курс машинного обучения Эндрю Нга на Coursera и почувствовал, что перед тем, как продолжить, мне нужно улучшить свои математические навыки. Я недавно закончил колледж, так что …


5
Данные «разведка» против данных «слежка» / «пытки»?
Много раз я сталкивался с неофициальными предупреждениями против «отслеживания данных» (вот один забавный пример ), и я думаю, что у меня есть интуитивное представление о том, что это значит, и почему это может быть проблемой. С другой стороны, «исследовательский анализ данных» представляется вполне респектабельной процедурой в статистике, по крайней мере, …

2
Сравнение Lme и Lmer
Мне было интересно, сможет ли кто-нибудь рассказать мне о текущих различиях между этими двумя функциями. Я нашел следующий вопрос: Как выбрать библиотеку nlme или lme4 R для моделей со смешанными эффектами? , но это происходит пару лет назад. Это жизнь в кругах программного обеспечения. Мои конкретные вопросы: Есть ли (все …

2
Тест на бимодальное распределение
Интересно, существует ли какой-либо статистический тест для «проверки» значимости бимодального распределения. Я имею в виду, насколько мои данные соответствуют бимодальному распределению или нет? Если да, есть ли тест в программе R?

4
Как выполнить уменьшение размерности с PCA в R
У меня большой набор данных, и я хочу уменьшить размерность. Сейчас везде читаю, что могу использовать для этого PCA. Тем не менее, я все еще не понимаю, что делать после вычисления / выполнения PCA. В R это легко сделать с помощью команды princomp. Но что делать после расчета СПС? Если …
30 r  pca 

4
Техника машинного обучения для разбора строк?
У меня много адресных строк: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу разобрать их на составляющие: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Но, конечно, данные грязные: они поступают из многих стран на многих языках, написаны по-разному, содержат орфографические ошибки, пропуски, лишний мусор …

3
Как определить качество мультиклассового классификатора
Данный набор данных с экземплярами xiИксяx_i вместе с NNN классами, где каждый экземпляр xiИксяx_i принадлежит ровно одному классу yiYяy_i мультиклассовый классификатор После обучения и тестирования у меня в основном есть таблица с истинным классом yiyiy_i и прогнозируемым классом aiaia_i для каждого экземпляра xixix_i в наборе тестов. Так что для каждого …

3
Рекомендация для рецензируемого журнала с открытым исходным кодом?
У меня есть рукопись по методу начальной загрузки для проверки гипотез одного среднего значения, и я хотел бы отправить ее для публикации, но у меня есть моральная дилемма. Я подписался на протест против Elsevier за их неэтичные методы ведения бизнеса, и чтение всего этого вопроса действительно заставило меня усомниться в …

3
Как узнать, является ли временной ряд стационарным или нестационарным?
Я использую R, я искал на Google и выяснил , что kpss.test(), PP.test()и adf.test()используются , чтобы знать о стационарности временных рядов. Но я не статистика, которая может интерпретировать свои результаты > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > …

5
Стратегии обучения распределению выборки
Версия tl; dr Какие успешные стратегии вы используете для обучения распределению выборки (например, среднего значения выборки) на начальном уровне бакалавриата? Фон В сентябре я буду преподавать вводный курс статистики для студентов второго курса по общественным наукам (в основном, по политологии и социологии), используя «Основную практику статистики » Дэвида Мура. Это …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.