Статистика и большие данные

1

Когда функция биномиального распределения выше / ниже предельной функции распределения Пуассона?

Обозначим через биномиальную функцию распределения (DF) с параметрами и вычисленными при : и пусть обозначает пуассоновский DF с параметром оцененным при : B(n,p,r)B(n,p,r)B(n,p,r)n∈Nn∈Nn \in \mathbb Np∈(0,1)p∈(0,1)p \in (0,1)r∈{0,1,…,n}r∈{0,1,…,n}r \in \{0,1,\ldots,n\}B(n,p,r)=∑i=0r(ni)pi(1−p)n−i,B(n,p,r)=∑i=0r(ni)pi(1−p)n−i,\begin{equation} B(n,p,r) = \sum_{i=0}^r \binom{n}{i} p^i (1-p)^{n-i}, \end{equation}F(ν,r)F(ν,r)F(\nu,r)a∈R+a∈R+a \in \mathbb R^+r∈{0,1,2,…}r∈{0,1,2,…}r \in \{0,1,2,\ldots\}F(a,r)=e−a∑i=0raii!.F(a,r)=e−a∑i=0raii!.\begin{equation} F(a,r) = e^{-a} \sum_{i=0}^r \frac{a^i}{i!}. \end{equation} Рассмотрим p→0p→0p …

30 binomial poisson-distribution convergence probability-inequalities

8

Распределение в форме плато?

Я ищу распределение, в котором плотность вероятности быстро уменьшается после некоторой точки, находящейся вдали от среднего значения, или, по моим собственным словам, «распределение в форме плато». Что-то среднее между гауссовым и униформой.

30 distributions normal-distribution uniform

1

Что делает команда anova () с объектом модели lmer?

Надеюсь, что это вопрос, который кто-то здесь может ответить для меня о природе разложения сумм квадратов из модели смешанных эффектов lmer(из пакета lme4 R). Прежде всего я должен сказать, что мне известно о противоречиях с использованием этого подхода, и на практике я бы с большей вероятностью использовал загрузочный LRT для …

30 r anova mixed-model lme4-nlme

9

Зачем использовать векторную модель коррекции ошибок?

Меня смущает модель коррекции ошибок вектора ( VECM ). Техническая справка: VECM предлагает возможность применять векторную авторегрессионную модель ( VAR ) к интегрированным многомерным временным рядам. В учебниках они называют некоторые проблемы в применении VAR к интегрированным временным рядам, наиболее важной из которых является так называемая ложная регрессия (t-статистика очень …

30 time-series forecasting var cointegration vecm

8

Какие предметы по математике вы бы предложили для подготовки данных и машинного обучения?

Я пытаюсь составить самостоятельную учебную программу по математике, чтобы подготовиться к изучению интеллектуального анализа данных и машинного обучения. Это мотивировано тем, что я начал курс машинного обучения Эндрю Нга на Coursera и почувствовал, что перед тем, как продолжить, мне нужно улучшить свои математические навыки. Я недавно закончил колледж, так что …

30 machine-learning references data-mining

5

Генерация случайных чисел вручную

Как я могу вручную сгенерировать случайное число из данного распределения, например, 10 реализаций из стандартного нормального распределения?

30 normal-distribution simulation monte-carlo random-generation randomness

5

Данные «разведка» против данных «слежка» / «пытки»?

Много раз я сталкивался с неофициальными предупреждениями против «отслеживания данных» (вот один забавный пример ), и я думаю, что у меня есть интуитивное представление о том, что это значит, и почему это может быть проблемой. С другой стороны, «исследовательский анализ данных» представляется вполне респектабельной процедурой в статистике, по крайней мере, …

30 multiple-comparisons interpretation eda

2

Сравнение Lme и Lmer

Мне было интересно, сможет ли кто-нибудь рассказать мне о текущих различиях между этими двумя функциями. Я нашел следующий вопрос: Как выбрать библиотеку nlme или lme4 R для моделей со смешанными эффектами? , но это происходит пару лет назад. Это жизнь в кругах программного обеспечения. Мои конкретные вопросы: Есть ли (все …

30 r mixed-model lme4-nlme

2

Тест на бимодальное распределение

Интересно, существует ли какой-либо статистический тест для «проверки» значимости бимодального распределения. Я имею в виду, насколько мои данные соответствуют бимодальному распределению или нет? Если да, есть ли тест в программе R?

30 r hypothesis-testing distributions bimodal

4

Как выполнить уменьшение размерности с PCA в R

У меня большой набор данных, и я хочу уменьшить размерность. Сейчас везде читаю, что могу использовать для этого PCA. Тем не менее, я все еще не понимаю, что делать после вычисления / выполнения PCA. В R это легко сделать с помощью команды princomp. Но что делать после расчета СПС? Если …

30 r pca

4

Техника машинного обучения для разбора строк?

У меня много адресных строк: 1600 Pennsylvania Ave, Washington, DC 20500 USA Я хочу разобрать их на составляющие: street: 1600 Pennsylvania Ave city: Washington province: DC postcode: 20500 country: USA Но, конечно, данные грязные: они поступают из многих стран на многих языках, написаны по-разному, содержат орфографические ошибки, пропуски, лишний мусор …

30 machine-learning text-mining

3

Как определить качество мультиклассового классификатора

Данный набор данных с экземплярами xiИксяx_i вместе с NNN классами, где каждый экземпляр xiИксяx_i принадлежит ровно одному классу yiYяy_i мультиклассовый классификатор После обучения и тестирования у меня в основном есть таблица с истинным классом yiyiy_i и прогнозируемым классом aiaia_i для каждого экземпляра xixix_i в наборе тестов. Так что для каждого …

30 machine-learning classification multi-class

3

У меня есть рукопись по методу начальной загрузки для проверки гипотез одного среднего значения, и я хотел бы отправить ее для публикации, но у меня есть моральная дилемма. Я подписался на протест против Elsevier за их неэтичные методы ведения бизнеса, и чтение всего этого вопроса действительно заставило меня усомниться в …

30 hypothesis-testing bootstrap journals

3

Как узнать, является ли временной ряд стационарным или нестационарным?

Я использую R, я искал на Google и выяснил , что kpss.test(), PP.test()и adf.test()используются , чтобы знать о стационарности временных рядов. Но я не статистика, которая может интерпретировать свои результаты > PP.test(x) Phillips-Perron Unit Root Test data: x Dickey-Fuller = -30.649, Truncation lag parameter = 7, p-value = 0.01 > …

30 r time-series stationarity augmented-dickey-fuller kpss-test

5

Стратегии обучения распределению выборки

Версия tl; dr Какие успешные стратегии вы используете для обучения распределению выборки (например, среднего значения выборки) на начальном уровне бакалавриата? Фон В сентябре я буду преподавать вводный курс статистики для студентов второго курса по общественным наукам (в основном, по политологии и социологии), используя «Основную практику статистики » Дэвида Мура. Это …

30 distributions sampling teaching