Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Почему полиномиальная регрессия считается частным случаем множественной линейной регрессии?
Если полиномиальная регрессия моделирует нелинейные отношения, как ее можно считать частным случаем множественной линейной регрессии? Википедия отмечает, что «хотя полиномиальная регрессия соответствует нелинейной модели данных, в качестве задачи статистической оценки она является линейной, в том смысле, что функция регрессии является линейной по неизвестным параметрам, которые оцениваются из данных. "E (у| …

3
Что означает доверительный интервал, взятый из повторных выборок при загрузке?
Я просматривал многочисленные вопросы на этом сайте, касающиеся начальной загрузки и доверительных интервалов, но я все еще в замешательстве. Одна из причин моего замешательства, вероятно, заключается в том, что я недостаточно продвинут в своих знаниях статистики, чтобы понять многие ответы. Я на полпути к вводному курсу статистики, и мой математический …

2
В чем разница между условной и безусловной квантильной регрессией?
Условная квантиль оценка регрессии с помощью Koenker и Бассета (1978) для τthτth\tau^{th} квантиля определяется как β Q R = мин , где \ rho_ \ тау = u_i \ CDOT (\ тау - 1 (u_i <0)) является повторно - весовая функция (называемая «контрольной» - функцией) остатков u_i . βˆQR=minb∑i=1nρτ(yi−X′ibτ)β^QR=minb∑i=1nρτ(yi−Xi′bτ) \widehat{\beta}_{QR} …

2
Когда пуассоновская и отрицательная биномиальные регрессии соответствуют одинаковым коэффициентам?
Я заметил, что в R регрессии Пуассона и отрицательная биномиальная (NB) всегда соответствуют одинаковым коэффициентам для категориальных, но не непрерывных предикторов. Например, вот регрессия с категориальным предиктором: data(warpbreaks) library(MASS) rs1 = glm(breaks ~ tension, data=warpbreaks, family="poisson") rs2 = glm.nb(breaks ~ tension, data=warpbreaks) #compare coefficients cbind("Poisson"=coef(rs1), "NB"=coef(rs2)) Вот пример с непрерывным …

5
Прогноз в регрессии Кокса
Я делаю многомерную регрессию Кокса, у меня есть значимые независимые переменные и бета-значения. Модель очень хорошо вписывается в мои данные. Теперь я хотел бы использовать мою модель и прогнозировать выживание нового наблюдения. Мне неясно, как это сделать с моделью Кокса. В линейной или логистической регрессии было бы легко, просто поместите …

3
Почему наивные байесовские классификаторы так хорошо работают?
Наивные байесовские классификаторы являются популярным выбором для задач классификации. Есть много причин для этого, в том числе: «Zeitgeist» - широко распространенная осведомленность после успеха спам-фильтров около десяти лет назад Легко написать Модель классификатора быстро построить Модель может быть изменена с новыми данными обучения без необходимости перестраивать модель Тем не менее, …


2
Что такое идентификация модели?
Я знаю, что с моделью, которая не может быть идентифицирована, можно сказать, что данные создаются несколькими различными назначениями параметров модели. Я знаю, что иногда можно ограничить параметры так, чтобы все были идентифицируемыми, как в примере в Cassella & Berger 2nd ed, раздел 11.2. Учитывая конкретную модель, как я могу оценить, …

8
Допустимо ли включать базовую меру в качестве контрольной переменной при тестировании влияния независимой переменной на оценки изменений?
Я пытаюсь запустить регрессию OLS: DV: изменение веса за год (начальный вес - конечный вес) IV: Независимо от того вы занимаетесь спортом. Тем не менее, кажется разумным, что более тяжелые люди будут терять больше веса на единицу нагрузки, чем более худые люди. Таким образом, я хотел включить переменную управления: CV: …

7
Есть ли хороший браузер / программа просмотра для просмотра набора данных R (файл .rda)
Я хочу просмотреть файл .rda (набор данных R). Я знаю о View(datasetname)команде. R.app по умолчанию для Mac не имеет очень хорошего браузера для данных (он открывает окно в X11). Мне нравится браузер данных RStudio, который открывается с Viewкомандой. Тем не менее, он показывает только 1000 строк и пропускает остальные. ( …
38 r 

5
Временной ряд «кластеризация» в R
У меня есть набор данных временных рядов. Каждая серия охватывает один и тот же период, хотя фактические даты в каждом временном ряду могут не совпадать точно. То есть, если бы временной ряд читался в двухмерной матрице, он бы выглядел примерно так: date T1 T2 T3 .... TN 1/1/01 100 59 …

6
Какова связь между заслуживающими доверия регионами и проверкой байесовских гипотез?
В статистике часто встречается тесная связь между доверительными интервалами и тестами. Используя в качестве примера вывод о в распределении доверительный интервал содержит все значения , которые не отклоняются тестом на уровне значимости .μμ\muN(μ,σ2)N(μ,σ2)\rm N(\mu,\sigma^2)1−α1−α1-\alphax¯±tα/2(n−1)⋅s/n−−√x¯±tα/2(n−1)⋅s/n\bar{x}\pm t_{\alpha/2}(n-1)\cdot s/\sqrt{n}μμ\mutttαα\alpha Частые доверительные интервалы являются в этом смысле инвертированными тестами. (Между прочим, это означает, что …

9
Какова связь между и в этом сюжете?
Какова связь между и на следующем графике? На мой взгляд, есть отрицательные линейные отношения, но поскольку у нас много выбросов, отношения очень слабые. Я прав? Я хочу узнать, как мы можем объяснить графики рассеяния.XYYYИксXX

8
Как эффективно генерировать случайные положительно-полуопределенные корреляционные матрицы?
Я хотел бы иметь возможность эффективно генерировать матрицы положительно-полуопределенной (PSD) корреляции. Мой метод значительно замедляется, когда я увеличиваю размер создаваемых матриц. Не могли бы вы предложить какие-либо эффективные решения? Если вам известны какие-либо примеры в Matlab, я был бы очень благодарен. Когда вы генерируете матрицу корреляции PSD, как бы вы …

9
Как я могу эффективно смоделировать сумму случайных величин Бернулли?
Я моделирую случайную переменную ( YYY ), которая является суммой некоторых ~ 15-40k независимых независимых переменных Бернулли ( ), каждая с разной вероятностью успеха ( ). Формально где и \ Pr (X_i = 0) = 1-p_i .XiXiX_ipipip_iY=∑XiY=∑XiY=\sum X_iPr(Xi=1)=piPr(Xi=1)=pi\Pr(X_i=1)=p_iPr(Xi=0)=1−piPr(Xi=0)=1−pi\Pr(X_i=0)=1-p_i Я заинтересован в том, чтобы быстро отвечать на запросы, такие как Pr(Y&lt;=k)Pr(Y&lt;=k)\Pr(Y<=k) …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.