Статистика и большие данные

1

Обнаружение выбросов во временных рядах (LS / AO / TC) с использованием пакета tsoutliers в R. Как представить выбросы в формате уравнения?

Комментарии: Во - первых , я хотел бы сказать большое спасибо автору этого новые tsoutliers пакет , который реализует Чен и Лю обнаружения временных рядов останец , который был опубликован в журнале Американской статистической ассоциации в 1993 году Open Source программного обеспечения .ррR Пакет итеративно обнаруживает 5 различных типов выбросов …

35 time-series forecasting arima outliers

4

Каковы различия между разреженным кодированием и автоэнкодером?

Разреженное кодирование определяется как изучение слишком полного набора базовых векторов для представления входных векторов (<- зачем нам это нужно). Каковы различия между разреженным кодированием и автоэнкодером? Когда мы будем использовать разреженное кодирование и автоэнкодер?

35 machine-learning neural-networks unsupervised-learning deep-learning autoencoders

11

Среднее абсолютное отклонение против стандартного отклонения

В учебнике Грира «Новая комплексная математика для уровня O» (1983) я вижу усредненное отклонение, рассчитываемое так: Суммируйте абсолютные различия между отдельными значениями и средним. Тогда получите его среднее. В этой главе используется термин « среднее отклонение» . Но я недавно видел несколько ссылок, которые используют термин стандартное отклонение, и вот …

35 distributions standard-deviation frequency variability

8

Случайная прогулка по краям куба

Муравей находится в углу куба и не может двигаться. Паук начинается с противоположного угла и может двигаться по краям куба в любом направлении с равной вероятностью . В среднем, сколько шагов нужно пауку, чтобы добраться до муравья?1 / 3( х , у, z)(x,y,z)(x,y,z)1 / 31/31/3 (Это не домашняя работа, это …

35 probability random-walk

1

Логистическая регрессия: критерий хи-квадрат anova против значимости коэффициентов (anova () против суммарного () в R)

У меня есть логистическая модель GLM с 8 переменными. Я anova(glm.model,test='Chisq')выполнил тест хи-квадрат в R, и 2 переменные оказываются прогнозирующими, если их упорядочивать в верхней части теста, и не так сильно, когда их упорядочивают в нижней части. Предполагается, summary(glm.model)что их коэффициенты незначительны (высокое значение p). В этом случае кажется, что …

35 r regression logistic statistical-significance generalized-linear-model

3

Как доказать, что радиальная базисная функция является ядром?

Как доказать, что радиальная базисная функция k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})ядро? Насколько я понимаю, чтобы доказать это, мы должны доказать одно из следующего: Для любого набора векторов x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_n матрица K(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n) = (k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} неотрицательно. Отображение ΦΦ\Phi может быть представлен , например , как …

35 svm kernel-trick

3

Существенное противоречие в линейной регрессии: значимый t-критерий для коэффициента против незначимой общей F-статистики

Я подгоняю модель множественной линейной регрессии между 4 категориальными переменными (по 4 уровня в каждой) и числовым выходом. Мой набор данных имеет 43 наблюдения. Регрессия дает мне следующие из -test для каждого коэффициента наклона: . Таким образом, коэффициент для 4-го предиктора является значимым при уровне достоверности .ппpTTt.15 , .67 , …

35 regression hypothesis-testing multiple-comparisons multiple-regression t-test

4

Разница между продольным дизайном и временными рядами

В чем разница между продольным дизайном и временным рядом?

35 time-series panel-data

5

Свободный набор данных для очень высокой размерной классификации [закрыто]

Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

35 machine-learning classification dataset large-data

3

Что такое остаточная стандартная ошибка?

При запуске модели множественной регрессии в R один из выходных сигналов представляет собой остаточную стандартную ошибку 0,0589 при 95 161 степени свободы. Я знаю, что 95 161 степень свободы определяется разницей между количеством наблюдений в моей выборке и количеством переменных в моей модели. Какова остаточная стандартная ошибка?

35 regression standard-error residuals

4

Общая сумма гамма-случайных величин

Я читал, что сумма гамма-случайных величин с тем же параметром масштаба является еще одной гамма-случайной величиной. Я также видел статью Moschopoulos, описывающую метод суммирования общего набора гамма-случайных величин. Я пытался реализовать метод Мосхопулоса, но пока не добился успеха. Как выглядит суммирование общего набора гамма-случайных величин? Чтобы конкретизировать этот вопрос, как …

35 probability distributions gamma-distribution summations saddlepoint-approximation

4

Почему логистическая регрессия становится нестабильной, когда классы хорошо разделены?

Почему логистическая регрессия становится нестабильной, когда классы хорошо разделены? Что значит хорошо разделенные классы? Я был бы очень признателен, если бы кто-то мог объяснить на примере.

34 r regression logistic separation

2

Модель смешанных эффектов с вложенностью

У меня есть данные, собранные из эксперимента, организованного следующим образом: Два участка, каждый с 30 деревьями. 15 лечат, 15 контролируют на каждом участке. Из каждого дерева мы отбираем три куска ствола и три куска корней, так что по 6 образцов первого уровня на дерево, которое представлено одним из двух уровней …

34 r mixed-model model nested-data lme4-nlme

2

Интерпретация графика невязок и подгоночных значений для проверки предположений линейной модели

Рассмотрим следующую фигуру из линейных моделей Faraway с R (2005, стр. 59). Первый график, по-видимому, указывает на то, что остатки и подогнанные значения некоррелированы, поскольку они должны быть в гомоскедастической линейной модели с нормально распределенными ошибками. Поэтому второй и третий графики, которые, кажется, указывают на зависимость между невязками и подобранными …

34 regression residuals assumptions graphical-model

5

Что если мои данные линейной регрессии содержат несколько смешанных линейных отношений?

Допустим, я изучаю, как нарциссы реагируют на различные почвенные условия. Я собрал данные о pH почвы в зависимости от зрелой высоты нарцисса. Я ожидаю линейных отношений, поэтому я продолжаю выполнять линейную регрессию. Однако, когда я начал свое исследование, я не осознавал, что популяция на самом деле содержит две разновидности нарцисса, …

34 regression linear-model dataset