Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Обнаружение выбросов во временных рядах (LS / AO / TC) с использованием пакета tsoutliers в R. Как представить выбросы в формате уравнения?
Комментарии: Во - первых , я хотел бы сказать большое спасибо автору этого новые tsoutliers пакет , который реализует Чен и Лю обнаружения временных рядов останец , который был опубликован в журнале Американской статистической ассоциации в 1993 году Open Source программного обеспечения .ррR Пакет итеративно обнаруживает 5 различных типов выбросов …

4
Каковы различия между разреженным кодированием и автоэнкодером?
Разреженное кодирование определяется как изучение слишком полного набора базовых векторов для представления входных векторов (<- зачем нам это нужно). Каковы различия между разреженным кодированием и автоэнкодером? Когда мы будем использовать разреженное кодирование и автоэнкодер?

11
Среднее абсолютное отклонение против стандартного отклонения
В учебнике Грира «Новая комплексная математика для уровня O» (1983) я вижу усредненное отклонение, рассчитываемое так: Суммируйте абсолютные различия между отдельными значениями и средним. Тогда получите его среднее. В этой главе используется термин « среднее отклонение» . Но я недавно видел несколько ссылок, которые используют термин стандартное отклонение, и вот …

8
Случайная прогулка по краям куба
Муравей находится в углу куба и не может двигаться. Паук начинается с противоположного угла и может двигаться по краям куба в любом направлении с равной вероятностью . В среднем, сколько шагов нужно пауку, чтобы добраться до муравья?1 / 3( х , у, z)(x,y,z)(x,y,z)1 / 31/31/3 (Это не домашняя работа, это …

1
Логистическая регрессия: критерий хи-квадрат anova против значимости коэффициентов (anova () против суммарного () в R)
У меня есть логистическая модель GLM с 8 переменными. Я anova(glm.model,test='Chisq')выполнил тест хи-квадрат в R, и 2 переменные оказываются прогнозирующими, если их упорядочивать в верхней части теста, и не так сильно, когда их упорядочивают в нижней части. Предполагается, summary(glm.model)что их коэффициенты незначительны (высокое значение p). В этом случае кажется, что …

3
Как доказать, что радиальная базисная функция является ядром?
Как доказать, что радиальная базисная функция k(x,y)=exp(−||x−y||2)2σ2)k(x,y)=exp⁡(−||x−y||2)2σ2)k(x, y) = \exp(-\frac{||x-y||^2)}{2\sigma^2})ядро? Насколько я понимаю, чтобы доказать это, мы должны доказать одно из следующего: Для любого набора векторов x1,x2,...,xnx1,x2,...,xnx_1, x_2, ..., x_n матрица K(x1,x2,...,xn)K(x1,x2,...,xn)K(x_1, x_2, ..., x_n) = (k(xi,xj))n×n(k(xi,xj))n×n(k(x_i, x_j))_{n \times n} неотрицательно. Отображение ΦΦ\Phi может быть представлен , например , как …
35 svm  kernel-trick 

3
Существенное противоречие в линейной регрессии: значимый t-критерий для коэффициента против незначимой общей F-статистики
Я подгоняю модель множественной линейной регрессии между 4 категориальными переменными (по 4 уровня в каждой) и числовым выходом. Мой набор данных имеет 43 наблюдения. Регрессия дает мне следующие из -test для каждого коэффициента наклона: . Таким образом, коэффициент для 4-го предиктора является значимым при уровне достоверности .ппpTTt.15 , .67 , …


5
Свободный набор данных для очень высокой размерной классификации [закрыто]
Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

3
Что такое остаточная стандартная ошибка?
При запуске модели множественной регрессии в R один из выходных сигналов представляет собой остаточную стандартную ошибку 0,0589 при 95 161 степени свободы. Я знаю, что 95 161 степень свободы определяется разницей между количеством наблюдений в моей выборке и количеством переменных в моей модели. Какова остаточная стандартная ошибка?

4
Общая сумма гамма-случайных величин
Я читал, что сумма гамма-случайных величин с тем же параметром масштаба является еще одной гамма-случайной величиной. Я также видел статью Moschopoulos, описывающую метод суммирования общего набора гамма-случайных величин. Я пытался реализовать метод Мосхопулоса, но пока не добился успеха. Как выглядит суммирование общего набора гамма-случайных величин? Чтобы конкретизировать этот вопрос, как …

4
Почему логистическая регрессия становится нестабильной, когда классы хорошо разделены?
Почему логистическая регрессия становится нестабильной, когда классы хорошо разделены? Что значит хорошо разделенные классы? Я был бы очень признателен, если бы кто-то мог объяснить на примере.

2
Модель смешанных эффектов с вложенностью
У меня есть данные, собранные из эксперимента, организованного следующим образом: Два участка, каждый с 30 деревьями. 15 лечат, 15 контролируют на каждом участке. Из каждого дерева мы отбираем три куска ствола и три куска корней, так что по 6 образцов первого уровня на дерево, которое представлено одним из двух уровней …

2
Интерпретация графика невязок и подгоночных значений для проверки предположений линейной модели
Рассмотрим следующую фигуру из линейных моделей Faraway с R (2005, стр. 59). Первый график, по-видимому, указывает на то, что остатки и подогнанные значения некоррелированы, поскольку они должны быть в гомоскедастической линейной модели с нормально распределенными ошибками. Поэтому второй и третий графики, которые, кажется, указывают на зависимость между невязками и подобранными …

5
Что если мои данные линейной регрессии содержат несколько смешанных линейных отношений?
Допустим, я изучаю, как нарциссы реагируют на различные почвенные условия. Я собрал данные о pH почвы в зависимости от зрелой высоты нарцисса. Я ожидаю линейных отношений, поэтому я продолжаю выполнять линейную регрессию. Однако, когда я начал свое исследование, я не осознавал, что популяция на самом деле содержит две разновидности нарцисса, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.