Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Линейность PCA
PCA считается линейной процедурой, однако: PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),PCA(X)≠PCA(X1)+PCA(X2)+…+PCA(Xn),\mathrm{PCA}(X)\neq \mathrm{PCA}(X_1)+\mathrm{PCA}(X_2)+\ldots+\mathrm{PCA}(X_n), где . Это означает, что собственные векторы, полученные PCA на матрицах данных , не суммируют до равных собственных векторов, полученных PCA, на сумму матриц данных . Но не является ли определение линейной функции что:X i X i fX=X1+X2+…+XnX=X1+X2+…+XnX=X_1+X_2+\ldots+X_nXiXiX_iXiXiX_ifff f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)?f(x+y)=f(x)+f(y)? Так почему же PCA …
35 pca  linear 

3
Как выбрать метод кластеризации? Как проверить кластерное решение (чтобы гарантировать выбор метода)?
Одна из самых больших проблем с кластерным анализом заключается в том, что нам, возможно, придется делать разные выводы, основываясь на разных методах кластеризации (включая разные методы связи в иерархической кластеризации). Хотелось бы узнать ваше мнение по этому поводу - какой метод вы выберете и как. Кто-то может сказать: «Лучший метод …

2
Повышение градиента для линейной регрессии - почему это не работает?
При изучении Gradient Boosting я не слышал о каких-либо ограничениях в отношении свойств «слабого классификатора», который метод использует для построения и ансамбля модели. Однако я не мог представить себе применение ГБ, которое использует линейную регрессию, и на самом деле, когда я выполнил некоторые тесты - это не работает. Я тестировал …

4
Как LSTM предотвращает проблему исчезающего градиента?
LSTM был изобретен специально, чтобы избежать проблемы исчезающего градиента. Предполагается, что это будет сделано с помощью карусели постоянных ошибок (CEC), которая на диаграмме ниже (от Греффа и др. ) Соответствует петле вокруг ячейки . (источник: deeplearning4j.org ) И я понимаю, что эту часть можно рассматривать как своего рода функцию тождества, …

5
Думайте как байесовский, проверяйте как частый человек: что это значит?
Я смотрю на слайды лекций по курсу науки о данных, которые можно найти здесь: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, к сожалению, не вижу видео для этой лекции, и в какой-то момент на слайде у докладчика есть следующий текст: Некоторые ключевые принципы Думай как байесовский, проверяй как частый (примирение) Кто-нибудь знает, что это на …

2
Что такое упругая сеточная регуляризация и как она решает недостатки Риджа (
Всегда ли упругая чистая регуляризация всегда предпочтительнее, чем Lasso & Ridge, поскольку она, похоже, решает недостатки этих методов? Что такое интуиция и какая математика стоит за эластичной сеткой?


6
Являются ли все методы моделирования той или иной формой Монте-Карло?
Есть ли метод моделирования, который не является Монте-Карло? Все методы моделирования включают подстановку случайных чисел в функцию, чтобы найти диапазон значений для функции. Так все ли методы моделирования по сути являются методами Монте-Карло?

11
Почему на (0, 255) генерируется 8 случайных битов?
Я генерирую 8 случайных битов (0 или 1) и объединяю их вместе, чтобы сформировать 8-битное число. Простое моделирование Python дает равномерное распределение на дискретном множестве [0, 255]. Я пытаюсь объяснить, почему это имеет смысл в моей голове. Если бы я сравнил это с подбрасыванием 8 монет, разве ожидаемое значение не …

4
Как распределение может иметь бесконечное среднее значение и дисперсию?
Было бы желательно, чтобы были приведены следующие примеры: Распределение с бесконечным средним и бесконечной дисперсией. Распределение с бесконечным средним и конечной дисперсией. Распределение с конечным средним и бесконечной дисперсией. Распределение с конечным средним и конечной дисперсией. Это происходит от того, что я вижу эти незнакомые термины (бесконечное среднее, бесконечное отклонение), …

1
Квантильная регрессия: какие стандартные ошибки?
summary.rqФункция от quantreg виньетки предоставляет множество вариантов для стандартных оценок погрешности квантилей коэффициентов регрессии. Каковы специальные сценарии, когда каждый из них становится оптимальным / желательным? «ранг», который дает доверительные интервалы для оцененных параметров путем инвертирования теста ранга, как описано в Koenker (1994). Опция по умолчанию предполагает, что ошибки являются iid, …

6
Лучший метод для коротких временных рядов
У меня есть вопрос, связанный с моделированием коротких временных рядов. Вопрос не в том, моделировать их , а в том, как это сделать. Какой метод вы бы порекомендовали для моделирования (очень) коротких временных рядов (скажем, длины )? Под «лучшим» я подразумеваю здесь самый надежный, который наименее подвержен ошибкам из-за ограниченного …

2
Множественная регрессия или частичный коэффициент корреляции? И отношения между двумя
Я даже не знаю, имеет ли этот вопрос смысл, но в чем разница между множественной регрессией и частичной корреляцией (кроме очевидных различий между корреляцией и регрессией, к которым я не стремлюсь)? Я хочу выяснить следующее: у меня есть две независимые переменные ( , ) и одна зависимая переменная ( ). …

3
PCA и разделение поезда / теста
У меня есть набор данных, для которого у меня есть несколько наборов двоичных меток. Для каждого набора меток я обучаю классификатор, оценивая его путем перекрестной проверки. Я хочу уменьшить размерность, используя анализ основных компонентов (PCA). Мой вопрос: Можно ли сделать PCA один раз для всего набора данных, а затем использовать …

5
Тестирование на автокорреляцию: Юнг-Бокс против Бреуша-Годфри
Я привык видеть, что тест Юнга-Бокса довольно часто используется для проверки автокорреляции в исходных данных или в остатках модели. Я почти забыл, что существует другой тест на автокорреляцию, а именно тест Бреуша-Годфри. Вопрос: каковы основные различия и сходства тестов Юнга-Бокса и Бреуша-Годфри и когда следует отдавать предпочтение одному из них? …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.