Статистика и большие данные

5

В чем разница между N и N-1 в расчете дисперсии населения?

Я не понял, почему есть Nи N-1при расчете дисперсии населения. Когда мы используем Nи когда мы используем N-1? Нажмите здесь, чтобы увеличить версию Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале. Изменить: …

50 variance population

8

Книга для чтения перед элементами статистического обучения?

Основываясь на этом посте , я хочу переварить элементы статистического обучения. К счастью, он доступен бесплатно, и я начал его читать. У меня недостаточно знаний, чтобы понять это. Можете ли вы порекомендовать книгу, которая является лучшим введением в темы книги? Надеюсь, что-то, что даст мне знания, необходимые для его понимания? …

50 machine-learning references

6

Книги для изучения статистики с использованием R Какую именно книгу я ищу. То, что я ищу, это книга, которая обучает вас статистике, используя R, чтобы дать вам практический опыт и, таким образом, в конечном итоге помогает вам изучать R вместе. Я видел на Амазонке много книг, которые пытаются это сделать, …

50 r references

13

Программное обеспечение для рисования байесовских сетей (графические модели)

Я ищу [бесплатное] программное обеспечение, которое может создавать красивые графические модели, например Мы ценим любые предложения.

50 graphical-model software

5

Правильное написание (капитализация, курсив, перенос слов) «р-значение»?

Я понимаю, что это педантично и банально, но как исследователь в области вне статистики, с ограниченным формальным образованием в области статистики, я всегда задаюсь вопросом, правильно ли я пишу «р-значение». В частности: Предполагается ли заглавная буква "p"? Предполагается, что буква «р» выделена курсивом? (Или в математическом шрифте, в TeX?) Должен …

50 hypothesis-testing p-value terminology

3

Как мы определяем «воспроизводимые исследования»?

Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к «воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность щелкнуть «Выполнить» и получить те же результаты. Подход, …

50 reproducible-research philosophical

6

Является ли регрессия гребня бесполезной в больших размерах (

Рассмотрим старую добрую регрессионную проблему с pпp предикторами и размером выборки . Обычная мудрость заключается в том, что оценщик OLS будет более подходящим и, как правило, будет превосходить оценщик регрессии гребня:Стандартно используется перекрестная проверка для нахождения оптимального параметра регуляризации . Здесь я использую 10-кратное резюме. Уточнение уточнения: когда , под …

50 cross-validation regularization overfitting ridge-regression shrinkage

1

Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых имеет n значений. Одно горячее кодирование заканчивается переменными kn , а …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

3

Какая интуиция стоит за СВД?

Я читал о разложении сингулярных значений (SVD). Почти во всех учебниках упоминается, что она разбивает матрицу на три матрицы с заданной спецификацией. Но какова интуиция, лежащая в основе разделения матрицы в такой форме? PCA и другие алгоритмы уменьшения размерности интуитивно понятны в том смысле, что алгоритм обладает хорошим свойством визуализации, …

50 matrix linear-algebra svd intuition

2

Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?

Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются, поэтому я считаю, что они игнорируются. Итак, прав ли я, когда считаю, …

50 regression multiple-regression

3

Кластеризация с K-Means и EM: как они связаны?

Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как связаны kmeans и EM, поскольку одно выполняет вероятностное назначение, а другое - …

50 machine-learning clustering data-mining k-means expectation-maximization

1

Получение прогнозных значений (Y = 1 или 0) из модели логистической регрессии

Допустим, у меня есть объект класса glm(соответствующий модели логистической регрессии), и я хотел бы превратить предсказанные вероятности, заданные с predict.glmпомощью аргумента, type="response"в двоичные ответы, то есть или Y = 0 . Какой самый быстрый и самый канонический способ сделать это в R?Y=1Y=1Y=1Y=0Y=0Y=0 Хотя, опять же , я знаю predict.glm, я …

50 r generalized-linear-model logistic

4

Зачем беспокоиться о двойной проблеме при установке SVM?

Для заданных точек данных и меток y 1 , … , y n ∈ { - 1 , 1 }x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} , основная задача SVM с жестким полем имеет вид S.T.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi( шTИкся+ ш0) …

50 svm

16

Каковы рекомендации панели для книг по оформлению экспериментов? В идеале книги должны быть в печатном виде или доступны в электронном виде, хотя это не всегда возможно. Если вы хотите добавить пару слов о том, что хорошего в книге, это было бы здорово. Кроме того, стремитесь к одной книге за ответ, …

50 references experiment-design

4

Почему ANOVA эквивалентен линейной регрессии?

Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если предположить, что средние значения …

50 regression anova