Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

5
В чем разница между N и N-1 в расчете дисперсии населения?
Я не понял, почему есть Nи N-1при расчете дисперсии населения. Когда мы используем Nи когда мы используем N-1? Нажмите здесь, чтобы увеличить версию Это говорит о том, что когда население очень большое, нет разницы между N и N-1, но это не говорит о том, почему существует N-1 в начале. Изменить: …

8
Книга для чтения перед элементами статистического обучения?
Основываясь на этом посте , я хочу переварить элементы статистического обучения. К счастью, он доступен бесплатно, и я начал его читать. У меня недостаточно знаний, чтобы понять это. Можете ли вы порекомендовать книгу, которая является лучшим введением в темы книги? Надеюсь, что-то, что даст мне знания, необходимые для его понимания? …

6
Какую книгу рекомендуется начинать изучать статистику одновременно с использованием R?
Книги для изучения статистики с использованием R Какую именно книгу я ищу. То, что я ищу, это книга, которая обучает вас статистике, используя R, чтобы дать вам практический опыт и, таким образом, в конечном итоге помогает вам изучать R вместе. Я видел на Амазонке много книг, которые пытаются это сделать, …
50 r  references 


5
Правильное написание (капитализация, курсив, перенос слов) «р-значение»?
Я понимаю, что это педантично и банально, но как исследователь в области вне статистики, с ограниченным формальным образованием в области статистики, я всегда задаюсь вопросом, правильно ли я пишу «р-значение». В частности: Предполагается ли заглавная буква "p"? Предполагается, что буква «р» выделена курсивом? (Или в математическом шрифте, в TeX?) Должен …

3
Как мы определяем «воспроизводимые исследования»?
Это возникло в нескольких вопросах сейчас, и мне было интересно о чем-то. Переместилось ли поле в целом к ​​«воспроизводимости» с акцентом на доступность исходных данных и рассматриваемого кода? Меня всегда учили, что ядром воспроизводимости не обязательно является, как я уже говорил, возможность щелкнуть «Выполнить» и получить те же результаты. Подход, …

6
Является ли регрессия гребня бесполезной в больших размерах (
Рассмотрим старую добрую регрессионную проблему с pпp предикторами и размером выборки . Обычная мудрость заключается в том, что оценщик OLS будет более подходящим и, как правило, будет превосходить оценщик регрессии гребня:Стандартно используется перекрестная проверка для нахождения оптимального параметра регуляризации . Здесь я использую 10-кратное резюме. Уточнение уточнения: когда , под …

1
Горячее против фиктивного кодирования в Scikit-Learn
Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых имеет n значений. Одно горячее кодирование заканчивается переменными kn , а …

3
Какая интуиция стоит за СВД?
Я читал о разложении сингулярных значений (SVD). Почти во всех учебниках упоминается, что она разбивает матрицу на три матрицы с заданной спецификацией. Но какова интуиция, лежащая в основе разделения матрицы в такой форме? PCA и другие алгоритмы уменьшения размерности интуитивно понятны в том смысле, что алгоритм обладает хорошим свойством визуализации, …

2
Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?
Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются, поэтому я считаю, что они игнорируются. Итак, прав ли я, когда считаю, …

3
Кластеризация с K-Means и EM: как они связаны?
Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как связаны kmeans и EM, поскольку одно выполняет вероятностное назначение, а другое - …

1
Получение прогнозных значений (Y = 1 или 0) из модели логистической регрессии
Допустим, у меня есть объект класса glm(соответствующий модели логистической регрессии), и я хотел бы превратить предсказанные вероятности, заданные с predict.glmпомощью аргумента, type="response"в двоичные ответы, то есть или Y = 0 . Какой самый быстрый и самый канонический способ сделать это в R?Y=1Y=1Y=1Y=0Y=0Y=0 Хотя, опять же , я знаю predict.glm, я …

4
Зачем беспокоиться о двойной проблеме при установке SVM?
Для заданных точек данных и меток y 1 , … , y n ∈ { - 1 , 1 }x1,…,xn∈Rdx1,…,xn∈Rdx_1, \ldots, x_n \in \mathbb{R}^dy1,…,yn∈{−1,1}y1,…,yn∈{−1,1}y_1, \ldots, y_n \in \left \{-1, 1 \right\} , основная задача SVM с жестким полем имеет вид S.T.minimizew,w012wTwminimizew,w012wTw \text{minimize}_{w, w_0} \quad \frac{1}{2} w^T w s.t.∀i:yi( шTИкся+ ш0) …
50 svm 

16
Рекомендуемые книги по дизайну эксперимента?
Каковы рекомендации панели для книг по оформлению экспериментов? В идеале книги должны быть в печатном виде или доступны в электронном виде, хотя это не всегда возможно. Если вы хотите добавить пару слов о том, что хорошего в книге, это было бы здорово. Кроме того, стремитесь к одной книге за ответ, …

4
Почему ANOVA эквивалентен линейной регрессии?
Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если предположить, что средние значения …
50 regression  anova 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.