Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Как вывести дисперсионно-ковариационную матрицу коэффициентов в линейной регрессии
Я читаю книгу о линейной регрессии и у меня возникли проблемы с пониманием дисперсионно-ковариационной матрицы bb\mathbf{b} : Диагональные элементы достаточно просты, но недиагональные немного сложнее, меня удивляет то, что σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1σ(b0,b1)=E(b0b1)−E(b0)E(b1)=E(b0b1)−β0β1 \sigma(b_0, b_1) = E(b_0 b_1) - E(b_0)E(b_1) = E(b_0 b_1) - \beta_0 \beta_1 но здесь нет следов и β 1 …
36 regression 

3
Интерпретация p-значения в проверке гипотез
Недавно я наткнулся на статью «Незначительное тестирование значимости нулевой гипотезы», Джефф Гилл (1999) . Автор высказал несколько распространенных заблуждений относительно проверки гипотез и р-значений, по поводу которых у меня есть два конкретных вопроса: Технически это p-значение , которое, как указано в статье, обычно ничего не говорит нам о , если …

2
Полиномиальная логистическая регрессия по сравнению с бинарной логистической регрессией, состоящей из одного остатка
Допустим, у нас есть зависимая переменная с несколькими категориями и набором независимых переменных. YYY Каковы преимущества полиномиальной логистической регрессии по сравнению с множеством бинарных логистических регрессий (то есть схема «один против отдыха» )? Под набором двоичной логистической регрессии я подразумеваю, что для каждой категории мы строим отдельную модель двоичной логистической …

3
Как оценить параметр усадки в лассо или гребень регрессии с> 50K переменных?
Я хочу использовать регрессию Лассо или Риджа для модели с более чем 50 000 переменных. Я хочу сделать это, используя программный пакет в R. Как я могу оценить параметр усадки ( )?λλ\lambda Редактирование: Вот точка, до которой я добрался: set.seed (123) Y <- runif (1000) Xv <- sample(c(1,0), size= 1000*1000, …

3
Что нужно учитывать в магистерских программах по статистике
Это сезон поступления в аспирантуру. Я (и многие такие студенты, как я) сейчас пытаюсь решить, какую статистическую программу выбрать. Что те из вас, кто работает со статистикой, предлагают нам подумать о магистерских программах по статистике? Есть ли общие ошибки или ошибки, которые делают ученики (возможно, в отношении репутации школы)? Что …

4
Хорошие методы для графиков плотности неотрицательных переменных в R?
plot(density(rexp(100)) Очевидно, что вся плотность слева от нуля представляет собой смещение. Я хочу обобщить некоторые данные для статистиков, и я хочу избежать вопросов о том, почему неотрицательные данные имеют плотность слева от нуля. Графики для проверки рандомизации; Я хочу показать распределение переменных по группам лечения и контроля. Распределения часто экспоненциальные. …

4
Платформы облачных вычислений для машинного обучения [закрыто]
У меня есть небольшой список компаний, которые предоставляют платформу для запуска R, Python или октавных сценариев на кластерах, построенных на основе Amazon EC2. Есть ли другие имена, которые я должен добавить? Cloudnumbers Opani crdata

6
Почему «объяснение в стороне» имеет интуитивный смысл?
Недавно я узнал о принципе вероятностных рассуждений, называемом « объяснение прочь », и я пытаюсь понять его интуицию. Позвольте мне создать сценарий. Пусть AAA будет событием землетрясения. Пусть событие BBB будет событием, когда веселый зеленый гигант прогуливается по городу. Позвольте CCC быть случаем, что земля дрожит. Пусть A⊥⊥BA⊥⊥BA \perp\!\!\!\perp B …

5
Временные функции в R [закрыто]
Я хотел бы измерить время, необходимое для повторного запуска функции. replicate()Эквивалентны ли циклы for и используются ли они ? Например: system.time(replicate(1000, f())); system.time(for(i in 1:1000){f()}); Какой предпочтительный метод. В выводе system.time(), является sys+userфактическое время процессора для запуска программы? Является elapsedли хорошим показателем времени выполнения программы?
36 r 

3
Создание «оценки достоверности» из голосов в случайных лесах?
Я рассчитываю обучить классификатор, который будет различать объекты Type Aи Type Bобъекты с достаточно большим обучающим набором, состоящим примерно из 10 000 объектов, около половины из которых есть, Type Aа половина из них Type B. Набор данных состоит из 100 непрерывных элементов, детализирующих физические свойства ячеек (размер, средний радиус и …

4
Как мне подогнать ограниченную регрессию в R, чтобы коэффициенты всего = 1?
Я вижу похожую ограниченную регрессию здесь: Ограниченная линейная регрессия через указанную точку но мое требование немного отличается. Мне нужно, чтобы коэффициенты сложились в единицу. В частности, я регрессирую доходность 1 ряда валют против 3 других валютных рядов, чтобы инвесторы могли заменить свою подверженность этой серии комбинацией подверженности другим 3, но …
36 r  regression 

6
Как я могу аналитически доказать, что случайное деление суммы приводит к экспоненциальному распределению (например, дохода и богатства)?
В этой текущей статье в НАУКЕ предлагается следующее: Предположим, вы случайным образом поделили доход в 500 миллионов на 10 000 человек. Есть только один способ дать всем равные 50 000 акций. Так что, если вы распределяете прибыль случайно, равенство крайне маловероятно. Но есть бесчисленное множество способов дать нескольким людям много …

2
Каково распределение суммы неидеальных гауссовых переменных?
Если XXX распределен N(μX,σ2X)N(μX,σX2)N(\mu_X, \sigma^2_X) , YYY распределен N(μY,σ2Y)N(μY,σY2)N(\mu_Y, \sigma^2_Y) и Z=X+YZ=X+YZ = X + Y , я знаю , что ZZZ распределен N(μX+μY,σ2X+σ2Y)N(μX+μY,σX2+σY2)N(\mu_X + \mu_Y, \sigma^2_X + \sigma^2_Y) если X и Y независимы. Но что произойдет, если X и Y не будут независимыми, то есть (X,Y)≈N((μXμY),(σ2XσX,YσX,Yσ2Y))(X,Y)≈N((μXμY),(σX2σX,YσX,YσY2))(X, Y) \approx N\big( …

5
Поднимите меру в интеллектуальном анализе данных
Я искал много сайтов, чтобы знать, что именно будет делать лифт? Все результаты, которые я обнаружил, касались его использования в приложениях, а не в самом себе. Я знаю о функции поддержки и доверия. Из Википедии, в области интеллектуального анализа данных, лифт является мерой эффективности модели при прогнозировании или классификации случаев, …

8
При каких условиях следует использовать многоуровневый / иерархический анализ?
При каких условиях следует рассмотреть возможность использования многоуровневого / иерархического анализа в отличие от более базового / традиционного анализа (например, ANOVA, регрессия OLS и т. Д.)? Есть ли ситуации, в которых это можно считать обязательным? Существуют ли ситуации, в которых использование многоуровневого / иерархического анализа нецелесообразно? И, наконец, какие есть …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.