Статистика и большие данные

8

Помогите подсчитать, сколько людей придет на мою свадьбу! Могу ли я приписать процент каждому человеку и добавить их?

Я планирую свою свадьбу. Я хочу оценить, сколько людей придет на мою свадьбу. Я создал список людей и вероятность того, что они будут присутствовать в процентах. Например Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% У меня есть список около 230 человек с процентами. Как я …

37 probability

10

Каковы наиболее полезные источники экономических данных?

При проведении исследований в области экономики часто необходимо проверять теоретические выводы на реальных данных. Какие надежные источники данных использовать и ссылаться? В основном меня интересуют источники, которые предоставляют различные статистические данные, такие как ВВП, население, ИПЦ, ИЦП и т. Д. РЕДАКТИРОВАТЬ: Вот совокупность ссылок, появляющихся в этой теме + еще …

37 references

6

Байесовский против частых интерпретаций вероятности

Может ли кто-нибудь дать краткое изложение различий между байесовским и частотным подходом к вероятности? Из того, что я понимаю: Представление «частые лица» состоит в том, что данные представляют собой воспроизводимую случайную выборку (случайную переменную) с определенной частотой / вероятностью (которая определяется как относительная частота события, когда число испытаний приближается к …

37 probability bayesian frequentist

2

Расстояние Кульбак – Лейблер - Колмогоров-Смирнов

Я вижу, что существует много формальных различий между мерами расстояния Кульбака-Лейблера-Колмогорова-Смирнова. Тем не менее, оба используются для измерения расстояния между распределениями. Есть ли типичная ситуация, когда один должен использоваться вместо другого? Каково обоснование для этого?

37 distributions distance-functions kolmogorov-smirnov kullback-leibler

3

Интуитивное объяснение плотности преобразованной переменной?

Предположим, что ИксXX - случайная величина с pdf еИкс( х )fX(x)f_X(x) . Тогда случайная величина Y= X2Y=X2Y=X^2 имеет pdf fY(y)={12y√(fX(y√)+fX(−y√))0y≥0y<0fY(y)={12y(fX(y)+fX(−y))y≥00y<0f_Y(y)=\begin{cases}\frac{1}{2\sqrt{y}}\left(f_X(\sqrt{y})+f_X(-\sqrt{y})\right) & y \ge 0 \\ 0 & y \lt 0\end{cases} Я понимаю исчисление за этим. Но я пытаюсь найти способ объяснить это кому-то, кто не знает исчисления. В частности, я …

37 random-variable pdf intuition

5

Как визуализировать / понять, что делает нейронная сеть?

Нейронные сети часто рассматриваются как «черные ящики» из-за их сложной структуры. Это не идеально, так как часто полезно иметь интуитивное представление о том, как модель работает внутри. Каковы методы визуализации работы обученной нейронной сети? В качестве альтернативы, как мы можем извлечь легко усваиваемые описания сети (например, этот скрытый узел в …

37 data-visualization neural-networks

2

Когда и как использовать стандартизированные объясняющие переменные в линейной регрессии

У меня есть 2 простых вопроса о линейной регрессии: Когда рекомендуется стандартизировать объясняющие переменные? Как только можно выполнить оценку с использованием стандартизированных значений, как можно прогнозировать с помощью новых значений (как следует стандартизировать новые значения)? Некоторые ссылки будут полезны.

37 regression predictive-models references standardization predictor

3

Применение методов машинного обучения на сайтах StackExchange

В этом семестре у меня есть курс по машинному обучению, и профессор попросил нас найти реальную проблему и решить ее одним из методов машинного обучения, представленным в классе: Деревья решений Искусственные нейронные сети Опорные векторные машины Обучение на основе экземпляров ( кНН , LWL ) Байесовские сети Усиление обучения Я …

37 machine-learning

5

Какова цель характерных функций?

Я надеюсь, что кто-то может объяснить, с точки зрения непрофессионала, что такое характерная функция и как она используется на практике. Я читал, что это преобразование Фурье в PDF, так что, думаю, я знаю, что это такое, но я до сих пор не понимаю его цели. Если бы кто-то мог предоставить …

37 probability mathematical-statistics characteristic-function

8

Можно ли доказать нулевую гипотезу?

Как говорится в вопросе: возможно ли доказать нулевую гипотезу? Исходя из моего (ограниченного) понимания гипотезы, ответ - нет, но я не могу придумать строгое объяснение этого. Есть ли у вопроса окончательный ответ?

37 hypothesis-testing proof equivalence

5

Работают ли работающие статистики о разнице между частыми и байесовскими выводами?

Как аутсайдер, кажется, что есть два конкурирующих взгляда на то, как следует выполнять статистический вывод. Являются ли эти два разных метода приемлемыми для работающих статистиков? Является ли выбор одного более важным философским вопросом? Или текущая ситуация считается проблематичной и предпринимаются попытки каким-то образом объединить различные подходы?

37 bayesian frequentist

11

Статистические учебники с открытым исходным кодом?

Было несколько вопросов о статистических учебниках , таких как вопрос « Бесплатные статистические учебники» . Однако я ищу учебники с открытым исходным кодом, например, имеющие Creative Commons лицензию . Причина в том, что в материале курса в других доменах вы все еще хотите включить текст об основной статистике. В этом …

37 references open-source

2

Как Factor Analysis объясняет ковариацию, в то время как PCA объясняет дисперсию?

Вот цитата из книги Бишопа «Распознавание образов и машинное обучение», раздел 12.2.4 «Факторный анализ»: В соответствии с выделенной части, факторный анализ фиксирует ковариации между переменными в матрице WWW . Интересно , КАК ? Вот как я это понимаю. Скажем, xxx - наблюдаемая ppp мерная переменная, WWW - матрица факторной нагрузки, …

37 pca factor-analysis geometry

7

Можно ли использовать перекрестную проверку для причинного вывода?

Во всех контекстах я знаком с перекрестной проверкой, она используется исключительно с целью повышения точности прогнозирования. Можно ли расширить логику перекрестной проверки при оценке непредвзятых отношений между переменными? В то время как эта статья Ричарда Берк демонстрирует использование выборки с задержкой для выбора параметров в «окончательной» регрессионной модели (и демонстрирует, …

37 cross-validation causality

1

Почему мои p-значения отличаются между выходом логистической регрессии, тестом хи-квадрат и доверительным интервалом для ИЛИ?

Я построил логистическую регрессию, где переменная результата излечивается после получения лечения (по Cureсравнению сNo Cure ). Все пациенты в этом исследовании получали лечение. Мне интересно узнать, связан ли диабет с этим результатом. В R мой вывод по логистической регрессии выглядит следующим образом: Call: glm(formula = Cure ~ Diabetes, family = …

37 r hypothesis-testing logistic generalized-linear-model odds-ratio