Статистика и большие данные

1

Меняет ли понижающая выборка коэффициенты логистической регрессии?

Если у меня есть набор данных с очень редким положительным классом, и я понижаю выборку отрицательного класса, а затем выполняю логистическую регрессию, нужно ли мне корректировать коэффициенты регрессии, чтобы отразить тот факт, что я изменил распространенность положительного класса? Например, допустим, у меня есть набор данных с 4 переменными: Y, A, …

34 logistic unbalanced-classes case-control-study

3

R - Запутано в остаточной терминологии

Средняя квадратическая ошибка остаточная сумма квадратов остаточная стандартная ошибка средняя квадратическая ошибка ошибка теста Я думал, что привык понимать эти термины, но чем больше я сталкиваюсь со статистическими проблемами, тем больше я запутываюсь в том, что я сам себя угадаю. Я хотел бы получить подтверждение и конкретный пример Я могу …

34 r regression residuals

5

Есть ли у бета-дистрибутива сопряженный априор

Я знаю, что бета-распределение сопряжено с биномиальным. Но что такое сопряженный до бета-версии? Спасибо.

34 beta-distribution conjugate-prior

5

Обратное распространение против генетического алгоритма для обучения нейронной сети

Я читал несколько статей, в которых обсуждались плюсы и минусы каждого метода, некоторые утверждали, что GA не дает никакого улучшения в поиске оптимального решения, в то время как другие показывают, что оно более эффективно. Кажется, что GA в литературе обычно предпочитают (хотя в основном люди модифицируют ее каким-то образом для …

34 neural-networks genetic-algorithms backpropagation

2

Каковы практические различия между процедурами оценки ложных обнаружений Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001)?

Моя статистическая программа реализует процедуры FDR Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001). Я приложил все усилия, чтобы прочитать более позднюю статью, но она достаточно математически плотная, и я не совсем уверен, что понимаю разницу между процедурами. Из базового кода в моей статистической программе я вижу, что они …

34 post-hoc false-discovery-rate

3

Почему корреляционная матрица должна быть положительной полуопределенной и что значит быть или не быть положительной полуопределенной?

Я исследовал значение положительного полуопределенного свойства матриц корреляции или ковариации. Я ищу любую информацию о Определение положительной полуопределенности; Его важные свойства, практические последствия; Последствия отрицательного фактора, влияние на многомерный анализ или результаты моделирования и т. Д.

34 covariance-matrix eigenvalues determinant correlation-matrix

2

Выбор модели и перекрестная проверка: правильный путь

В CrossValidated существует множество тем на тему выбора модели и перекрестной проверки. Вот несколько из них: Внутренняя и внешняя перекрестная проверка и выбор модели Главный ответ @ DikranMarsupial на выбор функций и перекрестную проверку Однако ответы на эти темы являются довольно общими и в основном освещают проблемы с конкретными подходами …

34 cross-validation model-selection

3

Что означает показатель по информационному критерию Акаике (AIC) для модели?

Я видел здесь несколько вопросов о том, что это значит с точки зрения непрофессионала, но они слишком непрофессиональны для моей цели здесь. Я пытаюсь математически понять, что означает оценка AIC. Но в то же время я не хочу строгого доказательства, которое заставило бы меня не видеть более важные моменты. Например, …

34 self-study model-selection aic entropy information-theory

3

Как я могу проверить, является ли случайный эффект значительным?

Я пытаюсь понять, когда использовать случайный эффект, а когда он не нужен. Мне сказали, что эмпирическое правило, если у вас есть 4 или более групп / отдельных лиц, которые я делаю (15 отдельных лосей). Некоторые из этих лосей были эксперименты 2 или 3 раза в общей сложности 29 испытаний. Я …

34 mixed-model lme4-nlme random-effects-model glmm

3

Нормальность зависимой переменной = нормальность остатков?

Эта проблема, кажется, постоянно поднимает свою уродливую голову, и я пытаюсь обезглавить ее для моего собственного понимания статистики (и здравомыслия!). Допущения общих линейных моделей (t-критерий, ANOVA, регрессия и т. Д.) Включают «допущение нормальности», но я обнаружил, что это редко описывается четко. Я часто сталкиваюсь с учебниками / руководствами по статистике …

34 normal-distribution residuals normality-assumption

3

Соответствие показателя склонности после многократного вменения

Я ссылаюсь на этот документ: Хейс JR, Groner JI. «Использование нескольких показателей вменения и склонности для проверки влияния автомобильных сидений и ремней безопасности на тяжесть травм на основании данных реестра травм». J Pediatr Surg. Май 2008 года; 43 (5): 924-7. В этом исследовании была проведена множественная импутация для получения 15 …

34 missing-data propensity-scores

2

Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?

В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?

34 clustering similarities distance-functions mixed-type-data

5

Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?

Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …

34 machine-learning cross-validation bootstrap optimization resampling

7

Почему плохо учить студентов, что р-значения - это вероятность того, что результаты обусловлены случайностью?

Может, кто-нибудь, пожалуйста, предложит хорошее краткое объяснение, почему не стоит учить студентов, что значение р является вероятным (их результаты обусловлены [случайным] шансом). Насколько я понимаю, р-значение является вероятным (получение более экстремальных данных | нулевая гипотеза верна). Мой реальный интерес заключается в том, что вредно говорить им, что это первое (кроме …

34 p-value randomness teaching

4

Данные имеют две тенденции; как извлечь независимые линии тренда?

У меня есть набор данных, который не упорядочен каким-либо конкретным способом, но при четком графике имеет две четкие тенденции. Простая линейная регрессия здесь не совсем подходит из-за четкого различия между двумя рядами. Есть ли простой способ получить две независимые линейные линии тренда? Для справки: я использую Python, и я достаточно …

34 time-series python curve-fitting