Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

1
Меняет ли понижающая выборка коэффициенты логистической регрессии?
Если у меня есть набор данных с очень редким положительным классом, и я понижаю выборку отрицательного класса, а затем выполняю логистическую регрессию, нужно ли мне корректировать коэффициенты регрессии, чтобы отразить тот факт, что я изменил распространенность положительного класса? Например, допустим, у меня есть набор данных с 4 переменными: Y, A, …

3
R - Запутано в остаточной терминологии
Средняя квадратическая ошибка остаточная сумма квадратов остаточная стандартная ошибка средняя квадратическая ошибка ошибка теста Я думал, что привык понимать эти термины, но чем больше я сталкиваюсь со статистическими проблемами, тем больше я запутываюсь в том, что я сам себя угадаю. Я хотел бы получить подтверждение и конкретный пример Я могу …


5
Обратное распространение против генетического алгоритма для обучения нейронной сети
Я читал несколько статей, в которых обсуждались плюсы и минусы каждого метода, некоторые утверждали, что GA не дает никакого улучшения в поиске оптимального решения, в то время как другие показывают, что оно более эффективно. Кажется, что GA в литературе обычно предпочитают (хотя в основном люди модифицируют ее каким-то образом для …

2
Каковы практические различия между процедурами оценки ложных обнаружений Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001)?
Моя статистическая программа реализует процедуры FDR Benjamini & Hochberg (1995) и Benjamini & Yekutieli (2001). Я приложил все усилия, чтобы прочитать более позднюю статью, но она достаточно математически плотная, и я не совсем уверен, что понимаю разницу между процедурами. Из базового кода в моей статистической программе я вижу, что они …

3
Почему корреляционная матрица должна быть положительной полуопределенной и что значит быть или не быть положительной полуопределенной?
Я исследовал значение положительного полуопределенного свойства матриц корреляции или ковариации. Я ищу любую информацию о Определение положительной полуопределенности; Его важные свойства, практические последствия; Последствия отрицательного фактора, влияние на многомерный анализ или результаты моделирования и т. Д.

2
Выбор модели и перекрестная проверка: правильный путь
В CrossValidated существует множество тем на тему выбора модели и перекрестной проверки. Вот несколько из них: Внутренняя и внешняя перекрестная проверка и выбор модели Главный ответ @ DikranMarsupial на выбор функций и перекрестную проверку Однако ответы на эти темы являются довольно общими и в основном освещают проблемы с конкретными подходами …

3
Что означает показатель по информационному критерию Акаике (AIC) для модели?
Я видел здесь несколько вопросов о том, что это значит с точки зрения непрофессионала, но они слишком непрофессиональны для моей цели здесь. Я пытаюсь математически понять, что означает оценка AIC. Но в то же время я не хочу строгого доказательства, которое заставило бы меня не видеть более важные моменты. Например, …

3
Как я могу проверить, является ли случайный эффект значительным?
Я пытаюсь понять, когда использовать случайный эффект, а когда он не нужен. Мне сказали, что эмпирическое правило, если у вас есть 4 или более групп / отдельных лиц, которые я делаю (15 отдельных лосей). Некоторые из этих лосей были эксперименты 2 или 3 раза в общей сложности 29 испытаний. Я …

3
Нормальность зависимой переменной = нормальность остатков?
Эта проблема, кажется, постоянно поднимает свою уродливую голову, и я пытаюсь обезглавить ее для моего собственного понимания статистики (и здравомыслия!). Допущения общих линейных моделей (t-критерий, ANOVA, регрессия и т. Д.) Включают «допущение нормальности», но я обнаружил, что это редко описывается четко. Я часто сталкиваюсь с учебниками / руководствами по статистике …

3
Соответствие показателя склонности после многократного вменения
Я ссылаюсь на этот документ: Хейс JR, Groner JI. «Использование нескольких показателей вменения и склонности для проверки влияния автомобильных сидений и ремней безопасности на тяжесть травм на основании данных реестра травм». J Pediatr Surg. Май 2008 года; 43 (5): 924-7. В этом исследовании была проведена множественная импутация для получения 15 …

2
Иерархическая кластеризация с данными смешанного типа - какое расстояние / сходство использовать?
В моем наборе данных у нас есть как непрерывные, так и естественно дискретные переменные. Я хочу знать, можем ли мы сделать иерархическую кластеризацию, используя оба типа переменных. И если да, то какое расстояние подходит?

5
Можете ли вы тренировать алгоритмы машинного обучения, используя CV / Bootstrap?
Этот вопрос может быть слишком открытым, чтобы получить окончательный ответ, но, надеюсь, нет. Алгоритмы машинного обучения, такие как SVM, GBM, Random Forest и т. Д., Как правило, имеют некоторые свободные параметры, которые, помимо некоторых правил большого пальца, необходимо настраивать для каждого набора данных. Обычно это делается с помощью некоторой техники …

7
Почему плохо учить студентов, что р-значения - это вероятность того, что результаты обусловлены случайностью?
Может, кто-нибудь, пожалуйста, предложит хорошее краткое объяснение, почему не стоит учить студентов, что значение р является вероятным (их результаты обусловлены [случайным] шансом). Насколько я понимаю, р-значение является вероятным (получение более экстремальных данных | нулевая гипотеза верна). Мой реальный интерес заключается в том, что вредно говорить им, что это первое (кроме …

4
Данные имеют две тенденции; как извлечь независимые линии тренда?
У меня есть набор данных, который не упорядочен каким-либо конкретным способом, но при четком графике имеет две четкие тенденции. Простая линейная регрессия здесь не совсем подходит из-за четкого различия между двумя рядами. Есть ли простой способ получить две независимые линейные линии тренда? Для справки: я использую Python, и я достаточно …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.