Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Форма доверительного интервала для прогнозируемых значений в линейной регрессии
Я заметил, что доверительный интервал для предсказанных значений в линейной регрессии имеет тенденцию быть узким вокруг среднего значения предиктора, а жирность - вокруг минимального и максимального значений предиктора. Это можно увидеть на графиках этих 4 линейных регрессий: Сначала я думал, что это потому, что большинство значений предикторов были сосредоточены вокруг …



19
Каковы некоторые ценные проекты с открытым исходным кодом статистического анализа?
Какие ценные проекты с открытым исходным кодом Статистического анализа доступны прямо сейчас? Изменить: как указал Шарпи, ценный может означать помочь вам сделать вещи быстрее или дешевле.

4
Как настроить гиперпараметры деревьев xgboost?
У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?


6
Каковы хорошие начальные веса в нейронной сети?
Я только что слышал, что это хорошая идея, чтобы выбрать начальные веса нейронной сети из диапазона , где - это количество входов в данный нейрон. Предполагается, что множества нормализованы - среднее значение 0, дисперсия 1 (не знаю, имеет ли это значение).г( - 1d√, 1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd Почему это …

7
Все ли термины взаимодействия нуждаются в отдельных терминах в регрессионной модели?
Я на самом деле рецензирую рукопись, где авторы сравнивают 5-6 моделей логит-регрессии с AIC. Тем не менее, некоторые модели имеют термины взаимодействия без включения отдельных ковариатных терминов. Имеет ли когда-нибудь смысл делать это? Например (не относится к моделям logit): M1: Y = X1 + X2 + X1*X2 M2: Y = …

10
Что не так с экстраполяцией?
Я помню, как сидел на курсах статистики как студент, слушавший, почему экстраполяция была плохой идеей. Кроме того, есть множество источников онлайн, которые комментируют это. Там также упоминание о нем здесь . Может кто-нибудь помочь мне понять, почему экстраполяция это плохая идея? Если это так, как методы прогнозирования не являются статистически …

4
Как «сложить» стандартное отклонение?
У меня есть среднемесячное значение и стандартное отклонение, соответствующее этому среднему. Сейчас я вычисляю среднегодовое значение как сумму среднемесячных значений, как я могу представить стандартное отклонение для суммированного среднего значения? Например, учитывая выход из ветровой электростанции: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 …

2
Многофакторная множественная регрессия в R
У меня есть 2 зависимые переменные (DV), на каждую из которых может влиять набор из 7 независимых переменных (IV). DV являются непрерывными, в то время как набор IV состоит из смеси непрерывных и двоично-закодированных переменных. (В коде ниже непрерывные переменные пишутся заглавными буквами, а двоичные переменные строчными.) Цель исследования - …

7
Как сформировать равномерно распределенные точки на поверхности сферы 3-го блока?
Мне интересно, как генерировать равномерно распределенные точки на поверхности 3-й единицы сферы? Кроме того, после генерации этих точек, как лучше всего визуализировать и проверить, являются ли они действительно однородными на поверхности ?x2+y2+z2=1x2+y2+z2=1x^2+y^2+z^2=1

6
Нужен ли выбор переменных для прогнозного моделирования в 2016 году?
Этот вопрос был задан в CV несколько лет назад, и кажется, что стоит сделать репост в свете 1) лучшей вычислительной технологии на порядок (например, параллельные вычисления, HPC и т. Д.) И 2) более новой техники, например [3]. Сначала немного контекста. Давайте предположим, что целью является не проверка гипотез, не оценка …

11
Почему я должен быть байесовским, когда моя модель не так?
Редактирование: я добавил простой пример: вывод среднего значения . Я также немного разъяснил, почему достоверные интервалы, не соответствующие доверительным интервалам, являются плохими.XiXiX_i Я, довольно набожный байесовский, нахожусь в разгар своего рода кризиса веры. Моя проблема заключается в следующем. Предположим, что я хочу проанализировать некоторые данные IID . Что бы я …

1
40000 нейробиологических работ могут быть ошибочными
Я видел эту статью в «Экономисте» о, казалось бы, разрушительной работе [1], ставящей под сомнение «что-то вроде 40 000 опубликованных [МРТ] исследований». Ошибка, говорят они, из-за «ошибочных статистических предположений». Я прочитал статью и вижу, что отчасти это проблема с множественными исправлениями сравнения, но я не эксперт по МРТ, и мне …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.