Статистика и большие данные

2

Форма доверительного интервала для прогнозируемых значений в линейной регрессии

Я заметил, что доверительный интервал для предсказанных значений в линейной регрессии имеет тенденцию быть узким вокруг среднего значения предиктора, а жирность - вокруг минимального и максимального значений предиктора. Это можно увидеть на графиках этих 4 линейных регрессий: Сначала я думал, что это потому, что большинство значений предикторов были сосредоточены вокруг …

69 regression confidence-interval linear-model standard-error prediction-interval

4

Чем коэффициент корреляции отличается от наклона регрессии?

Я ожидал бы, что коэффициент корреляции будет таким же, как у регрессионного наклона (бета), однако, только сравнив их, они различаются. Чем они отличаются - какую информацию они дают?

69 regression correlation

5

Кендалл Тау или Ро Спирмена?

В каких случаях один предпочитает один другому? Я нашел кого-то, кто претендует на преимущество для Кендалла по педагогическим причинам , есть ли другие причины?

69 correlation nonparametric spearman-rho kendall-tau

19

Каковы некоторые ценные проекты с открытым исходным кодом статистического анализа?

Какие ценные проекты с открытым исходным кодом Статистического анализа доступны прямо сейчас? Изменить: как указал Шарпи, ценный может означать помочь вам сделать вещи быстрее или дешевле.

69 software open-source

4

Как настроить гиперпараметры деревьев xgboost?

У меня есть несбалансированные данные класса, и я хочу настроить гиперпараметры усиленного тресса с помощью xgboost. Вопросов Есть ли эквивалент для gridsearchcv или randomsearchcv для xgboost? Если нет, то каков рекомендуемый подход для настройки параметров xgboost?

69 machine-learning cross-validation xgboost boosting

8

Что подразумевается под «случайной величиной»?

Что они имеют в виду, когда говорят «случайная величина»?

69 mathematical-statistics random-variable intuition definition

6

Каковы хорошие начальные веса в нейронной сети?

Я только что слышал, что это хорошая идея, чтобы выбрать начальные веса нейронной сети из диапазона , где - это количество входов в данный нейрон. Предполагается, что множества нормализованы - среднее значение 0, дисперсия 1 (не знаю, имеет ли это значение).г( - 1d√, 1d√)(−1d,1d)(\frac{-1}{\sqrt d} , \frac{1}{\sqrt d})ddd Почему это …

68 neural-networks normalization

7

Все ли термины взаимодействия нуждаются в отдельных терминах в регрессионной модели?

Я на самом деле рецензирую рукопись, где авторы сравнивают 5-6 моделей логит-регрессии с AIC. Тем не менее, некоторые модели имеют термины взаимодействия без включения отдельных ковариатных терминов. Имеет ли когда-нибудь смысл делать это? Например (не относится к моделям logit): M1: Y = X1 + X2 + X1*X2 M2: Y = …

68 regression modeling interaction aic

10

Что не так с экстраполяцией?

Я помню, как сидел на курсах статистики как студент, слушавший, почему экстраполяция была плохой идеей. Кроме того, есть множество источников онлайн, которые комментируют это. Там также упоминание о нем здесь . Может кто-нибудь помочь мне понять, почему экстраполяция это плохая идея? Если это так, как методы прогнозирования не являются статистически …

68 regression time-series forecasting

4

Как «сложить» стандартное отклонение?

У меня есть среднемесячное значение и стандартное отклонение, соответствующее этому среднему. Сейчас я вычисляю среднегодовое значение как сумму среднемесячных значений, как я могу представить стандартное отклонение для суммированного среднего значения? Например, учитывая выход из ветровой электростанции: Month MWh StdDev January 927 333 February 1234 250 March 1032 301 April 876 …

68 standard-deviation descriptive-statistics

2

Многофакторная множественная регрессия в R

У меня есть 2 зависимые переменные (DV), на каждую из которых может влиять набор из 7 независимых переменных (IV). DV являются непрерывными, в то время как набор IV состоит из смеси непрерывных и двоично-закодированных переменных. (В коде ниже непрерывные переменные пишутся заглавными буквами, а двоичные переменные строчными.) Цель исследования - …

68 r multivariate-analysis manova multiple-regression multivariate-regression

7

Как сформировать равномерно распределенные точки на поверхности сферы 3-го блока?

Мне интересно, как генерировать равномерно распределенные точки на поверхности 3-й единицы сферы? Кроме того, после генерации этих точек, как лучше всего визуализировать и проверить, являются ли они действительно однородными на поверхности ?x2+y2+z2=1x2+y2+z2=1x^2+y^2+z^2=1

68 random-generation

6

Нужен ли выбор переменных для прогнозного моделирования в 2016 году?

Этот вопрос был задан в CV несколько лет назад, и кажется, что стоит сделать репост в свете 1) лучшей вычислительной технологии на порядок (например, параллельные вычисления, HPC и т. Д.) И 2) более новой техники, например [3]. Сначала немного контекста. Давайте предположим, что целью является не проверка гипотез, не оценка …

68 machine-learning modeling feature-selection model-selection prediction

11

Почему я должен быть байесовским, когда моя модель не так?

Редактирование: я добавил простой пример: вывод среднего значения . Я также немного разъяснил, почему достоверные интервалы, не соответствующие доверительным интервалам, являются плохими.XiXiX_i Я, довольно набожный байесовский, нахожусь в разгар своего рода кризиса веры. Моя проблема заключается в следующем. Предположим, что я хочу проанализировать некоторые данные IID . Что бы я …

68 bayesian modeling philosophical misspecification

1

40000 нейробиологических работ могут быть ошибочными

Я видел эту статью в «Экономисте» о, казалось бы, разрушительной работе [1], ставящей под сомнение «что-то вроде 40 000 опубликованных [МРТ] исследований». Ошибка, говорят они, из-за «ошибочных статистических предположений». Я прочитал статью и вижу, что отчасти это проблема с множественными исправлениями сравнения, но я не эксперт по МРТ, и мне …

67 hypothesis-testing multiple-comparisons spatial neuroimaging neuroscience