Статистика и большие данные regression

4

Быстрая линейная регрессия, устойчивая к выбросам

Я имею дело с линейными данными с выбросами, некоторые из которых находятся на расстоянии более 5 стандартных отклонений от расчетной линии регрессии. Я ищу технику линейной регрессии, которая уменьшает влияние этих точек. Пока что я сделал, чтобы оценить линию регрессии со всеми данными, затем отбросить точку данных с очень большими …

50 regression linear-model outliers robust fused-lasso

1

Горячее против фиктивного кодирования в Scikit-Learn

Существует два разных способа кодирования категориальных переменных. Скажем, одна категориальная переменная имеет n значений. Горячее кодирование преобразует его в n переменных, а фиктивное кодирование преобразует его в n-1 переменные. Если у нас есть k категориальных переменных, каждая из которых имеет n значений. Одно горячее кодирование заканчивается переменными kn , а …

50 regression categorical-data data-transformation scikit-learn data-preprocessing

2

Есть ли разница между «контролем» и «игнорированием» других переменных в множественной регрессии?

Коэффициент объясняющей переменной в множественной регрессии говорит нам о связи этой объясняющей переменной с зависимой переменной. Все это, одновременно «контролируя» другие объясняющие переменные. Как я видел это до сих пор: Пока каждый коэффициент вычисляется, другие переменные не учитываются, поэтому я считаю, что они игнорируются. Итак, прав ли я, когда считаю, …

50 regression multiple-regression

4

Почему ANOVA эквивалентен линейной регрессии?

Я читал, что ANOVA и линейная регрессия - это одно и то же. Как это может быть, учитывая, что выход ANOVA представляет собой некоторое значение и некоторое значение на основании которого вы заключаете, что выборка означает, что для разных выборок значения одинаковы или различны.pFFFпpp Но если предположить, что средние значения …

50 regression anova

4

Как регрессия, t-критерий и ANOVA являются всеми версиями общей линейной модели?

Как они все версии одного и того же базового статистического метода?

49 regression self-study anova generalized-linear-model t-test

7

Эффект переключения ответа и объясняющей переменной в простой линейной регрессии

Допустим, существует некоторая «истинная» связь между и такая что , где и - константы, а - нормальный шум. Когда я случайным образом генерирую данные из этого кода R: а затем подгоняю к подобной модели , я, очевидно, получаю достаточно хорошие оценки для и .yyyxxxy=ax+b+ϵy=ax+b+ϵy = ax + b + \epsilonaaabbbϵϵ\epsilonx …

48 regression

7

С чего начать со статистики для опытного разработчика

В первой половине 2015 года я прошел курс обучения машинному обучению (автор Andrew Ng, курс GREAT). И изучил основы машинного обучения (линейная регрессия, логистическая регрессия, SVM, нейронные сети ...) Кроме того, я был разработчиком в течение 10 лет, поэтому изучение нового языка программирования не будет проблемой. В последнее время я …

47 r regression machine-learning references

11

Можно ли сделать простую линейную регрессию без использования графиков и линейной алгебры?

Я полностью слепой и пришел из программирования. Я пытаюсь научиться машинному обучению, и для этого мне сначала нужно узнать о линейной регрессии. Все объяснения в Интернете, которые я нахожу об этом предмете, наносят данные в первую очередь. Я ищу практическое объяснение линейной регрессии, которая не зависит от графиков и графиков. …

47 regression intuition

2

Сплайны перекрывают данные?

Моя проблема : я недавно встретил статистика, который сообщил мне, что сплайны полезны только для исследования данных и подвержены переобучению, таким образом, бесполезны при прогнозировании. Он предпочел исследовать с помощью простых полиномов ... Так как я большой поклонник сплайнов, и это противоречит моей интуиции, мне интересно узнать, насколько верны эти …

47 regression splines

5

Если t-критерий и ANOVA для двух групп эквивалентны, почему их предположения не эквивалентны?

Я уверен, что у меня это полностью обернуто вокруг моей головы, но я просто не могу понять это. T-критерий сравнивает два нормальных распределения, используя Z-распределение. Вот почему в ДАННЫХ есть предположение о нормальности. ANOVA эквивалентен линейной регрессии с фиктивными переменными и использует суммы квадратов, как и OLS. Вот почему существует …

47 distributions regression normality-assumption t-test anova

5

Понимание регрессий - роль модели

Как может быть полезна модель регрессии, если вы не знаете функцию, для которой вы пытаетесь получить параметры? Я видел исследование, в котором говорилось, что матери, которые кормили своих детей грудью, реже страдают диабетом. Исследование было проведено на основе опроса около 1000 матерей и контролировалось на различные факторы, и была использована …

46 regression modeling epidemiology log-linear

4

Что такое контрастная матрица?

Что именно контрастная матрица (термин, относящийся к анализу с категориальными предикторами) , и как точно указана контрастность матрица? Т.е. что такое столбцы, что такое строки, каковы ограничения на эту матрицу и что означает число в столбце jи строке i? Я пытался заглянуть в документы и веб, но кажется, что все …

46 regression categorical-data definition contrasts categorical-encoding

6

Интуитивное объяснение компромисса смещения?

Я ищу интуитивное объяснение компромисса смещения дисперсии, как в целом, так и конкретно в контексте линейной регрессии.

46 regression variance bias

3

Интерпретация логарифмически преобразованного предиктора и / или ответа

Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …

46 regression data-transformation interpretation regression-coefficients logarithm r dataset stata hypothesis-testing contingency-tables hypothesis-testing statistical-significance standard-deviation unbiased-estimator t-distribution r functional-data-analysis maximum-likelihood bootstrap regression change-point regression sas hypothesis-testing bayesian randomness predictive-models nonparametric terminology parametric correlation effect-size loess mean pdf quantile-function bioinformatics regression terminology r-squared pdf maximum multivariate-analysis references data-visualization r pca r mixed-model lme4-nlme distributions probability bayesian prior anova chi-squared binomial generalized-linear-model anova repeated-measures t-test post-hoc clustering variance probability hypothesis-testing references binomial profile-likelihood self-study excel data-transformation skewness distributions statistical-significance econometrics spatial r regression anova spss linear-model

3

Откуда исходит неправильное представление о том, что Y должен быть нормально распределен?

Достоверно авторитетные источники утверждают, что зависимая переменная должна быть нормально распределена: Предположения модели: нормально распределен, ошибки нормально распределены, и независимы, фиксирован и постоянная дисперсия .e i ∼ N ( 0 , σ 2 ) X σ 2YYYei∼N(0,σ2)ei∼N(0,σ2)e_i \sim N(0,\sigma^2)XXXσ2σ2\sigma^2 Penn State, STAT 504 Анализ дискретных данных Во-вторых, линейный регрессионный анализ …

45 regression least-squares linear-model dependent-variable

Вопросы с тегом «regression»