Как именно один «контролирует другие переменные»?


141

Вот статья, которая мотивировала этот вопрос: неужели нетерпение делает нас толстыми?

Мне понравилась эта статья, и она хорошо демонстрирует концепцию «контроля за другими переменными» (IQ, карьера, доход, возраст и т. Д.), Чтобы наилучшим образом выделить истинные отношения только между двумя рассматриваемыми переменными.

Можете ли вы объяснить мне, как вы фактически контролируете переменные в типичном наборе данных?

Например, если у вас есть 2 человека с одинаковым уровнем нетерпимости и ИМТ, но разными доходами, как вы относитесь к этим данным? Вы относите их к разным подгруппам с одинаковым доходом, терпением и ИМТ? Но, в конце концов, есть десятки переменных, которые нужно контролировать (IQ, карьера, доход, возраст и т. Д.). Как вы затем объединяете эти (потенциально) сотни подгрупп? На самом деле, я чувствую, что этот подход лает не на то дерево, теперь, когда я его озвучил.

Спасибо за то, что пролили свет на то, что я собирался докопаться до нескольких лет ...!


3
Epi & Bernd, Большое спасибо за попытку ответить на это. К сожалению, эти ответы - большой скачок от моего вопроса, и по моей голове. Может быть, это потому, что у меня нет опыта работы с R, а просто базовая основа статистики 101. Точно так же, как обратная связь с вашим учением, когда вы абстрагировались от ИМТ, возраста, нетерпения и т. Д. Для «ковариации» и др., Вы полностью потеряли меня. Автоматическая генерация псевдоданных также не помогла в разъяснении концепций. Фактически, это сделало это хуже. Трудно учиться на фиктивных данных без какого-либо внутреннего значения, если вы уже не знаете объясненный принцип (например: Учитель знает, что я
JackOfAll

7
Спасибо, что задали этот вопрос фундаментальной важности, @JackOfAll - сайт был бы неполным без вопросов в этом направлении - я «одобрил» этот. Ответы здесь были очень полезны для меня и, по-видимому, для многих других в зависимости от количества голосов. Если после обдумывания этого вы сами нашли ответы на свои вопросы (или ответы на любые ваши вопросы), я призываю вас использовать ваши возражения и принять ответ, если вы найдете его окончательным. Это можно сделать, нажав на маленькие кривые колокольчика, указывающие вверх, рядом с ответом и галочкой, соответственно.
Макро

4
Это не полный ответ или что-то в этом роде, но я думаю, что стоит прочитать «Крис Ахен:« Давайте поместим регрессии в мусорное ведро и пробелы в мусорное ведро, где они находятся ». (PDF ссылка: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Это в равной степени относится и к байесовскому, и к частому подходам. Простое добавление терминов в вашу установку недостаточно для «контроля» за эффектами, но, к сожалению, это то, что считается контролем во многих литературных источниках.
Ely

9
Вы спрашиваете, « как компьютерное программное обеспечение контролирует все переменные одновременно математически ». Вы также говорите: «Мне нужен ответ, который не включает формулы». Я не понимаю, как можно реально сделать и то и другое одновременно. По крайней мере, не без серьезного риска оставить вас с ошибочной интуицией.
Glen_b

2
Я удивлен, что этот вопрос не получил больше внимания. Я согласен с комментарием ОП, что другие вопросы на сайте не совсем охватывают конкретную проблему, которая поднимается здесь. @Jen, очень короткий ответ на ваш (второй) вопрос заключается в том, что множественные ковариаты действительно распределяются одновременно, а не итеративно, как вы описываете. Теперь я подумаю о том, как будет выглядеть более подробный и интуитивно понятный ответ на эти вопросы.
Джейк Уэстфолл

Ответы:


124

Есть много способов контролировать переменные.

Самый простой способ, который вы придумали, состоит в том, чтобы разделить ваши данные, чтобы у вас были подгруппы с похожими характеристиками - тогда есть методы объединения этих результатов, чтобы получить один «ответ». Это работает, если у вас есть очень небольшое количество переменных, которыми вы хотите управлять, но, как вы правильно поняли, это быстро разваливается, когда вы разбиваете свои данные на все более мелкие куски.

Более распространенный подход - включить переменные, которыми вы хотите управлять, в регрессионную модель. Например, если у вас есть модель регрессии, которая может быть концептуально описана как:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Оценка, которую вы получите для Нетерпения, будет эффектом Нетерпения на уровнях других ковариат - регрессия позволяет вам существенно сгладить места, где у вас мало данных (проблема с подходом стратификации), хотя это должно быть сделано с осторожностью.

Есть еще более изощренные способы контроля других переменных, но, скорее всего, когда кто-то говорит «контролируется другими переменными», это означает, что он включен в регрессионную модель.

Хорошо, вы попросили пример, над которым вы можете поработать, чтобы увидеть, как это происходит. Я проведу вас через это шаг за шагом. Все, что вам нужно, это копия R установлена.

Во-первых, нам нужны некоторые данные. Вырежьте и вставьте следующие фрагменты кода в R. Имейте в виду, что это надуманный пример, который я сделал на месте, но он показывает процесс.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Это твои данные. Обратите внимание, что мы уже знаем взаимосвязь между результатом, экспозицией и ковариатой - такова точка многих имитационных исследований (примером которых является чрезвычайно простой. Вы начинаете со структуры, которую знаете, и убедитесь, что ваш метод может получить правильный ответ.

Теперь, затем, на регрессионную модель. Введите следующее:

lm(outcome~exposure)

Вы получили Intercept = 2.0 и выдержку = 0.6766? Или что-то близкое к этому, учитывая, что в данных будут случайные изменения? Хорошо - этот ответ неверен. Мы знаем, что это неправильно. Почему это не так? Мы не смогли контролировать переменную, которая влияет на результат и воздействие. Это бинарная переменная, делайте все, что угодно - пол, курильщик / некурящий и т. Д.

Теперь запустите эту модель:

lm(outcome~exposure+covariate)

На этот раз вы должны получить коэффициенты Intercept = 2,00, экспозиции = 0,50 и ковариату 0,25. Это, как мы знаем, правильный ответ. Вы контролировали другие переменные.

Теперь, что происходит, когда мы не знаем, позаботились ли мы обо всех переменных, которые нам нужны (мы никогда этого не делаем)? Это называется остаточным смущением , и в большинстве наблюдательных исследований его беспокоит то, что мы плохо контролировали, и наш ответ, хотя и близкий к правильному, не точен. Это помогает больше?


Благодарю. Кто-нибудь знает простой пример на основе регрессии в Интернете или в учебнике, через который я могу работать?
JackOfAll

@JackOfAll Есть, вероятно, сотни таких примеров - какие области / типы вопросов вас интересуют, и какие пакеты программного обеспечения вы можете использовать?
Fomite

Ну, любой академический / надуманный пример меня устраивает. У меня есть Excel, который может сделать регрессию нескольких переменных, правильно? Или мне нужно что-то вроде R, чтобы сделать это?
JackOfAll

10
+1 За ответ на этот вопрос без негатива, который я бы использовал. :) На обычном языке контроль других переменных означает, что авторы бросили их в регрессию. Это на самом деле не означает, что они думают, что это означает, если они не подтвердили, что переменные относительно независимы и что вся структура модели (обычно некоторый вид GLM) является обоснованной. Короче говоря, я считаю, что всякий раз, когда кто-то использует эту фразу, это означает, что у него очень мало информации о статистике, и нужно пересчитывать результаты, используя предложенный вами метод стратификации.
Итератор

7
@SibbsGambling Вы заметите, что первоначальный спрашивающий попросил простой проработанный пример.
Fomite

57
  1. Введение

    Мне нравится ответ @ EpiGrad (+1), но позвольте мне взглянуть иначе. Далее я имею в виду этот документ PDF: «Анализ множественной регрессии: оценка» , в котором есть раздел «Интерпретация множественной регрессии с« частичной регрессией »» (стр. 83f.). К сожалению, я не знаю, кто является автором этой главы, и я буду называть ее REGCHAPTER. Аналогичное объяснение можно найти в Kohler / Kreuter (2009) «Анализ данных с использованием Stata» , глава 8.2.3 «Что означает« под контролем »?».

    Я буду использовать пример @ EpiGrad, чтобы объяснить этот подход. Код R и результаты можно найти в Приложении.

    Также следует отметить, что «контроль других переменных» имеет смысл, только когда объясняющие переменные умеренно коррелированы (коллинеарность). В вышеупомянутом примере соотношение Продукт-Момент между exposureи covariateсоставляет 0,50, т.е.

    > cor(covariate, exposure)
    [1] 0.5036915
  2. Остаточные

    Я предполагаю, что у вас есть базовое понимание концепции остатков в регрессионном анализе. Вот объяснение из Википедии : «Если кто-то запускает регрессию по некоторым данным, то отклонения наблюдений зависимой переменной от подобранной функции являются остатками».

  3. Что значит «под контролем»?

    Управление переменного covariate, эффект (регрессия веса) exposureна outcomeможет быть описана следующим образом (я неаккуратно и пропустить большинство индексов и все шляпы, пожалуйста , обратитесь к указанному выше тексту для точного описания):

    β1=residi1yiresidi12

    residi1 являются остатки , когда мы регресс exposureна covariate, т.е.

    exposure=const.+βcovariatecovariate+resid

    «Остатки [..] являются частью которая не связана с . [...] Таким образом, измеряет пример отношения между и после того, как был частично "(REGCHAPTER 84). «Частично из» означает «контролируемый для».xi1xi2β^1yx1x2

    Я продемонстрирую эту идею на примере данных @ EpiGrad. Во-первых, я буду регресс exposureна covariate. Поскольку меня интересуют только остатки lmEC.resid, я опускаю вывод.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)

    Следующим шагом является регрессия outcomeна эти остатки ( lmEC.resid):

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]

    Как вы можете видеть, вес регрессии lmEC.resid(см. Столбец Estimate, ) в этой простой регрессии равен весу множественной регрессии , который также равен (см. Ответ @ EpiGrad или вывод R ниже).βlmEC.resid=0.50covariate0.50

аппендикс

Код R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R выход

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
Эта глава выглядит как Малыш Вулдридж («Вводная эконометрика: современный подход» Джеффри М. Вулдриджа)
Дмитрий В. Мастеров

2
Возможно, я что-то неправильно понимаю, но почему вам не нужно регрессировать результат на ковариату, а затем, наконец, регрессировать остатки результата на остатки воздействия?
линия

@hlinee прав. Можете ли вы объяснить, почему вы этого не делаете?
Parseltongue

41

Конечно, будет задействована некоторая математика, но это не так уж много: Евклид хорошо бы это понял. Все, что вам действительно нужно знать, это как добавлять и масштабировать векторы. Хотя в наши дни это называется «линейная алгебра», вам нужно только визуализировать ее в двух измерениях. Это позволяет нам избежать матричного механизма линейной алгебры и сосредоточиться на понятиях.


Геометрическая история

На первом рисунке - это сумма и . (Вектор масштабированный с помощью числового коэффициента ; греческие буквы (альфа), (бета) и (гамма) будут ссылаться на такие числовые коэффициенты масштабирования.)yy1αx1x1ααβγ

фигура 1

Эта цифра фактически началась с исходных векторов (показаны сплошными линиями) и . «Совпадение» наименьших квадратов от до определяется путем взятия кратного которое находится ближе всего к в плоскости фигуры. Вот как была найдена. Отбирая это совпадение от осталось , остаток от относительно . (Точка « » будет последовательно указывать, какие векторы были «сопоставлены», «удалены» или «контролируются».)x1yyx1x1yαyy1yx1

Мы можем сопоставить другие векторы с . Вот рисунок, где сопоставлен с , выражая его как кратное от плюс его остаточный :x1x2x1βx1x21

фигура 2

(Неважно, что плоскость, содержащая и может отличаться от плоскости, содержащей и : эти две фигуры получены независимо друг от друга. Все, что они гарантированно имеют общее, - это вектор .) Аналогично, любое число векторов можно сопоставить с .x1x2x1yx1x3,x4,x1

Теперь рассмотрим плоскость, содержащую два остатка и . Я сориентирую изображение так, чтобы горизонтальным, так же, как я ориентировал предыдущие изображения, чтобы сделать горизонтальным, потому что на этот раз будет играть роль сопоставителя:y1x21x21x1x21

Рисунок 3

Обратите внимание, что в каждом из трех случаев остаток перпендикулярен совпадению. (Если бы это было не так, мы могли бы откорректировать совпадение, чтобы оно стало еще ближе к , или .)yx2y1

Основная идея состоит в том, что к тому времени, когда мы доберемся до последнего рисунка, оба задействованных вектора ( и ) уже перпендикулярны по построению. Таким образом, любая последующая корректировка включает в себя изменения, которые все перпендикулярны . В результате новое совпадение и новый остаток остаются перпендикулярными к .x21y1x1y1x1γx21y12x1

(Если задействованы другие векторы, мы поступим таким же образом, чтобы сопоставить их невязки с .)x31,x41,x2

Есть еще один важный момент. Эта конструкция создала остаток перпендикулярный как и . Это означает , что является также остаточным в пространстве (трехмерное евклидово области действия ) , натянутое на и . То есть этот двухэтапный процесс сопоставления и получения остатков должен был найти местоположение в плоскости которое является наиболее близким к . Поскольку в этом геометрическом описании не имеет значения, какой из и был первым, мы заключаем, чтоy12x1x2y12x1,x2,yx1,x2yx1x2если бы процесс был выполнен в другом порядке, начиная с в качестве сопоставителя и затем используя , результат был бы таким же.x2x1

(Если есть дополнительные векторы, мы будем продолжать этот процесс «извлекать сопоставление» до тех пор, пока каждый из этих векторов не станет по очереди сопоставителем. В каждом случае операции будут такими же, как показано здесь, и всегда будут происходить в самолет .)


Приложение к множественной регрессии

Этот геометрический процесс имеет прямую интерпретацию множественной регрессии, потому что столбцы чисел действуют точно так же, как геометрические векторы. Они обладают всеми необходимыми нам свойствами в отношении векторов (аксиоматически), и поэтому их можно продумывать и манипулировать одинаково с идеальной математической точностью и строгостью. В заходящего с переменными множественной регрессии , , и , цель состоит в том, чтобы найти комбинацию и ( и т.д. ) , что ближе всего к . Геометрически, все такие комбинации и (и т. Д.X1X2,YX1X2YX1X2) соответствуют точкам в пространстве . Подгонка коэффициентов множественной регрессии - не что иное, как проецирование («сопоставление») векторов. Геометрический аргумент показал, чтоX1,X2,

  1. Сопоставление может быть сделано последовательно и

  2. Порядок, в котором выполняется сопоставление, не имеет значения.

Процесс «удаления» сопоставителя путем замены всех других векторов их остатками часто называют «управляющим» для сопоставителя. Как мы видели на рисунках, после того, как сопоставление было проверено, все последующие вычисления вносят корректировки, которые перпендикулярны этому сопоставителю. Если хотите, вы можете думать о «контроле» как о «учете (в смысле наименьших квадратов) вклада / влияния / эффекта / ассоциации сопоставителя по всем другим переменным».


Рекомендации

Вы можете увидеть все это в действии с данными и рабочим кодом в ответе на https://stats.stackexchange.com/a/46508 . Этот ответ может больше понравиться людям, которые предпочитают арифметику, а не изображения на самолете. (Тем не менее, арифметика по корректировке коэффициентов при последовательном вводе сопоставителей проста.) Язык сопоставления взят от Фреда Мостеллера и Джона Тьюки.


1
Больше иллюстраций по этим направлениям можно найти в книге Уикена «Геометрия многомерной статистики» (1994). Некоторые примеры в этом ответе .
Каракал

2
@Caracal Спасибо за ссылки. Первоначально я представлял себе ответ, в котором используются диаграммы, подобные тем, которые приведены в вашем ответе - которые являются прекрасным дополнением к моему ответу здесь, - но после их создания чувствовалось, что псевдо-трехмерные фигуры могут быть слишком сложными и неоднозначными, чтобы быть полностью подходящими. Мне было приятно обнаружить, что аргумент может быть полностью сведен к простейшим векторным операциям на плоскости. Может также стоить указать, что предварительное центрирование данных не является необходимым, потому что это обрабатывается путем включения ненулевого вектора постоянной в . xi
whuber

1
Мне нравится этот ответ, потому что он дает гораздо больше интуиции, чем алгебра. Кстати, не уверен, что вы проверили канал этого парня на YouTube . Мне это очень понравилось
Haitao Du

3

До сих пор ведутся прекрасные дискуссии о ковариантной корректировке как способе «контроля других переменных». Но я думаю, что это только часть истории. На самом деле, существует множество (других) стратегий, основанных на разработке, модели и машинном обучении, для устранения влияния ряда возможных смешанных переменных. Это краткий обзор некоторых наиболее важных (не относящихся к теме) тем. Хотя корректировка является наиболее широко используемым средством «контроля» за другими переменными, я думаю, что хороший статистик должен понимать, что он делает (и не делает) в контексте других процессов и процедур.

Совпадение:

Сопоставление - это метод проектирования парного анализа, в котором наблюдения группируются в наборы по 2, которые в остальном схожи по своим наиболее важным аспектам. Например, вы можете выбрать двух человек, которые согласны в своем образовании, доходе, профессиональном пребывании, возрасте, семейном положении (и т. Д. И т. Д.), Но не согласны с точки зрения их нетерпения. Для бинарных экспозиций достаточно простого парного t-теста, чтобы проверить среднюю разницу в их ИМТ, контролируя все соответствующие функции. Если вы моделируете непрерывную экспозицию, аналогичным показателем будет модель регрессии через источник различий. Смотри Карлин 2005

E[Y1Y2]=β0(X1X2)

утяжеление

Взвешивание - это еще один одномерный анализ, который моделирует связь между непрерывным или двоичным предиктором и результатом так, чтобы распределение уровней воздействия было однородным между группами. Эти результаты обычно сообщаются как стандартизированные, такие как стандартизированная по возрасту смертность для двух стран или нескольких больниц. Косвенная стандартизация вычисляет ожидаемое распределение результатов по показателям, полученным в «контрольной» или «здоровой» популяции, которые прогнозируются по распределению страт в референтной популяции. Прямая стандартизация идет другим путем. Эти методы обычно используются для двоичного результата. Взвешивание баллов склонностиXYучет вероятности бинарного воздействия и контроль этих переменных в этом отношении. Это похоже на прямую стандартизацию для воздействия. См. Ротман, Современная Эпидемиология, 3-е издание.

Рандомизация и квазирандомизация

Это тонкий момент, но если вы действительно можете рандомизировать людей до определенного экспериментального условия, то влияние других переменных смягчается. Это замечательно более сильное условие, потому что вам даже не нужно знать, каковы эти другие переменные. В этом смысле вы «контролировали» их влияние. Это невозможно в наблюдательных исследованиях, но оказывается, что методы оценки предрасположенности создают простую вероятностную меру воздействия, которая позволяет взвешивать, корректировать или сопоставлять участников, чтобы их можно было анализировать так же, как квази-рандомизированное исследование , См. Розенбаум, Рубин 1983 .

Микросимуляционный

Другим способом моделирования данных, которые могли быть получены в результате рандомизированного исследования, является проведение микросимуляции. Здесь можно фактически обратить их внимание на более крупные и более сложные модели машинного обучения. Термин, который Иудея Перл изобрел, который мне нравится, это « Модели Oracle »: сложные сети, способные генерировать прогнозы и прогнозы для ряда особенностей и результатов. Оказывается, можно «свернуть» информацию о такой модели оракула, чтобы имитировать результаты в сбалансированной когорте людей, представляющих рандомизированную когорту, сбалансированных по распределению «контрольной переменной», и используя простые процедуры t-теста для оценки Величина и точность возможных различий. См. Раттер, Заславский и Фейер 2012

Сопоставление, взвешивание и ковариатная корректировка в регрессионной модели все оценивают одни и те же ассоциации, и, таким образом, можно утверждать, что все они являются способами «контроля» за другими переменными .


Полностью над моей головой.
JackOfAll

Это ответ на вопрос, который был задан. Хорошая дискуссия до сих пор является односторонней в пользу корректировки в многомерных моделях.
AdamO

Многомерные модели, сопоставление и т. Д. - все это допустимые методы, но когда исследователь обычно использует один метод над другим?
MnMn

-1

Программное обеспечение не контролирует буквально переменные. Если вы знакомы с матричным обозначением регрессии , то, возможно, помните, что решение для наименьших квадратов - это . Таким образом, программное обеспечение оценивает это выражение численно с использованием методов вычислительной линейной алгебры.Y=Xβ+εb=(XTX)1XTY


4
Спасибо за возможность предложить эту информацию. Чтобы ответить на вопрос о потребностях, которые даны в вопросе, нам нужно знать значение простого числа во втором выражении и значение второго выражения. Я понимаю, что наклон - это изменение одной оси по сравнению с изменением другой. Помните, что нотация - это особый язык, который был изначально создан и изучен с использованием нотационного словаря. Достижение людей, которые не знают этого языка, требует использования других слов, и это постоянная задача распространения знаний по дисциплинам.
Джен

2
Как только вы войдете в многовариантные регрессии, нет пути без линейной алгебры. Ссылка Wiki содержит все описания переменных. Здесь я могу сказать, что означает транспонирование матрицы. Вам нужно узнать, как строится матрица дизайна. Слишком долго, чтобы объяснить это здесь. Читайте вики, которые я выложил, там много информации. Боюсь, если вы не понимаете линейную алгебру, вы не сможете ответить на ваш вопрос осмысленно. XXX
Аксакал
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.