Переменная индикатора для двоичных данных: {-1,1} против {0,1}


10

Я заинтересован в лечебно-ковариат взаимодействий в контексте экспериментов / рандомизированных контролируемых исследований, с бинарным назначения лечения индикатора .T

В зависимости от конкретного метода / источника, я видел как и T = { 1 , - 1 } для обработанных и необработанных субъектов соответственно.Tзнак равно{1,0}T={1,1}

Есть ли эмпирическое правило, когда использовать или { 1 , - 1 } ?{1,0}{1,1}

Чем отличается интерпретация?


FWIW ... Эта первая ссылка предоставляет довольно полный обзор различных схем кодирования ... ats.ucla.edu/stat/r/library/contrast_coding.htm Во второй ссылке обсуждается индикаторное (фиктивное), эффектное и ортогональное (контрастное) кодирование ... faculty.cas.usf.edu/mbrannick/regression/anova1.html
Майк Хантер,

Ответы:


10

Интерпретация как оценки переменной индикатора, так и точки пересечения отличается. Давайте начнем с :{1,0}

Скажем, у вас есть следующая модель

yi=β0+treatmentβ1

где

treatment={0if placebo1if drug

В этом случае вы получите следующие формулы для :yi

yi={β0+0β1=β0if placeboβ0+1β1=β0+β1if drug

Таким образом, интерпретация - это эффект плацебо, а интерпретация β 1 - это разница между эффектом плацебо и эффектом препарата. По сути, вы можете интерпретировать β 1 как улучшение, которое предлагает препарат.β0β1β1


Теперь давайте посмотрим на :{1,1}

Затем у вас есть следующая модель (снова):

yi=β0+treatmentβ1

но где

treatment={1if placebo1if drug

В этом случае вы получите следующие формулы для :yi

yi={β0+1β1=β0β1if placeboβ0+1β1=β0+β1if drug

Интерпретация здесь заключается в том, что представляет собой среднее значение эффекта плацебо и лекарственного средства, а β 1 представляет собой разницу двух обработок с этим значением.β0β1


Так что вы используете?

Интерпретация в { 0β0 является в основном базовой линией. Вы устанавливаете какой-то стандартный курс лечения, а все остальные процедуры (их может быть несколько) сравниваются с этим стандартом / базовым уровнем. Особенно, когда вы начинаете добавлять другие ковариаты, это остается легко интерпретировать в отношении стандартного медицинского вопроса: как эти препараты сравниваются с плацебо или установленным препаратом?{0,1}

Но, в конце концов, все зависит от толкования, которое я объяснил выше. Таким образом, вы должны оценить свои гипотезы и проверить, какая интерпретация делает вывод выводов наиболее простым.


6
Константа при использовании кодирования -1, 1 представляет собой среднее значение, если количество респондентов в группе, получавшей лечение, равно количеству респондентов в контрольной группе.
Мартен Буис

@MaartenBuis Это среднее значения тогда и только тогда конструкция сбалансирована, но в остальном она по- прежнему представляет собой среднее из этих двух групп средств, что является то , что я имел в виду. Я изменил формулировку, чтобы отразить это. y
JAD

9
Полезно. Я всегда стараюсь использовать слово « индикатор», а не « фиктивный» (как в оригинальном вопросе!), По крайней мере, по двум причинам. Во-первых, я слышал слишком много историй, в которых презентации были очень плохими, потому что такие термины, как «гендерный манекен», были дико неверно истолкованы как унижающие или оскорбительные для менее технических людей. Во-вторых, термин « пустышка» делает все устройство похожим на выдумку или уловку, тогда как это совершенно чистый и элегантный метод. У меня нет особых шансов изменить укоренившиеся практики в некоторых областях, но здесь мы пытаемся.
Ник Кокс

Согласен, это звучит более профессионально. Плюс это лучшее описание того, что он на самом деле делает.
JAD

2
Рад, что вы согласны. Вот простой способ объяснить: он называется индикатором, потому что он указывает!
Ник Кокс

6

В контексте линейной регрессии xi{0,1} является более естественным (и стандартным) методом для кодирования двоичных переменных (будь то размещение их в левой части правой части регрессии). Как объясняет @Jarko Dubbeldam, вы, конечно, можете использовать другую интерпретацию, и значение коэффициентов будет другим.

Чтобы привести пример другим способом, кодирование выходных переменных является стандартным при программировании или получении математической основыyi{1,1} машин опорных векторов . (При вызове библиотек вы хотите передать данные в формате, который ожидает библиотека, что, вероятно, является формулировкой 0,1).

Попробуйте использовать стандартное обозначение для всего, что вы делаете / используете.


Для любого типа линейной модели с членом-перехватчиком оба метода будут эквивалентны в том смысле, что они связаны простым линейным преобразованием. Математически не имеет значения, используете ли вы матрицу данных или матрицу данных ˜ X = X A, где A - полный ранг. В обобщенных линейных моделей, ваши оценки коэффициентов либо образом будут связаны линейным преобразованием А и подогнанные значения у будут одинаковыми.XX~=XAAAy^


{1,1}

yi{1,1}

5
{1,1}

@matthewgunn Автор говорит о ковариатах, то есть о входах, а не о выходах. {-1, 1} имеет смысл для вспомогательных векторов для вывода, но не имеет значения для ввода. Смотрите здесь: en.wikipedia.org/wiki/Support_vector_machine#Linear_SVM
Франциско Арсео

@FranciscoArceo Point принято; Я отредактировал, чтобы быть более точным.
Мэттью Ганн,

2

Это более абстрактно (и, возможно, бесполезно), но я отмечу, что эти два представления в математическом смысле фактически являются представлениями группы, и между ними существует изоморфизм.

TT1T2T1T2Z21,01,1ab=1(a+b)ab=abϕ(a)=2a1

pTTTpp=pp+(1p)(1p)t(p)=2p1tt=ttt


Это впечатляет, но я нахожу достаточным отметить, что любое допустимое соответствие между {-1, 1} и {0, 1} должно быть одно к одному: нет необходимости вызывать что-либо, кроме математики средней школы. Мы обязательно говорим об одной и той же информации, просто закодированной по-разному.
Ник Кокс
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.