Как бороться с опросным вопросом с множественным ответом?


10

У меня есть набор данных, спрашивающий людей, были ли они в определенных местах (например, A, B, C, D), и они могут сделать больше чем один выбор, затем образец взят из их носа, чтобы видеть, заражены ли они некоторыми болезнь.

Мне нужно выяснить относительный риск заражения при посещении определенного места, сейчас я могу думать только о логистической регрессии, есть ли другие предложения?

Спасибо.

Ответы:


2

Вы все еще можете использовать логистическую регрессию, потому что ваш результат дихотомический, инфицированный и неинфицированный. Я бы просто использовал подход фиктивной переменной и не использовал бы путешествия в качестве справочной категории (т.е. для каждого из ваших мест у вас есть переменная, закодированная как 1, если они посетили это место, и как 0, если они не посещали это место). Таким образом, если вы преобразуете свои бета-коэффициенты в шансы (т. Е. Увеличиваете лог-шансы), интерпретация фиктивной переменной для местоположения A будет отношением шансов местоположения посещения A к не посещающему местоположению A, контролирующему другие места, которые посещали. Также обратите внимание на то, что в этом подходе многоколлинеарность является проблемой (например, если многие из людей, которые путешествуют в А, также путешествуют в В, это может сместить каждый из их коэффициентов).


5
Эта модель предполагает, что ответ является аддитивной функцией путешествия в каждое место, что крайне маловероятно. Это все еще можно заставить работать, включив условия взаимодействия. Может потребоваться полный набор всех возможных взаимодействий (кроме двухсторонних взаимодействий). (Это было бы математически идентично предоставлению отдельного манекена для каждой возможной комбинации пунктов назначения.)
whuber

4
Лучше иметь много данных, если вы используете все взаимодействия (15 параметров), а не только основные эффекты (4 параметра) ...
Стефан Коласса

@whuber и @Stephen, спасибо за ответы, и я полностью согласен с каждым из вас. Лично я был бы согласен с подходом с использованием фиктивной переменной основных эффектов, если бы множественные ответы не были настолько распространены, что, возможно, не является приемлемым допущением, учитывая проблемы первоначальных постеров. Я мог бы предложить другие проекты, если бы оригинальный постер интересовал риск поездки в А против Б (такой как некоторый тип процедуры сопоставления). И я согласен, что аддитивный риск не имеет смысла, за исключением случаев, когда имеет место некоторая ошибка выбора.
Энди W
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.