- Когда дихотомические переменные, какая информация теряется в процессе?
- Как дихотомизация помогает в анализе?
Ответы:
Какая информация теряется: зависит от переменной. Обычно, дихотомизируя, вы утверждаете, что между одной переменной и другой существует прямая линия влияния. Например, рассмотрим непрерывную меру воздействия загрязнителя в исследовании рака. Если вы дихотомизируете его до «высокого» и «низкого», вы утверждаете, что это единственные два значения, которые имеют значение. Существует высокий риск развития рака, а также низкий. Но что, если риск неуклонно возрастает некоторое время, затем выравнивается, а затем снова повышается, прежде чем, наконец, достигнуть высоких значений? Все это потеряно.
Что вы получаете: это проще. Дихотомические переменные часто гораздо легче иметь статистически. Есть причины для этого - если непрерывная переменная в любом случае попадает в две четкие группировки , но я склонен избегать дихотомии, если только она не является естественной формой переменной. Часто также полезно, если ваше поле все равно дихотомизирует вещи, чтобы иметь дихотомизированную форму переменной. Например, многие считают, что количество клеток CD4 менее 400 является критическим порогом для ВИЧ. Таким образом, я часто имел бы переменную 0/1 для Above / Below 400, хотя я бы также сохранил переменную непрерывного подсчета CD4. Это помогает согласовать ваше обучение с другими.
Я немного не согласен с Питером. Хотя деление непрерывной переменной на категории часто гораздо более разумно, чем грубая дихотомия, я скорее против квантильной категоризации. Такие классификации очень трудно дать содержательные интерпретации. Я думаю, что ваш первый шаг должен состоять в том, чтобы увидеть, есть ли биологически или клинически хорошо поддерживаемая категоризация, которую можно использовать, и только после того, как эти опции исчерпаны, вы должны использовать квантили.
Дихотимизация добавляет волшебное мышление к анализу данных. Это очень редко хорошая идея.
Вот статья Ройстона, Альтмана и Сауэрбреи о некоторых причинах плохой идеи.
Мои собственные мысли: если вы дихотомизируете зависимую переменную, скажем, вес при рождении в 2,5 кг (это делается постоянно), то вы лечите детей, которые родились в 2,49 кг, точно так же, как и дети, рожденные в 1,5 кг, и детей, рожденных в 2,51 кг так же, как те, кто 3,5 кг. Это не имеет смысла.
Лучшей альтернативой часто является квантильная регрессия. Я недавно написал об этом для NESUG. Эта статья здесь
Единственным исключением из вышеизложенного является случай, когда категории по существу мотивированы; Например, если вы работаете с поведением за рулем, будет разумно классифицировать в зависимости от возраста, установленного для вождения.
Мне понравились и поддержали ответы @ Epigrad и @ Peter. Я просто хотел добавить, что переменная интервала биннинга в двоичную делает (потенциально) метрическую переменную просто порядковой. С бинарной переменной неправильно вычислять среднее или дисперсию (несмотря на то, что это делают некоторые люди), и, как я уже отмечал в другом месте , некоторые многомерные анализы становятся теоретически или логически неприменим. Например, я думаю, что некорректно использовать иерархическую кластеризацию центроидов / Уордов или факторный анализ с бинарными переменными.
Клиенты исследования часто вынуждают нас дихотомизировать переменные на выходе, потому что мышление в терминах нескольких классов, а не одной непрерывной характеристики проще, информация кажется менее туманной и (ложно) более громоздкой.
Однако существуют случаи, когда дихотомизация может быть оправдана. Например, когда есть сильная бимодальность или когда анализ (например, MAMBAC или другой) показывает наличие 2 скрытых классов.