Вы правы по обоим пунктам. Смотрите здесь страницу Фрэнка Харрелла для длинного списка проблем с биннингом непрерывных переменных. Если вы используете несколько корзин, вы выбрасываете много информации в предикторах; если вы используете много, вы склоняетесь к шевелению в том, что должно быть гладким, если не линейным, отношением, и использовать много степеней свободы. Как правило, для предикторов лучше использовать полиномы ( ) или сплайны (кусочно-полиномы, которые плавно объединяются). Биннинг действительно хорошая идея, когда вы ожидаете, что в моментах прерывания будет прерывистость - скажем, температура, в которой что-то кипит, или законный возраст для вождения - и когда отклик между ними ровный ...х + х2+ …
Значение? Ну, это быстрый и простой способ учесть кривизну, не думая об этом, и модель вполне может подойти для того, для чего вы ее используете. Это имеет тенденцию работать хорошо, когда у вас много данных по сравнению с количеством предикторов, каждый предиктор разделен на множество категорий; в этом случае в пределах каждой полосы предикторов диапазон отклика невелик, а средний отклик точно определен.
[Изменить в ответ на комментарии:
Иногда существуют стандартные отсечки, используемые в поле для непрерывной переменной: например, в медицине измерения артериального давления могут быть классифицированы как низкие, средние или высокие. Может быть много веских причин для использования таких отсечений, когда вы представляете или применяете модель. В частности, правила принятия решений часто основаны на меньшем количестве информации, чем входит в модель, и, возможно, должны быть просты в применении. Но из этого не следует, что эти обрезания подходят для бинарного предсказания, когда вы подходите к модели.
Предположим, что некоторый ответ постоянно меняется в зависимости от артериального давления. Если вы определяете группу высокого кровяного давления в качестве предиктора в своем исследовании, оцениваемый вами эффект представляет собой среднюю реакцию по конкретному артериальному давлению людей в этой группе. Это неоценка среднего ответа людей с высоким кровяным давлением в общей популяции или людей в группе высокого кровяного давления в другом исследовании, если только вы не примете конкретные меры, чтобы сделать это так. Если распределение артериального давления среди населения в целом известно, как я себе это представляю, вам лучше рассчитать среднюю реакцию людей с высоким артериальным давлением в общей популяции на основе прогнозов из модели с артериальным давлением как непрерывная переменная. Сырое биннинг делает вашу модель только приблизительно обобщаемой.
В общем, если у вас есть вопросы о поведении ответа между отсечками, сначала выберите лучшую модель, а затем используйте ее, чтобы ответить на них.]
[Что касается презентации; Я думаю, что это красная сельдь
(1) Простота изложения не оправдывает плохих модельных решений. (И в тех случаях, когда биннинг является хорошим модельным решением, он не нуждается в дополнительном обосновании.) Конечно, это самоочевидно. Никто никогда не рекомендует брать важные взаимодействия из модели, потому что это трудно представить.
(2) Какую бы модель вы ни выбрали, вы все равно можете представить ее результаты в виде категорий, если считаете, что это поможет интерпретации. Хотя ...
(3) Вы должны быть осторожны, чтобы убедиться, что это не поможет неверно истолковать, по причинам, указанным выше.
(4) На самом деле нетрудно представить нелинейные ответы. Очевидно, что личное мнение и аудитория различаются; но я никогда не видел, чтобы график зависимости значений отклика от значений предиктора озадачивал кого-то только потому, что он изогнут. Взаимодействия, логиты, случайные эффекты, мультиколлинеарность, ... - все это гораздо сложнее объяснить.]
[Дополнительным моментом, поднятым @Roland, является точность измерения предикторов; он предлагает, я думаю, что категоризация может быть уместной, когда они не особенно точны. Здравый смысл может указывать на то, что вы не улучшаете вопросы, если их формулировать еще менее точно, и здравый смысл был бы прав: MacCallum и др. (2002), «О практике дихотомизации количественных переменных», Психологические методы , 7 , 1, стр. 17–19.]