Всегда ли неправильно переходить от непрерывных данных к категориальным?

Когда я читал о том, как настроить ваши данные, я часто сталкивался с тем, что преобразование некоторых непрерывных данных в категориальные данные не является хорошей идеей, поскольку вы можете сделать неправильный вывод, если пороговые значения плохо определены.

Тем не менее, в настоящее время у меня есть некоторые данные (значения PSA для пациентов с раком простаты), где я думаю, что общее мнение заключается в том, что, если вы ниже 4, у вас, вероятно, его нет, если вы выше, чем вы находитесь в группе риска, а затем что-то вроде выше 10 и 20, у вас, вероятно, есть. Что-то такое. В таком случае, было бы все еще неправильно классифицировать мои непрерывные значения PSA в группы, скажем, 0-4, 4-10 и> 10? Или это действительно нормально, так как пороги, так сказать, «хорошо определены».

categorical-data continuous-data

— Денвер Данг
источник

Это зависит (как обычно). Например, если вы изучаете, как врачи будут принимать решения, и они принимают решения на основе этих категорий, то вам следует использовать те же категории. Если вы вместо этого изучаете биологические последствия, связанные с повышенным уровнем ПСА, то, скорее всего, вы вообще не хотите классифицировать ПСА. Таким образом, нет однозначного ответа на ваш широкий вопрос «все в порядке».

— whuber

Что вы пытаетесь сделать с данными? Разве такие границы, как правило, не связаны с тем, что вы хотите выяснить, так что их сложение вручную задает вопрос?

— RemcoGerlich

Я устанавливаю данные для модели логистической регрессии. Таким образом, главный вопрос заключается в том, использовать ли просто непрерывные данные или использовать вместо них дискретные данные.

— Денвер Данг

Мне не ясно, что такое «непрерывные» данные. Это не то, что существует в реальности. Нет такой вещи как измерение / статистика с бесконечной точностью.

— JimmyJames

@BillHorvath Да, я не врач, поэтому я не совсем уверен, как это было определено. Если вы просто посмотрите на вики-страницу, она скажет одно место: «Уровни PSA между 4 и 10 нг / мл (нанограммы на миллилитр) считаются подозрительными, и следует рассмотреть возможность подтверждения аномального PSA с помощью повторного теста. " а затем в другом месте: «Низкий риск: PSA <10, балл Глисона ≤ 6, И клиническая стадия ≤ T2a Промежуточный риск: PSA 10-20, балл Глисона 7, ИЛИ клиническая стадия T2b / c Высокий риск: PSA> 20 , Балл Глисона ≥ 8, ИЛИ клиническая стадия ≥ T3 "

— Денвер Данг

Ответы:

Есть ли резкий разрыв на ваших порогах?

Например, предположим, что у вас есть два пациента A и B со значениями 3,9 и 4,1 и еще два пациента C и D со значениями 6,7 и 6,9. Является ли разница в вероятности для рака между А и В значительно больше , чем соответствующая разница между C и D?

Если да, то дискретизация имеет смысл.

Если нет, то ваши пороговые значения могут иметь смысл в понимании ваших данных, но они не «хорошо определены» в статистически значимом смысле. Не дискретизируйте. Вместо этого используйте результаты тестов «как есть», а если вы подозреваете какую-то нелинейность, используйте сплайны .

Это очень рекомендуется.

— Стефан Коласса
источник

Эта ссылка внизу полна замечательных моментов. Будущие читатели этого ответа должны проверить это.

— eric_kernfeld

Я думаю, что дискретизация не имеет смысла, если только нет большого скачка в результатах на предложенном разрыве И если результат относительно однороден в этих группах. В противном случае, есть лучшие способы приблизиться к «прыжку» в функции @Stephan Kolassa

— LSC

Я думаю, что стандартный ответ это всегда плохо, потому что вы теряете информацию в процессе. Трудно поверить, что есть какой-то случай, когда вы выиграете что-либо, взяв данные с естественным интервалом и сделав их категориальными.

— user54285
источник

Подходящей ситуацией будет ситуация, когда существует истинный разрыв в отношениях этого конкретного x с DV и что в «категориях» результат относительно однороден.

— LSC