Когда я читал о том, как настроить ваши данные, я часто сталкивался с тем, что преобразование некоторых непрерывных данных в категориальные данные не является хорошей идеей, поскольку вы можете сделать неправильный вывод, если пороговые значения плохо определены.
Тем не менее, в настоящее время у меня есть некоторые данные (значения PSA для пациентов с раком простаты), где я думаю, что общее мнение заключается в том, что, если вы ниже 4, у вас, вероятно, его нет, если вы выше, чем вы находитесь в группе риска, а затем что-то вроде выше 10 и 20, у вас, вероятно, есть. Что-то такое. В таком случае, было бы все еще неправильно классифицировать мои непрерывные значения PSA в группы, скажем, 0-4, 4-10 и> 10? Или это действительно нормально, так как пороги, так сказать, «хорошо определены».