Короче говоря : делайте то, что сказал @untitledprogrammer, попробуйте обе модели и проведите перекрестную проверку, чтобы помочь выбрать одну.
Как деревья решений (в зависимости от реализации, например, C4.5), так и логистическая регрессия должны нормально обрабатывать непрерывные и категориальные данные. Для логистической регрессии вам понадобится фиктивная кодировка ваших категориальных переменных .
Как упомянул @untitledprogrammer, сложно априори определить, какая техника будет лучше, просто исходя из типов имеющихся у вас функций, непрерывных или иных. Это действительно зависит от вашей конкретной проблемы и имеющихся у вас данных. (См. Теорему об отсутствии бесплатного обеда )
Однако вы должны иметь в виду, что модель логистической регрессии ищет единственную линейную границу решения в вашем пространстве признаков, тогда как дерево решений по существу разделяет ваше пространство признаков на полупространства, используя ориентированные по оси линейные границы решения. Чистым эффектом является то, что у вас есть нелинейная граница принятия решения, возможно, более одного.
Это хорошо, когда ваши точки данных нелегко разделить одной гиперплоскостью, но, с другой стороны, деревья решений настолько гибки, что могут быть подвержены переобучению. Чтобы бороться с этим, вы можете попробовать обрезку. Логистическая регрессия имеет тенденцию быть менее восприимчивой (но не иммунной!) К переоснащению.
х уИксY
Поэтому вы должны спросить себя:
- какой тип границы решения имеет больше смысла в вашей конкретной проблеме?
- как вы хотите сбалансировать отклонения и отклонения?
- Есть ли взаимодействие между моими функциями?
Конечно, всегда полезно попробовать обе модели и выполнить перекрестную проверку. Это поможет вам выяснить, какой из них с большей вероятностью будет иметь ошибку при обобщении.