Мой вопрос заключается в том, нужно ли нам стандартизировать набор данных, чтобы убедиться, что все переменные имеют одинаковую шкалу, между [0,1], до подбора логистической регрессии. Формула:
В моем наборе данных есть 2 переменные, они описывают одно и то же для двух каналов, но громкость отличается. Скажем, это количество посещений покупателя в двух магазинах, а вот, покупает ли покупатель. Потому что клиент может посетить оба магазина или два раза первый магазин, один раз второй магазин, прежде чем совершить покупку. но общее количество посещений клиентов в первом магазине в 10 раз больше, чем во втором. Когда я подхожу эту логистическую регрессию, без стандартизации coef(store1)=37, coef(store2)=13
; если я стандартизирую данные, тогда coef(store1)=133, coef(store2)=11
. Что-то вроде этого. Какой подход имеет больше смысла?
Что если я подгоняю модель дерева решений? Я знаю, что модели древовидной структуры не нуждаются в стандартизации, так как сама модель будет как-то ее корректировать. Но проверяю всех вас.
C
. Так что вам нужно выбрать C
после стандартизации данных.