У меня есть четыре числовые переменные. Все они являются показателями качества почвы. Чем выше переменная, тем выше качество. Диапазон для всех них различен:
Вар1 от 1 до 10
Вар2 от 1000 до 2000
Вар3 от 150 до 300
Вар4 от 0 до 5
Мне нужно объединить четыре переменные в один показатель качества почвы, который будет успешно ранжировать порядок.
Моя идея очень проста. Стандартизируйте все четыре переменные, суммируйте их, и все, что вы получите, будет счетом, который должен быть ранжирован. Видите ли вы какие-либо проблемы с применением этого подхода. Есть ли другой (лучший) подход, который вы бы порекомендовали?
Благодарность
Редактировать:
Спасибо, парни. Много дискуссий было посвящено «экспертизе предметной области» ... Сельскохозяйственным вещам ... В то время как я ожидал больше статистики. С точки зрения техники, которую я буду использовать ... Это, вероятно, будет простое суммирование по z-шкале + логистическая регрессия в качестве эксперимента. Поскольку подавляющее большинство образцов имеет низкое качество 90%, я собираюсь объединить 3 категории качества в одну и, в основном, иметь двоичную проблему (некоторое качество против некачественного). Я убиваю двух зайцев одним выстрелом. Я увеличиваю свою выборку с точки зрения частоты событий и использую экспертов, заставляя их классифицировать мои образцы. Классифицированные образцы экспертов затем будут использованы для соответствия модели log-reg, чтобы максимизировать уровень согласованности / несогласованности с экспертами .... Как это звучит для вас?