Создание индекса качества из нескольких переменных для включения порядка рангов

22

У меня есть четыре числовые переменные. Все они являются показателями качества почвы. Чем выше переменная, тем выше качество. Диапазон для всех них различен:

Вар1 от 1 до 10

Вар2 от 1000 до 2000

Вар3 от 150 до 300

Вар4 от 0 до 5

Мне нужно объединить четыре переменные в один показатель качества почвы, который будет успешно ранжировать порядок.

Моя идея очень проста. Стандартизируйте все четыре переменные, суммируйте их, и все, что вы получите, будет счетом, который должен быть ранжирован. Видите ли вы какие-либо проблемы с применением этого подхода. Есть ли другой (лучший) подход, который вы бы порекомендовали?

Благодарность

Редактировать:

Спасибо, парни. Много дискуссий было посвящено «экспертизе предметной области» ... Сельскохозяйственным вещам ... В то время как я ожидал больше статистики. С точки зрения техники, которую я буду использовать ... Это, вероятно, будет простое суммирование по z-шкале + логистическая регрессия в качестве эксперимента. Поскольку подавляющее большинство образцов имеет низкое качество 90%, я собираюсь объединить 3 категории качества в одну и, в основном, иметь двоичную проблему (некоторое качество против некачественного). Я убиваю двух зайцев одним выстрелом. Я увеличиваю свою выборку с точки зрения частоты событий и использую экспертов, заставляя их классифицировать мои образцы. Классифицированные образцы экспертов затем будут использованы для соответствия модели log-reg, чтобы максимизировать уровень согласованности / несогласованности с экспертами .... Как это звучит для вас?

ranking valuation

— user333
источник

19

Предложенный подход может дать разумный результат, но только случайно. На этом расстоянии - то есть, принимая вопрос за чистую монету со скрытыми значениями переменных - некоторые проблемы очевидны:

Даже не очевидно, что каждая переменная положительно связана с «качеством». Например, что, если 10 для «Var1» означает, что «качество» хуже, чем качество, когда Var1 равен 1? Тогда добавление его к сумме является настолько же неправильной вещью, сколько можно сделать; это должно быть вычтено.
Стандартизация подразумевает, что «качество» зависит от самого набора данных. Таким образом, определение будет изменяться с различными наборами данных или с добавлениями и удалениями к этим данным. Это может превратить «качество» в произвольную, временную, необъективную конструкцию и исключить сравнение между наборами данных.
Там нет определения "качество". Что это должно означать? Способность блокировать миграцию загрязненной воды? Способность поддерживать органические процессы? Способность продвигать определенные химические реакции? Почва, пригодная для одной из этих целей, может быть особенно плохой для других.
У поставленной задачи нет цели: зачем оценивать «качество»? Для чего будет использоваться рейтинг - вклад в дополнительный анализ, выбор «лучшей» почвы, принятие научной гипотезы, разработка теории, продвижение продукта?
Последствия рейтинга не очевидны. Если рейтинг неверен или уступает, что произойдет? Будет ли мир голоднее, окружающая среда более загрязнена, ученые введены в заблуждение, садовники более разочарованы?
Почему линейная комбинация переменных должна быть подходящей? Почему они не должны быть умножены или возведены в степень или объединены в виде посинома или чего-то еще более эзотерического?
Показатели качества сырой почвы обычно выражаются повторно. Например, каротажная проницаемость обычно более полезна, чем сама проницаемость, а каротажная активность ионов водорода (рН) гораздо полезнее, чем активность. Каковы соответствующие выражения переменных для определения «качества»?

Можно было бы надеяться, что почвоведение ответит на большинство из этих вопросов и укажет, какой должна быть подходящая комбинация переменных для любого объективного ощущения «качества». Если нет, то вы столкнулись с проблемой оценки нескольких атрибутов . В статье Википедии перечислены десятки методов решения этой проблемы. ИМХО, большинство из них не подходят для решения научного вопроса. Одной из немногих, у которой есть солидная теория и потенциальная применимость к эмпирическим вопросам, является теория оценки множественных атрибутов Keeney & Raiffa.(MAVT). Для любых двух конкретных комбинаций переменных требуется, чтобы вы могли определить, какая из них должна иметь более высокий рейтинг. Структурированная последовательность таких сравнений выявляет (а) подходящие способы повторного выражения значений; (b) будет ли линейная комбинация повторно выраженных значений давать правильное ранжирование; и (c) если возможна линейная комбинация, она позволит вам вычислить коэффициенты. Короче говоря, MAVT предоставляет алгоритмы для решения вашей проблемы, если вы уже знаете, как сравнивать конкретные случаи.

— Whuber
источник

RE: 1. Я точно знаю, что «чем выше число, тем выше качество» для всех четырех переменных RE: 2. Хороший вопрос. Что я могу сделать, чтобы сделать два набора данных сопоставимыми

— user333

2

@user Мои рекомендации приведены в последнем абзаце: желательно найти количественное выражение «качество» в научной литературе. За исключением этого, примените MAVT. Оба производят фиксированную формулу, независимую от набора данных. Это обеспечивает сопоставимость.

— whuber

1

@whuber, нельзя ли рассматривать это как проблему формирования формирующей меры на основе доступной информации, и в этом случае суммирование Z-баллов не так плохо, как кажется?

— Энди W

3

@ Энди Не могли бы вы объяснить, что вы подразумеваете под «формирующим показателем» и «доступной информацией»? // Я должен отметить, что многие показатели пригодности почвы для сельского хозяйства даже не монотонны, а гораздо менее линейны: например, растение может процветать в пределах диапазона pH, но страдает от pH вне этого диапазона в любом направлении . Это было бы действительно особым обстоятельством - возможно, включающим узкий диапазон значений - если бы простая линейная комбинация характеристик почвы имела какое-либо объективное отношение к сельскохозяйственным качествам.

— whuber

2

(y_{1}, \dots, y_{k})

$(y_1, \ldots, y_k)$

(x_{1}, \dots, x_{k})

$(x_1, \ldots, x_k)$

— whuber

3

Кто-нибудь смотрел на Рассел Дж. Конгальтон «Обзор оценки точности классификаций данных дистанционного зондирования» 1990 года. Он описывает технику, известную как матрица ошибок для изменяющихся матриц, также он использует термин «нормализация данных», при котором каждый получает все разные векторы и «нормализует» или устанавливает их равными от 0 до 1. Вы в основном меняете все векторы на равные диапазоны от 0 до 1.

— Рагу Паганини
источник

0

Еще одна вещь, которую вы не обсуждали, это масштаб измерений. V1 и V5 выглядят так, как будто они ранжируются, а другие - нет. Таким образом, стандартизация может исказить счет. Поэтому вам может быть лучше преобразовать все переменные в ранги и определить вес для каждой переменной, поскольку маловероятно, что они имеют одинаковый вес. Равное взвешивание больше по умолчанию «нет ничего». Возможно, вы захотите провести некоторый корреляционный или регрессионный анализ, чтобы получить некоторые априорные веса.

— Ральф Винтерс
источник

Как я могу использовать корреляционный анализ для определения веса?

— user333

Если у вас уже есть общий показатель качества, уже существовавший ранее, например, экспертные заключения (или вы готовы принять другие переменные в качестве показателя для этого), вы можете выбрать самые высокие коррелированные переменные и дать им наивысший вес.

— Ральф Уинтерс

-3

В ответ на ответ Ральфа Уинтерса вы можете использовать PCA (анализ основных компонентов) в матрице соответственно стандартизированных баллов. Это даст вам «естественный» весовой вектор, который вы можете использовать для объединения будущих результатов.

Сделайте это также после того, как все оценки были преобразованы в ранги. Если результаты очень похожи, у вас есть веские причины для продолжения любого из этих методов. Если есть расхождения, это приведет к интересным вопросам и лучшему пониманию.

— Ханс Энглер
источник

4

Я не согласен. В то время как можно было бы интересоваться межпозиционными корреляциями для любопытства, все переменные могут быть ортогональными, но все же вносить вклад в качество. Для глупого примера почва в Антарктиде может иметь оптимальное содержание азота, но я сомневаюсь, что этого будет достаточно в качестве подходящего климата.

— Энди W

@Andy W: В этом случае все переменные должны быть взвешены одинаково, и PCA сообщит вам об этом. Это также говорит о том, что на ведущий компонент приходится лишь относительно небольшая доля общей изменчивости в матрице баллов.

— Ганс Энглер

3

Я все еще не согласен. Он не говорит вам, должны ли баллы оцениваться одинаково. Два элемента могут иметь положительную корреляцию, но каждый имеет противоположные отношения к «качеству». Межпунктовые корреляции не обязательно говорят о ненаблюдаемой мере в данном контексте. Если качество было скрытой переменной, а переменные были «отражающими» для этой скрытой конструкции, это может быть правдой, но в данном примере это не так.

— Энди W

A

$A$

m \times n

$m \times n$

σ_{1} u v^{T}

$\sigma_1 uv^T$

A

$A$

n

$n$

v_{j}

$v_j$

v_{j}

$v_j$

— Ганс Энглер

3

Я все еще не согласен. Даже если ожидается, что связь будет в одном и том же направлении, это не означает, что индикаторам по сути следует придавать какой-либо вес, основанный на их межпозиционной корреляции. Общая дисперсия может лишь сказать что-то о взаимосвязи между показателями. Подумайте о регрессионной модели, в которой мы прогнозируем известную меру качества по этим показателям. Межэлементная корреляция между индикаторами не говорит вам, какими будут ожидаемые уклоны.

— Энди W