У меня есть набор данных в следующем формате.
Есть бинарный исход рак / нет рака. Каждый врач в наборе данных осмотрел каждого пациента и дал независимое суждение о том, есть ли у пациента рак или нет. Затем врачи дают из 5 уровень уверенности в том, что их диагноз верен, а уровень достоверности отображается в скобках.
Я пробовал разные способы получить хорошие прогнозы из этого набора данных.
Для меня очень хорошо просто усреднять врачей, игнорируя их уровень доверия. В приведенной выше таблице это поставило бы правильные диагнозы для Пациента 1 и Пациента 2, хотя было бы неправильно сказать, что Пациент 3 имеет рак, так как большинством 2-1 врачи считают, что Пациент 3 имеет рак.
Я также попробовал метод, в котором мы случайным образом выбираем двух врачей, и если они не соглашаются друг с другом, то решающий голос переходит к тому, кто из врачей будет более уверен. Этот метод экономичен тем, что нам не нужно консультироваться со многими врачами, но он также немного увеличивает частоту появления ошибок.
Я попробовал родственный метод, в котором мы случайным образом выбираем двух врачей, и, если они не согласны друг с другом, мы случайным образом выбираем еще двух. Если один диагноз опережает по крайней мере два «голоса», то мы решаем вопросы в пользу этого диагноза. Если нет, мы продолжаем отбирать новых врачей. Этот метод довольно экономичен и не допускает слишком много ошибок.
Я не могу избавиться от ощущения, что мне не хватает более сложного способа ведения дел. Например, мне интересно, можно ли каким-то образом разделить набор данных на обучающие и тестовые наборы и разработать какой-то оптимальный способ объединения диагнозов, а затем посмотреть, как эти веса работают на тестовом наборе. Одна из возможностей - это какой-то метод, который позволяет мне лечить врачей с избыточным весом, которые постоянно допускают ошибки на испытательном полигоне, и, возможно, диагностировать избыточный вес, которые сделаны с высокой степенью достоверности (достоверность коррелирует с точностью в этом наборе данных).
У меня есть различные наборы данных, соответствующие этому общему описанию, поэтому размеры выборки различаются, и не все наборы данных относятся к врачам / пациентам. Тем не менее, в этом конкретном наборе данных есть 40 врачей, каждый из которых видел 108 пациентов.
РЕДАКТИРОВАТЬ: Вот ссылка на некоторые из весов, которые являются результатом моего чтения ответа @ jeremy-miles.
Невзвешенные результаты находятся в первом столбце. На самом деле в этом наборе данных максимальное значение достоверности было 4, а не 5, как я ошибочно сказал ранее. Таким образом, следуя подходу @ jeremy-miles, наивысший невзвешенный балл, который может получить любой пациент, будет равен 7. Это означает, что буквально каждый врач утверждал с уровнем достоверности 4, что у этого пациента был рак. Самая низкая невзвешенная оценка, которую может получить любой пациент, равна 0, что означает, что каждый врач утверждал с уровнем достоверности 4, что у этого пациента не было рака.
Взвешивание по Альфе Кронбаха. В SPSS я обнаружил, что общая Альфа Кронбаха составляет 0,9807. Я попытался проверить, правильно ли это значение, вычислив Альфу Кронбаха более ручным способом. Я создал ковариационную матрицу из всех 40 врачей, которую я вставил сюда . Затем, основываясь на моем понимании формулы Альфа Кронбаха где - количество предметов (здесь врачи - «предметы»), которые я вычислил путем суммирования всех диагональных элементов в ковариационной матрице, а путем суммирования всех элементов в ковариационная матрица. Я тогда получил я рассчитал 40 различных результатов Альфа-Кронбаха, которые будут иметь место, когда каждый врач будет удален из набор данных. Я взвешивал любого доктора, который внес отрицательный вклад в Альфу Кронбаха, в ноль. Я придумал веса для оставшихся докторов, пропорциональные их положительному вкладу в Альфу Кронбаха.
Взвешивание по общим соотношениям предметов. Я вычисляю все общие корреляции предметов, а затем взвешиваю каждого доктора пропорционально размеру их корреляции.
Взвешивание по коэффициентам регрессии.
В одном я до сих пор не уверен, как сказать, какой метод работает «лучше», чем другой. Ранее я вычислял такие вещи, как показатель навыка Пирса, который подходит для случаев, когда есть двоичное предсказание и двоичный результат. Однако теперь у меня есть прогнозы в диапазоне от 0 до 7 вместо 0 к 1. Должен ли я конвертировать все взвешенные баллы> 3,50 в 1, и все взвешенные баллы <3,50 в 0?
Cancer (4)
до прогноза отсутствия рака с максимальной достоверностью No Cancer (4)
. Мы не можем сказать, что это одно No Cancer (3)
и Cancer (2)
то же, но мы можем сказать, что существует континуум, а средние точки в этом континууме - Cancer (1)
и No Cancer (1)
.
No Cancer (3)
этоCancer (2)
? Это немного упростит вашу проблему.