Я рассчитываю обучить классификатор, который будет различать объекты Type Aи Type Bобъекты с достаточно большим обучающим набором, состоящим примерно из 10 000 объектов, около половины из которых есть, Type Aа половина из них Type B. Набор данных состоит из 100 непрерывных элементов, детализирующих физические свойства ячеек (размер, средний радиус и т. Д.). Визуализация данных в парных диаграммах рассеяния и графиках плотности говорит нам о существенном совпадении в распределении раковых и нормальных клеток по многим признакам.
В настоящее время я изучаю случайные леса в качестве метода классификации для этого набора данных, и я вижу некоторые хорошие результаты. Используя R, случайные леса могут правильно классифицировать около 90% объектов.
Одна из вещей, которую мы хотим попробовать сделать, - создать своего рода «показатель достоверности», который будет определять, насколько мы уверены в классификации объектов. Мы знаем, что наш классификатор никогда не будет на 100% точным, и даже если будет достигнута высокая точность прогнозов, мы хотим, чтобы обученные специалисты идентифицировали, какие объекты действительно являются Type Aи чем Type B. Таким образом, вместо предоставления бескомпромиссных прогнозов Type Aили Type B, мы хотим представить оценку для каждого объекта, которая будет описывать, как Aили Bобъект. Например, если мы разработаем оценку в диапазоне от 0 до 10, оценка 0 может указывать, что объект очень похож на Type Aобъекты, а оценка 10 будет означать, что объект очень похож Type B.
Я думал, что мог бы использовать голоса в случайных лесах, чтобы придумать такой счет. Поскольку классификация в случайных лесах осуществляется большинством голосов в лесу сгенерированных деревьев, я предполагаю, что объекты, за которые проголосовали 100% деревьев, Type Aбудут отличаться от объектов, за которые проголосовали, скажем, 51% деревьев. быть Type A.
В настоящее время я попытался установить произвольный порог для доли голосов, которую объект должен получить, чтобы быть классифицированным как Type Aили Type B, и, если порог не пройден, он будет классифицирован как Uncertain. Например, если я навязываю условие, что 80% или более деревьев должны согласовать решение для прохождения классификации, я нахожу, что 99% предсказаний класса верны, но около 40% объектов привязаны как Uncertain.
Тогда имеет ли смысл воспользоваться информацией для голосования, чтобы оценить достоверность прогнозов? Или я иду в неправильном направлении со своими мыслями?