У меня есть обученная модель логистической регрессии, которую я применяю к набору данных тестирования. Зависимая переменная является двоичной (булевой). Для каждого образца в наборе данных тестирования я применяю модель логистической регрессии для генерации% вероятности того, что зависимая переменная будет истинной. Затем я записываю, было ли истинное значение истинным или ложным. Я пытаюсь вычислить значение или Скорректированный как в модели линейной регрессии.R 2
Это дает мне запись для каждого образца в наборе тестирования, как:
prob_value_is_true acutal_value
.34 0
.45 1
.11 0
.84 0
.... ....
Мне интересно, как проверить точность модели. Моя первая попытка состояла в том, чтобы использовать таблицу непредвиденных обстоятельств и сказать «если prob_value_is_true
> 0,80, предположить, что фактическое значение истинно», а затем измерить соотношение правильных и неправильных классификаций. Но мне это не нравится, потому что мне кажется, что я просто оцениваю 0,80 как границу, а не точность модели в целом и всех prob_value_is_true
значений.
Затем я попытался просто посмотреть на каждое дискретное значение prob_value_is_true, в качестве примера, просматривая все выборки, где prob_value_is_true
= 0,34, и измеряя% из тех выборок, где истинное значение верно (в этом случае, идеальная точность была бы, если бы процент выборок это было правдой = 34%). Я мог бы создать оценку точности модели, суммируя разницу при каждом дискретном значении prob_value_is_true
. Но размеры выборки здесь представляют огромную проблему, особенно для экстремальных значений (около 0% или 100%), так что средние значения точных значений не являются точными, поэтому использование их для измерения точности модели не представляется правильным.
Я даже пытался создать огромные диапазоны, чтобы обеспечить достаточный размер выборки (0 -25, .25-.50, .50-.75, .75-1.0), но как измерить «добротность» этого% фактического значения, это ставит меня в тупик , Скажем, все образцы в диапазоне prob_value_is_true
от 0,25 до 0,50 имеют в среднем acutal_value
0,45. Это хорошо, так как в ассортименте? Плохо, так как это не около 37,5% (центр диапазона)?
Так что я застрял в том, что, по-видимому, должно быть простым вопросом, и надеюсь, что кто-то может указать мне на ресурс или метод для расчета точности точности для модели логистической регрессии.