Когда правильное правило оценки является лучшей оценкой обобщения в условиях классификации?

Типичный подход к решению проблемы классификации состоит в том, чтобы идентифицировать класс моделей-кандидатов, а затем выполнить выбор модели с использованием некоторой процедуры, такой как перекрестная проверка. Обычно выбирается модель с наивысшей точностью или некоторая связанная функция, которая кодирует информацию о проблеме, например $\text{F}_\beta$ .

Предполагая, что конечной целью является создание точного классификатора (где определение точности опять-таки зависит от проблемы), в каких ситуациях лучше выполнить выбор модели, используя правильное правило оценки, а не что-то неподходящее, например, точность, точность, отзыв , так далее? Кроме того, давайте проигнорируем проблемы сложности модели и предположим, что априори мы считаем все модели одинаково вероятными.

Раньше я бы сказал никогда. Мы знаем, что в формальном смысле классификация является более простой проблемой, чем регрессия [1], [2], и мы можем получить более строгие оценки для первых, чем для более поздних ( ). Кроме того, существуют случаи, когда попытка точного сопоставления вероятностей может привести к неправильным границам принятия решений или переобучению . Однако, основываясь на разговоре здесь и результаты голосования сообщества в отношении таких вопросов, я сомнение этой точки зрения. $*$

Деврой, Люк. Вероятностная теория распознавания образов. Том 31. Springer, 1996. Раздел 6.7
Кернс, Майкл Дж. И Роберт Э. Шапире. Эффективное обучение без распределения вероятностных концепций. Основы информатики, 1990. Труды., 31-й ежегодный симпозиум на. IEEE, 1990.

Это утверждение может быть немного неаккуратным. Я конкретно имею в виду, что с учетом помеченных данных вида с и , кажется, Чтобы было легче оценить границы решения, чем точно оценить условные вероятности. $(*)$ $S = \{(x_1, y_1), \ldots, (x_n, y_n)\}$ $x_i \in \mathcal{X}$ $y_i \in \{1, \ldots, K\}$

— альт
источник

Думайте об этом как о сравнении между тестом / тестом Уилкоксона и медианным тестом настроения. Медианный тест использует оптимальную классификацию (выше или ниже медианы для непрерывной переменной), так что он только теряет $t$ информации в выборке. Дихотомизация в точке, отличной от медианы, потеряет гораздо больше информации. Использование неправильного правила оценки, такого как пропорция, классифицированная как «правильно», не более $\frac{1}{\pi}$ или около $\frac{2}{\pi}$ эффективных. Это приводит к выбору неправильных функций и поиску фиктивной модели. $\frac{2}{3}$

— Фрэнк Харрелл
источник

h

$h$

H

$H$

P_{(x, y) \sim D} (h (x) \neq y)

$P_{(x,y) \sim D}(h(x) \neq y)$

S

$S$

D

$D$

Проблема в том, что классификация (в отличие от прогнозирования риска) является ненужной дихотомией.

— Фрэнк Харрелл

Так безопасно ли предполагать, что ответ на этот вопрос никогда не будет, при условии, что целью является байесовское оптимальное принятие решения относительно некоторой функции полезности и не точно сопоставления вероятностей?

— Альт

P r o b (Y = 1 | X = x)

$Prob(Y = 1 | X=x)$

P r o b (Y = 1 | X > c)

$Prob(Y=1 | X > c)$

Хорошая дискуссия. В некоторых случаях, например, с некоторыми детекторами спама, вы можете получить «неопределенный». Меня больше волнует порог в таких проблемах, как медицинский диагноз и прогноз.

— Фрэнк Харрелл