Применяя ответ Эрика к Майклу :
Вы можете сделать то же самое мышление, на которое ссылается Эрик при выборе показателя эффективности.
Я считаю полезным ссылаться на различные такие меры по вопросам, на которые они отвечают (здесь, на языке медицинской диагностики, с которым я наиболее знаком - но, возможно, вы можете просто заменить пациента текстом и заболеванием спамом ;-)):
Чувствительность: учитывая, что у пациента действительно есть заболевание, насколько вероятно, чтобы классификатор это понял?
Специфичность: учитывая, что у пациента действительно нет заболевания, насколько вероятно, чтобы классификатор это понял?
Положительная прогностическая ценность: учитывая, что классификатор утверждает, что пациент болен, насколько вероятна болезнь у пациента?
Отрицательная прогностическая ценность: учитывая, что классификатор утверждает, что пациент не болен, насколько вероятно, что у пациента действительно нет заболевания?
Как видите, предсказательные значения - это то, что действительно интересует врачей и пациентов. Однако почти каждый характеризует свой классификатор по чувствительности и специфичности. Причина в том, что прогностические значения должны принимать во внимание распространенность заболевания, и это может сильно различаться (порядки!) Для разных типов пациентов.
Больше по теме на ваш вопрос:
Могу поспорить, вы правы в беспокойстве.
Взяв оба сценария Эрика в пример:
Вот независимые тестовые образцы:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(обратите внимание, что этот тест был двусторонним, предполагая, что два классификатора были бы опубликованы, даже если бы результаты были наоборот)
Вот наилучшая возможная ситуация: парный тест, и новый классификатор подходит для всех выборок, старый тоже подходит, плюс еще 10:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(значение р остается ниже магического 0,05, если не более 10 образцов из 1000 были по-разному предсказаны двумя классификаторами).
Даже если p-значения являются правильным ответом на неправильный вопрос, есть признаки того, что это своего рода трудное место.
Однако, принимая во внимание обычную научную практику, т. Е. Неизвестное (неопубликованное) количество новых функций, было протестировано, и была опубликована только та, которая работала немного лучше, место становится еще более узким. И затем, 80% классификатор может быть просто преемником 79% классификатора ...
Если вам нравится читать по-немецки, есть несколько действительно хороших книг Бек-Борнхольда и Дуббена. Если я правильно помню, Mit a Wahrscheinlichkeit grenzender Sicherheit очень хорошо обсуждает эти проблемы. (Я не знаю, существует ли английское издание, довольно буквальный перевод названия: «С уверенностью, граничащей с вероятностью»)