У меня нет под рукой книги Флейса, так что все это IIRC.
Отвечая на вопрос @ JohnMoeller в комментариях на данный момент: оригинальный вопрос ИМХО неопровержим, как он есть.
Итак, предположим, что у меня 30 образцов, и я проверяю c1 и c2 на каждом образце и записываю точность для каждого образца.
В результате вы получите таблицу непредвиденных обстоятельств 2 x 2, в которой классификатор 1 будет правильным / неправильным, а классификатор 2 - правильным / неправильным. Что является отправной точкой для теста Макнемара . Так что это для парного сравнения, которое является более мощным, чем сравнение «независимых» пропорций (которые не являются полностью независимыми, если они получены случайным образом из одного и того же конечного образца).
Я не могу сейчас найти «мелкий шрифт» Макнемара, но 30 образцов - это немного. Таким образом, вам, возможно, даже придется перейти от точного критерия Макнемара к критерию Фишера [или к чему-то еще], который вычисляет биномиальные вероятности.
Средства пропорций:
не имеет значения, тестируете ли вы один и тот же классификатор 10х с 10 тестовыми случаями или один раз со всеми этими 100 случаями (таблица 2х2 просто подсчитывает все тестовые случаи).
Если 10 оценок точности для каждого классификатора в исходном вопросе получены путем случайного удержания или 10-кратной перекрестной проверки или 10-кратного отсутствия начальной загрузки, обычно предполагается, что 10 суррогатных моделей, рассчитанных для каждого классификатора, эквивалентны (= имеют одинаковую точность), поэтому результаты испытаний могут быть объединены *. Для 10-кратной перекрестной проверки вы затем предполагаете, что размер тестовой пробы равен общему количеству тестовых образцов. Что касается других методов, я не уверен: вы можете проверять один и тот же случай более одного раза. В зависимости от данных / проблемы / приложения, это не так много информации, как тестирование нового случая.
К
Поместите результаты повторного резюме в «правильную классификационную матрицу», где каждая строка соответствует одному случаю, а каждый столбец - одной из суррогатных моделей. Теперь дисперсия вдоль строк (удаление всех пустых элементов) обусловлена исключительно нестабильностью в суррогатных моделях. Разница в столбцах обусловлена конечным числом случаев, которые вы использовали для тестирования этой суррогатной модели. Скажи у тебяКNп^= кNσ2( р^) = σ2( кN) = p ( 1 - p )N