Как статистически сравнить производительность классификаторов машинного обучения?

Основываясь на оценочной точности классификации, я хочу проверить, является ли один классификатор статистически лучше на базовом наборе, чем другой классификатор. Для каждого классификатора я выбираю образец обучения и тестирования случайным образом из базового набора, обучаю модель и тестирую модель. Я делаю это десять раз для каждого классификатора. Поэтому у меня есть десять оценок точности классификации для каждого классификатора. Как я статистически тест ли является лучше , чем классификатор $classifier 1$ $classifier 2$ на базовом наборе данных. Какой t-критерий подходит для использования?

machine-learning classification t-test

— энтропия
источник

Вы тестировали классификаторы на тех же образцах? то есть, sample1, c1 (sample1), c2 (sample1)? Или вы использовали разные образцы для каждого классификатора?

— Джон Мёллер

Парный t-тест будет уместным в этом сценарии.

— лари

@lewellen: точность является пропорцией: t-тесты обычно не подходят.

— cbeleites поддерживает Monica

@JohnMoeller: «разница в пропорциях» будет поисковым термином, независимым или зависимым, которого мы еще не знаем. Если это в паре: тест Макнемара. Я предполагаю, что t-критерий означает довольно маленький размер выборки, поэтому, возможно, нормальное приближение не очень хорошая идея. Я бы пошел на статистические методы для ставок и пропорций, чтобы посмотреть детали.

— cbeleites поддерживает Монику

@JohnMoeller: я говорю, что каждая точность является пропорцией. Если вы хотите сравнить их, используйте методы для «разности пропорций». Я расширил это в ответ, чтобы предотвратить бесконечные комментарии.

— cbeleites поддерживает Монику

Ответы:

Обзор и критика некоторых подходов к t-тесту даны в разделе «Выбор между двумя алгоритмами обучения на основе калиброванных тестов» , « Приблизительные статистические тесты для сравнения алгоритмов обучения с контролируемой классификацией» и « Сравнение классификаторов: ошибки, которых следует избегать, и рекомендуемый подход».

— энтропия
источник

Диттерих говорит: «Биномиальное распределение может быть хорошо аппроксимировано нормальным распределением для разумных значений

». До сих пор вы не сказали нам , что у вас есть разумный

. @ 30 случаев JohnMoeller ИМХО довольно немного для нормального приближения (по крайней мере, без каких-либо знаний о

n

$n$

n

$n$

p_{1}

$p_1$

p_{2}

$p_2$

— cbeleites поддерживает Монику

У меня есть как минимум 4000 записей на класс, доступных в базовом наборе данных, поэтому выборка, которую я выбираю, может быть чем-то меньшим, чем эта. Самый большой недостаток тестов на разницу пропорций состоит в том, что они игнорируют «внутреннюю вариацию алгоритма обучения». Я думаю, что это важно для классификатора, такого как нейронная сеть, которую я использую.

— энтропия

Что ж, это совершенно другая ситуация, чем то, с чем вмешался Джон Мюллер. Если вы подразумеваете нестабильность модели под «внутренним изменением»: вы можете измерить это. Я обновлю свой ответ.

— cbeleites поддерживает Монику

Чтобы уточнить, 30 - это количество раз, когда я выбираю наборы тестов / обучающих разделов, а не количество выбранных контрольных точек.

— Джон Мёллер

@JohnMoeller: извините, я совершенно не понял этого (происходит из области, где «образец» - это какой-то физический образец).

— cbeleites поддерживает Монику

У меня нет под рукой книги Флейса, так что все это IIRC.

Отвечая на вопрос @ JohnMoeller в комментариях на данный момент: оригинальный вопрос ИМХО неопровержим, как он есть.

Итак, предположим, что у меня 30 образцов, и я проверяю c1 и c2 на каждом образце и записываю точность для каждого образца.

В результате вы получите таблицу непредвиденных обстоятельств 2 x 2, в которой классификатор 1 будет правильным / неправильным, а классификатор 2 - правильным / неправильным. Что является отправной точкой для теста Макнемара . Так что это для парного сравнения, которое является более мощным, чем сравнение «независимых» пропорций (которые не являются полностью независимыми, если они получены случайным образом из одного и того же конечного образца).

Я не могу сейчас найти «мелкий шрифт» Макнемара, но 30 образцов - это немного. Таким образом, вам, возможно, даже придется перейти от точного критерия Макнемара к критерию Фишера [или к чему-то еще], который вычисляет биномиальные вероятности.

Средства пропорций:
не имеет значения, тестируете ли вы один и тот же классификатор 10х с 10 тестовыми случаями или один раз со всеми этими 100 случаями (таблица 2х2 просто подсчитывает все тестовые случаи).

Если 10 оценок точности для каждого классификатора в исходном вопросе получены путем случайного удержания или 10-кратной перекрестной проверки или 10-кратного отсутствия начальной загрузки, обычно предполагается, что 10 суррогатных моделей, рассчитанных для каждого классификатора, эквивалентны (= имеют одинаковую точность), поэтому результаты испытаний могут быть объединены *. Для 10-кратной перекрестной проверки вы затем предполагаете, что размер тестовой пробы равен общему количеству тестовых образцов. Что касается других методов, я не уверен: вы можете проверять один и тот же случай более одного раза. В зависимости от данных / проблемы / приложения, это не так много информации, как тестирование нового случая.

$k$

Поместите результаты повторного резюме в «правильную классификационную матрицу», где каждая строка соответствует одному случаю, а каждый столбец - одной из суррогатных моделей. Теперь дисперсия вдоль строк (удаление всех пустых элементов) обусловлена исключительно нестабильностью в суррогатных моделях. Разница в столбцах обусловлена конечным числом случаев, которые вы использовали для тестирования этой суррогатной модели. Скажи у тебя $k$ $n$ $\hat p = \frac{k}{n}$ $\sigma^2 (\hat p) = \sigma^2 (\frac{k}{n}) = \frac{p (1 - p)}{n}$

— cbeleites поддерживает Монику
источник

Ах хорошо. Это последнее, что проясняет ситуацию, по крайней мере, для меня. Спасибо.

— Джон Мёллер

Спасибо за ответ. Просто не понятно, по какой процедуре следовать. Вы говорите 10-кратную перекрестную проверку преформ на одном наборе данных. Измерьте точность на протяженной выборке, то есть вычислите матрицу путаницы 2x2. Сложите десять матриц путаницы 2x2. Предварительно проведите тест Макнемара на агрегированной матрице путаницы 2x2.

— энтропия

@entropy: 1. Таблица непредвиденных обстоятельств 2x2 не является матрицей путаницы. 2. каждый раз новая выборка против тестирования обоих классификаторов на одних и тех же данных тестирования: парные тесты более мощные (и здесь это возможно). Смотрите обновленный ответ.

— cbeleites поддерживает Монику

Извините за это, да, таблица непредвиденных обстоятельств. Правильно ли мне сказать, что тест МакНемара также переводится непосредственно в проблему мультикласса.

— энтропия

@cbeleites большое спасибо за ответ !!! Я думаю, что вы теперь точно ответили на мои вопросы. Тем не менее, я до сих пор не понимаю точную процедуру для подражания. Не могли бы вы остановиться на последнем абзаце?

— энтропия