Есть много ситуаций, когда вы можете обучить несколько разных классификаторов или использовать несколько разных методов извлечения признаков. В литературе авторы часто приводят среднюю ошибку классификации по набору случайных разбиений данных (т. Е. После дважды вложенной перекрестной проверки), а иногда также дают отклонения по ошибке по разбиениям. Однако одного этого недостаточно, чтобы сказать, что один классификатор значительно лучше другого. Я видел много разных подходов к этому - с использованием критерия хи-квадрат, t-критерия, ANOVA с последующим тестированием и т. Д.
Какой метод следует использовать для определения статистической значимости? В основе этого вопроса лежит вопрос: какие предположения мы должны сделать в отношении распределения результатов классификации?