Оценка дисперсии в k-кратной перекрестной проверке

K-кратная перекрестная проверка может использоваться для оценки возможности обобщения данного классификатора. Могу ли я (или я должен) также вычислить объединенную дисперсию из всех проверочных прогонов, чтобы получить лучшую оценку ее дисперсии?

Если нет, то почему?

Я нашел документы, в которых действительно используется объединенное стандартное отклонение при выполнении перекрестной проверки . Я также нашел работы, явно заявляющие, что не существует универсальной оценки для дисперсии валидации . Тем не менее, я также нашел работы, показывающие некоторые оценки дисперсии для ошибки обобщения (я все еще читаю и пытаюсь понять это). Что люди на самом деле делают (или сообщают) на практике?

РЕДАКТИРОВАТЬ: Когда CV используется для измерения грубой ошибки классификации (т. Е. Либо образец помечен правильно, либо нет, например, истина или ложь), тогда может не иметь смысла говорить о объединенной дисперсии. Однако я имею в виду случай, когда в статистике, которую мы оцениваем, есть определенная дисперсия. Таким образом, для данного сгиба мы можем получить как значение для статистики, так и оценку дисперсии. Не представляется правильным отбрасывать эту информацию и рассматривать только среднюю статистику. И хотя я знаю, что могу построить оценку дисперсии, используя методы начальной загрузки (если я не очень ошибаюсь), при этом все равно будут игнорироваться отклонения сгиба и приниматься во внимание только статистические оценки (плюс для этого потребуется гораздо больше вычислительных мощностей).

machine-learning cross-validation

— Cesar
источник

Рассчитали ли вы дисперсию с учетом двух возможных способов увидеть, сильно ли они отличаются друг от друга?

— Зеферино

Да, я сделал. В некоторых экспериментах было изменение примерно на порядок величины между дисперсией и объединенной дисперсией для обучающих выборок. Там не было большой разницы для проверочных образцов. Большие изменения, казалось, были связаны с менее точными моделями.

— Цезарь

@Cesar: хорошее наблюдение: ваши модели очень нестабильны (большая разница между итерациями). В классификации (если классификатор не хуже, чем гадание), нестабильные прогнозы приведут к неправильным прогнозам. Иллюстративная мысль для этого заключается в том, что отклонение от правильного прогноза всегда будет в направлении «неверно», нет слишком высокого значения, которое можно было бы отменить при слишком низком.

— cbeleites поддерживает Монику

@cbeleites: разве этого не следует ожидать, так как большие изменения дисперсии происходят в основном в моделях с более высоким уровнем ошибок? Кстати, приятно обновить ваш ответ. Я все еще должен прочитать это более внимательно, но я уже очень благодарен. Спасибо.

— Цезарь

@ Сезар: Thx. Конечно, ожидается, что менее иллюстративный способ утверждать, что это формула дисперсии для пропорций (см. Мой ответ): чем выше экстремальная истинная частота ошибок, тем ниже дисперсия, максимальная дисперсия при уровне ошибок = 50%.

— cbeleites поддерживает Монику

Ответы:

Очень интересный вопрос, мне придется читать газеты, которые вы даете ... Но, может быть, это заставит нас в направлении ответа:

Я обычно решаю эту проблему очень прагматично: я повторяю перекрестную проверку в k-кратном порядке с новыми случайными разбиениями и вычисляю производительность как обычно для каждой итерации. В этом случае общие тестовые образцы одинаковы для каждой итерации, и различия зависят от различий в данных.

Это я сообщаю, например, как 5–95-й процентиль наблюдаемой производительности по отношению к. обмен до образцов на новые образцы и обсуждение их как меры нестабильности модели. $\frac{n}{k} - 1$

Примечание: я в любом случае не могу использовать формулы, которым нужен размер выборки. Поскольку мои данные имеют кластерную или иерархическую структуру (многие похожие, но не повторные измерения одного и того же случая, обычно несколько [сотен] разных мест одного и того же образца), я не знаю эффективного размера выборки.

сравнение с начальной загрузкой:

итерации используют новые случайные разбиения.
Основное отличие заключается в повторной выборке с (начальной загрузкой) или без замены (cv).
вычислительные затраты примерно одинаковы, так как я бы выбрал не итераций cv нет итераций начальной загрузки / k, то есть вычислил бы то же общее количество моделей. $\approx$
bootstrap имеет преимущества перед cv с точки зрения некоторых статистических свойств (асимптотически правильно, возможно, вам нужно меньше итераций, чтобы получить хорошую оценку)
однако, с cv у вас есть преимущество в том, что вы гарантированно
- количество различных обучающих образцов одинаково для всех моделей (важно, если вы хотите рассчитать кривые обучения)
- каждый образец тестируется ровно один раз в каждой итерации
некоторые методы классификации отбрасывают повторные выборки, поэтому при начальной загрузке нет смысла

Дисперсия для производительности

краткий ответ: да, имеет смысл говорить о дисперсии в ситуации, когда существуют только {0,1} результаты.

Посмотрите на биномиальное распределение (k = успехи, n = тесты, p = истинная вероятность успеха = среднее k / n):

$\sigma^2 (k) = np(1-p)$

Дисперсия пропорций (таких как частота попаданий, частота ошибок, чувствительность, TPR, ..., момента я буду использовать и для наблюдаемого значения в тесте) - это тема, которая заполняет целые книги .. , $p$ $\hat p$

Fleiss: статистические методы для показателей и пропорций
Forthofer и Lee: Биостатистика имеет хорошее представление.

Теперь и поэтому: $\hat p = \frac{k}{n}$

$\sigma^2 (\hat p) = \frac{p (1-p)}{n}$

Это означает, что неопределенность измерения эффективности классификатора зависит только от истинной производительности p тестируемой модели и количества тестируемых образцов.

В перекрестной проверке вы принимаете

что k «суррогатных» моделей имеют ту же истинную производительность, что и «настоящая» модель, которую вы обычно строите из всех образцов. (Нарушение этого предположения является известным пессимистическим уклоном).
что k «суррогатных» моделей имеют одинаковую истинную производительность (эквивалентны, имеют стабильные прогнозы), поэтому вы можете объединять результаты k тестов.
Конечно, тогда можно объединять не только k «суррогатных» моделей одной итерации cv, но и ki-модели i-итераций k-кратного cv.

Зачем повторять?

Главное, что говорят итерации, - нестабильность модели (прогнозирования), т. Е. Дисперсия прогнозов разных моделей для одной и той же выборки.

Вы можете напрямую сообщать о нестабильности как, например, дисперсию в прогнозировании данного тестового примера, независимо от того, является ли прогноз корректным или немного более косвенным, как дисперсию для различных итераций cv. $\hat p$

И да, это важная информация.

Теперь, если ваши модели абсолютно стабильны, все или будут производить точно такой же прогноз для данной выборки. Другими словами, все итерации будут иметь одинаковый результат. Дисперсия оценки не была бы уменьшена итерацией (предполагая, что ). В этом случае предположение 2 из вышеупомянутого выполнено, и вы подчиняетесь только где n - общее количество образцов, протестированных во всех K складок сорта. В этом случае итерации не нужны (кроме как для демонстрации стабильности). $n_{bootstrap}$ $k \cdot n_{iter.~cv}$ $n - 1 \approx n$ $\sigma^2 (\hat p) = \frac{p (1-p)}{n}$

Затем можно построить доверительные интервалы для истинной производительности из наблюдаемого отсутствия успехов в тестах. Таким образом, строго говоря, нет необходимости сообщать о неопределенности дисперсии, если сообщается и . Однако в моей области не многие люди знают об этом или даже имеют интуитивное представление о том, насколько велика неопределенность с размером выборки. Так что я бы рекомендовал сообщить об этом в любом случае. $p$ $k$ $n$ $\hat p$ $n$

Если вы наблюдаете нестабильность модели, объединенное среднее является лучшей оценкой истинной производительности. Дисперсия между итерациями является важной информацией, и вы можете сравнить ее с ожидаемой минимальной дисперсией для тестового набора размера n с истинной средней производительностью по всем итерациям.

— cbeleites поддерживает Монику
источник

Вы повторяете с новыми случайными разбиениями, с заменой, как в начальной загрузке? Или вы повторяете перекрестную проверку k-fold несколько раз? Это интересно, потому что это не похоже на бутстрап, но может работать так. Но сколько репликаций вы выполняете? Это может стать очень дорогостоящим легко.

— Цезарь

@Cesar: это очень похоже на загрузку, смотрите расширенный ответ.

— cbeleites поддерживает Монику

Каким образом CV оставляет «одинаковое количество отдельных обучающих образцов» для каждой модели, а самозагрузка - нет? Я не слежу, так как резюме "наборы данных репликации" представляет собой другую комбинацию наблюдений - как они могут обеспечить такое же количество отдельных наблюдений? Возможно, вы предполагаете, что каждая запись отличается от оригинального тренировочного набора?

— вероятностная

@probabilityislogic: наборы данных репликации CV меньше исходного набора данных. Таким образом, различные такие копии могут быть получены даже при повторной выборке без замены. Повторная выборка с заменой позволяет рисовать одну и ту же запись несколько раз. Таким образом, количество уникальных записей может варьироваться. Да, я предполагаю, что оригинальные записи различны. Чтобы сохранить статистическую независимость, которая имеет решающее значение для многих приложений, необходимо выполнить повторную выборку на самом высоком уровне иерархии данных. (Например, я работаю с данными о пациентах с сотнями строк для каждого пациента =>

— повторная выборка

Проблема с оценкой дисперсии (а затем и с доверительными интервалами) состоит в том, что модели перекрестной проверки и тесты (в течение итераций) не являются независимыми: в итоге у вас есть только независимых случаев. Модели вообще не должны быть независимыми - фактически, обычная оценка CV предполагает, что они равны. Но независимо от того, сколько у вас итераций, каждый случай был проверен уже на первой итерации. И всегда возникает вопрос, насколько репрезентативен ваш маленький набор данных.

n

$n$

— cbeleites поддерживает Монику

Помните, что CV является только оценкой и никогда не может представлять «реальную» ошибку обобщения В зависимости от размера вашей выборки (который будет влиять на ваше количество сгибов или размер сгибов) вы можете быть сильно ограничены в своей способности вычислять любые оценки параметров распределения ошибки обобщения. По моему мнению (и я видел это в различных учебниках «Обнаружение знаний с помощью машин опорных векторов» -Лутц Хамел), вы можете сделать несколько вариантов начальной загрузки CV, чтобы оценить распределение ошибки обобщения, но стандартное 10- 1 (например) после выключения резюме не даст вам достаточно данных, чтобы сделать выводы об истинной ген-ошибке. Начальная загрузка требует, чтобы вы взяли несколько образцов с заменой из вашего обучения / теста / val, эффективно выполняя несколько (скажем, 1000 или около того) 10-1 (или что-то еще) CV тестов. Затем вы берете выборочное распределение средних значений для каждого теста CV как оценку распределения выборки среднего значения для совокупности ошибок CV, и из этого вы можете оценить параметры распределения, то есть среднее значение, медиана, стандартное отклонение max max Q1 Q3 и т. Д. Это немного работы, и, на мой взгляд, это действительно необходимо, если ваше приложение достаточно важно / рискованно, чтобы оправдать дополнительную работу. то есть, возможно, в маркетинговой среде, где бизнес просто счастлив быть лучше, чем случайный, тогда, возможно, не требуется НО, если вы пытаетесь оценить реакцию пациента на лекарства высокого риска или прогнозировать ожидаемый доход от крупных инвестиций, вы, возможно, будете разумны для его осуществления.

— Клэнси
источник

Это оценка, но так можно сказать практически о любом использовании статистики. Однако, когда у каждого сгиба уже есть оценка отклонения, кажется неправильным отбрасывать эту информацию. Я обновил вопрос с уточнениями.

— Цезарь

Возможно, я не понимаю. Я не очень понимаю, почему вы мучаетесь из-за разницы в один раз?

— Clancy

Запуск одного 10-кратного резюме не совсем дешево для конкретной проблемы, которую я пытаюсь решить. Вы правы, я мог бы оценить дисперсию, взяв несколько образцов с заменой, как при начальной загрузке. Но брать большое количество резюме, даже несколько сотен, было бы очень непрактично в моем случае. Я ищу способ (если таковой имеется) для комбинирования индивидуальных оценок дисперсии сгиба, чтобы я мог, по крайней мере, уменьшить количество необходимых загрузочных выборок. И кроме того, любопытство.

— Цезарь

Ах хорошо. Возможно, тогда дисперсия каждого из 10-кратного среднего значения от общего среднего значения будет случайной величиной, выбранной из распределения выборки для дисперсий ... (которое я думаю, является chi sq dist или F dist)

— клэнси

@clancy: с 10-1 ты имеешь в виду cv-разлочка для n = 10 образцов? Обратите внимание, что для итераций типа "оставь один раз" нет смысла.

— cbeleites поддерживает Монику