Насколько большой тренировочный набор необходим?


24

Существует ли общий метод, используемый для определения того, сколько обучающих выборок требуется для обучения классификатора (в данном случае LDA) для получения минимальной пороговой точности обобщения?

Я спрашиваю, потому что я хотел бы минимизировать время калибровки, обычно требуемое в интерфейсе мозг-компьютер.


2
user2030669, ответ @cbeleites ниже превосходен, но в качестве приблизительного правила: вам нужно как минимум в 6 раз больше случаев (выборок) в качестве функций.
BGreene

2
... в каждом классе. Я также видел рекомендации 5p и 3p / класс.
cbeleites поддерживает Монику

Ответы:


31

Поисковый термин, который вы ищете, - это «кривая обучения», которая дает (среднюю) производительность модели в зависимости от размера обучающей выборки.

Кривые обучения зависят от многих вещей, например

  • метод классификации
  • сложность классификатора
  • насколько хорошо классы разделены.

(Я думаю, что для двухклассового LDA вы можете получить некоторые теоретические расчеты мощности, но важнейшим фактом всегда является то, действительно ли ваши данные соответствуют предположению о «равном многовариантном нормальном COV». предположения и пересчет ваших уже существующих данных).

N

  • NNзнак равно
  • N

    N

Другим аспектом, который вам, возможно, придется принять во внимание, является то, что обычно недостаточно обучить хорошего классификатора, но вам также нужно доказать, что классификатор хорош (или достаточно хорош). Поэтому вам необходимо также спланировать размер выборки, необходимый для проверки с заданной точностью. Если вам нужно дать эти результаты в виде доли успехов среди стольких тестовых случаев (например, точность / точность / чувствительность / положительное прогностическое значение производителя или потребителя), а основная задача классификации довольно проста, для этого может потребоваться больше независимых случаев, чем обучение хорошая модель.

Как правило, для обучения размер выборки обычно обсуждается в зависимости от сложности модели (количество случаев: количество вариантов), тогда как абсолютные границы размера тестовой выборки могут быть заданы для требуемой точности измерения производительности.

Вот статья, в которой мы объяснили эти вещи более подробно, а также обсудили, как
построить кривые обучения: Beleites, C. и Neugebauer, U. и Bocklitz, T. и Krafft, C. и Popp, J .: Планирование размера выборки для классификации моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
принята рукопись на arXiv: 1211.1323

Это «тизер», показывающий простую проблему классификации (у нас на самом деле есть одно простое различие, подобное этому в нашей задаче классификации, но другие классы намного сложнее различить): бумага для планирования размера тизера

Мы не пытались экстраполировать на большие размеры обучающей выборки, чтобы определить, сколько еще учебных примеров необходимо, поскольку размеры тестовой выборки являются нашим узким местом, а большие размеры обучающей выборки позволили бы нам построить более сложные модели, поэтому экстраполяция сомнительна. Для тех наборов данных, которые у меня есть, я бы подходил к этому итеративно, измеряя кучу новых случаев, показывая, насколько все улучшилось, измеряя больше случаев и так далее.

Это может отличаться для вас, но статья содержит литературные ссылки на статьи, использующие экстраполяцию для более высоких размеров выборки, чтобы оценить требуемое количество выборок.


Позволит ли использование схемы регуляризации для моего LDA работать с меньшим обучающим набором?
Lunat1c

1
@ user2036690, для более экономной модели (меньше возможностей) потребуется меньше обучающих образцов. Схема регуляризации не будет влиять на количество необходимых выборок, если только уменьшит влияние менее важных функций. Какая-то рационализация функции может позволить меньший тренировочный набор
BGreene

1
Тем не менее, выбор данных на основе данных требует огромного количества выборок, поскольку каждое сравнение моделей фактически является статистическим тестом. Тем не менее, выбор функций с помощью экспертных знаний может помочь сразу. @BGreene: можете ли вы объяснить, почему регуляризация не может помочь уменьшить требования к размеру выборки (например, учитывая гребень на плохо обусловленной ковариационной матрице)? ИМХО, он не может творить чудеса, но может помочь.
cbeleites поддерживает Монику

Ну, не вдаваясь в эпическую дискуссию, я имел в виду формулировку регуляризации Фридмана, а не хребет или другую регрессивную ситуацию. Но в любом случае коэффициенты не сводятся к нулю, как в Лассо, поэтому размерность не изменяется, что в результате не повлияет на размер выборки, необходимый для того, чтобы избежать некорректной матрицы, как вы упоминали выше. Извинения, если это кажется бессвязным
BGreene

@BGreene: нет бессвязных, я спросил обратно. Интересный вопрос заключается в следующем: насколько снижается общая df / сложность, устанавливая коэффициенты в ноль управляемым данными способом. В любом случае, мы
погружаемся

4

Запрос о размере обучающей выборки подразумевает, что вы собираетесь хранить данные для проверки модели. Это нестабильный процесс, требующий огромного размера выборки. Сильная внутренняя проверка с помощью начальной загрузки часто предпочтительнее. Если вы выбираете этот путь, вам нужно рассчитать только один размер выборки. Как хорошо сказал @cbeleites, это часто оценка «переменные на кандидата», но вам нужно минимум 96 наблюдений, чтобы точно предсказать вероятность двоичного результата, даже если нет признаков, которые нужно исследовать [это для достижения 0,95 доверительный интервал погрешности 0,1 при оценке фактической предельной вероятности того, что Y = 1].

Для оценки точности важно учитывать правильные правила оценки (например, оценка Бриера и логарифмическая вероятность / отклонение). Также убедитесь, что вы действительно хотите классифицировать наблюдения, а не оценивать вероятность членства. Последнее почти всегда более полезно, так как допускает серую зону.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.