Поисковый термин, который вы ищете, - это «кривая обучения», которая дает (среднюю) производительность модели в зависимости от размера обучающей выборки.
Кривые обучения зависят от многих вещей, например
- метод классификации
- сложность классификатора
- насколько хорошо классы разделены.
(Я думаю, что для двухклассового LDA вы можете получить некоторые теоретические расчеты мощности, но важнейшим фактом всегда является то, действительно ли ваши данные соответствуют предположению о «равном многовариантном нормальном COV». предположения и пересчет ваших уже существующих данных).
N
Другим аспектом, который вам, возможно, придется принять во внимание, является то, что обычно недостаточно обучить хорошего классификатора, но вам также нужно доказать, что классификатор хорош (или достаточно хорош). Поэтому вам необходимо также спланировать размер выборки, необходимый для проверки с заданной точностью. Если вам нужно дать эти результаты в виде доли успехов среди стольких тестовых случаев (например, точность / точность / чувствительность / положительное прогностическое значение производителя или потребителя), а основная задача классификации довольно проста, для этого может потребоваться больше независимых случаев, чем обучение хорошая модель.
Как правило, для обучения размер выборки обычно обсуждается в зависимости от сложности модели (количество случаев: количество вариантов), тогда как абсолютные границы размера тестовой выборки могут быть заданы для требуемой точности измерения производительности.
Вот статья, в которой мы объяснили эти вещи более подробно, а также обсудили, как
построить кривые обучения: Beleites, C. и Neugebauer, U. и Bocklitz, T. и Krafft, C. и Popp, J .: Планирование размера выборки для классификации моделей. Anal Chim Acta, 2013, 760, 25-33.
DOI: 10.1016 / j.aca.2012.11.007
принята рукопись на arXiv: 1211.1323
Это «тизер», показывающий простую проблему классификации (у нас на самом деле есть одно простое различие, подобное этому в нашей задаче классификации, но другие классы намного сложнее различить):
Мы не пытались экстраполировать на большие размеры обучающей выборки, чтобы определить, сколько еще учебных примеров необходимо, поскольку размеры тестовой выборки являются нашим узким местом, а большие размеры обучающей выборки позволили бы нам построить более сложные модели, поэтому экстраполяция сомнительна. Для тех наборов данных, которые у меня есть, я бы подходил к этому итеративно, измеряя кучу новых случаев, показывая, насколько все улучшилось, измеряя больше случаев и так далее.
Это может отличаться для вас, но статья содержит литературные ссылки на статьи, использующие экстраполяцию для более высоких размеров выборки, чтобы оценить требуемое количество выборок.