Итак, у меня есть матрица размером около 60 x 1000. Я рассматриваю ее как 60 объектов с 1000 объектов; 60 объектов сгруппированы в 3 класса (a, b, c). 20 предметов в каждом классе, и мы знаем истинную классификацию. Я хотел бы провести обучение под наблюдением на этом наборе из 60 обучающих примеров, и меня интересует как точность классификатора (и связанные с ним метрики), так и выбор функций для 1000 функций.
Во-первых, как моя номенклатура?
Теперь реальный вопрос:
Я мог бы бросить случайные леса на него, как указано, или любое количество других классификаторов. Но есть одна тонкость - меня действительно волнует только дифференциация класса c от классов a и b. Я мог бы объединить классы a и b, но есть ли хороший способ использовать априорные знания о том, что все не относящиеся к c объекты, вероятно, образуют два отдельных кластера? Я бы предпочел использовать случайные леса или их вариант, поскольку было показано, что они эффективны на данных, похожих на мои. Но я мог быть убежден попробовать некоторые другие подходы.