Что вы думаете о применении методов машинного обучения, таких как случайные леса или штрафная регрессия (со штрафом L1 или L2 или их комбинацией) в небольших выборочных клинических исследованиях, когда цель состоит в том, чтобы выделить интересные предикторы в контексте классификации? Это не вопрос выбора модели, и я не спрашиваю, как найти оптимальные оценки переменного эффекта / важности. Я не планирую делать сильный вывод, а просто использую многомерное моделирование, следовательно, избегая тестирования каждого предиктора на предмет результатов, представляющих интерес, по одному и принимая во внимание их взаимосвязи.
Мне просто интересно, применялся ли такой подход в данном конкретном крайнем случае, скажем, 20-30 субъектов с данными по 10-15 категориальным или непрерывным переменным. Это не совсем случай и я думаю, что проблема здесь связана с количеством классов, которые мы пытаемся объяснить (которые часто плохо сбалансированы), и с (очень) малым n. Мне известна огромная литература по этой теме в контексте биоинформатики, но я не нашел никаких ссылок, связанных с биомедицинскими исследованиями с психометрически измеренными фенотипами (например, в нейропсихологических опросниках).
Любой намек или указатели на соответствующие документы?
Обновить
Я открыт для любых других решений для анализа данных такого типа, например, алгоритма C4.5 или его производных, методов правил ассоциации и любых методов анализа данных для контролируемой или полууправляемой классификации.