Думаю, стоило бы попробовать попробовать Random Forests ( randomForest ); некоторые ссылки были предоставлены в ответ на связанные вопросы: выбор функции для «окончательной» модели при выполнении перекрестной проверки в машинном обучении ; Можно ли сделать модели CART надежными? , Повышение / пакетирование делают их более стабильными, чем одна CART, которая, как известно, очень чувствительна к небольшим возмущениям. Некоторые авторы утверждали, что он работал так же, как и штрафные SVM или Grastent Boosting Machines (см., Например, Cutler et al., 2009). Я думаю, что они, безусловно, превосходят NN.
Boulesteix и Strobl дают хороший обзор нескольких классификаторов в Оптимальном выборе классификатора и отрицательного отклонения в оценке ошибок: эмпирическое исследование по многомерному прогнозированию (BMC MRM 2009 9: 85). Я слышал о другом хорошем исследовании на IV совещании EAM , которое должно быть рассмотрено в разделе Статистика в медицине ,
Жоау Мароко , Дина Сильва, Мануэла Геррейро, Александр де Мендонса. Превосходят ли случайные леса нейронные сети, машины опорных векторов и классификаторы дискриминантного анализа? Тематическое исследование эволюции деменции у пожилых пациентов с когнитивными жалобами
Мне также нравится пакет caret : он хорошо документирован и позволяет сравнивать прогностическую точность разных классификаторов на одном наборе данных. Он заботится об управлении обучающими / тестовыми образцами, точности вычислений и т. Д. В нескольких удобных для пользователя функциях.
Пакет glmnet от Friedman и др. Реализует штрафные GLM (см. Обзор в журнале статистического программного обеспечения ), поэтому вы остаетесь в хорошо известной среде моделирования.
В противном случае вы также можете найти классификаторы на основе правил ассоциации (см. Представление задач CRAN по машинному обучению или 10 лучших алгоритмов интеллектуального анализа данных для подробного ознакомления с некоторыми из них).
Я хотел бы упомянуть еще один интересный подход, который я планирую повторно реализовать в R (на самом деле это код Matlab), а именно: анализ дискриминантной переписки Эрве Абди. Хотя первоначально он был разработан для того, чтобы справляться с исследованиями небольшой выборки с большим количеством объясняющих переменных (в конечном итоге сгруппированных в когерентные блоки), он, по-видимому, эффективно сочетает классический DA с методами сокращения данных.
Ссылки
- Катлер А., Катлер Д.Р. и Стивенс Дж.Р. (2009). Древовидные методы , в анализе многомерных данных в исследованиях рака , Li, X. и Xu, R. (eds.), С. 83-101, Springer.
- Saeys Y., Inza I. и Larrañaga P. (2007). Обзор методов выбора признаков в биоинформатике . Биоинформатика, 23 (19): 2507-2517.