Я новичок в машинном обучении (также немного статистики), некоторое время изучал знания (алгоритмы обучения под наблюдением / без присмотра, соответствующие методы оптимизации, регуляризации, некоторые философии (такие как компромисс отклонения?)). Я знаю, что без какой-либо реальной практики я не смог бы получить глубокое понимание этих вещей машинного обучения.
Поэтому я начну с некоторой проблемы классификации с реальными данными, скажем, классификации рукописных цифр (MNIST). К моему удивлению, без какого-либо обучения / разработки функций точность достигает 0,97 с использованием классификатора случайного леса с необработанными значениями пикселей в качестве входных данных. Я также попробовал другие алгоритмы обучения, такие как SVM, LR с настраиваемыми параметрами.
Тогда я заблудился, это будет слишком легко или я что-то здесь упускаю? Просто выбрать алгоритм обучения из инструментария и настроить некоторые параметры?
Если бы это было все о машинном обучении на практике, то я бы потерял интерес к этой области. Я думал и читал некоторые блоги в течение нескольких дней, и я пришел к некоторым выводам:
Наиболее важной частью машинного обучения на практике является проектирование функций , то есть, учитывая данные, выясняется лучшее представление функций.
Какой алгоритм обучения использовать, также важен, также настройка параметров, но окончательный выбор больше касается экспериментов.
Я не уверен, что понимаю это правильно, надеясь, что кто-нибудь сможет исправить меня и дать мне несколько советов о машинном обучении на практике.