Я некоторое время работал над машинным обучением и биоинформатикой, и сегодня у меня был разговор с коллегой по основным общим вопросам интеллектуального анализа данных.
Мой коллега (который является экспертом по машинному обучению) сказал, что, по его мнению, возможно, наиболее важный практический аспект машинного обучения заключается в том, как понять, собрали ли вы достаточно данных для обучения своей модели машинного обучения .
Это утверждение удивило меня, потому что я никогда не придавал такого значения этому аспекту ...
Затем я искал дополнительную информацию в Интернете и обнаружил, что этот пост на FastML.com сообщает о том, что вам нужно примерно в 10 раз больше экземпляров данных, чем имеется функций .
Два вопроса:
1 - Действительно ли этот вопрос особенно актуален в машинном обучении?
2 - Правило 10 раз работает? Есть ли другие соответствующие источники по этой теме?