В этом семестре у меня есть курс по машинному обучению, и профессор попросил нас найти реальную проблему и решить ее одним из методов машинного обучения, представленным в классе:
- Деревья решений
- Искусственные нейронные сети
- Опорные векторные машины
- Обучение на основе экземпляров ( кНН , LWL )
- Байесовские сети
- Усиление обучения
Я один из поклонников stackoverflow и stackexchange и знаю, что дампы баз данных этих веб-сайтов предоставляются публике, потому что они потрясающие! Я надеюсь, что смогу найти хорошую задачу машинного обучения для этих баз данных и решить ее.
Моя идея
Одна мысль пришла мне в голову - предсказывать теги для вопросов на основе введенных слов в теле вопроса. Я думаю, что байесовская сеть является правильным инструментом для изучения тегов для вопроса, но нуждается в дополнительном исследовании. В любом случае, после фазы изучения, когда пользователь заканчивает вводить вопрос, ему следует предложить некоторые теги.
Пожалуйста, скажите мне :
Я хочу спросить статистику сообщества как опытных людей о ML два вопроса:
Как вы думаете, предложение тегов, по крайней мере, является проблемой, которую можно решить? Есть ли у вас какие-либо советы по этому поводу? Я немного волнуюсь, потому что stackexchange пока не реализует такую функцию.
У вас есть какая-нибудь другая / лучшая идея для проекта ML, основанного на базе данных stackexchange? Я считаю , что очень трудно найти что - то узнать из баз данных stackexchange.
Рассмотрение ошибок базы данных. Я хотел бы отметить, что хотя базы данных огромны и имеют много экземпляров, они не идеальны и подвержены ошибкам. Очевидным является возраст пользователей, которые ненадежны. Даже выбранные теги для вопроса не являются 100% правильными. В любом случае, мы должны учитывать процент правильности данных при выборе проблемы.
Рассмотрение самой проблемы: мой проект не должен быть о data-mining
чем-то вроде этого. Это просто должно быть применение методов ML в реальном мире.