Обратите внимание, что я делаю все в R.
Проблема заключается в следующем:
В основном, у меня есть список резюме (резюме). Некоторые кандидаты будут иметь опыт работы раньше, а некоторые нет. Цель здесь состоит в том, чтобы: основываясь на тексте их резюме, я хочу классифицировать их по различным секторам работы. Я особенно в тех случаях, когда кандидаты не имеют никакого опыта / является студентом, и я хочу сделать прогноз, чтобы классифицировать, какие сферы работы этот кандидат наиболее вероятно будет принадлежать после окончания учебы.
Вопрос 1: Я знаю алгоритмы машинного обучения. Тем не менее, я никогда не делал НЛП раньше. Я наткнулся на распределение скрытого Дирихле в Интернете. Однако я не уверен, что это лучший подход к решению моей проблемы.
Моя оригинальная идея: сделать это контролируемой проблемой обучения . Предположим, у нас уже есть большой объем помеченных данных, что означает, что мы правильно пометили секторы работ для списка кандидатов. Мы дорабатываем модель с использованием алгоритмов ML (т.е. ближайшего соседа ...) и вводим эти немеченые данные , которые являются кандидатами, которые не имеют опыта работы / являются студентами, и пытаемся предсказать, к какому сектору работы они будут принадлежать.
Обновление Вопрос 2: Будет ли хорошей идеей создать текстовый файл, извлекая все в резюме и распечатывать эти данные в текстовом файле, чтобы каждое резюме ассоциировалось с текстовым файлом, который содержит неструктурированные строки, а затем мы применять методы анализа текста к текстовым файлам и сделать данные структурированными или даже создать частотную матрицу терминов, используемых из текстовых файлов? Например, текстовый файл может выглядеть примерно так:
I deployed ML algorithm in this project and... Skills: Java, Python, c++ ...
Это то, что я имел в виду под «неструктурированным», то есть сворачивая все в одну строку.
Это неправильный подход? Пожалуйста, поправьте меня, если вы думаете, что мой подход неверен.
Вопрос 3: хитрая часть: как определить и извлечь ключевые слова ? Используя tm
пакет в R? на каком алгоритме основан tm
пакет? Должен ли я использовать алгоритмы НЛП? Если да, на какие алгоритмы мне следует обратить внимание? Пожалуйста, укажите мне несколько хороших ресурсов, чтобы посмотреть на них.
Любые идеи будут великолепны.