Я строю нейронную сеть, чтобы предсказать ценность произведения искусства с широким диапазоном входных данных (размер, художественная среда и т. Д.), И я хотел бы также включить автора в качестве входных данных (это часто огромный фактор стоимости одного произведения искусства).
Моя текущая проблема заключается в том, что имя автора не является идеальным числовым вводом для NN (т. Е. Если я просто закодирую каждого автора с возрастающим целочисленным значением, я буду косвенно назначать большее значение авторам далее по списку -_-) , Я думал о том, чтобы создать отдельные входные данные для всех авторов в моем наборе данных, а затем просто использовать одну горячую кодировку, чтобы лучше представить входные данные для NN.
Однако этот подход сталкивается с проблемой, когда автор, который не включен в мои данные обучения, используется в качестве входных данных для NN (т.е. новый автор). Я могу обойти это с помощью поля ввода «другой автор», но я боюсь, что это не будет точным, поскольку я бы не обучил NN для этого ввода (все произведения искусства с оценкой имеют автора).
Я не до конца продумал это, но я подумал о том, чтобы, возможно, обучить 2 NN, один для оценки без автора и один для оценки у автора, чтобы убедиться, что у меня достаточно данных для обучения для «безаварийной оценки», чтобы она все еще была достаточно точной.
Я все еще пытаюсь осмыслить лучшую архитектуру NN, прежде чем застряну в реализации, поэтому, если у кого-то есть какие-либо предложения / комментарии, я был бы очень благодарен!
Заранее спасибо Винс
PS Я делаю это как небольшой конкурс с другом, чтобы проверить NN против традиционных коммерческих методов оценки. Пожалуйста, помогите мне получить победу в области компьютерных наук над актуарной наукой.