Для нашего окончательного курсового проекта в Data Science мы предложили следующее:
Предоставляя набор данных Amazon Reviews , мы планируем разработать алгоритм (который примерно основан на персонализированном PageRank), который определяет стратегическую позицию для размещения рекламы на Amazon. Например, на Amazon есть миллионы продуктов. И набор данных дает вам представление о том, какие продукты связаны, какие продукты были объединены, просмотрены вместе и т. Д. (Мы можем построить график с этой информацией, также просматриваемой и покупаемой). Он также дает вам отзывы, связанные с каждым продуктом в течение 14 лет. Используя всю эту информацию, мы будем оценивать / оценивать продукты на Amazon. Теперь вы являетесь продавцом на Amazon и хотите улучшить трафик на страницу своего продукта. Наш алгоритм помогает вам определить стратегические позиции на графике, где вы можете разместить свое объявление, чтобы вы могли получить максимальный трафик.
Теперь вопрос нашего профессора: как вы проверите свой алгоритм без реальных пользователей? Мы сказали-
Мы можем моделировать фиксированный набор пользователей. Некоторые пользователи следуют
also_bought
иalso_viewed
ссылаются на третий переход чаще, чем первый или пятый переход. Там поведение пользователей нормально распределено. Некоторые другие пользователи едва ли переходят за пределы первого прыжка. Этот набор поведения пользователей экспоненциально распределен.
Наш Профессор сказал: «Какой бы ни была рассылка пользователей, пользователи переходят по ссылкам на похожие продукты. Ваш алгоритм ранжирования также учитывает сходство ч / б 2 продуктов для ранжирования продуктов. Таким образом, использование этого алгоритма проверки является своего рода cheating
. Приходите с другим поведением пользователя, более реалистичным и ортогональным алгоритму.
Любые идеи о том, как моделировать поведение пользователей? Я рад предоставить более подробную информацию о алгоритме.