У меня есть база данных из приложения Facebook, и я пытаюсь использовать машинное обучение для оценки возраста пользователей на основе того, какие сайты Facebook им нравятся.
Есть три важных характеристики моей базы данных:
распределение по возрасту в моем обучающем наборе (в сумме 12 тыс. пользователей) перекошено в сторону более молодых пользователей (т.е. у меня 1157 пользователей в возрасте 27 лет и 23 пользователя в возрасте 65 лет);
у многих сайтов не более 5 пользователей (я отфильтровал сайты FB с менее чем 5 пользователями).
есть намного больше возможностей, чем образцов.
Итак, мои вопросы: какую стратегию вы бы предложили для подготовки данных для дальнейшего анализа? Должен ли я выполнить какое-то уменьшение размерности? Какой метод ML будет наиболее подходящим для использования в этом случае?
Я в основном использую Python, так что советы, специфичные для Python, будут высоко оценены.