Мне было поручено проанализировать журналы сервера нашего приложения, которые содержат журналы исключений, журналы событий журналов базы данных и т. Д. Я новичок в машинном обучении, мы используем Spark с упругим поиском и Sparks MLlib (или PredictionIO). Пример желаемого В результате можно было бы прогнозировать на основе собранных журналов исключений, чтобы можно было предсказать, какой пользователь с большей вероятностью вызовет следующее исключение и у какой функции (и кучу других вещей, чтобы отслеживать и улучшать оптимизацию приложения).
Я успешно смог вставить данные из ElasticSearch в Spark, создать DataFrames и отобразить необходимые данные. Я хотел бы знать, как мне подойти к аспекту машинного обучения моей реализации. Я просматривал статьи и статьи, в которых рассказывалось о предварительной обработке данных, обучении моделей данных и создании меток, а затем о создании прогнозов.
У меня есть вопросы
Как мне приблизиться к преобразованию выходных данных журнала в числовые векторы, которые можно использовать для наборов данных для обучения.
Какие алгоритмы я использую для обучения моего набора данных (с учетом ограниченных знаний, которые я собрал за последние пару дней, я думал о реализации линейной регрессии, пожалуйста, предложите, какая реализация будет лучшей)
Просто ищу предложения о том, как подойти к этой проблеме.
Благодарю вас.