Я пытаюсь создать набор данных из нескольких файлов журнала одного из наших продуктов.
Различные файлы журналов имеют свой собственный макет и собственный контент; Я успешно сгруппировал их, остался всего один шаг ...
Действительно, журнал «Сообщения» - лучшая информация. У меня нет исчерпывающего списка всех этих сообщений, и это плохая идея - создавать жесткий код, основанный на них, потому что этот список может меняться каждый день.
То, что я хотел бы сделать, это отделить идентификационный текст от текста значения (например: «Загруженный файл XXX» становится (идентификация: «Загруженный файл», значение: «XXX»)). К сожалению, этот пример прост, и в реальном мире существуют разные макеты и иногда несколько значений.
Я думал об использовании строковых ядер, но он предназначен для кластеризации ... и кластеризация здесь не применима (я не знаю количества различных типов сообщений и даже событий, хотя это будет слишком много).
Есть ли у вас какие-либо идеи?
Спасибо за вашу помощь.
PS: для тех, кто программирует, это может быть легче понять. Допустим, что код содержит как журналы printf ("blabla% s", "xxx") -> я бы хотел разделить "blabla" и "xxx"