Контекст: я разрабатываю систему, которая анализирует клинические данные для фильтрации неправдоподобных данных, которые могут быть опечатками.
Что я сделал до сих пор:
Для количественной оценки правдоподобия до сих пор я пытался нормализовать данные, а затем вычислить значение правдоподобия для точки p на основе ее расстояния до известных точек данных в наборе D (= обучающий набор):
С помощью этого количественного определения я могу затем выбрать порог, который отделяет правдоподобные данные от неправдоподобных данных. Я использую python / numpy.
Мои проблемы:
- Этот алгоритм не может обнаружить независимые измерения. В идеале, я мог бы поместить в алгоритм все, что я знаю о записи, и позволить ему самому обнаружить, что измерение X не влияет на достоверность записи.
- Алгоритм на самом деле не работает для дискретных значений, таких как логические значения или выбор входных данных. Они могут быть отображены на непрерывные значения, но нелогично, что Выбор 1 ближе к Выбору 2, чем к Выбору 3.
Вопрос:
Какие алгоритмы я должен рассмотреть для этой задачи? Кажется, что существует множество вариантов, включая подходы на основе ближайшего соседа, кластеризации и статистические подходы. Кроме того, у меня есть проблемы с поиском документов, которые касаются обнаружения аномалий этой сложности.
Любой совет высоко ценится.
[Изменить] Пример:
Предположим, что данные состоят из роста человека, веса человека и отметки времени - так что это 3D-данные. Вес и рост взаимосвязаны, но отметка времени полностью независима. Если я просто учту евклидовы расстояния, мне нужно будет выбрать небольшой порог, чтобы соответствовать большинству моих данных перекрестной проверки. В идеале алгоритм должен просто игнорировать измерение метки времени, потому что не имеет значения определять, является ли запись правдоподобной, поскольку метка времени никак не коррелирует с другими измерениями. Любая отметка времени вероятна.
С другой стороны, можно привести примеры, где отметка времени имеет значение. Например, это может быть то, что значение Y для признака X является правдоподобным при измерении до определенной даты, но не после определенной даты.