Контролируемое обучение с неопределенными данными?

11

Существует ли существующая методология применения контролируемой модели обучения к неопределенному набору данных? Например, скажем, у нас есть набор данных с классами A и B:

+----------+----------+-------+-----------+
| FeatureA | FeatureB | Label | Certainty |
+----------+----------+-------+-----------+
|        2 |        3 | A     | 50%       |
|        3 |        1 | B     | 80%       |
|        1 |        1 | A     | 100%      |
+----------+----------+-------+-----------+

Как мы можем обучить модели машинного обучения на этом? Спасибо.

machine-learning supervised-learning

— hyperdo
источник

11

Как числовое качество, которое вы приписываете своим данным, я думаю, что эта «уверенность», безусловно, могла бы использоваться как вес. Более высокие оценки «достоверности» увеличивают вес, который имеет элемент данных для функции принятия решения, что имеет смысл.

Многие контролируемые алгоритмы обучения поддерживают веса, поэтому вам просто нужно найти взвешенную версию той, которую вы намереваетесь использовать.

— поджигатель
источник

2

(+1) А поскольку, по существу, веса будут выступать в роли «копий» точек, возможно, любой алгоритм может быть включен в взвешенную версию таким образом, например, в примере OP, передать в [5,8,10] копии 3 балла, отражающие их уверенность в [50,80,100]%. (Это никогда не должно быть действительно необходимо, как если бы это можно было сделать в принципе, должна быть соответствующая взвешенная версия алгоритма.)

— GeoMatt22

5

$1$ $A$ $0$ $B$ $0.6$ $A$ $A$ $B$ $0$ $1$

$\log \frac{p(A|x)}{p(B|x)} = \log \frac{p(A|x)}{1-P(A|x)}$ $\beta_0 + \beta_1^T x$ $p(A|x)$ $A$ $\beta_0 + \beta_1^T x >0$ $B$

— Бэтмен
источник

Итак, если у вас была проблема классификации с несколькими классами, вы могли бы установить свои цели как векторы с длиной, равной количеству классов?

— гипердо

Количество классов -1, если предположить сумму, равную 100%; Пример похож на логистическую регрессию. Многие классификаторы дают оценки (например, оценки p (class | data) по некоторой модели). Все, что предлагает этот ответ, состоит в том, что вместо того, чтобы предсказывать классы напрямую, рассматривайте достоверности как баллы и вместо этого прогнозируйте их. Затем сделайте что-нибудь с баллами.

— Бэтмен