У меня проблема классификации с сильно несбалансированными данными. Я прочитал, что снова и Undersampling, а также изменения стоимости на недостаточно категоричные результаты приведут к лучшей подгонке. До того, как это было сделано, тензорный поток классифицировал бы каждый вход как группу большинства (и получал бы точность более 90%, как бы бессмысленно это ни было).
Я заметил, что журнал обратного процента каждой группы составил лучший множитель, который я пробовал. Есть ли более стандартные манипуляции для функции стоимости? Правильно ли это реализовано?
from collections import Counter
counts = Counter(category_train)
weightsArray =[]
for i in range(n_classes):
weightsArray.append(math.log(category_train.shape[0]/max(counts[i],1))+1)
class_weight = tf.constant(weightsArray)
weighted_logits = tf.mul(pred, class_weight)
cost = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(weighted_logits, y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate).minimize(cost)