Я не математик. Я искал в Интернете о KL Divergence. Я узнал, что дивергенция KL измеряет потерянную информацию, когда мы приближаемся к распределению модели относительно входного распределения. Я видел это между любыми двумя непрерывными или дискретными распределениями. Можем ли мы сделать это между непрерывным и дискретным или наоборот?