Предположим, у вас есть набор данных из непрерывного распределения с плотностью поддерживаемой на которая неизвестна, но довольно велико, поэтому плотность ядра (например) оценка, , довольно точна. Для конкретного приложения мне нужно преобразовать наблюдаемые данные в конечное число категорий, чтобы получить новый набор данных с подразумеваемой функцией массы .
Простым примером будет когда и когда . В этом случае индуцированная функция массы будет
Двумя «параметрами настройки» здесь являются число групп и вектор длины порогов . Обозначим индуцированную функцию массы через .
Я хотел бы, чтобы процедура отвечала, например, на «Какой лучший выбор чтобы увеличение числа групп до (и выбор там оптимального ) дало бы незначительное улучшение?» , Я чувствую, что, возможно, можно создать тестовую статистику (возможно, с разницей в дивергенции KL или чем-то подобном), распределение которой можно получить. Есть идеи или соответствующая литература?
Редактировать: я равномерно распределил временные измерения непрерывной переменной и использую неоднородную цепь Маркова для моделирования временной зависимости. Честно говоря, с цепями дискретных состояний Маркова работать гораздо проще, и это моя мотивация. Наблюдаемые данные являются процентами. В настоящее время я использую специальную дискретизацию, которая выглядит очень хорошо для меня, но я думаю, что это интересная проблема, где возможно формальное (и общее) решение.
Редактировать 2: Фактически минимизация расхождения KL была бы эквивалентна не дискретизации данных вообще, так что идея полностью отсутствует. Я отредактировал тело соответственно.