Буду очень признателен за совет по следующей проблеме:
У меня есть большой непрерывный набор данных с большим количеством нулей (~ 95%), и мне нужно найти лучший способ проверить, являются ли некоторые его подмножества «интересными», то есть, кажется, не взяты из того же дистрибутива, что и остальные. Нулевая инфляция происходит из-за того, что каждая точка данных основана на измерении счетчика с истинными и выборочными нулями, но результат является непрерывным, поскольку учитывает некоторые другие параметры, взвешенные по счетчику (и поэтому, если счетчик равен нулю, результат тоже ноль).
Каков был бы лучший способ сделать это? У меня есть ощущение, что тесты Вилкоксона и даже перестановки методом грубой силы неадекватны, поскольку они искажаются этими нулями. Сосредоточение внимания на ненулевых измерениях также удаляет истинные нули, которые чрезвычайно важны. Нулевые модели для подсчета данных хорошо разработаны, но не подходят для моего случая.
Я подумал о том, чтобы подогнать дистрибутив Tweedie к данным, а затем подогнать glm на response = f (subset_label). Теоретически это кажется возможным, но мне интересно, а) является ли это избыточным, и (б) все еще неявно предполагать, что все нули являются образцами нулей, то есть будут ли смещены таким же образом (в лучшем случае), как перестановка?
Интуитивно это звучит так, как будто у вас есть какой-то иерархический дизайн, который объединяет биномиальную статистику, основанную на пропорции нулей, и, скажем, статистику Уилкоксона, вычисленную по ненулевым значениям (или, что еще лучше, ненулевым значениям, дополненным долей нули, основанные на некотором предшествующем). Звучит как байесовская сеть ...
Надеюсь, я не первый, у кого возникла эта проблема, поэтому был бы очень признателен, если бы вы указали мне подходящие существующие методы ...
Большое спасибо!