Проверка гипотез на ноль-завышенных непрерывных данных


10

Буду очень признателен за совет по следующей проблеме:

У меня есть большой непрерывный набор данных с большим количеством нулей (~ 95%), и мне нужно найти лучший способ проверить, являются ли некоторые его подмножества «интересными», то есть, кажется, не взяты из того же дистрибутива, что и остальные. Нулевая инфляция происходит из-за того, что каждая точка данных основана на измерении счетчика с истинными и выборочными нулями, но результат является непрерывным, поскольку учитывает некоторые другие параметры, взвешенные по счетчику (и поэтому, если счетчик равен нулю, результат тоже ноль).

Каков был бы лучший способ сделать это? У меня есть ощущение, что тесты Вилкоксона и даже перестановки методом грубой силы неадекватны, поскольку они искажаются этими нулями. Сосредоточение внимания на ненулевых измерениях также удаляет истинные нули, которые чрезвычайно важны. Нулевые модели для подсчета данных хорошо разработаны, но не подходят для моего случая.

Я подумал о том, чтобы подогнать дистрибутив Tweedie к данным, а затем подогнать glm на response = f (subset_label). Теоретически это кажется возможным, но мне интересно, а) является ли это избыточным, и (б) все еще неявно предполагать, что все нули являются образцами нулей, то есть будут ли смещены таким же образом (в лучшем случае), как перестановка?

Интуитивно это звучит так, как будто у вас есть какой-то иерархический дизайн, который объединяет биномиальную статистику, основанную на пропорции нулей, и, скажем, статистику Уилкоксона, вычисленную по ненулевым значениям (или, что еще лучше, ненулевым значениям, дополненным долей нули, основанные на некотором предшествующем). Звучит как байесовская сеть ...

Надеюсь, я не первый, у кого возникла эта проблема, поэтому был бы очень признателен, если бы вы указали мне подходящие существующие методы ...

Большое спасибо!


Обновить. До сих пор я обнаружил, что этот документ посвящен проблеме, похожей на мою: maths.otago.ac.nz/home/downloads/david_fletcher/…
a11msp

Мне интересно, имеет ли смысл это чрезвычайно упрощенное приближение, учитывая, что нули составляют абсолютное большинство: 1) найти пропорцию нулей в каждом подмножестве. 2) предположим, что в подмножестве с наименьшим числом нулей все нули истинны. 3) из каждого подмножества удалите пропорцию нулей, равную пропорции нулей в наборе данных с наибольшим количеством нулей. 4) запустить стандартную непараметрическую статистику для этого модифицированного набора данных.
a11msp

Гиперссылка на статью в вашем первом комментарии кажется мертвой. Можете ли вы предоставить цитату вместо этого?
19

1
Спасибо за указание на это: doi.org/10.1007/s10651-005-6817-1
a11msp

Ответы:


9

@ MSP, я думаю, что вы смотрите на двухэтапную модель в этом приложении (у меня не было времени, чтобы прочитать ее), но я постоянно работаю с нулевыми завышенными непрерывными данными. Для подгонки параметрической модели к этим данным (для проверки гипотез) вы можете выбрать две стадии, но тогда у вас есть две модели (Y является целью, а X - ковариатами): P (Y = 0 | X) и P (Y | Х, Y> 0). Вы должны использовать симуляцию, чтобы "свести" их вместе. Книга Гельмана (и пакет arm в R) показывает этот процесс для этой точной модели (с использованием логистической регрессии и обычной линейной регрессии с лог-ссылкой).

Другой вариант, который я видел и который мне нравится больше, - это установить нулевую завышенную гамма-регрессию, которая аналогична описанной выше (но гамма-ошибка как погрешность вместо гассовской), и вы можете свести их вместе для проверки гипотез P (Y | X) , Я не знаю, как это сделать в R, но вы можете в SAS NLMIXED. Смотрите этот пост , он работает хорошо.


@B_Miner, большое спасибо за ваш ответ, извините, у меня недостаточно оценок, чтобы проголосовать за вас ... Я посмотрю ссылки! Я беспокоюсь только об условных моделях: они утверждают, что нули не могут принадлежать второму (непрерывному) компоненту, я прав? Разве мои настройки не похожи на смешанную модель? Что вы думаете?
a11msp

Теперь я воспроизвел двухэтапный подход, предложенный в книге Гельмана. Если subset_factor (с 25 уровнями) служит меткой подмножества, первым шагом будет fit1 = glm (response ~ subset_factor, family = binomial); и второй шаг - fit2 = lm (ответ ~ subset_factor, subset = response> 0). Затем я могу запустить симуляции, как они описывают, чтобы получить распределение подходящих значений отклика для каждого уровня фактора. Тем не менее, я все еще не уверен, как перевести это на то, что мне нужно, а именно: (а) вероятность того, что коэффициенты не равны нулю, и (б) значимости разницы между коэффициентами на разных уровнях факторов.
a11msp

Двухэтапный подход (метод двух отдельных моделей Гельмана) предполагает две совокупности: нулевую и описанную выше.
B_Miner

... поэтому было бы уместно просто сказать, что если влияние какого-либо факторного уровня является значительным (и значительно отличается от воздействия какого-либо другого факторного уровня) в любой из двух моделей в методе Гельмана, то оно в целом является значительным?
a11msp

1
Да, двухэтапный подход (метод двух отдельных моделей по методу Гельмана) предполагает две совокупности: нулевые и> 0. Что касается тестов гипотез, можете ли вы сформулировать их с точки зрения прогнозируемых значений для различных уровней входных данных и построить эмпирический доверительные интервалы, связанные с моделированием для каждого? Для проверки гипотезы для коэффициента! = 0 необходимо проверить это отдельно для обеих моделей.
B_Miner

2

Аналогичный подход к статье Флетчера используется в маркетинговом тестировании, где мы можем произвольно разделить эффекты интервенций (таких как реклама) на (а) изменение количества покупок бренда (то есть соотношение нулей) и (б) а изменение частоты покупки группы (продажи с учетом продаж происходят вообще). Это твердый подход и концептуально значимый в контексте маркетинга и в экологическом контексте, который обсуждает Флетчер. Фактически, это может быть расширено до (в) изменения размера каждой покупки.


Спасибо! Мне интересно, знаете ли вы о существующей реализации этого?
a11msp

1

Вы можете обработать точное число нулей, неизвестное, но ограниченное между 0 и наблюдаемым количеством нулей. Это, безусловно, может быть выполнено с использованием байесовской формулировки модели. Возможно, метод множественного вменения также может быть изменен, чтобы соответствующим образом варьировать веса (между 0 и 1) нулевых наблюдений ...

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.