Как проверить / доказать, что данные нулевые?


9

У меня есть проблема, которая, я думаю, должна быть простой, но я не могу ее решить. Я смотрю на опыление семян, у меня есть растения (n = 36), которые цветут в кластерах, я выбираю 3 цветочных кластера от каждого растения и 6 семенных коробочек из каждого кластера (всего 18 семенных коробочек от каждого растения). Стручок может иметь от 0 до максимум 4 опыленных семян. Итак, данные считаются с верхней границей. Я обнаружил, что в среднем ~ 10% семян опыляются, но где-то от 1 до 30% на конкретном растении, поэтому слишком разбросаны данные, и, конечно, на 3 растениях отсутствуют 4 повторяющиеся скопления кластеров, поэтому они не идеально симметричны ,

Вопрос, который я задаю, состоит в том, подтверждают ли эти данные идею, что это растение требует опылителей для набора семян.

Я нахожу, что распределение по количеству семян в стручке выглядит так, как будто больше 0 опыленных стручков семян (6-9 стручков из 16) и больше 3 и 4 опыленных стручков семян (2-4 для каждого), чем было бы можно ожидать, если семена в популяции будут просто случайно опылены. По сути, я думаю, что это классический пример для данных с нулевым завышением: сначала насекомое вообще посещает или не посещает цветок (один генератор нуля), а если это так, то опыляет 0-4 семян в другом распределении. Альтернативная гипотеза состоит в том, что растение частично самоопыляется, и тогда можно было бы ожидать, что каждое семя будет иметь одинаковую вероятность опыления (эти данные предполагают примерно 0,1 шанса, что означает 0,01 шанса для двух семян в одном стручке и т. Д.) ,

Но я просто хочу продемонстрировать, что данные лучше всего подходят к тому или иному дистрибутиву, а не делать на них ZIP или ZINB. Я думаю, что любой метод, который я использую, должен учитывать фактическое количество опыленных семян и количество стручков, отобранных на каждом растении. Лучшее, что я придумал, - это сделать что-то вроде ремня для ботинок, где я просто случайным образом назначаю количество опыленных семян для данного растения в число семенных коробочек, которые я выбрал, делаю это 10000 раз и вижу, насколько это вероятно экспериментальные данные для данного растения получены из этого случайного распределения.

Я просто чувствую, что в этом есть что-то, что должно быть намного проще, чем начальная загрузка, но после нескольких дней размышлений и поисков я сдаюсь. Я не могу просто сравнить с распределением Пуассона, потому что это верхняя граница, это не биномиальное, потому что мне нужно как-то сгенерировать ожидаемое распределение 1-й. Какие-нибудь мысли? И я использую R, поэтому совет там (особенно, как наиболее элегантно сгенерировать 10000 случайных распределений n шаров в 16 коробок, каждый из которых может содержать не более 4 шаров) был бы очень кстати.

ДОБАВЛЕНО 9/07/2012 Во-первых, спасибо всем вам за интерес и помощь. Чтение ответов заставило меня задуматься над тем, чтобы немного перефразировать мой вопрос. То, что я говорю, - это то, что у меня есть одна гипотеза (которую пока я считаю нулевой), что семена опыляются случайным образом по стручкам, и моя альтернативная гипотеза состоит в том, что стручок семян, по крайней мере, с одним опыленным семенем, с большей вероятностью иметь несколько опыленных семян, чем можно было бы ожидать в результате случайного процесса. Я привел реальные данные с трех заводов в качестве примеров, чтобы проиллюстрировать то, о чем я говорю. Первый столбец - это количество опыленных семян в стручке, второй столбец - частота стручков с таким количеством семян.

растение 1 (всего 3 семена: 4% опыления)

num.seeds :: pod.freq

0 :: 16

1 :: 1

2 :: 1

3 :: 0

4 :: 0

растение 2 (всего 19 семян: 26% опыления)

num.seeds :: pod.freq

0 :: 12

1 :: 1

2 :: 1

3 :: 0

4 :: 4

растение 3 (всего 16 семян: 22% опыления)

num.seeds :: pod.freq

0 :: 9

1 :: 4

2 :: 3

3 :: 2

4 :: 0

На растении № 1 только 18 семян опылялись в 18 стручках, в одном стручке было одно семя, а в одном стручке два семени. Думая о процессе случайного добавления одного семени в стручки, первые два семени идут в свои собственные стручки, но для 3-го семени есть 6 точек, доступных в стручках, которые уже имеют одно семя, но 64 пятна в 16 стручках. без семян, поэтому самая высокая вероятность стручка с 2 семенами здесь составляет 6/64 = 0,094. Это немного низко, но не совсем экстремально, поэтому я бы сказал, что это растение соответствует гипотезе случайного опыления всех семян с вероятностью ~ 4% опыления. Но растение 2 выглядит для меня гораздо более экстремально: 4 стручка полностью опылены, но 12 стручков ни с чем. Я не совсем уверен, как рассчитать шансы этого распределения напрямую (отсюда и моя идея начальной загрузки), но я предполагаю, что шансы этого распределения происходят случайным образом, если у каждого семени есть вероятность оползания ~ 25%, довольно низкая. Растение № 3 Я действительно понятия не имею, я думаю, что для случайного распределения больше нулей и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и не может быть так маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям. Я думаю, что для случайного распределения больше 0 и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и, возможно, не так уж маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям. Я думаю, что для случайного распределения больше 0 и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и, возможно, не так уж маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям.

В конце я собираюсь написать заявление типа «Распределение опыленных семян в семенных коробочках соответствует (или не соответствует) гипотезе о том, что растения не просто частично самосовместимы, но требуют посещения опылителя для получения набора семян. (результаты статистического теста). » Это на самом деле только часть моего перспективного раздела, где я говорю о том, какие эксперименты проводить дальше, так что я не отчаянно желаю, чтобы это было одно или другое, но я хочу знать для себя, если это возможно. Если я не могу сделать то, что пытаюсь сделать с этими данными, я бы тоже хотел это знать!

Сначала я задал довольно широкий вопрос, так как мне любопытно, есть ли какие-нибудь хорошие тесты, чтобы показать, должны ли данные в первую очередь входить в модель с нулевым завышением. Все примеры, которые я видел, вроде бы говорят: «Посмотрите, здесь много нулей, и этому есть разумное объяснение, поэтому давайте воспользуемся моделью с нулевым завышением». Это то, чем я сейчас занимаюсь на этом форуме, но у меня был опыт работы с моей последней главой, где я использовал GLS Пуассона для подсчета данных, и один из моих руководителей сказал: «Нет, GLMS слишком сложные и ненужные, эти данные должны перейти в таблицу сопряженности », а затем отправил мне дамп данных массивной таблицы сопряженности, сгенерированный их дорогим пакетом статистики, который дал одинаковые значения p для всех моих факторов + взаимодействий до трех значащих цифр !! Итак, я пытаюсь сохранить статистику ясной и простой, и убедитесь, что я понимаю их достаточно хорошо, чтобы надежно отстаивать свой выбор, что я не могу сделать сейчас для модели с нулевым уровнем инфляции. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. что я не чувствую, что могу сделать сейчас для модели с нулевым давлением. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. что я не чувствую, что могу сделать сейчас для модели с нулевым давлением. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать.

Но я не хочу слишком сильно отвлекаться от моего основного вопроса, как я могу определить, действительно ли мои данные накачаны на ноль больше, чем ожидалось от случайного распределения? В моем случае ответ на этот вопрос представляет для меня реальный интерес, а возможное преимущество для обоснования модели является бонусом.

Еще раз спасибо за ваше время и помощь!

Приветствия, BWGIA


почему вы не хотите соответствовать биномиальной модели с нулевым давлением?
atiretoo - восстановить монику

является ли гипотеза «частичного самоопыления» исключительной для гипотезы «опылителя»? Если это так, то ваша вторая модель будет просто биномиальной моделью с вероятностью p и размером = 4.
atiretoo - восстановить монику

Ответы:


5

Мне это кажется относительно простой (нелинейной) смешанной моделью. У вас есть семенные коробочки, вложенные в кластеры, вложенные в растения, и вы можете установить биномиальную модель со случайными эффектами на каждом этапе:

    library(lme4)
    binre <- lmer( pollinated ~ 1 + (1|plant) + (1|cluster), data = my.data, family = binomial)

или с ковариатами, если они у вас есть. Если цветы самоопыляются, то вы можете увидеть некоторые умеренные эффекты из-за естественной изменчивости того, насколько растения жизнеспособны сами по себе. Однако, если большая часть изменчивости в ответе обусловлена, например, изменчивостью кластеров, у вас будут более явные свидетельства опыления насекомыми, которые могут посещать только выбранные кластеры на растении. В идеале вы хотели бы непараметрическое распределение случайных эффектов, а не гауссовских: точечная масса в нуле, без посещений насекомых и точечная масса в положительном значении - это, по сути, модель смешения, о которой думал Майкл Черник. Вы можете дополнить это пакетом GLLAMM Stata, я был бы удивлен, если бы это было невозможно в R.

Вероятно, для чистого эксперимента вы бы хотели, чтобы растения были внутри или, по крайней мере, в месте, где нет насекомых, и посмотрите, сколько семян будет опылено. Это, вероятно, ответит на все ваши вопросы более методологически строгим образом.


Я собираюсь попробовать это, я думаю, что это поможет ответить на мои собственные вопросы для себя, но не настолько уверен, как это убедит других. Вы попадаете во вторую часть, я пытаюсь подумать о том, как эти данные сообщают о будущем более направленном эксперименте.
BWGIA

1

Сдается мне, что это распределение смеси для каждого отдельного насекомого. С вероятностью p насекомое приземляется с вероятностью 1-p, оно приземляется и распределяет от 0 до 4 семян. Но если у вас нет информации о том, попадает ли насекомое на растение, вы не можете различить два способа получить 0. Таким образом, вы можете позволить p быть вероятностью для 0, и тогда у вас будет полиномиальное распределение (p1, p2, p3, p4) где pi - это вероятность того, что i-семена при условии опыления насекомыми с учетом ограничения p1 + p2 + p3 + p4 = 1. Модель имеет пять неизвестных p, p1, p2, p3, p4 с ограничением 0 = 0 для каждого i. Имея достаточно данных, вы сможете оценить эти параметры, возможно, используя метод максимального правдоподобия.


Я согласен, но вопрос не в том, чтобы соответствовать этой модели, а в том, чтобы создать предсказанные распределения в рамках двух разных биологических гипотез. Может быть, ответ состоит в том, чтобы подобрать ZIB и «какую-то другую модель», которая соответствует гипотезе самоопыления, и сравнить их.
atiretoo - восстановить монику

@atiretoo, разве модель не дает вам приблизительное распределение числа опыленных семян, которое вы можете сравнить с вашим предполагаемым распределением?
Майкл Р. Черник

Договорились - если у вас есть правильные модели для 2 гипотез.
atiretoo - восстановить монику

1

Это ответ на последнюю часть вашего вопроса, как быстро сгенерировать данные, которые вы хотите для гипотезы опылителя:

n = 16
max = 4
p1 = 0.1
p2 = 0.9
Y1 = rbinom(10000*n,1,p1)
Y2 = matrix(Y1*rbinom(10000*n,4,p2),ncol=16)

Вы также можете использовать rzibinom()в пакете VGAM. Хотя я не уверен, что ты хочешь с этим делать. У вас есть 2 свободных параметра, p1 и p2, которые необходимо оценить. Почему бы не использовать биномиальную модель с нулевым завышением, чтобы оценить их по данным?

Обратите внимание на пакет VGAM, который подходит для других моделей ZIB. Фактически, вы можете получить ожидаемое распределение для ZIB из функции VGAM dzibinom(), которую вы можете использовать для сравнения наблюдаемого распределения с известными параметрами посещения и опыления. Опять же, вы действительно должны соответствовать модели ZIB.

Если ваша гипотеза частичного самоопыления исключительна для опыления насекомыми, то ожидаемое распределение является просто биномиальным, и вы можете оценить параметры с помощью биномиального семейства glm или, возможно, glmm с идентификатором растения в качестве случайного эффекта. Однако, если они могут частично себя и получать опыление насекомыми, то вы снова нуждаетесь в смеси двух биномиальных распределений. В этом случае я бы исследовал использование OpenBUGS или JAGS для соответствия модели с использованием MCMC.

Когда у вас есть две модели, соответствующие вашим данным, вы сравниваете модели, чтобы определить, какая из них подходит лучше, используя AIC или BIC или другую метрику по вашему выбору.


Спасибо за это atiretoo, но запуск этого кода, похоже, генерирует случайное число начальных чисел, а также случайное распределение. Я думал, что хотел бы зафиксировать нюмер семян (скажем, 19 семян, см. Ниже), а затем посмотреть, насколько вероятно данное распределение для этого точного нубмера
BWGIA

Оппс, пост пост слишком рано, и я имел в виду "см. Выше", как я добавил информацию к своему вопросу. Я заинтригован вашим комментарием об использовании AIC для сравнения моделей, могу ли я сделать это для разных моделей (с одной и той же переменной ответа) с разными распределениями? Я думал, что сравнение AIC было допустимо только тогда, когда вы добавляете / отбрасываете термины в модель, но с тем же указанным семейством распространения?
BWGIA

Нет, это ключевое преимущество AIC по сравнению, например, с обратным выбором. Пока данные одинаковы, вы можете сравнивать AIC между разными моделями, даже если они не являются вложенными. Вы должны быть осторожны, чтобы программа вычисляла вероятности, не оставляя констант, но в рамках одной функции вы можете легко сравнивать не вложенные модели.
atiretoo - восстановить монику
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.