У меня есть проблема, которая, я думаю, должна быть простой, но я не могу ее решить. Я смотрю на опыление семян, у меня есть растения (n = 36), которые цветут в кластерах, я выбираю 3 цветочных кластера от каждого растения и 6 семенных коробочек из каждого кластера (всего 18 семенных коробочек от каждого растения). Стручок может иметь от 0 до максимум 4 опыленных семян. Итак, данные считаются с верхней границей. Я обнаружил, что в среднем ~ 10% семян опыляются, но где-то от 1 до 30% на конкретном растении, поэтому слишком разбросаны данные, и, конечно, на 3 растениях отсутствуют 4 повторяющиеся скопления кластеров, поэтому они не идеально симметричны ,
Вопрос, который я задаю, состоит в том, подтверждают ли эти данные идею, что это растение требует опылителей для набора семян.
Я нахожу, что распределение по количеству семян в стручке выглядит так, как будто больше 0 опыленных стручков семян (6-9 стручков из 16) и больше 3 и 4 опыленных стручков семян (2-4 для каждого), чем было бы можно ожидать, если семена в популяции будут просто случайно опылены. По сути, я думаю, что это классический пример для данных с нулевым завышением: сначала насекомое вообще посещает или не посещает цветок (один генератор нуля), а если это так, то опыляет 0-4 семян в другом распределении. Альтернативная гипотеза состоит в том, что растение частично самоопыляется, и тогда можно было бы ожидать, что каждое семя будет иметь одинаковую вероятность опыления (эти данные предполагают примерно 0,1 шанса, что означает 0,01 шанса для двух семян в одном стручке и т. Д.) ,
Но я просто хочу продемонстрировать, что данные лучше всего подходят к тому или иному дистрибутиву, а не делать на них ZIP или ZINB. Я думаю, что любой метод, который я использую, должен учитывать фактическое количество опыленных семян и количество стручков, отобранных на каждом растении. Лучшее, что я придумал, - это сделать что-то вроде ремня для ботинок, где я просто случайным образом назначаю количество опыленных семян для данного растения в число семенных коробочек, которые я выбрал, делаю это 10000 раз и вижу, насколько это вероятно экспериментальные данные для данного растения получены из этого случайного распределения.
Я просто чувствую, что в этом есть что-то, что должно быть намного проще, чем начальная загрузка, но после нескольких дней размышлений и поисков я сдаюсь. Я не могу просто сравнить с распределением Пуассона, потому что это верхняя граница, это не биномиальное, потому что мне нужно как-то сгенерировать ожидаемое распределение 1-й. Какие-нибудь мысли? И я использую R, поэтому совет там (особенно, как наиболее элегантно сгенерировать 10000 случайных распределений n шаров в 16 коробок, каждый из которых может содержать не более 4 шаров) был бы очень кстати.
ДОБАВЛЕНО 9/07/2012 Во-первых, спасибо всем вам за интерес и помощь. Чтение ответов заставило меня задуматься над тем, чтобы немного перефразировать мой вопрос. То, что я говорю, - это то, что у меня есть одна гипотеза (которую пока я считаю нулевой), что семена опыляются случайным образом по стручкам, и моя альтернативная гипотеза состоит в том, что стручок семян, по крайней мере, с одним опыленным семенем, с большей вероятностью иметь несколько опыленных семян, чем можно было бы ожидать в результате случайного процесса. Я привел реальные данные с трех заводов в качестве примеров, чтобы проиллюстрировать то, о чем я говорю. Первый столбец - это количество опыленных семян в стручке, второй столбец - частота стручков с таким количеством семян.
растение 1 (всего 3 семена: 4% опыления)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
растение 2 (всего 19 семян: 26% опыления)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
растение 3 (всего 16 семян: 22% опыления)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
На растении № 1 только 18 семян опылялись в 18 стручках, в одном стручке было одно семя, а в одном стручке два семени. Думая о процессе случайного добавления одного семени в стручки, первые два семени идут в свои собственные стручки, но для 3-го семени есть 6 точек, доступных в стручках, которые уже имеют одно семя, но 64 пятна в 16 стручках. без семян, поэтому самая высокая вероятность стручка с 2 семенами здесь составляет 6/64 = 0,094. Это немного низко, но не совсем экстремально, поэтому я бы сказал, что это растение соответствует гипотезе случайного опыления всех семян с вероятностью ~ 4% опыления. Но растение 2 выглядит для меня гораздо более экстремально: 4 стручка полностью опылены, но 12 стручков ни с чем. Я не совсем уверен, как рассчитать шансы этого распределения напрямую (отсюда и моя идея начальной загрузки), но я предполагаю, что шансы этого распределения происходят случайным образом, если у каждого семени есть вероятность оползания ~ 25%, довольно низкая. Растение № 3 Я действительно понятия не имею, я думаю, что для случайного распределения больше нулей и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и не может быть так маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям. Я думаю, что для случайного распределения больше 0 и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и, возможно, не так уж маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям. Я думаю, что для случайного распределения больше 0 и 3, чем следует ожидать, но мое внутреннее ощущение состоит в том, что это распределение для этого количества семян гораздо более вероятно, чем распределение для растения № 2, и, возможно, не так уж маловероятно. Но, очевидно, я хочу знать наверняка и по всем растениям.
В конце я собираюсь написать заявление типа «Распределение опыленных семян в семенных коробочках соответствует (или не соответствует) гипотезе о том, что растения не просто частично самосовместимы, но требуют посещения опылителя для получения набора семян. (результаты статистического теста). » Это на самом деле только часть моего перспективного раздела, где я говорю о том, какие эксперименты проводить дальше, так что я не отчаянно желаю, чтобы это было одно или другое, но я хочу знать для себя, если это возможно. Если я не могу сделать то, что пытаюсь сделать с этими данными, я бы тоже хотел это знать!
Сначала я задал довольно широкий вопрос, так как мне любопытно, есть ли какие-нибудь хорошие тесты, чтобы показать, должны ли данные в первую очередь входить в модель с нулевым завышением. Все примеры, которые я видел, вроде бы говорят: «Посмотрите, здесь много нулей, и этому есть разумное объяснение, поэтому давайте воспользуемся моделью с нулевым завышением». Это то, чем я сейчас занимаюсь на этом форуме, но у меня был опыт работы с моей последней главой, где я использовал GLS Пуассона для подсчета данных, и один из моих руководителей сказал: «Нет, GLMS слишком сложные и ненужные, эти данные должны перейти в таблицу сопряженности », а затем отправил мне дамп данных массивной таблицы сопряженности, сгенерированный их дорогим пакетом статистики, который дал одинаковые значения p для всех моих факторов + взаимодействий до трех значащих цифр !! Итак, я пытаюсь сохранить статистику ясной и простой, и убедитесь, что я понимаю их достаточно хорошо, чтобы надежно отстаивать свой выбор, что я не могу сделать сейчас для модели с нулевым уровнем инфляции. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. что я не чувствую, что могу сделать сейчас для модели с нулевым давлением. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. что я не чувствую, что могу сделать сейчас для модели с нулевым давлением. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать. Я использовал как квазибиномиальный (для целых растений, чтобы избавиться от pesudoreplicaiton), так и смешанную модель для приведенных выше данных, чтобы сравнить обработки и ответить на мои основные экспериментальные вопросы, либо кажется, что выполняют ту же работу, но я собираюсь также поиграйте с ZINB сегодня вечером, чтобы увидеть, насколько хорошо это работает. Я думаю, что если я смогу явно продемонстрировать, что эти данные сначала сильно кластеризованы (или раздуваться до нуля), а затем предоставить вескую биологическую причину для этого, я буду гораздо лучше настроен на последующее извлечение ZINB, чем на просто сравните одну с квазибиномиальной / смешанной моделью и спорьте, так как она дает лучшие результаты, это то, что я должен использовать.
Но я не хочу слишком сильно отвлекаться от моего основного вопроса, как я могу определить, действительно ли мои данные накачаны на ноль больше, чем ожидалось от случайного распределения? В моем случае ответ на этот вопрос представляет для меня реальный интерес, а возможное преимущество для обоснования модели является бонусом.
Еще раз спасибо за ваше время и помощь!
Приветствия, BWGIA