Я искренне надеюсь, что я сформулировал этот вопрос таким образом, чтобы на него можно было дать окончательный ответ - если нет, пожалуйста, дайте мне знать, и я попробую еще раз! Я должен также предположить, что я буду использовать R для этих анализов.
У меня есть несколько мер, plant performance (Ys)
которые, я подозреваю, были под влиянием четырех методов лечения flower thinning (X1), fertilization (X2), leaf clipping (X3)
, и я biased flower thinning (X4)
. При всех возможных значениях Y, N составляет не менее 242, поэтому размеры моей выборки были большими. Все участки были либо прорежены, либо нет, но каждый участок также подвергался одному (и только одному) из трех других обработок (или нет - были также контрольные участки). Идея этого проекта состояла в том, чтобы проверить, способны ли другие три процедуры «маскировать» или «усиливать» эффекты истончения. Таким образом, по замыслу последние три обработки (X2-X4) не могли взаимодействовать друг с другом, потому что они не были пересечены, но каждая из них может взаимодействовать с истончением цветов - и они, вероятно, делают.
Мои явные гипотезы состоят в том, что 1) прореживание цветения будет значительным, и что 2) условия взаимодействия X1*X2, X1*X3, and X1*X4,
между прореживанием цветов и другими тремя обработками также будут значительными. То есть истончение цветов должно иметь значение, но способы, которыми оно имеет значение, должны быть существенно изменены в зависимости от того, что сделали остальные три процедуры.
Я хотел бы включить всю эту информацию в смешанную модель:
Y ~ X0 + X1 + X2 + X3 + X4 + X1*X2 + X1*X3 + X1*X4 + (Up to three random effects)
Но есть одна проблема: у меня есть веские основания полагать, что эффекты истончения на Y нелинейны. Они, вероятно, квадратичны, но в некоторых случаях могут быть даже кубическими. Это связано с тем, что влияние истончения на производительность, скорее всего, будет возрастать быстрее при более высоких уровнях прореживания. Если я попытаюсь смоделировать это нелинейное отношение с помощью приведенного выше уравнения, добавив квадратичные и кубические слагаемые для X1, то я не уверен, как моделировать слагаемые взаимодействия - должен ли я включать все возможные комбинации X1, (X1) ^ 2 и (X1) ^ 3 * X2, X3 и X4? Потому что это кажется большим количеством параметров, чтобы попытаться оценить, даже с учетом количества точек данных, которые у меня есть, и я не уверен, как интерпретировать полученные результаты. Тем не менее, у меня нет биологической причины думать, что это было бы неблагоразумным способом смоделировать ситуацию.
Итак, у меня есть три мысли о том, как решить эту проблему:
- Сначала установите модель меньшего размера, например
Y ~ X1 + X1^2 + X^3 + Random effects
, с единственной целью выяснить, является ли взаимосвязь между прореживанием и Y линейной, квадратичной или кубической, а затем преобразовать прореживание через квадратный или кубический корень, чтобы соответствующим образом линеаризовать взаимосвязь. Оттуда члены взаимодействия могут быть смоделированы, как указано выше, с преобразованной переменной.- Предположим, что существенные взаимодействия, если они происходят, влияют только на один из членов X1 (т.е. только на линейный, квадратичный или кубический член), и моделируйте взаимодействия соответствующим образом. Я даже не уверен, имеет ли этот подход смысл.
- Просто установите «полную модель» с каждым возможным термином взаимодействия между условиями прореживания и другими обработками, как обсуждалось выше. Затем удалите незначительные термины взаимодействия и используйте графики и другие методы для интерпретации результатов.
Какой из этих подходов, если таковой имеется, имеет смысл и почему, учитывая, что я заинтересован в проверке гипотез, а не в выборе модели? В частности, если № 1 выше не имеет смысла, почему? Я прочитал эту статью и эту статью и попытался переварить то, что они могут значить для меня, но любые источники для дальнейшего чтения также будут высоко оценены!