Я рассмотрел множество наборов данных R, публикаций в DASL и других местах и не нахожу очень много хороших примеров интересных наборов данных, иллюстрирующих анализ ковариации для экспериментальных данных. В статистических учебниках есть множество «игрушечных» наборов данных с надуманными данными.
Я хотел бы иметь пример, где:
- Данные реальные, с интересной историей
- Существует по крайней мере один фактор лечения и два ковариат
- По крайней мере один ковариат зависит от одного или нескольких факторов лечения, и один не зависит от лечения.
- Экспериментальный, а не наблюдательный, желательно
Фон
Моя настоящая цель - найти хороший пример, чтобы положить в виньетку мой пакет R. Но более важной целью является то, что люди должны видеть хорошие примеры, чтобы проиллюстрировать некоторые важные проблемы в ковариационном анализе. Рассмотрим следующий сценарий (и, пожалуйста, поймите, что мои знания о сельском хозяйстве в лучшем случае поверхностны).
- Мы проводим эксперимент, в котором удобрения рандомизируются на участки и высаживается урожай. После подходящего периода выращивания мы собираем урожай и измеряем некоторые качественные характеристики - это переменная отклика. Но мы также регистрируем общее количество осадков в течение вегетационного периода и кислотность почвы во время сбора урожая - и, конечно же, какое удобрение использовалось. Таким образом, у нас есть два ковариата и лечение.
Обычный способ анализа полученных данных состоит в том, чтобы согласовать линейную модель с обработкой как фактором и аддитивными эффектами для ковариат. Затем, чтобы суммировать результаты, вычисляются «скорректированные средние» (средние значения наименьших квадратов АКА), которые являются прогнозами из модели для каждого удобрения, для среднего количества осадков и 3 средней кислотности почвы. Это ставит все в равные условия, потому что тогда, когда мы сравниваем эти результаты, мы держим уровень осадков и постоянную кислотность.
Но это, вероятно, неправильно, потому что удобрение, вероятно, влияет на кислотность почвы, а также на реакцию. Это вводит корректирующие средства в заблуждение, поскольку эффект лечения включает их влияние на кислотность. Одним из способов справиться с этим было бы исключить кислотность из модели, а затем скорректированные на количество осадков средства обеспечили бы справедливое сравнение. Но если важна кислотность, эта справедливость дорого обходится, увеличивая остаточную вариацию.
Есть способы обойти это, используя скорректированную версию кислотности в модели вместо ее исходных значений. Предстоящее обновление моего пакета R lsmeans сделает это совершенно простым. Но я хочу иметь хороший пример, чтобы проиллюстрировать это. Я буду очень благодарен и буду должным образом признателен всем, кто может указать мне несколько хороших иллюстративных наборов данных.