Мне нравится это правило:
Если вам нужна линия для направления глаза (то есть, чтобы показать тренд, который без линии не был бы виден так четко), вам не следует ставить линию.
Люди очень хорошо распознают закономерности (мы скорее находимся на стороне наблюдающих тенденций, которые не существуют, чем пропускаем существующие тенденции). Если мы не можем получить тренд без линии, мы можем быть уверены, что ни один тренд не может быть окончательно показан в наборе данных.
Говоря о втором графике, единственным показателем неопределенности ваших точек измерения являются два красных квадрата C: O 1.2 при 700 ° C. Распространение этих двух означает, что я бы не принял, например,
- что для C: O 1.2 вообще есть тенденция
- что есть разница между 2,0 и 3,6
- и наверняка изогнутые модели соответствуют данным.
без очень веских причин. Это, однако, снова будет моделью.
редактировать: ответ на комментарий Ивана:
Я химик, и я бы сказал, что нет измерения без ошибки - то, что приемлемо, будет зависеть от эксперимента и инструмента.
Этот ответ не против того, чтобы показать экспериментальную ошибку, а за то, чтобы показать и принять ее во внимание.
Идея, лежащая в основе моих рассуждений, состоит в том, что график показывает ровно одно повторное измерение, поэтому, когда речь идет о том, насколько сложной должна быть модель (то есть горизонтальная линия, прямая, квадратичная, ...), это может дать нам представление об измерении. ошибка. В вашем случае это означает, что вы не сможете уместить содержательный квадратик (сплайн), даже если у вас была жесткая модель (например, термодинамическое или кинетическое уравнение), предполагающая, что она должна быть квадратичной - у вас просто недостаточно данных ,
Чтобы проиллюстрировать это:
df <-data.frame (T = c ( 700, 700, 800, 900, 700, 800, 900, 700, 800, 900),
C.to.O = factor (c ( 1.2, 1.2, 1.2, 1.2, 2 , 2 , 2 , 3.6, 3.6, 3.6)),
tar = c (21.5, 18.5, 19.5, 19, 15.5, 15 , 6 , 16.5, 9, 9))
Вот линейное соответствие с 95% доверительным интервалом для каждого из соотношений C: O:
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm") +
facet_wrap (~C.to.O)
Обратите внимание, что для более высоких отношений C: O доверительный интервал значительно ниже 0. Это означает, что неявные предположения линейной модели неверны. Тем не менее, вы можете сделать вывод, что линейные модели для более высокого содержания C: O уже перегружены.
Итак, вернемся назад и подгоним только постоянное значение (т.е. без зависимости T):
ggplot (df, aes (x = T, y = tar, col = C.to.O)) + geom_point () +
stat_smooth (method = "lm", formula = y ~ 1) +
facet_wrap (~C.to.O)
Дополнение состоит в том, чтобы моделировать зависимость от C: O:
ggplot (df, aes (x = T, y = tar)) + geom_point (aes (col = C.to.O)) +
stat_smooth (method = "lm", formula = y ~ x)
Тем не менее, доверительный интервал будет охватывать горизонтальные или даже слегка восходящие линии.
Вы можете продолжить и попытаться, например, разрешить различные смещения для трех соотношений C: O, но используя равные наклоны.
Однако уже несколько измерений значительно улучшат ситуацию - обратите внимание, насколько узкие доверительные интервалы для C: O = 1: 1, где у вас есть 4 измерения вместо только 3.
Вывод: если вы сравните мои точки зрения, к каким выводам я бы отнесся скептически, они слишком много читали о немногих доступных пунктах!