Если у аудитории действительно нет статистического фона, думаю, я бы попытался немного упростить объяснение. Сначала я бы нарисовал на доске координатную плоскость с линией, например:
Y= м х + б
м х + б = у
Я бы сказал, что это уравнение является примером простой линейной регрессии. Затем я бы объяснил, как вы (или компьютер) могли бы приспособить такое уравнение к точечной диаграмме точек данных, как показано на этом рисунке:
Я бы сказал, что здесь мы используем возраст организма, который мы изучаем, чтобы предсказать, насколько он велик, и что полученное нами уравнение линейной регрессии (показано на рисунке) может быть использовано, чтобы предсказать, насколько велик организм если мы знаем его возраст
м х + б = у
Затем я хотел бы еще раз объяснить, что это был пример простого уравнения линейной регрессии и что на самом деле существуют более сложные разновидности. Например, во множестве, называемом логистической регрессией , y могут быть только 1 или 0. Можно использовать модель такого типа, если вы пытаетесь предсказать ответ «да» или «нет», например, есть ли у кого-то заболевание. Еще одна особая разновидность - это регрессия Пуассона , которая используется для анализа данных «подсчета» или «события» (я бы не стал углубляться в это, если в этом нет особой необходимости).
Затем я бы объяснил, что линейная регрессия, логистическая регрессия и пуассоновская регрессия действительно являются специальными примерами более общего метода, называемого «обобщенной линейной моделью». Самое замечательное в «обобщенных линейных моделях» заключается в том, что они позволяют нам использовать «ответные» данные, которые могут принимать любое значение (например, насколько велик организм в линейной регрессии), принимать только 1 или 0 (например, есть ли у кого-то болезнь в логистической регрессии), или принять дискретные подсчеты (например, число событий в регрессии Пуассона).
Затем я бы сказал, что в уравнениях такого типа x (предикторы) связаны с y (ответами) через то, что статистики называют «функцией связи». Мы используем эти «функции связи» в случаях, когда x не связаны с y линейным образом.
Во всяком случае, это мои два цента по этому вопросу! Может быть, мое предложенное объяснение звучит немного глупо и глупо, но если цель этого упражнения состоит в том, чтобы просто донести до аудитории «суть», возможно, такое объяснение не так уж плохо. Я думаю, что важно, чтобы концепция была объяснена интуитивно понятным образом и чтобы вы не набрасывались на слова типа «случайный компонент», «систематический компонент», «функция связи», «детерминистический», «функция логита» и т. Д. Если вы Разговаривая с людьми, которые на самом деле не имеют статистического опыта, как, например, типичные биологи или врачи, их глаза просто слепят, услышав эти слова. Они не знают, что такое распределение вероятностей, они никогда не слышали о функции связи и не знают, что такое «логит».
В вашем объяснении для нестатистической аудитории я бы также остановился на том, когда использовать какую модель. Я мог бы поговорить о том, сколько предикторов вам разрешено включить в левую часть уравнения (я слышал эмпирические правила, например, не более, чем размер вашей выборки, деленный на десять). Также было бы неплохо включить пример электронной таблицы с данными и объяснить аудитории, как использовать статистический программный пакет для генерации модели. Затем я пошагово изучу результаты этой модели и попытаюсь объяснить, что означают все разные буквы и цифры. Биологи ничего не знают об этом и больше заинтересованы в изучении того, какой тест использовать, а не в том, чтобы понять математику, стоящую за графическим интерфейсом SPSS!
Буду признателен за любые комментарии или предложения, касающиеся моего предложенного объяснения, особенно если кто-то заметит ошибки или придумает лучший способ объяснить это!