Я хочу выучить ANOVA. Прежде чем я начну изучать, как работает алгоритм (какие вычисления необходимо выполнить) и почему он работает, я сначала хотел бы узнать, какую проблему мы на самом деле решаем с помощью ANOVA, или какой ответ мы пытаемся ответить. Другими словами: что такое ввод и что является выводом алгоритма?
Я понимаю, что мы используем в качестве входных данных. У нас есть набор чисел. Каждое число имеет значения одной или нескольких категориальных переменных (также известных как «факторы»). Например:
+------------+------------+-------+
| factor 1 | factor 2 | value |
+------------+------------+-------+
| "A" | "a" | 1.0 |
| "A" | "a" | 2.4 |
| "A" | "b" | 0.3 |
| "A" | "b" | 7.4 |
| "B" | "a" | 1.2 |
| "B" | "a" | 8.4 |
| "B" | "b" | 0.4 |
| "B" | "b" | 7.2 |
+------------+------------+-------+
Правильно ли говорить, что ANOVA вычисляет p-значение нулевой гипотезы, которая утверждает, что факторы не влияют на среднее значение? Другими словами, мы передаем приведенные выше данные алгоритму и в результате получаем значение p нулевой гипотезы?
Если это так, то какую меру мы используем для вычисления p-значения? Например, мы можем сказать, что, учитывая нулевую гипотезу, M может быть столь же высоким, как наблюдаемая (или даже выше), случайно в 1% случаев. Что такое М?
Разве мы не исследуем факторы в ANOVA отдельно? Может ли ANOVA сказать, что фактор_1 имеет эффект, а фактор_2 нет? Может ли ANOVA сказать, что для данного фактора значения, соответствующие значению «A», «B» и «C», статистически неразличимы (например, имеют одинаковое среднее значение), но значение «D» оказывает влияние?