Как визуализировать, что делает ANOVA?

60

Какой способ (способы?) Можно визуально объяснить, что такое ANOVA?

Любые ссылки, ссылки (ы) (R пакеты?) Будут приветствоваться.

data-visualization anova teaching

В своем блоге «Усилия психолога в статистическом программировании» Кристоффер Магнуссон приводит отличный пример визуализации односторонней ановы с использованием D3.js rpsychologist.com/d3-one-way-anova/#comment-1891

— Epifunky

Я нашел эту прекрасную визуализацию того, что такое анализ отклонений. Это не так точно, как предыдущие ответы, но вы можете интерактивно играть с визуализацией. Найдено это довольно интересная: students.brown.edu/seeing-theory/regression/index.html#third

— Mike

51

Лично мне нравится вводить линейную регрессию и ANOVA, показывая, что все это одно и то же, и что линейные модели составляют общее разделение: у нас есть некоторая разница в результате, которая может быть объяснена интересующими факторами плюс необъяснимые часть (называется «остаточный»). Я обычно использую следующую иллюстрацию (серая линия для общей изменчивости, черные линии для групповой или индивидуальной специфической изменчивости):

альтернативный текст

Я также как heplots R пакет, от Майкла дружественном и Джона Фокса, но также увидеть визуальные тесты гипотезы в многомерной линейной модели: heplots Комплект для R .

Стандартные способы объяснить, что на самом деле делает ANOVA, особенно в рамках линейной модели, действительно хорошо объяснены в ответах Plane на сложные вопросы Кристенсена, но иллюстраций очень мало. Статистические методы Савилла и Вуда . У геометрического подхода есть несколько примеров, но в основном по регрессии. В Монтгомери « Дизайн и анализ экспериментов» , который в основном сфокусирован на DoE, есть иллюстрации, которые мне нравятся, но смотрите ниже.

альтернативный текст

(это мои :-)

Но я думаю, что вам нужно искать учебники по линейным моделям, если вы хотите увидеть, как сумма квадратов, ошибок и т. Д. Преобразуется в векторное пространство, как показано в Википедии . Оценки и выводы в эконометрике Дэвидсона и Маккиннона, кажется, имеют хорошие иллюстрации (1-я глава фактически описывает геометрию OLS), но я только просматриваю французский перевод (доступен здесь ). Геометрия линейной регрессии также имеет несколько хороших иллюстраций.

Редактировать :

Ах, и я только помню эту статью Роберта Прузека, Новый рисунок для одностороннего ANOVA .

Редактировать 2

И теперь пакет granova (упомянутый @ gd047 и связанный с вышеупомянутым документом) был портирован на ggplot, см. GranovaGG с иллюстрацией для одностороннего ANOVA ниже.

введите описание изображения здесь

— хл
источник

Первая иллюстрация сделана с использованием R?

— Джордж Донтас

@ gd047 Да. Должен иметь уродливый исходный код где-нибудь, если хотите. Второй сделан в Метапосте.

— ЧЛ

3

@ gd047 Хорошо, как всегда, когда мы ищем старый код, мы не можем его найти (несмотря на все мои усилия с grep / find), поэтому я переписал быстрый (все еще безобразный) R-скрипт для этого. Я также привел пример кода MP .

— ЧЛ

К сожалению, геометрия линии линейной регрессии сгнила.

— Серебряная рыба

23

Как насчет этого? альтернативный текст

Вслед за Кроули (2005). Статистика. Введение с использованием R: Wiley.

— EDi
источник

1

(+1) Я напоминаю мне plot.design()(но ваш в расширенной версии :-)

— chl

Это лучшее.

— Любопытно

13

Спасибо за ваш отличный ответ до сих пор. Хотя они были очень поучительными, я чувствовал, что использование их для курса, который я сейчас преподаю (ну, TA'ing), будет слишком много для моих учеников. (Я помогаю преподавать курс BioStatistics для студентов с учеными степенями в области медицинских наук)

Поэтому я закончил тем, что создал два изображения (оба основаны на моделировании), которые я считаю полезным примером для объяснения ANOVA.

Буду рад прочитать комментарии или предложения по их улучшению.

На первом изображении показано моделирование 30 точек данных, разделенных на 3 графика (показывающих, как MST = Var разделяется на данные, которые создают MSB и MSW:

Левый график показывает график разброса данных на группу.
Средняя показывает, как выглядят данные, которые мы собираемся использовать для MSB.
Правое изображение показывает, как выглядят данные, которые мы собираемся использовать для ТБО.

альтернативный текст

Второе изображение показывает 4 графика, каждый для различной комбинации дисперсии и ожидания для групп, в то время как

Первый ряд графиков предназначен для низкой дисперсии, а второй ряд - для высокой (эр) дисперсии.
Первый столбец графиков предназначен для равных ожиданий между группами, в то время как второй столбец показывает группы с (очень) разными ожиданиями.

альтернативный текст

— Таль Галили
источник

2

H_{0} : μ_{1} = μ_{2} = \dots = μ_{k}

$H_0:~\mu_1=\mu_2=\ldots=\mu_k$

H_{1} : \exists i, j | μ_{i} \neq μ_{j}

$H_1:~\exists\ i,j~|~\mu_i\neq\mu_j$

H_{1} \equiv \neg H_{0}

$H_1\equiv\neg~H_0$ ). Если вам удастся передать эти идеи в графическом виде - что, похоже, имеет место здесь - тогда, я думаю, вы почти закончили.

— ЧЛ

Привет chl, спасибо за положительный отзыв (и за предыдущий подробный ответ)! Я думаю, что некоторые самые большие домашние массажи, которые я получил при подготовке материала для этого класса, это: 1) Как описать преобразование исходных данных, чтобы получить измерения отклонений MSB и MSW. 2) Как статистика теста MSB / MSW на самом деле является односторонним (а не двусторонним) тестом, где H0 означает, что MSB <= MSW. Наконец, я просто подумал отметить, что это правда, что SSW = SST-SSB (но я не вижу, как это верно для MSW = MST-MSB).

— Тал Галили

1

y_{i j} = μ + α_{i} + ε_{i j}

$y_{ij}=\mu + \alpha_i + \varepsilon_{ij}$

y_{i j} = μ_{i} + ε_{i j}

$y_{ij}=\mu_i + \varepsilon_{ij}$

y_{i j} = \bar{y_{i}} + ε_{i j} = \bar{y} + ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$y_{ij}=\bar{y_i}+\varepsilon_{ij}=\bar{y}+(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

(y_{i j} - \bar{y}) = ({\bar{y}}_{i} - \bar{y}) + (y_{i j} - {\bar{y}}_{i})

$(y_{ij}-\bar{y})=(\bar{y}_i-\bar{y})+(y_{ij}-\bar{y}_i)$

12

Поскольку в этом посте мы собрали некоторые типы хороших графиков, вот еще один, который я недавно нашел и который может помочь вам понять, как работает ANOVA и как генерируется F-статистика. Графика была создана с использованием пакета granova в R. альтернативный текст

— Джордж Донтас
источник

2

(+1) Я дал ссылку на статью Роберта Прузека, но я не знал, что она была доступна в R.

— chl

10

Посмотрите презентацию Хэдли Уикхем ( pdf , зеркало ) на ggplot. Начиная со страниц 23-40 этого документа он описывает интересный подход к визуализации ANOVA.

* Ссылка взята с: http://had.co.nz/ggplot2/

— Димитрий Л
источник

6

Отличный вопрос Вы знаете, я очень долго пытался обернуть голову вокруг ANOVA. Я всегда возвращаюсь к интуиции «между противниками», и я всегда старался представить, как это будет выглядеть в моей голове. Я рад, что возник этот вопрос, и меня поразили различные подходы к этому в ответах выше.

Во всяком случае, долгое время (даже годы) я хотел собрать несколько участков в одном месте, где я мог видеть, что происходило одновременно, с разных сторон: 1) как далеко друг от друга население , 2) как далеко друг от друга данные являются, 3) насколько велики годами между по сравнению с внутри и 4 , как) сделать центральное против нецентральных распределений F сравнить?

В действительно великом мире я мог бы даже поиграть с ползунками, чтобы увидеть, как размер выборки меняет вещи.

Так что я играл с manipulateкомандой в RStudio , и святая корова, это работает! Вот один из сюжетов, снимок, действительно:

visualizeANOVA

Если у вас есть RStudio, вы можете получить код для создания вышеуказанного сюжета (ползунки и все)! на Github здесь .

Поработав с этим некоторое время, я удивляюсь, насколько хорошо F-статистика различает группы даже для умеренно небольших размеров выборки. Когда я смотрю на популяции, они на самом деле не так уж далеки друг от друга (на мой взгляд), но полоса «в пределах» последовательно затмевается полосой «между». Выучите что-нибудь каждый день, наверное.

— Къетил б Халворсен
источник

3

Чтобы проиллюстрировать, что происходит с односторонним ANOVA, я иногда использовал апплет, предложенный авторами «Введение в практику статистики», который позволяет ученикам играть с отклонениями внутри и между ними и наблюдать их влияние на F-статистику. , Вот ссылка (апплет последний на странице). Пример снимка экрана:

введите описание изображения здесь

Пользователь управляет верхним ползунком, варьируя вертикальные спреды трех групп данных. Красная точка внизу перемещается вдоль графика значений p, а отображаемая ниже F-статистика обновляется.

— Дэвид
источник

2

Кажется, корабль уже плыл с точки зрения ответа, но я думаю, что если это вводный курс, то большинство выставок, представленных здесь, будет слишком трудным для понимания начинающих студентов ... или, по крайней мере, слишком Трудно понять без вводного отображения, которое обеспечивает очень упрощенное объяснение дисперсии разделения. Покажите им, как общий SST увеличивается с количеством предметов. Затем, показав инфляцию для нескольких предметов (возможно, добавив по одному в каждую группу несколько раз), объясните, что SST = SSB + SSW (хотя я предпочитаю называть его SSE с самого начала, потому что это позволяет избежать путаницы при переходе к тесту IMO внутри субъекта). ). Затем покажите им визуальное представление разделения дисперсии, например, большой квадрат с цветной кодировкой, чтобы вы могли видеть, как SST сделан из SSB и SSW. Затем,

— russellpierce
источник

2

$Y$ $X$

введите описание изображения здесь

— Мартин Ван дер Линден
источник