Понимание «дисперсии» интуитивно

81

Какой самый простой и понятный способ объяснить кому-либо понятие дисперсии? Что это означает интуитивно? Если кто-то должен объяснить это своему ребенку, как он поступит?

Это концепция, которую мне сложно сформулировать, особенно когда она связана с риском. Я понимаю это математически и тоже могу объяснить это. Но когда вы объясняете явления реального мира, как вы понимаете разницу и ее применимость в «реальном мире», так сказать.

Допустим, мы моделируем инвестиции в акции, используя случайные числа (бросая кубик или используя лист Excel, не имеет значения). Мы получаем некоторую «отдачу от инвестиций», связывая каждый экземпляр случайной величины с «некоторым изменением» в доходности. Например.:

Свертывание 1 означает изменение в размере 0,8 на 1 долл. США при инвестировании, 5 - изменение 1,1 на 1 долл. США и т. Д.

Теперь, если эта симуляция будет выполняться примерно 50 раз (или 20 или 100), мы получим некоторые значения и окончательную стоимость инвестиций. Итак, что же на самом деле говорит нам «дисперсия», если мы рассчитываем ее по вышеуказанному набору данных? Что можно увидеть - если дисперсия окажется 1.7654 или 0.88765 или 5.2342, что это вообще означает? Что я мог наблюдать за этими инвестициями? Какие выводы я могу сделать - в терминах мирян.

Пожалуйста, не стесняйтесь дополнить вопрос стандартным отклонением! Хотя я чувствую, что это «легче» понять, но что-то, что способствовало бы тому, чтобы оно было «интуитивно» понятным, было бы очень цениться!

— кандидат наук
источник

3

Разве мы не должны объединить этот вопрос с тем же, который был задан в прошлом году?

— whuber

1

@whuber Я думаю, что они должны быть объединены. Наличие одного и того же вопроса несколько раз (даже если здесь контекст отличается) снижает среднее качество ответов.

— Робин Жирар

2

Я согласен с тем, что его объединяют, но я знаю, как рассчитать дисперсию, и это тоже используется в статистике. Я хочу быть в состоянии сформулировать эту концепцию людям, которые ничего не знают об этом, и это занимает много времени, и, следовательно, вопрос. Намерение довольно сильно отличается от вопроса о SD, ИМХО

— PhD

2

Я не думаю, что кто-то из вас делает очень хорошую работу, отвечая на это так, чтобы непрофессионал мог это понять. Я вижу много предположений, и почти каждый ответ заканчивается чем-то, что нужно интерпретировать. Я не жалуюсь, просто пытаюсь указать на это. Я тоже не могу просто ответить на вопрос. Может быть, это слишком сложно?

Я не думаю, что какой-либо из ответов ниже ответил на вопрос здесь. Вопрос, как я понимаю, больше касается дисперсии как числа, когда она считается большой или маленькой. Верхний ответ ниже, например, отвечает на вопрос, что означает большая дисперсия против маленькой дисперсии. Если я дам вам набор данных, который вы не можете разумно визуализировать, чтобы вам приходилось полагаться на числа, как вы можете определить, является ли дисперсия большой / маленькой?

— user31415

70

Я бы, вероятно, использовал аналогию, которую я научил, чтобы дать «непрофессионалам», представляя концепцию смещения и дисперсии: аналогия в дартс. Смотри ниже:

введите описание изображения здесь

Особое изображение выше взято из Энциклопедии машинного обучения , и ссылка на изображение - это «Введение в практику статистики» Мура и МакКейба .

РЕДАКТИРОВАТЬ:

Вот упражнение, которое я считаю довольно интуитивным: возьмите колоду карт (из коробки) и бросьте колоду с высоты около 1 фута. Попросите вашего ребенка забрать карточки и вернуть их вам. Затем, вместо того, чтобы бросить колоду, бросьте ее как можно выше и дайте картам упасть на землю. Попросите вашего ребенка забрать карточки и вернуть их вам.

Относительное веселье, которое они испытывают во время двух испытаний, должно дать им интуитивное чувство дисперсии :)

— stemgal
источник

1

Так что же это значит? Если кто-то увидит статистическую дисперсию дротиков на доске, что они сделают? Что значит иметь низкую / высокую дисперсию, интуитивно говоря ...

— PhD

1

Я бы сказал что-то вроде: допустим, мы бросили 4 дротика. Количество раздач, необходимых для одновременного удаления дротиков с доски, увеличивается с увеличением дисперсии позиций дротиков (Примечание: здесь очень неофициальный аргумент, поскольку существует ряд контрпримеров, например, когда 3 дротика сгруппированы вместе, а последний дротик на стене в 3 футах от darboard).

2

Ваша диаграмма также, кажется, резонирует с классическим способом различения точности и точности! Это просто ударил меня!

— PhD

2

AAAAAAAAAAAH! Хорошее упражнение! Хороший способ показать кому-то, что значит иметь низкую / высокую дисперсию! Среднее расстояние от среднего значения (среднего) точек данных :)

— кандидат наук

2

(+1) Дартс-аналог, демонстрирующий разницу между смещением и дисперсией, просто великолепен

— Штеффен

36

Раньше я шутками учил статистику непрофессионалу, и обнаружил, что они многому учатся.

Предположим, что для дисперсии или стандартного отклонения довольно полезна следующая шутка:

шутка

Однажды два статистика ростом 4 фута и 5 футов должны пересечь реку СРЕДНЕЙ глубины 3 фута. Тем временем приходит третий статистик и говорит: «Чего вы ждете? Вы можете легко перейти реку»

Я предполагаю, что неспециалист знает о «среднем» сроке. Вы также можете задать им тот же вопрос, что они пересекут реку в этой ситуации?

Чего им не хватает, так это «дисперсии», чтобы решить «что делать в ситуации?»

Это все о ваших навыках презентации. Однако, шутки очень помогают непрофессионалу, который хочет понять статистику. Я надеюсь, что это помогает!

— Биостат
источник

1

Может быть , я не очень хорошо со статистическими шутками (я являюсь довольно хорошо с другими , хотя :). Но я не думаю, что понимаю, что означает «что делать в ситуации»? Что именно нужно делать, если они имеют представление о дисперсии? Как следует это интерпретировать?

— PhD

6

@Nupul: На самом деле, «что делать в ситуации» означает, что они пересекают реку или нет? Если вы знаете дисперсию (или SD), то вы можете легко решить ее. Предположим, что дисперсия составляет 0,25 (SD = 0,5), тогда они могут безопасно пересечь реку, потому что диапазон интервала (не путайте это с уверенностью Interval (CI)) составляет 3 + 0,5 или 3-0,5, а их высоты равны 4 и 5. Если дисперсия 4, то лучше не переходить реку. Кстати, просто наслаждаться шутками здесь stats.stackexchange.com/questions/1337/statistics-jokes

— BioStat

Отлично! Я понял! :) Это имеет большой смысл. Фактически, объединение ответов от разных людей помогает мне лучше понять ...

— Кандидат философских наук,

Или, если акулы «в среднем» не едят людей, это мало утешительно, если они очень капризны (очень вариативное поведение). В речной аналогии речь идет о том, сделаете ли вы шаг, который поставит вас над головой.

— Дин Рэдклифф

12

Я бы сосредоточился на стандартном отклонении, а не на дисперсии; Разница в неправильном масштабе.

Так же как среднее значение является типичным значением, SD является типичным (абсолютным) отличием от среднего значения. Это мало чем отличается от сложения распределения в среднем и взятия среднего значения.

— Карл
источник

1

Согласовано. Допустим, мы сосредоточены на SD. Мой вопрос по-прежнему состоит в том, как заставить кого-то понять SD интуитивно, кроме «высокий SD не кажется хорошим » ... как бы я объяснил SD непрофессионалу, поскольку это квадратный корень из дисперсии !!!

— PhD

@ Nupul - Прочтите мой второй абзац: я бы объяснил SD как типичное отличие от среднего.

— Карл

4

«Это мало чем отличается от сложения распределения в среднем и получения среднего значения». Этот комментарий, как и остальная часть вашего поста, похоже, описывает среднее абсолютное отклонение, а не стандартное отклонение.

— Макрос

3

@Macro - да; пытаясь объяснить SD, я бы приблизил его к MAD. Я думаю, что лучше не опровергать среднеквадратичное или среднее абсолютное значение.

— Карл

7

Я не согласен со многими ответами, призывающими людей просто думать о дисперсии как о распространении. Как отмечают умные люди (Нассим Талеб), когда люди думают о дисперсии как о распространении, они просто предполагают, что это СУЩЕСТВУЕТ.

Дисперсия - это описание того, насколько далеки члены от среднего, И оно оценивает важность каждого наблюдения по этому же расстоянию. Это означает, что наблюдения далеко, судят более важно. Отсюда квадраты.

Я думаю, что дисперсию непрерывной равномерной переменной легче всего представить. Каждому наблюдению можно нарисовать квадрат. Укладка этих квадратов создает пирамиду. Разрежьте пирамиду пополам, чтобы половина веса была с одной стороны, а половина - с другой. Лицо, где вы режете это дисперсия.

— arthur.00
источник

2

Я не знаю, почему за этот ответ не проголосовали больше. Пункт, изложенный во втором абзаце, имеет решающее значение для понимания дисперсии и ее дифференциации от MAD, что, как правильно указано, является тем, о чем люди интуитивно думают, когда говорят о «мере распространения». И не за пределами непрофессионала понять идею, что вес, данный расстоянию пункта от среднего, не растет линейно, даже если они не понимают квадраты математически.

— Джереми Рэдклифф

3

"MAD" = en.wikipedia.org/wiki/Median_absolute_deviation для тех, кто интересуется. Я не думаю, что такие аббревиатуры должны предполагать знание по вопросу, подобному этому.

5

Может быть, это могло бы помочь. Я заранее прошу прощения, что как любитель, я могу ошибаться.

Представьте, что вы просите 1000 человек правильно угадать, сколько бобов находится в банке с желейными бобами. Теперь представьте, что вам не обязательно интересно знать правильный ответ (который может быть полезен), но вы хотите лучше понять, как люди оценивают ответ.

Неприятие могло быть объяснено непрофессионалу как распространение различных ответов (от самого высокого до самого низкого). Вы можете продолжить, добавив, что, если достаточное количество людей будет допрошено, правильный ответ должен лежать где-то посередине распространенных «оценок».

Теперь я обращаюсь к некоторым из моих более уважаемых коллег для вынесения решения

— Андрей V
источник

5

Я сидел, пытаясь разгадать дисперсию, и вещь, которая, наконец, заставила его защелкнуться, стала смотреть на это графически.

Скажем, вы рисуете числовую линию с четырьмя точками, -7, -1, 1 и 7. Теперь нарисуйте воображаемую ось Y с теми же четырьмя точками вдоль измерения Y, и используйте пары XY, чтобы нарисовать квадрат для каждой пары. очков. Вы получите четыре отдельных квадрата, состоящих из 49, 1, 1 и 49 квадратов меньшего размера каждый. Каждый из них вносит вклад в общую сумму квадратов, которая сама по себе может быть представлена в виде большого квадрата 10 x 10 с общим числом 100 меньших квадратов.

Дисперсия - это размер среднего квадрата, способствующий увеличению этого квадрата. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Таким образом, 25 будет дисперсией. Стандартным отклонением будет длина одной из сторон этого среднего квадрата или 5.

Очевидно, что эта аналогия не охватывает весь нюанс понятия дисперсии. Есть много вещей, которые нужно объяснить, например, почему мы часто используем знаменатель n-1 для оценки параметра совокупности вместо простого использования n. Но в качестве основной концепции, к которой нужно привязать остальную часть подробного понимания различий, просто нарисовать его, чтобы я мог видеть, что это очень помогло. Это помогает понять, что мы имеем в виду, когда говорим, что дисперсия - это среднеквадратичное отклонение от среднего. Это также помогает понять, какое отношение SD имеет к этому среднему.

— Кален
источник

1

Добро пожаловать в Cross-Validated! Мне нравится этот подход, но было бы еще более полезно подчеркнуть, что точки разбросаны «вокруг» нуля (т. Е. Имеют нулевое среднее значение), и вы измеряете разброс относительно расположенного там «атома». (+1) и я с нетерпением жду новых ответов от вас!

— Мэтт Краузе

4

Имейте много практики, обучающей мирян стандартным отклонениям и отклонениям.

TL; DR; Это что-то вроде среднего расстояния от среднего. (что немного сбивает с толку и вводит в заблуждение в такой краткой версии. Поэтому прочитайте статью полностью)

Я предполагаю, что неспециалист знает о среднем. Я говорю о важности знания SD и оценки ошибок (см. PS ниже). Тогда я обещаю, что никакие знания по математике или сакральной статистике не будут использоваться - только сухие рассуждения и чистая логика.

Проблема. Допустим, у нас есть термометр (я выбираю измерительное устройство в зависимости от того, что ближе к слуховому).

Мы сделали N измерений той же температуры, и термометр показал нам что-то вроде 36,5, 35,9, 37,0, 36,6, ... (см. Рис.). Мы знаем, что реальная температура была одинаковой, но термометр нам лжет чуть-чуть при каждом измерении.

Как мы можем оценить, сколько эта маленькая мразь нам лжет?

Мы можем рассчитать среднее значение (см. Красную линию на рисунке ниже). Можем ли мы в это поверить? Даже после усреднения достаточно ли точности для наших нужд?
Самый простой подход . Мы можем взять самую дальнюю точку, вычислить расстояние между ней и средним (красная линия) и сказать, что именно так нам и соответствует термометр, потому что это максимальная ошибка, которую мы видим. Можно предположить, что это не лучшая оценка. Если мы посмотрим на картинку, то большинство точек находятся на среднем уровне, как мы можем определить только одну точку? На самом деле можно практиковать нумерацию причин, почему такая оценка является грубой и обычно плохой.
Дисперсия . Тогда ... давайте возьмем все расстояния и посчитаем среднее расстояние !

Кстати, как рассчитать расстояние? Когда вы слышите «расстояние» на английском (испанский? Датский?), Оно переводится как «вычитать» в математике. Таким образом, мы начинаем нашу формулу с где - среднее значение, а - одно из измерений. $(x_{i} - \bar{x})$ $\bar{x}$ $x_{i}$

Тогда можно представить, что формула среднего расстояния будет суммировать все и делить на N:

$\frac{\sum (x_{i} - \bar{x})}{N}$ $\frac{\sum(x_{i} - \bar{x})}{N}$
Но есть проблема. Мы можем легко увидеть, например. 36,4 и 36,8 находятся на одинаковом расстоянии от 36,6. но если мы поместим значения в формулу выше, мы получим -0.2 и +0.2, а их сумма будет равна 0, а это не то, что нам нужно.

Как избавиться от знака? (В этот момент непрофессионалы обычно говорят: «Примите абсолютное значение» и получите предположение, что «получение абсолютного значения немного искусственно, как по-другому?»). Мы можем возвести в квадрат значения! Тогда формула становится:

$\frac{\sum (x_{i} - \bar{x})^{2}}{N}$ $\frac{\sum(x_{i} - \bar{x})^{2}}{N}$ .
Эта формула называется «Дисперсия» в статистике. И гораздо лучше оценивать разброс значений нашего термометра (или чего-либо еще), чем брать только максимальное расстояние.
Стандартное отклонение . Но все же есть еще одна проблема. Посмотрите на формулу дисперсии. Квадраты делают наши единицы измерения ... квадратными. Если термометр измеряет температуру в ° C (или ° F), то наша оценка погрешности измеряется в (или ). Как нейтрализовать квадраты? - Используйте квадратный корень! $°C^{2}$ $°F^{2}$

$\sqrt{\frac{\sum (x_{i} - \bar{x})^{2}}{N}}$ $\sqrt{\frac{\sum(x_{i} - \bar{x})^{2}}{N}}$
Итак, здесь мы приходим к формуле стандартного отклонения, которая обычно обозначается как . И это лучший способ оценить точность нашего устройства. $\sigma$

На этом этапе непрофессионал довольно ясно понимает, как мы сюда попадаем и как работает стандартное отклонение / дисперсия. С этого момента я обычно перехожу к правилу 68–95–99.7, описывающему также выборку и популяцию, стандартную ошибку и условия стандартного отклонения и т. Д.

PS Важность знания SD разговора пример:

Допустим, у вас есть какое-то измерительное устройство, которое стоит 1 000 000 $ . И это дает вам ответ: 42. Как вы думаете, один заплатил 1 000 000 $ за 42? Phooey! Один заплатил 1000 000 за точность этого ответа. Потому что Value - ничего не стоит, не зная его Error. Вы платите за ошибку, а не за стоимость. Вот хороший пример из жизни.

В обычной жизни в большинстве случаев мы используем линейку для измерения расстояния. Линейка дает вам точность около одного миллиметра (если вы не в США). Что если вам нужно выйти за миллиметр и измерить что-то с точностью до 0,1 мм? - Вы, вероятно, использовали бы штангенциркуль. Теперь легко проверить, что самая дешевая линейка (но все еще с точностью до миллиметра) стоит центов, в то время как хороший суппорт стоит десятую часть долларов. 2 величины цены за 1 величину точности. И это очень обычно из того, сколько вы платите за ошибку.

— MajesticRa
источник

2

Я думаю, что ключевая фраза, которую следует использовать при объяснении как дисперсии, так и стандартного отклонения, - это «мера разброса» . На самом базовом языке дисперсия и стандартное отклонение говорят нам, насколько хорошо распределены данные. Чтобы быть немного более точным, хотя все еще обращаясь к неспециалисту, они говорят нам, насколько хорошо данные распределены по среднему значению. Попутно обратите внимание, что среднее является «мерой местоположения» . Чтобы завершить объяснение для неспециалиста, следует подчеркнуть, что стандартное отклонение выражается в тех же единицах, что и данные, с которыми мы работаем, и именно по этой причине мы берем квадратный корень из дисперсии. т.е. два связаны.

Я думаю, что это краткое объяснение поможет. В любом случае, это похоже на объяснение вводного учебника.

— Грэм Уолш
источник

0

Я рассматриваю дисперсию распределения как момент инерции с осью, которая в среднем распределения и каждой массы равна 1. Эта интуиция сделала бы абстрактную концепцию конкретной.

Первый момент - среднее значение распределения, а второй момент - дисперсия.

Ссылка: первый курс вероятности 8-е издание

— Лернер Чжан
источник

-2

Я бы назвал это средним положительным отличием от общего среднего.

— mskw
источник

1

До тех пор, пока вы не укажете два вида «среднего», которое вы имеете в виду (первый - это среднее значение а второй - среднее арифметическое), почти наверняка ваше утверждение будет интерпретировано способами, которые делают его неверным. Более того, термин «положительная разница» является странным и неоднозначным: вы имеете в виду рассматривать только положительные остатки? Или взять абсолютные значения остатков? Или что-то другое?

L^{2}

$L^2$

— whuber