Парадокс средней стоимости - как это называется?

22

У меня есть набор данных. Скажите наблюдений и переменные: $10$ $3$

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

Скажем, это клиентов, которые купили ( ) или нет ( ) в каждой категории . Там их , поэтому эти покупателей покупают в среднем по товарным категориям. $10$ 10A, B, C $16$ $10$ $1.6$

Обратите внимание, что клиенты могут купить больше, чем один из A, B и C.

Если я смотрю только на тех, кто покупает A, то есть клиентов, которые купили в товарных категориях, то есть в среднем . $5$ $9$ $1.8$

Bэто снова, или . $9/5$ $1.8$

Cявляется $10/6 = 1.67.$

Все они выше $1.6.$

что кажется странным Я понимаю это, но нужно объяснить это маркетингу на следующей неделе и поэтому нужна помощь!

Как называется эта вещь?

Я знаю, что это не парадокс Симпсона. Для меня это похоже на логику проблемы Монти Холла и условной вероятности.

proportion descriptive-statistics paradox

— Джеймс Адамс
источник

2

Лично я понятия не имею, о чем ты говоришь. Почему бы не создать таблицу на случай непредвиденных обстоятельств из As, B и C для изучения моделей перекрестных покупок?

— Майк Хантер

3

У нас есть сообщения, в которых говорится: «Клиенты, которые покупают C, стоят больше, чем в среднем - 1,67 против 1,6». Это правда, но A и B также стоят больше, чем в среднем. На что неизбежно возникнет вопрос: «Как все клиенты могут стоить больше, чем в среднем»?

— Джеймс Адамс

3

Я думаю, что его загадка заключается в том, что внешне он похож на озеро Вобегон, где все выше среднего: P Позвольте быть количеством категорий / предметов, купленных покупателем. Пусть , и - индикаторы для покупок в категориях A, B и C соответственно. , и а

X

$X$

A

$A$

B

$B$

C

$C$

E [X ∣ A] = 1.8

$\operatorname{E}[X\mid A] = 1.8$

E [X ∣ B] = 1.8

$\operatorname{E}[X\mid B] = 1.8$

E [X ∣ C] = 1.67

$\operatorname{E}[X\mid C] = 1.67$

E [X] = 1.6

$\operatorname{E}[X] = 1.6$

— Мэтью Ганн

12

Возможно, вы захотите мыслить в терминах дополнительных множеств и диаграмм Венна. Наборы «клиенты, которые покупают А» и «клиенты, которые не покупают А» не перекрываются. Но наборы, которые вы перечислите в своем вопросе, перекрываются. Вы можете вычислить общее среднее значение (средневзвешенное) средних значений поднабора, только если подмножества образуют раздел .

— GeoMatt22

4

Это похоже на парадокс иллюзии большинства ? Точно так же, как любой человек, вероятно, будет подключен к супер-сети, любая категория покупки может содержать супер-покупателя? (Я называю супер-сетевика кем-то, кто общается со многими людьми, и супер-покупателем, который покупает много разных предметов)

— Мэтью Ганн

28

Среднее значение для каждой подкатегории может быть выше общего среднего, если подкатегории перекрываются для более крупных клиентов.

Простой пример обрести интуицию:

Пусть будет показателем того, приобрел ли человек предмет в категории A. $A$
Пусть будет показателем того, купил ли человек предмет в категории B. $B$
Пусть будет количество купленных предметов. $X = A + B$

\begin{array}{ccc} Person & A & B \\ i & 1 & 0 \\ i i & 0 & 1 \\ i i i & 1 & 1 \end{array}

$\begin{array}{ccc} \text{Person} & A & B \\ i & 1 & 0 \\ ii & 0 & 1 \\ iii & 1 & 1 \end{array}$

Множество индивидов, где истинно, перекрывает множество индивидов, где истинно. Это НЕ непересекающиеся множества. $A$ $B$

Тогда то время как и $\operatorname{E}[X] \approx 1.33$ $\operatorname{E}[X \mid A] = 1.5$ $\operatorname{E}[X \mid B] = 1.5$

Утверждение, которое было бы правдой:

P (A) E [X ∣ A] + P (B) E [X ∣ B] - P (A B) E [X ∣ A B] = E [X]

$P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B] - P(AB)\operatorname{E}[X\mid AB] = \operatorname{E}[X]$

\frac{2}{3} 1.5 + \frac{2}{3} 1.5 - \frac{1}{3} 2 = 1.3333

$\frac{2}{3}1.5 + \frac{2}{3}1.5 - \frac{1}{3}2 = 1.3333$

Вы не можете просто вычислить поскольку множества и перекрываются, выражение double подсчитывает человека кто покупает оба предмета и ! $P(A)\operatorname{E}[X\mid A] + P(B)\operatorname{E}[X\mid B]$ $A$ $B$ $A$ $B$

Название для иллюзии / парадокса?

Я бы сказал, что это связано с парадоксом большинства иллюзий в социальных сетях.

У вас может быть один чувак, который общается / общается со всеми. Этот человек может быть одним из миллиона в целом, но он будет одним из друзей каждого человека . $k$

Точно так же у вас есть 1 из 3, кто покупает обе категории A и B. Но в пределах категории A или B 1 из 2 покупателей является суперпокупателем.

Крайний случай:

Давайте создадим наборов лотерейных билетов. Каждый набор включает в себя два билета: проигрышный билет и билет с выигрышем джекпота. $n$ $S_i$ $i$

Средний выигрыш в каждом наборе равен где - джекпот. Среднее значение по каждой категории на ПУТЬ выше среднего выигрыша за билет в целом . $S_i$ $\frac{J}{2}$ $J$ $\frac{J}{n+1}$

Это та же концептуальная динамика, что и в случае продаж. Каждый набор включает в себя джекпот-билет так же, как и в каждую категорию A, B или C входят крупные покупатели. $S_i$

Суть в том, что интуиция, основанная на непересекающихся наборах, полное разбиение выборочного пространства не переносит на ряд перекрывающихся наборов. Если вы используете перекрывающиеся категории, каждая категория может быть выше средней.

Если вы разбиваете выборочное пространство и условие на непересекающиеся наборы, то категории должны усредняться до общего среднего, но это не так для перекрывающихся наборов.

— Мэтью Ганн
источник

3

Благодарность! Я думаю, что двойной счет является ключом к объяснению. Я не думаю, что это обязательно результат нескольких экстремальных ценностей. Мой пример набора данных выше довольно приземленный, и эффект «все группы выше среднего» все еще происходит. Я думаю, это произойдет в большинстве случаев. Просто подумал, есть ли у него имя или предыдущий пример.

— Джеймс Адамс

Это объяснение не будет иметь места, если данные, которые анализирует @JamesAdams, имеют недостатки. Я утверждаю, что это так. Вы не можете иметь взаимоисключающий и полный набор категорий A, B и C, где средние значения по группам выше, чем среднее по всем трем, взятым вместе, без нарушения какого-либо фундаментального предположения анализа данных. В вашем случае, наиболее вероятно, что знаменатель для общего среднего отличается (например, содержит больше респондентов) от тех, которые используются для оценки средних для A, B и C.

— Майк Хантер

2

@DJohnson Конечно, вы правы, если наборы A, B и C разделяют пространство выборки. Мое прочтение вопроса и предоставленных «данных» (что бы это ни было) заключается в том, что A, B и C являются перекрывающимися множествами. Если A, B и C перекрываются, то все средние значения по группам могут быть выше, чем общее среднее (что является точкой моего ответа; наборы перекрываются для самых крупных клиентов!). Ничто из сказанного ФП не является внутренне противоречивым. Ваш детектор «мы получаем данные BS» может быть лучше моего, и я согласен, что всегда важно задавать критические вопросы о достоверности данных / цифр.

— Мэтью Ганн

Да, они перекрывают множества. Мой набор данных - это миллионы клиентов и 12 категорий. Когда я увидел, что мои средние значения были выше, чем общее среднее, я подумал, что это выглядит странно, но объяснимо. Я собрал пример набора из 10 аксов и 3 категорий, чтобы увидеть его. Я просто разбросал 1 и 0 здесь, и получилось то же самое. Я подозреваю, что это происходит с большинством наборов данных, где рассчитывается этот тип среднего. @Djohnson мой пример выше, что я использую 10 в качестве знаменателя для общего среднего, 5 для As, 5 для Bs, 6 для Cs. Можете ли вы сказать мне, что я нарушаю в этом примере?

— Джеймс Адамс

Что означает «10»? Сеть респондентов по 3 категориям? Что происходит со средними, если вы используете один и тот же знаменатель для всех? Он должен возвращать средние значения, которые колеблются вокруг великого среднего.

— Майк Хантер

10

Я бы назвал это парадоксом размера семьи или чем-то подобным

Предположим, для простого примера, у каждого был один партнер и число детей с распределением Пуассона с параметром : $2$

Среднее количество детей на человека будет $2$
Среднее число детей на человека с детьми составит $\frac{2}{1-e^{-2}} \approx 2.313$
Средний размер группы братьев и сестер для каждого человека (не считая их братьев, сестер и самих себя) составит $3$

Реальные демографические данные и данные опросов дают разные цифры, но сходные модели

Очевидный парадокс заключается в том, что средний размер групп братьев и сестер выше среднего числа детей в семье; при стабильной динамике населения у людей, как правило, меньше детей, чем у их родителей

Объяснение заключается в том, берется ли среднее значение по родителям и семьям или братьям и сестрам: для многодетных семей применяются разные весовые коэффициенты. В вашем примере есть разница между взвешиванием по отдельным лицам или по покупкам; Ваши условные средние значения увеличиваются тем фактом, что вы указали конкретную сделанную покупку.

— Генри
источник

8

Другие ответы задумываются о том, что происходит. Предположим, есть один продукт и два клиента. Один купил продукт (один раз), а другой нет. Среднее количество покупаемых товаров составляет 0,5, но если вы посмотрите только на покупателя, покупатель получает среднее значение до 1.

Это не кажется мне парадоксом или нелогичным; Условие покупки товара, как правило, поднимет среднее количество покупаемых товаров.

— Вадим Пономаренко
источник

В точку. Предполагая, что покупки в каждой из 3 категорий не сильно коррелируют, вы рассчитываете средние значения после повышения уровня покупки до 100% в одной из категорий. Вероятно, было бы более информативным для сравнения например. Средний уровень покупок в категориях B и C: а) среди всех покупателей (11/20) б) среди тех, кто купил А (4/10). Зависит от того, что вы пытаетесь показать / найти, я думаю.

— Конрад

2

Разве это не просто замаскированное «среднее из средних» (например, предыдущий вопрос об обмене стека )? Ваш соблазн, по-видимому, заключается в том, что средние значения по выборке должны в итоге усредняться по среднему значению для населения, но это случается редко.

В классическом «среднем значении» кто-то находит среднее из N взаимоисключающих подмножеств, а затем поражен тем, что эти значения не усредняются по среднему населению. Этот способ усреднения усредняется только в том случае, если ваши неперекрывающиеся подмножества имеют одинаковый размер. В противном случае вам нужно взять средневзвешенное значение.

Ваша проблема усложняется путаницей подмножеств с традиционным усреднением средних значений, но мне кажется, что это просто классическая ошибка с изюминкой. С перекрывающимися подмножествами еще сложнее получить средние значения по выборке, которые усредняются по среднему населению.

В вашем примере, поскольку пользователи, которые появляются в нескольких подвыборках (и, следовательно, купили много вещей), увеличат эти средние значения. По сути, вы учитываете каждого крупного спонсора несколько раз, в то время как скромные люди, которые покупают только один предмет, встречаются только один раз, поэтому вы склонны к большим значениям. Вот почему ваши конкретные подмножества имеют значения выше среднего, но я думаю, что это все еще только проблема «среднего из средних».

Вы также можете построить все виды других подмножеств из ваших данных, где средние значения подвыборки принимают другие значения. Например, давайте возьмем подмножества, несколько похожие на ваши подмножества. Если вы возьмете подмножество людей, которые не покупали А, вы получите в среднем 7/5 = 1,4 товара. С подмножеством, не купившим B, вы также получаете в среднем 1,4 предмета. Те, кто не покупал С, покупали в среднем 1,5 вещи. Все они ниже среднего по населению в 1,6 единиц на одного покупателя. При правильном наборе данных и правильном наборе подмножеств вы можете получить перекрывающиеся подмножества, средние значения которых от среднего значения по населению; однако, это было бы необычно в обычных приложениях.

Это только я, или среднее слово теперь кажется странным после стольких повторений ... Надеюсь, мой ответ был полезным, и извините, если я испортил среднее слово для вас!

— tbell
источник

Благодарность! Комментарий о неперекрывающихся разделах одинакового размера прояснил это в моей голове. Я надеялся, что когда я представлю эти цифры, я смог бы сказать что-то вроде: «Все средние категории выше, чем общие средние, но это парадокс Блаблы». Например, когда вы говорите «Парадокс Симпсона! Сексизм Лиги Плюща!» а затем выбежать из комнаты. (Вы все делаете это иногда, не так ли?) Хотелось бы сказать им: «Это потому, что это перекрывающиеся подмножества разных размеров», но не думайте, что это приземлится!

— Джеймс Адамс

1

Хаха, достаточно честно. Я не совсем понял контекст раньше - я аспирант по астрофизике, поэтому я не очень знаком с контекстом. Вы могли бы сказать что-то краткое, говоря о том, что «все средние значения для подмножеств выше, чем общее среднее значение, потому что то, как мы создали подмножества, смещает нас к большим значениям» Я бы не упомянул имя среднего числа, так как оно не так хорошо известно, и ваш случай - это обобщение. Я также попытался бы найти синоним, чтобы заменить слова категории - обычно я вижу слово как подразумевающее взаимоисключающие подмножества.

— Tbell

Семантическая насыщенность - это психологический феномен, при котором повторение приводит к тому, что слово или фраза временно теряют смысл для слушателя, который затем воспринимает речь как повторяющиеся бессмысленные звуки.

— Патрик

1

Поскольку проблема заключается в том, что « я понимаю это, но нужно объяснить это маркетингу », OP, похоже, обеспокоен тем, как непрофессионал будет интерпретировать эти факты - (не то, являются ли факты правдой или как показать, что они есть). Этот вопрос относится к 10 категориям продуктов (AJ), так как насчет этого примера:

[на встрече с маркетинговой группой]
ОП : Итак, как вы можете видеть здесь , клиенты, которые покупают А, В и С, все ценнее, чем в среднем.
Layman : Подожди ?! Как все могут быть выше среднего?
ОП : Хороший вопрос. Этот слайд ориентирован на клиентов A, B и C, но есть другие, неэффективные группы, которые не показаны. Например, клиенты категорий D и G стоят примерно половину среднего.

Это должно подавить внутреннюю внутреннюю тревогу о том, что «все выше среднего».

— Патрик
источник

Это не способ ответить на вопрос.

— Майкл Р. Черник,

На его вопрос ответили, но никто не решил его проблему.

— Патрик

Мой комментарий касался только ответа Патрика.

— Майкл Р. Черник,

Я не вижу никаких правил против разных стилей ответа. Сообщение (реальных или воображаемых) обсуждений и разговоров - это проверенный временем способ размышлять над проблемами Сократа и далее (и до него, насколько я знаю).

— Ник Кокс,

Но это объяснение на самом деле неверно. Даже при отсутствии других категорий (DJ) наблюдение остается верным: все средние значения перекрывающихся подмножеств могут быть выше, чем среднее значение по всему набору, даже если подмножества охватывают весь набор.

— Изаранди

0

Проигнорируйте другие ответы здесь. На самом деле это вовсе не парадокс. Реальная проблема, которую все здесь игнорируют, заключается в том, что вы ошибаетесь, на какую вероятность вы действительно смотрите. На самом деле здесь действуют два совершенно разных средних и статистических показателя, которые имеют свои собственные применения и интерпретации в предложенном вами примере (маркетинг)!

Во-первых, это среднее количество продуктов, купленных на одного клиента. Таким образом, в среднем один покупатель покупает 1,6 товара. Конечно, клиент не может не иметь 0,6 продукта (при условии, что это не что-то вроде риса или зерна, которое имеет постоянное измерение, связанное с ним).

Во-вторых, есть среднее количество покупателей, которые покупают тот или иной товар. Звучит странно, правда? Таким образом, в среднем продукт имеет 5,33333333 ... покупатели покупают его. Это отличается однако. Здесь мы описываем не количество купленных продуктов (их всего три!), А количество людей, фактически покупающих указанный продукт.

Подумайте о двух значениях следующим образом: что бы представляли эти два значения, если бы был только один клиент или только один продукт? В конце концов, среднее значение для одной точки данных - это просто заданная точка данных.

Или, что еще лучше, подумайте о графике, как если бы он давал вам суммы в долларах, потраченные на покупку продукта. Очевидно, что средняя сумма, потраченная отдельным клиентом, будет намного меньше, чем сумма денег, сделанная в среднем продуктом, поставляемым крупной корпорацией (или даже небольшим бизнесом). Я уверен, что вы можете придумать хорошие способы использования обеих ценностей при обсуждении благополучия компании.

Когда вы будете объяснять это маркетологам, объясните им, как я сказал. Это не парадокс. Это просто совершенно другая статистика. Единственная проблема здесь заключалась в том, что было замечено, что на самом деле существует два разных способа чтения диаграммы (то есть количество людей, покупающих за продукт, против количества продуктов, купленных на человека).

tl; dr первое, что вы описали, - это средняя сумма, которую отдельный покупатель готов потратить на покупку вашей продукции. Второе - это средний спрос населения на данный продукт. Я уверен, что теперь вы понимаете, почему оба, безусловно, не одно и то же. Сравнение их как таковых просто даст вам мусорную информацию.

РЕДАКТИРОВАТЬ

Казалось бы, вопрос на самом деле задает вопрос о средних деньгах, потраченных клиентами, которые покупают какой-либо продукт a, b или c. Хорошо. На самом деле это просто ошибка в расчетах. Я бы не назвал это парадоксом. Это на самом деле просто тонкий вздор.

Посмотри на свои колонки. Есть люди, которые разделяются между столбцами. Давайте предположим, что вы сделали правильное средневзвешенное значение. Вы все еще складываете людей дважды. Это означает, что среднее будет содержать дополнительных людей со значением, большим или равным 2. Теперь, каково было ваше среднее значение? Это было 1.6! По сути, ваш средний выглядит так:

$\frac {\sum_{i = 0}^{n} valueOfPerson_i*valueOfPerson_i} {n}$

Это определенно не правильная формула. Это средневзвешенное значение, хотя и допускающее взаимную исключительность, то есть то, как вы бы приспособились, чтобы получить истинное среднее в вашей ситуации.

$\frac {\sum_{i = 0}^{n} numberOfPeopleBuying_i*averageSpentByPersonBuying_i} {n}$

В любом случае вы получите среднюю ошибку. Одной из ошибок было игнорирование необходимости взвешенного среднего, поскольку одна категория имеет больший «вес» с точки зрения среднего. Это как плотность. Одно значение плотнее в людях представляет. Другая проблема - дублирование, которое искажает среднее значение. Я не называю ни один из этих "парадоксов" все же. Когда я увидел, что ты делаешь, для меня стало очевидным, почему это не сработает. Средневзвешенное значение самоочевидно для его потребности, и теперь я думаю, что вы видите, что вы добавили значения несколько раз ... это не может работать. Вы в основном взяли среднее значение квадратов их значений.

— Великая утка
источник

Я не думаю, что это так. Меня не интересует, сколько людей покупают тот или иной товар. Меня интересует, сколько всего продуктов купил клиент, учитывая, что он купил А.

— Джеймс Адамс

@JamesAdams Хорошо, достаточно честно. В этом случае проблема становится еще более тривиальной. Вы просто берете в среднем подмножество вашего образца. Теоретически, если бы вы сделали то же самое с B и C, итоговое среднее не было бы фактическим средним. Однако это только из-за неравных образцов. Вот и все. На самом деле, я не вижу причин, почему это было бы очевидно для человека. На самом деле есть решение для исправления средних значений, чтобы получить правильное среднее значение. Это называется средневзвешенным значением, и в общем случае вы будете «взвешивать» каждый субсредний с количеством людей в этой группе. Есть смысл?

— Великая утка

@JamesAdams и я знаю, что вы не заинтересованы в этом. Вы математик, который, как вы утверждали, образовал парадокс, используя это среднее значение, чтобы попытаться вычислить среднее количество продуктов на человека. Вот почему в этом ответе я подчеркиваю, что есть второе среднее значение для другой статистики, и ваша «ошибка» заключалась в том, чтобы попытаться включить ее в совершенно другое среднее значение.

— Великая утка