Загадка регрессии к среднему


9

В главе «Возвращение к среднему значению» Даниеля Канемана «Мышление, быстрое и медленное» приводится пример, и читателю предлагается спрогнозировать продажи отдельных магазинов с учетом общего прогноза продаж и показателей продаж за предыдущий год. , Например (пример книги имеет 4 магазина, я использую 2 здесь для простоты):

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

Наивный прогноз будет 110 и 550 для магазинов 1 и 2, прирост по 10% для каждого. Однако автор утверждает, что этот наивный подход неверен. Более вероятно, что магазин с более низкой производительностью увеличится более чем на 10%, а магазин с более высокой производительностью увеличится (или даже уменьшится) менее чем на 10%. Поэтому, возможно, прогноз в 115 (увеличение на 15%) и 535 (рост на 7%) будет «более правильным», чем наивный прогноз.

Что я не понимаю, так это как мы можем сделать вывод, что продажи 100 магазина 1 - это обязательно магазин с более низкой производительностью? Возможно, из-за различий в местоположении истинные временные ряды магазинов 1 и 2 равны 10 и 550, а у магазина 1 был супер-год в 2011 году, а у магазина 2 - катастрофический год в 2011 году. Тогда не было бы смысла спрогнозировать уменьшение для магазина 1 и увеличение для магазина 2?

Я знаю, что информация о временных рядах не была предоставлена ​​в исходном примере, но у меня сложилось впечатление, что «регрессия к среднему» относится к среднему сечению, и, следовательно, информация о временных рядах не имеет значения. Что я недопонимаю?

Ответы:


8

Я случайно читаю эту книгу. Вы недостаточно расшифровали ключевую информацию. В нем говорится, что «все магазины одинаковы по размеру и ассортименту товаров, но их продажи различаются из-за местоположения, конкуренции и случайных факторов». Это ключ, особенно последний. Случайные факторы необходимы для регрессии к среднему значению (если продажи выросли на фиксированную величину, тогда 10% -ный выигрыш, равномерно распределенный по магазинам, был бы правильным).


2
Вы говорите, что «все магазины одинаковы» предполагает, что их временные ряды одинаковы? В противном случае два идентичных магазина могут иметь совершенно разные средства в зависимости от местоположения.

1
Я признаю, что это не самая лучшая формулировка проблемы, но она намного яснее, чем то, что вы имели в своем первоначальном вопросе.
Питер Флом

2

С таким небольшим количеством точек данных ответ будет почти полностью продиктован предыдущим (или подразумеваемым эквивалентом). Если автор видел много таких данных раньше, у них вполне может быть веская причина полагать, что их ответ с большей вероятностью будет правильным, учитывая их прошлые наблюдения. Я думаю, что можно предположить, что это пример регрессии к среднему значению, по крайней мере, без указания дополнительной информации. Например, магазины находятся в сопоставимых местах или нет? Если они есть, и нет других очевидных различий между магазинами, тогда мы можем чувствовать себя оправданными, думая, что они являются частью сопоставимого населения, и мы можем думать о регрессии к среднему. Если между магазинами есть очевидные различия, которые могут объяснить систематическую разницу в продажах, то это становится менее разумным.


0

Я думаю, что лучшей (гипотетической) иллюстрацией может быть что-то вроде этого:

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

За исключением систематических причин, мы ожидаем, что худший исполнитель (из случайных причин) не будет таким снова. И так же для лучшего исполнителя.

Следовательно, при среднем росте в 10% я бы ожидал, что № 1 будет лучше, чем 110, а № 6 - хуже, чем 330.

Я чувствую сомнительную часть предположений. ИМХО очень редко, что отстой пакета действительно является случайной случайностью, а не какой-то основной неоднородностью.

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.