Регрессия к среднему значению в «Мышление, быстро и медленно»

В Размышлении быстро и медленно» Даниэль Канеман ставит следующий гипотетический вопрос:

(Стр. 186). Джули в настоящее время является старшим в государственном университете. Она бегло читала, когда ей было четыре года. Какой у нее средний балл (GPA)?

Его намерение состоит в том, чтобы проиллюстрировать, как мы часто не учитываем регрессию к среднему значению при прогнозировании определенных статистических данных. В последующем обсуждении он советует:

(Стр. 190) Напомним, что корреляция между двумя показателями - в данном случае возраст чтения и средний балл - равна доле общих факторов среди их детерминант. Что вы думаете об этой пропорции? Мое самое оптимистичное предположение составляет около 30%. Исходя из этой оценки, у нас есть все, что нам нужно для непредвзятого прогноза. Вот инструкции о том, как добраться за четыре простых шага:

Начните с оценки среднего балла.

Определите средний балл, который соответствует вашему впечатлению о доказательствах.

Оцените корреляцию между скоростями чтения и ГПД.

Если корреляция равна .30, переместите 30% расстояния от среднего значения до соответствующего GPA.

Моя интерпретация его совета такова:

Используйте «Она бегло читает, когда ей было четыре года», чтобы установить стандартную оценку скороспелости Джулии.
Определите средний балл, который имеет соответствующий стандартный балл. (Рациональный ГПД для прогнозирования соответствовал бы этому стандартному баллу, если бы корреляция между ГПД и скоростями чтения была идеальной.)
Оцените, какой процент вариаций в GPA можно объяснить вариациями в скоростях чтения. (Я предполагаю, что он имеет в виду контекст определения «корреляция» в этом контексте?)
Поскольку только 30% стандартного показателя скороспелости Джули могут быть объяснены факторами, которые также могут объяснить стандартную оценку ее ГПД, мы только оправдываем прогнозирование того, что стандартная оценка ГПД Джулии будет составлять 30% от того, что было бы в случае идеальной корреляции.

Правильна ли моя интерпретация процедуры Канемана? Если так, есть ли более формальное математическое обоснование его процедуры, особенно шаг 4? В целом, какова взаимосвязь между корреляцией между двумя переменными и изменениями / различиями в их стандартных баллах?

standard-deviation regression-coefficients regression-to-the-mean

— продовольствие
источник

Ответы:

Правильна ли моя интерпретация процедуры Канемана?

Это немного сложно сказать, потому что шаг № 2 Канемана сформулирован не очень точно: «Определите средний балл, который соответствует вашему впечатлению о доказательствах» - что именно это должно означать? Если чьи-то впечатления хорошо откалиброваны, тогда не нужно будет поправляться к среднему значению. Если чьи-то впечатления сильно искажены, то лучше исправить их еще сильнее.

Так что я согласен с @AndyW, что совет Канемана - это только практическое правило.

$z$ $z$

[...] есть ли более формальное математическое обоснование его процедуры, особенно шаг 4? В целом, какова взаимосвязь между корреляцией между двумя переменными и изменениями / различиями в их стандартных баллах?

$y$ $x$ $z$ $\rho$

Y знак равно ρ Икс,

$y=\rho x,$

$x$ $y$ $\rho$

Это именно то, что называется «регрессия к среднему». Вы можете увидеть некоторые формулы и выводы в дискуссии в Википедии .

— амеба говорит восстановить монику
источник

Порядок ваших номеров не совпадает с цитатой Канемана. Из-за этого может показаться, что вы упускаете общий смысл.

Первая точка зрения Канемана - самая важная. Это значит буквально оценить средний балл - для всех. Смысл этого совета в том, что это ваш якорь. Любой прогноз вы даете должны быть ссылки на изменения вокруг этой точки привязки. Я не уверен, что вижу этот шаг в любом из ваших пунктов!

Канеман использует аббревиатуру, WYSIATI, что вы видите, это все, что есть. Это тенденция человека переоценивать важность информации, доступной в настоящее время. Для многих информация о способностях к чтению заставит людей думать, что Джули умная, и поэтому люди будут угадывать средний балл умного человека.

Но поведение ребенка в четыре года содержит очень мало информации, касающейся поведения взрослых. Вам, вероятно, лучше игнорировать это при составлении прогнозов. Это должно лишь немного отклонить вас от якоря. Кроме того, народы первыми догадываются о том, что ГПД для умных людей может быть очень неточным. Из-за отбора большинство старшеклассников в колледже имеют интеллект выше среднего.

На самом деле в этом вопросе есть и другая скрытая информация, кроме того, что Джули в четыре года умеет читать.

Джули, вероятно, будет женское имя
Она учится в государственном университете
Она старшая

Я подозреваю, что все эти три характеристики немного повышают средний средний балл по сравнению с общей численностью студентов. Например, я держу пари, что у старшеклассников «скорее всего, средний балл выше, чем у Софмора», потому что ученики с очень плохим средним баллом выбывают.

Таким образом, процедура Канемана (как гипотетическая) будет выглядеть примерно так.

Средний средний балл для женщин старшего в государственном университете составляет 3,1.
Я предполагаю, что на основании продвинутой способности Джулии к чтению в 4 года ее средний балл составляет 3,8
Я думаю, что умение читать в 4 года коррелирует с ГПД, равным 0,3
Тогда 30% пути между 3,1 и 3,8 составляет 3,3 (т.е. 3.1 + (3.8-3.1)*0.3)

Таким образом, в этой гипотезе окончательное предположение для GPA Джулии составляет 3,3.

Регрессия к среднему значению в подходе Канемана заключается в том, что шаг 2, вероятно, будет грубой переоценкой важности имеющейся информации. Таким образом, лучшая стратегия состоит в том, чтобы вернуть наш прогноз обратно к общему значению. Шаги 3 и 4 представляют собой (специальные) способы оценки степени регрессии.

— Энди У
источник

Я понимаю интуицию, стоящую за процедурой, но не математическое обоснование. Моя интерпретация заключается в том, что цель оценки среднего балла успеваемости состоит в том, чтобы дать возможность оценить конкретные баллы в терминах стандартных баллов; в противном случае они не могли бы быть осмысленно сопоставлены с преждевременностью чтения. (Продолжение)

— Пайки

Канеман упоминает, что большинство людей предполагают, что средний балл GPA = 3,7 или 3,8, что, вероятно, соответствует стандартному баллу, который они ассоциируют с скороспелостью Джули, но также косвенно предполагает, что корреляция между двумя переменными является идеальной. В основном меня смущает вопрос, является ли шаг 4 основанным на интуиции эмпирическим правилом или реальной, статистически достоверной процедурой (т. Е. Можно ли аддитивно относиться к стандартным оценкам и принимать их пропорции на основе корреляции?). Если это просто практическое правило, существует ли более статистически строгий метод приближения?

— Пайки

Под «аддитивно» я имею в виду наше предположение, что (1) некоторая доля стандартного балла по шкале Джулии объясняется факторами, которые также могут объяснить ее скороспелость при чтении, что (2) оставшаяся доля ее стандартного балла по шкале балла объясняется факторами уникально для объяснения ГПД, что (3) сумма этих вкладов равна итоговому стандартному баллу ГПД, который мы прогнозируем для Джули, и что (4) мы можем исправить наш прогноз, просто взяв часть нашего предвзятого прогноза. Действительна ли работа с такими пропорциями стандартных отклонений, как это, в отличие от, скажем, работы с их квадратными корнями?

— Пайки

Это специальное правило. Шаги два и три не обязательно логически согласуются друг с другом. (Это два разных способа сказать одну и ту же информацию, один - это размер эффекта, а другой - стандартизированный размер эффекта.)

— Энди У