Подобные Anscombe наборы данных с одним и тем же блоком и графиком усов (среднее / стандартное / медианное / MAD / мин / макс)

РЕДАКТИРОВАТЬ: Поскольку этот вопрос был завышен, краткое изложение: поиск различных значимых и интерпретируемых наборов данных с одинаковой смешанной статистикой (среднее значение, медиана, средний диапазон и связанные с ними дисперсии и регрессия).

Квартет Анскомба (см. « Цель визуализации высокоразмерных данных?» ) Является известным примером четырех наборов данных $x$ - $y$ с одинаковым предельным средним / стандартным отклонением (по четырем $x$ и четырем $y$ отдельно) и одинаковым линейным соответствием OLS. , регрессия и остаточная сумма квадратов и коэффициент корреляции $R^2$ . Таким образом, статистика типа $\ell_2$ (маргинальная и объединенная) одинакова, а наборы данных весьма различны.

РЕДАКТИРОВАТЬ (из комментариев OP) Оставив небольшой размер набора данных, позвольте мне предложить некоторые интерпретации. Набор 1 можно рассматривать как стандартную линейную (аффинно, чтобы быть правильной) взаимосвязь с распределенным шумом. Набор 2 показывает чистые отношения, которые могут быть высшей степенью подгонки. Набор 3 показывает четкую линейную статистическую зависимость с одним выбросом. Набор 4 более хитрый: попытка «предсказать» из кажется обреченной на неудачу. Схема может выявить явление гистерезиса с недостаточным диапазоном значений, эффект квантования ( может быть слишком сильно квантован) или пользователь переключил зависимые и независимые переменные. $y$ $x$ $x$ $x$

Так сводные характеристики скрыть различное поведение. Набор 2 может быть лучше решен с полиномиальной подгонкой. В наборе 3 используются устойчивые к выбросам методы ( и т. П.), А также в наборе 4. Можно задаться вопросом, могут ли другие функции затрат или индикаторы расхождения соответствовать или, по крайней мере, улучшить распознавание наборов данных. РЕДАКТИРОВАТЬ (из комментариев OP): сообщение в блоге Любопытные регрессии утверждают, что: $\ell_2$ $\ell_1$

Между прочим, мне сказали, что Фрэнк Анскомб никогда не раскрывал, как он пришел с этими наборами данных. Если вы считаете, что получить всю сводную статистику и результаты регрессии очень просто, попробуйте!

В наборах данных, построенных с целью, аналогичной цели квартета Анскомба, дано несколько интересных наборов данных, например, с такими же гистограммами на основе квантилей. Я не видел смеси значимых отношений и смешанной статистики.

Мой вопрос: есть там двумерный (или trivariate, чтобы сохранить визуализацию) Анскомбы подобных наборам данных таким образом, что, в дополнении к тому же типа статистики $\ell_2$ :

их графики можно интерпретировать как отношения между и , как если бы кто-то искал закон между измерениями, $x$ $y$
они обладают одинаковыми (более устойчивыми) предельными свойствами (одинаковые медиана и медиана абсолютного отклонения), $\ell_1$
они имеют одинаковые ограничивающие рамки: одинаковые min, max (и, следовательно, -типа среднего и среднего диапазона). $\ell_\infty$

Такие наборы данных будут иметь одни и те же итоговые значения графика типа « квадраты и усы» (с минимальным, максимальным, медианным, медианным абсолютным отклонением / MAD, средним и стандартным значением) для каждой переменной и все равно будут весьма различаться в интерпретации.

Было бы еще интереснее, если бы некоторые наименее абсолютные регрессии были одинаковыми для наборов данных (но, может быть, я уже слишком много спрашиваю). Они могут служить предостережением, когда речь идет об устойчивой, а не надежной регрессии, и помогают учитывать цитату Ричарда Хэмминга:

Цель вычислений - понимание, а не цифры

РЕДАКТИРОВАТЬ (из комментариев ОП) Схожие проблемы решаются при создании данных с идентичными статистическими данными, но с разнородной графикой , Sangit Chatterjee и Aykut Firata, данными American Statistician, 2007 или Cloning: создание наборов данных с точно такой же подгонкой множественной линейной регрессии, J. Aust. N.-Z. Стат. J. 2009.

В Chatterjee (2007) цель состоит в том, чтобы генерировать новые пары с одинаковыми средними значениями и стандартными отклонениями от исходного набора данных, одновременно максимизируя различные целевые функции «несоответствие / различие». Поскольку эти функции могут быть невыпуклыми или недифференцируемыми, они используют генетические алгоритмы (GA). Важные шаги состоят в орто-нормализации, которая очень согласуется с сохранением среднего значения и (единичной) дисперсии. Цифры бумаги (половина содержания бумаги) накладывают входные и выходные данные GA. Мое мнение таково, что результаты GA теряют много оригинальной интуитивной интерпретации. $(x,y)$

И технически, ни средний , ни среднего класса сохраняется, и документ не упоминает процедуры перенормировки , что бы сохранить , и статистику. $\ell_2$ $\ell_1$ $\ell_\infty$

— Лоран Дюваль
источник

Если вы хотите, чтобы однофакторные наборы данных были с одними и теми же коробочными диаграммами, я дал набор в ответ на вопрос некоторое время назад, основываясь на разработках в статье. Постой, я откопаю. (редактировать) ... здесь . Легко сделать больше наборов данных с теми же свойствами ... Я обращаюсь к этому в другом ответе, здесь .

— Glen_b

x

$x$

y

$y$

x

$x$

y

$y$

Чаттерджи и Фират ( The American Statistician , 2007) , связанные с этим ответом на этот вопрос , предлагают довольно общий генетический алгоритм, который вы должны легко адаптировать к вашим целям.

— С. Коласса - Восстановить Монику

Графики являются примерами бессмысленности моментов населения, когда моменты распределения игнорируются. Среднее значение, стандартное отклонение, асимметрия и другие моменты популяции не соответствуют ожидаемым значениям, стандартным отклонениям, асимметрии и другим моментам распределений, которые лучше всего описывают эти группы населения. Когда вышеприведенные графики рассматриваются как распределения значений x и y, все они различны и поэтому имеют разные моменты распределения. Это хуже, чем просто игнорирование остаточной структуры, которая, возможно, была главной, которую нельзя игнорировать ни безнаказанно.

— Карл

Чтобы быть конкретным, я рассматриваю проблему создания двух наборов данных, каждый из которых предлагает отношения, но отношения каждого различны, и в то же время имеют примерно одинаковые значения:

значит х
значит у
SD x
SD y
средний х
средний у
минимум х
минимум у
максимум х
максимум у
Медиана абсолютного отклонения от медианы х
медиана абсолютного отклонения от медианы у
коэффициенты от простой линейной регрессии у на х

$\operatorname{mean} y = 0$ $\min y = -\max y$

Рассмотрим, например,

\begin{array}{ccccccccccc} Икс & 0 & \frac{1}{9} & \frac{2}{9} & \frac{3}{9} & \frac{4}{9} & \frac{5}{9} & \frac{6}{9} & \frac{7}{9} & \frac{8}{9} & 1 \\ Y & - 1 & - \frac{1}{2} & 0 & \frac{1}{2} & 1 & 1 & \frac{1}{2} & 0 & - \frac{1}{2} & - 1 \end{array}

$\begin{array}{ccccccccccc} x & 0 & \tfrac{1}{9} & \tfrac{2}{9} & \tfrac{3}{9} & \tfrac{4}{9} & \tfrac{5}{9} & \tfrac{6}{9} & \tfrac{7}{9} & \tfrac{8}{9} & 1 \\ \hline y & -1 & -\tfrac{1}{2} & 0 & \tfrac{1}{2} & 1 & 1 & \tfrac{1}{2} & 0 & -\tfrac{1}{2} & -1 \end{array}$

который имеет восходящий V-образный график, как это:

график

$y$ $-y$

— Kodiologist
источник

Хороший вклад. В самом деле, я упал горизонтальная линия немного обмануть по сравнению с OLS. Отражение - хорошая идея, но если наборы данных разные, они остаются похожими. Но я думаю, что у вас есть хорошая идея, возможно, форма «N» и форма «W» таким же образом могли бы стать началом пути

— Лоран Дюваль