РЕДАКТИРОВАТЬ: Поскольку этот вопрос был завышен, краткое изложение: поиск различных значимых и интерпретируемых наборов данных с одинаковой смешанной статистикой (среднее значение, медиана, средний диапазон и связанные с ними дисперсии и регрессия).
Квартет Анскомба (см. « Цель визуализации высокоразмерных данных?» ) Является известным примером четырех наборов данных - с одинаковым предельным средним / стандартным отклонением (по четырем и четырем отдельно) и одинаковым линейным соответствием OLS. , регрессия и остаточная сумма квадратов и коэффициент корреляции . Таким образом, статистика типа (маргинальная и объединенная) одинакова, а наборы данных весьма различны.
РЕДАКТИРОВАТЬ (из комментариев OP) Оставив небольшой размер набора данных, позвольте мне предложить некоторые интерпретации. Набор 1 можно рассматривать как стандартную линейную (аффинно, чтобы быть правильной) взаимосвязь с распределенным шумом. Набор 2 показывает чистые отношения, которые могут быть высшей степенью подгонки. Набор 3 показывает четкую линейную статистическую зависимость с одним выбросом. Набор 4 более хитрый: попытка «предсказать» из x кажется обреченной на неудачу. Схема x может выявить явление гистерезиса с недостаточным диапазоном значений, эффект квантования ( x может быть слишком сильно квантован) или пользователь переключил зависимые и независимые переменные.
Так сводные характеристики скрыть различное поведение. Набор 2 может быть лучше решен с полиномиальной подгонкой. В наборе 3 используются устойчивые к выбросам методы ( ℓ 1 и т. П.), А также в наборе 4. Можно задаться вопросом, могут ли другие функции затрат или индикаторы расхождения соответствовать или, по крайней мере, улучшить распознавание наборов данных. РЕДАКТИРОВАТЬ (из комментариев OP): сообщение в блоге Любопытные регрессии утверждают, что:
Между прочим, мне сказали, что Фрэнк Анскомб никогда не раскрывал, как он пришел с этими наборами данных. Если вы считаете, что получить всю сводную статистику и результаты регрессии очень просто, попробуйте!
В наборах данных, построенных с целью, аналогичной цели квартета Анскомба, дано несколько интересных наборов данных, например, с такими же гистограммами на основе квантилей. Я не видел смеси значимых отношений и смешанной статистики.
Мой вопрос: есть там двумерный (или trivariate, чтобы сохранить визуализацию) Анскомбы подобных наборам данных таким образом, что, в дополнении к тому же типа статистики :
- их графики можно интерпретировать как отношения между и y , как если бы кто-то искал закон между измерениями,
- они обладают одинаковыми (более устойчивыми) предельными свойствами (одинаковые медиана и медиана абсолютного отклонения),
- они имеют одинаковые ограничивающие рамки: одинаковые min, max (и, следовательно, -типа среднего и среднего диапазона).
Такие наборы данных будут иметь одни и те же итоговые значения графика типа « квадраты и усы» (с минимальным, максимальным, медианным, медианным абсолютным отклонением / MAD, средним и стандартным значением) для каждой переменной и все равно будут весьма различаться в интерпретации.
Было бы еще интереснее, если бы некоторые наименее абсолютные регрессии были одинаковыми для наборов данных (но, может быть, я уже слишком много спрашиваю). Они могут служить предостережением, когда речь идет об устойчивой, а не надежной регрессии, и помогают учитывать цитату Ричарда Хэмминга:
Цель вычислений - понимание, а не цифры
РЕДАКТИРОВАТЬ (из комментариев ОП) Схожие проблемы решаются при создании данных с идентичными статистическими данными, но с разнородной графикой , Sangit Chatterjee и Aykut Firata, данными American Statistician, 2007 или Cloning: создание наборов данных с точно такой же подгонкой множественной линейной регрессии, J. Aust. N.-Z. Стат. J. 2009.
В Chatterjee (2007) цель состоит в том, чтобы генерировать новые пары с одинаковыми средними значениями и стандартными отклонениями от исходного набора данных, одновременно максимизируя различные целевые функции «несоответствие / различие». Поскольку эти функции могут быть невыпуклыми или недифференцируемыми, они используют генетические алгоритмы (GA). Важные шаги состоят в орто-нормализации, которая очень согласуется с сохранением среднего значения и (единичной) дисперсии. Цифры бумаги (половина содержания бумаги) накладывают входные и выходные данные GA. Мое мнение таково, что результаты GA теряют много оригинальной интуитивной интерпретации.
И технически, ни средний , ни среднего класса сохраняется, и документ не упоминает процедуры перенормировки , что бы сохранить , л 1 и л ∞ статистику.