Интерес представляет работа Гэри Кинга, в частности его книга «Решение проблемы экологического вывода» (первые две главы доступны здесь ), а также сопровождающее программное обеспечение, которое он использует для экологического вывода. Кинг показывает в своей книге, как можно улучшить оценки регрессионных моделей, использующих агрегированные данные, путем изучения потенциальных границ групп нижнего уровня, основанных на доступных агрегированных данных. Тот факт, что ваши данные в основном категориальные, делает их пригодными для этой техники. (Хотя не дайте себя одурачить, это не такое универсальное решение, как вы могли бы надеяться, учитывая название!). Существует более актуальная работа, но книга Кинга - ИМО, лучшее место для начала.
Другой возможностью было бы просто представить потенциальные границы самих данных (в картах или графиках). Так, например, у вас может быть отчет о распределении по полу на совокупном уровне (скажем, 5000 мужчин и 5000 женщин), и вы знаете, что этот совокупный уровень включает в себя 2 разные небольшие группы населения с населением 9000 и 1000 человек. Затем вы можете представить это в виде таблицы непредвиденных обстоятельств в форме;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Хотя у вас нет информации в ячейках для агрегатов нижнего уровня, из предельных итогов мы можем построить минимальные или максимальные потенциальные значения для каждой ячейки. Таким образом, в этом примере Men X Unit1
ячейка может принимать значения только от 4000 до 5000 (в любое время предельные распределения будут более неравномерными, чем меньше интервал возможных значений, которые будут принимать ячейки). Очевидно, что получить границы таблицы сложнее, чем я ожидал ( Dobra & Fienberg, 2000 ), но, похоже, функция доступна в eiPack
библиотеке в R ( Lau et al., 2007, p. 43 ).
Многофакторный анализ с данными на уровне агрегирования затруднен, так как с этим типом данных неизбежно происходит смещение агрегации. (В двух словах, я бы просто описал смещение агрегации, поскольку многие разные процессы генерирования данных на индивидуальном уровне могут привести к ассоциациям на агрегированном уровне). Ряд статей в Американском социологическом обзоре.в 1970-х некоторые из моих любимых ссылок по темам (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974), хотя каноническими источниками по этой теме могут быть (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) , Я действительно думаю, что представление потенциальных границ, которые могут принять данные, может быть подстрекательским, хотя вы действительно ограничены ограничениями совокупных данных для проведения многомерного анализа. Это никому не мешает делать это, хотя и в социальных науках (к лучшему или к худшему!)
Обратите внимание, (как сказал Чарли в комментариях), что «решение» Кинга получило немало критических замечаний (Anselin & Cho, 2002; Freedman et al., 1998). Хотя эти критические замечания не говорят о математике метода Кинга, тем более в отношении того, в каких ситуациях метод Кинга по-прежнему не учитывает систематическую погрешность (и я согласен с Фридманом и Анселином в тех ситуациях, когда данные для общественные науки все еще подозрительны, они встречаются гораздо чаще, чем те, которые соответствуют предположениям Кинга). Отчасти это причина, по которой я предлагаю просто изучить границы (в этом нет ничего плохого), но сделать выводы о корреляциях на индивидуальном уровне из таких данных требует гораздо больше скачков веры, которые в конечном итоге неоправданны в большинстве ситуаций.
Цитирование