Модель для оценки плотности населения

База данных (население, площадь, форма) может быть использована для отображения плотности населения путем назначения постоянной величины населения / площади для каждой фигуры (которая является многоугольником, таким как блок переписи, участок, округ, штат и т. Д.). Однако популяции обычно не равномерно распределены по своим полигонам. Дасиметрическое отображение - это процесс уточнения этих оценок плотности с помощью вспомогательных данных. Это важная проблема в социальных науках, как показывает этот недавний обзор .

Предположим, что у нас есть вспомогательная карта земного покрова (или любой другой дискретный фактор). В простейшем случае мы можем использовать явно необитаемые районы, такие как водоемы, чтобы определить, где не находится население, и, соответственно, назначить все население на оставшиеся районы. В более общем смысле каждый блок переписи $j$ на $k$ частей, имеющих площади поверхности $x_{ji}$ , $i = 1, 2, \ldots, k$ . Таким образом, наш набор данных дополнен списком кортежей

(y_{j}, x_{j 1}, x_{j 2}, \dots, x_{j k})

$(y_{j}, x_{j1}, x_{j2}, \ldots, x_{jk})$

где - совокупность (предполагаемая измеренная без ошибок) в единицах и - хотя это не совсем так - мы можем предположить, что каждый также точно измеряется. В этих терминах цель состоит в том, чтобы разделить каждый $y_{j}$ $j$ $x_{ji}$ $y_{j}$ на сумму

y_{j} = z_{j 1} + z_{j 2} + \dots + z_{j k}

$y_j = z_{j1} + z_{j2} + \cdots + z_{jk}$

где каждый и оценивает население в пределах единицы проживающей в классе земельного покрова . Оценки должны быть объективными. Этот раздел уточняет карту плотности населения, присваивая плотность пересечению полигона переписи и класса покрова. $z_{ji} \ge 0$ $z_{ji}$ $j$ $i$ $z_{ji}/x_{ji}$ $j^{\text{th}}$ $i^{\text{th}}$

Эта проблема отличается от стандартных настроек регрессии существенными способами:

Разбиение каждого должно быть точным. $y_{j}$
Компоненты каждого раздела должны быть неотрицательными.
Нет (по предположению) ошибки ни в одном из данных: все население имеет значение и все области $y_{j}$ $x_{ji}$ являются правильными.

Существует много подходов к решению, таких как метод « интеллектуального дазиметрического картирования », но все те, о которых я читал, имеют специальные элементы и очевидный потенциал для предвзятости. Я ищу ответы, которые предлагают творческие, вычислительные статистические методы. Непосредственное применение касается коллекции ц. - Переписные единицы в среднем по 40 человек на человека (хотя значительная часть имеет 0 человек) и около десятка классов земного покрова. $10^{5}$ $10^{6}$

modeling unbiased-estimator spatial

— Whuber
источник

Проблема с форматированием теперь исправлена. Это была ошибка.

— Роб Хиндман

@Rob Спасибо и спасибо всем, кто смотрел на это: я видел ваши комментарии до того, как они были удалены, и благодарен за ваши усилия.

— whuber

Также этот: P. A Zandbergen и D. A Ignizio, «Сравнение методов дазиметрического картографирования для оценок численности населения небольшой площади», Картография и географическая информатика 37, no. 3 (2010): 199–214. ingentaconnect.com/content/acsm/cagis/2010/00000037/00000003/… Который, кажется, призывает к смешиванию.

— fgregg

Эта статья может быть полезна: Hwahwan Kim и Xiaobai Yao, «Пикнофиллактическая интерполяция: повторная интеграция с методом дазиметрического картирования», International Journal of Remote Sensing 31, no. 21 (2010): 5657. informaworld.com/10.1080/01431161.2010.496805

— фрегг

Вы знаете, дазиметрическое картографирование в конечном итоге как проблема экологического вывода. Недавняя работа К. Имаи может быть полезна: pan.oxfordjournals.org/content/16/1/41.abstract

— fgregg

Ответы:

Вы можете проверить работу Митчела Лэнгфорда по дазиметрическому картированию.

Он строит растры, представляющие распределение населения Уэльса, и некоторые из его методологических подходов могут быть полезны здесь.

Обновление: Вы также можете взглянуть на работу Джереми Менниса (особенно эти две статьи).

— Радек
источник

Спасибо. Эта работа дает указатель на сеть недавних исследований по дазиметрическому картированию.

— whuber

Интересный вопрос. Вот предварительный удар по приближению к этому со статистической точки зрения. Предположим, что мы придумали способ присвоения численности населения каждой области . Обозначим эти отношения как ниже: $x_{ji}$

$z_{ji} = f(x_{ji},\beta)$

Ясно, что любая функциональная форма, которую мы навязываем Будет в лучшем случае приближением к реальным отношениям и, следовательно, потребностью включать ошибку в вышеприведенное уравнение. Таким образом, вышесказанное становится: $f(.)$

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

где,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Предположение о распределении ошибок по условию ошибки приведено в иллюстративных целях. При необходимости мы можем изменить его по мере необходимости.

$y_{ji}$ $f(.)$

$\sum_i{\epsilon_{ji}} = 0$

$\sum_i{f(x_{ji},\beta)} = y_j$

${z_{ji}}$ $z_j$ ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({f_j}' e = y_j) I((z_j-f_j)' e = 0)$

where,

$e$ is a vector of ones of appropriate dimension.

The first indicator constraint captures the idea that the sum of the deterministic terms should sum to $y_j$ and the second one captures the idea that the error residuals should sum to 0.

Model selection is trickier as we are decomposing the observed $y_j$ exactly. Perhaps, a way to approach model selection is to choose the model that yields the lowest error variance i.e., the one that yields the lowest estimate of $\sigma^2$ .

Edit 1

Thinking some more the above formulation can be simplified as it has more constraints than needed.

$z_{ji} = f(x_{ji},\beta) + \epsilon_{ji}$

where,

$\epsilon_{ji} \sim N(0,\sigma^2)$

Denote the stacked vector of ${z_{ji}}$ by $z_j$ and the stacked deterministic terms of ${f(x_{ji},\beta)}$ by $f_j$ . Thus, we have:

$z_j \sim N(f_j,\sigma^2 I) I({z_j}' e = y_j)$

where,

$e$ is a vector of ones of appropriate dimension.

The constraint on $z_j$ ensures an exact decomposition.

@Srikant Thank you. I was thinking along similar lines when I posed the question and have since tested out a GLM (Poisson distribution with linear link) as well as some other models. Unfortunately, it now looks like any model based solely on land cover type and proportion will not work well: a sample of these data suggests that population patterns depend on a larger spatial context. At a minimum, then, we would need to include spatially lagged covariates in a linear model.

— whuber