Нулевые значения в географически взвешенном регрессионном анализе


12

Некоторые из моих объясняющих переменных имеют несколько нулевых значений для определенных многоугольников.

Может ли географически взвешенный регрессионный анализ обрабатывать их, или я должен удалить весь многоугольник и все данные (зависимые и независимые переменные для этого конкретного многоугольника)?


Что представляют собой эти нули? Что значение не применимо или оно существует, но неизвестно? Если последнее, почему это неизвестно? (Главная проблема заключается в том, связана ли причина неизвестности какого-либо значения с самим значением; например, если вы изучаете гидрологию и используете растительный покров в качестве пояснительной переменной, то если растительный покров неизвестен из-за наводнения, это важная информация и означает гораздо больше, чем просто пропущенное значение.)
whuber

1
Спасибо, некоторые из нулей представляют данные, которые были опущены для конфиденциальности из-за небольших единиц агрегирования, другие просто не были доступны, но не в результате объясняющих переменных, влияющих на другие вариабельные значения. У меня есть истинные нулевые значения, при этом ноль не представляет события / скорости для этого конкретного многоугольника, и у меня также есть некоторые нулевые значения, когда данные отсутствуют. Поскольку у меня есть около 29 объясняющих переменных, с которых нужно начинать, если я вычеркну многоугольники, где для строк, содержащих нули, я теряю 8 многоугольников из 279, и я надеялся, что мне это не нужно. Спасибо!
I Heart Beats

Я рад, что у вас есть информация и теории о пропаже. Возможно, вы захотите быть немного осторожнее с этими небольшими единицами, потому что значения практически любой переменной могут быть правдоподобно связаны с размером региона, который она представляет, создавая тем самым потенциальное смещение в структуре пропусков.
whuber

2
Вы можете включить пустые значения, введя переменные, чтобы указать их наличие, и закодировать все исходные нулевые результаты с общим значением (какое значение вы не выберете, на самом деле не имеет значения). Вам понадобится один отдельный индикатор для каждой переменной, которая содержит любые нули. Что бы вы ни делали, не просто заменяйте нули на нули (или любую другую константу)! Нуль означает нечто совершенно иное, чем ноль.
whuber

1
@whuber Похоже, что в ваших комментариях может быть достаточно, чтобы написать ответ на этот комментарий.
PolyGeo

Ответы:


1

Вы можете попытаться угадать «нулевые» значения из окружающих данных. Это было бы лучше, чем оставить их, потому что таким образом вы не потеряете данные. Конечно, вы должны быть осторожны в том, как вы угадываете значения. Потому что, если ваше предположение является предвзятым, ваша модель также будет.

см. также: http://handbook.cochrane.org/chapter_16/16_1_2_general_principles_for_dealing_with_missing_data.htm

и:

Внимание:

При использовании шейп-файлов имейте в виду, что они не могут хранить нулевые значения. Инструменты или другие процедуры, которые создают шейп-файлы из входов нешаблонных файлов, могут, следовательно, хранить нулевые значения как ноль или как очень небольшое отрицательное число (-DBL_MAX = -1.7976931348623158e + 308). Это может привести к неожиданным результатам. См. Также: Особенности геообработки для вывода шейп-файла. ( http://desktop.arcgis.com/en/arcmap/10.3/tools/spatial-statistics-toolbox/geographically-weighted-regression.htm )

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.