Можно ли использовать координаты GPS (широту и долготу) в качестве элементов в линейной модели?


10

У меня есть наборы данных, которые содержат, среди многих функций, GPS-координаты (широта и долгота). Я хотел бы использовать эти наборы данных для изучения таких проблем, как: (1) вычисление ETA для перехода между начальной и конечной точками; и (2) оценка количества преступлений по конкретной точке.

Я хотел бы использовать модель линейной регрессии. Однако можно ли использовать эти GPS-координаты непосредственно в линейной модели?

Широта и долгота не имеют порядкового свойства , например, с возрастом человека. Например, две точки (40.805996, -96.681473) и (41.226682, -95.986587), похоже, не имеют какого-либо значимого порядка. Они просто точки в пространстве. Я думал о том, чтобы заменить их категоричными почтовыми индексами США, а затем выполнить однократное кодирование , но это привело бы ко многим переменным.


1
Вы должны использовать их напрямую ? Слышали ли вы об инструментах зонирования, таких как алгоритм AZP С. Опеншоу? Вы можете даже вручную разграничить регионы на карте, чтобы разделить регионы / зоны, если область относительно непротиворечива.
Мефи

@Mephy: Это означало бы, что я бы конвертировал широту / долготу в зоны, верно? Но тогда у меня были бы сотни или тысячи категориальных зон, как с почтовыми индексами. Я должен был бы горячо закодировать их всех.
stackoverflowuser2010

Зависит от того, как вы разрезаете зоны, конечно. Если вы выберете «к югу от экваториальной линии / к северу от экваториальной линии», то это только два. Многие алгоритмы зонирования имеют некоторые гиперпараметры для определения величин, таких как количество зон или минимальный размер зоны.
Мефи

У меня та же проблема. Я хочу предсказать положение людей. Я геохашировал все геолокации в данных обучения. После этого LabelDecoder используется для преобразования функции категориального местоположения. Наконец, результат ужасен. Есть ли хорошая идея иметь дело с пространственным предсказанием?
berisfu

Ответы:


5

Вы не можете использовать их напрямую, так как маловероятно, что есть истинные линейные отношения, если вы не пытаетесь предсказать «насколько далеко восток или север». Как уже упоминалось в комментариях, вам необходимо преобразовать их в зоны. Если вы хотите сохранить простоту, вы можете использовать алгоритм кластеризации kNN с небольшим числом потенциальных кластеров, а затем назначить каждому экземпляру новую функцию с идентификатором кластера, а затем выполнить горячее кодирование.

Вы также можете прочитать о том, как люди интерполируют координаты для прогнозирования значений по всей карте. Первый пример - с температурными станциями, но вы также можете представить, что это «горячие зоны» для преступлений.

( Документы )


2

Вы можете делать все, что душе угодно, но если ваша модель не предсказывает разницу температуры или времени, я не могу придумать какую-либо другую целевую переменную, которая зависит исключительно от координат.

Что вы, вероятно, хотите сделать, это использовать внешний источник данных и обогатить свои данные с помощью страны / почтового индекса / климата / других географических объектов, которые помогут вашей модели работать.


0

Координаты GPS могут быть непосредственно преобразованы в геохэш . Geohash делит Землю на «ведра» разного размера в зависимости от количества цифр (короткие коды Geohash создают большие области и более длинные коды для небольших областей).

Геохеш - это одно число, которое можно использовать в качестве элемента в модели.

Геохаш относится только ко всему миру, почтовые индексы - нет.


Выводом геохашера является строка, а не одно число, верно? И если геохэш - это строка, то мне придется кодировать ее в горячем режиме, что приведет к множеству переменных, как в случае с горячим закодированным почтовым индексом.
stackoverflowuser2010

Геохеш - это одно число, закодированное в базе 32. Нет причин для горячего кодирования 1. Выберите уровень точности и используйте соответствующее количество цифр.
Брайан Спиеринг

Я видел только строковые представления геохэшей. Однако, даже если геохэш был представлен как long int, есть ли между ними линейная связь для использования в линейной модели? Именно в этом смысл моего первоначального вопроса.
stackoverflowuser2010

Отношения между геохашами немного сложны - en.wikipedia.org/wiki/Geohash#Design
Брайан Спиеринг

1
Существует множество способов разработки функций, помимо линейного и быстрого кодирования. Например, трюк с ядром или преобразование Гельмерта.
Брайан Спиеринг
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.