Линия разделяет два набора точек

19

Есть ли способ определить, могут ли два набора точек быть разделены линией?

У нас есть два набора точек и если существует линия, разделяющая и такая, что все точки и только на одной стороне линии и все точки и только на другой стороне. $A$ $B$ $A$ $B$ $A$ $A$ $B$ $B$

Самый наивный алгоритм, который я придумал, - это построить выпуклый многоугольник для и и проверить их на пересечение. Похоже, временная сложность для этого должна быть как для построения выпуклого многоугольника. На самом деле я не ожидаю каких-либо улучшений в сложности времени, я не уверен, что это вообще можно улучшить. Но, по крайней мере, должен быть более красивый способ определить, есть ли такая линия. $A$ $B$ $O(n\log h)$

algorithms machine-learning computational-geometry

— ком
источник

19

И Ули, и Дейв Кларк правильно замечают, что это проблема линейного программирования, даже в более высоких измерениях (могут ли эти два набора точек быть разделены гиперплоскостью?), И поэтому она может быть решена за полиномиальное время. Но поскольку ваши точки лежат на плоскости, ваша задача может быть решена за время, где - общее количество точек. $O(n)$ $n$

Самым простым решением, вероятно, является рандомизированный алгоритм Зайделя. Выберите входную точку равномерно случайным образом и рекурсивно вычислите разделительную линию для всех точек, кроме . $p$ $\ell$ $p$

Если такой линии не существует, то исходные точки неразделимы.
Если находится на правильной стороне , то отделяет исходные точки. $p$ $\ell$ $\ell$
Если находится не на той стороне , то либо исходные точки могут быть разделены линией через , либо исходные точки вообще не могут быть разделены . Это условие легко проверить за время [упражнение]. $p$ $\ell$ $p$ $O(n)$

Этот алгоритм выполняется в раз с высокой вероятностью (относительно случайного выбора алгоритма). Для получения более подробной информации см. Оригинальную статью или любое количество онлайн лекций. $O(n)$

— JeffE
источник

Большое спасибо, я собираюсь углубиться в эту статью.

— ком

В третьем случае вы утверждаете, что это может быть так, что строка проходит через , как это помогает узнать это?

p

$p$

— Tarrasch

10

Свойство двух ваших наборов данных заключается в линейной отделимости , просто в том, что есть линия, которая разделяет их. Много машинного обучения посвящено поиску линейных классификаторов , которые представляют собой линии, которые выполняют интересующее вас разделение.

Когда вы говорите о линиях, я предполагаю, что ваши точки лежат в плоскости. Вам нужно найти значения , и , чтобы для всех точек в наборе , и для всех точек в , . Таким образом, неравенство можно рассматривать как классификатор для множества . $w_1$ $w_2$ $w_3$ $(a_1,a_2)$ $A$ $w_1 a_1+w_2a_2\ge w_3$ $(b_1,b_2)$ $B$ $w_1 b_1+w_2b_2<w_3$ $w_1 x+w_2y\ge w_3$ $A$

Существует множество алгоритмов машинного обучения для определения оптимальной линии (линейная регрессия, логистическая регрессия и т. Д.). Они найдут значения для на основе некоторой метрики ошибки. Затем вы можете проверить, все ли точки правильно классифицированы. То есть, все ли из значений в удовлетворяет уравнение выше и аналогично для . $w_1,w_2,w_3$ $A$ $B$

Поскольку вас интересует только то, существует ли такая линия, вам нужно было использовать существующие методы (хотя это, вероятно, было бы проще). Просто настройте следующий набор равенств в терминах свободных переменных . $w_1,w_2,w_3$

$w_1 a^i_1+w_2a^i_2\ge w_3$ для каждого, где . $i=1,..,|A|$ $A=\{(a^1_1,a^1_2),\ldots,(a^{|A|}_1,a^{|A|}_2)\}$

$w_1 b^j_1+w_2b^j_2< w_3$ для каждого, где . $j=1,..,|B|$ $B=\{(b^1_1,b^1_2),\ldots,(b^{|B|}_1,b^{|B|}_2)\}$

Если эти ограничения согласованы, то существует линия.

— Дэйв Кларк
источник

5

Если я правильно помню, опорные векторные машины строят разделяющие гиперплоскости. Если вы выберете измерение гиперплоскость, конечно же, станет прямой. Возможно, вам придется проверить, есть ли дополнительные предположения, которые должны быть выполнены. В двух измерениях весь подход может значительно упроститься, поэтому время выполнения может быть лучше, чем для общего подхода. $2$

— улы
источник