Какова вероятность того, что случайных точек в измерениях линейно разделимы?

Для точек данных, каждая из которых имеет признаков, помечены как , остальные помечены как . Каждый признак принимает значение от случайным образом (равномерное распределение). Какова вероятность того, что существует гиперплоскость, которая может разделить два класса? $n$ $d$ $n/2$ $0$ $n/2$ $1$ $[0,1]$

Давайте сначала рассмотрим самый простой случай, т.е. . $d = 1$

— Син Ши
источник

Это действительно интересный вопрос. Я думаю, что это можно переформулировать с точки зрения того, пересекаются ли выпуклые оболочки двух классов точек или нет - хотя я не знаю, делает ли это проблему более прямой или нет.

— Дон Вальпола

Это, очевидно, будет функцией относительных величин & . Рассмотрим простейший случай w / , если , тогда w / действительно непрерывные данные (т. Е. Нет округления до десятичного знака), вероятность их линейного разделения равна . OTOH, .

n

$n$

d

$d$

d = 1

$d=1$

n = 2

$n=2$

1

$1$

lim n \to \infty Pr(linearly separable) \to 0

$\lim n\to \infty\ \ \text{Pr(linearly separable)} \to 0$

— gung - Восстановить Монику

Вы также должны уточнить, должна ли гиперплоскость быть «плоской» (или это может быть, скажем, парабола в ситуации

2 d

$2d$ типа). Мне кажется, что вопрос сильно подразумевает плоскостность, но это, вероятно, следует сформулировать явно.

— gung - Восстановить Монику

@ Gung Я думаю, что слово «гиперплоскость» однозначно подразумевает «плоскостность», поэтому я отредактировал заголовок, чтобы сказать «линейно разделим». Очевидно, что любой набор данных без дубликатов в принципе может быть нелинейно разделимым.

— говорит амеба: восстанови монику

@ Gung ИМХО "плоская гиперплоскость" - плеоназм. Если вы утверждаете, что «гиперплоскость» может быть изогнута, то «плоскость» также может быть изогнута (в соответствующей метрике).

— говорит амеба: восстанови монику

Предполагая, что в данных нет дубликатов.

Если $n\leq d+1$ , вероятность равна $\text{Pr}=1$ .

Для других комбинаций $(n,d)$ см. Следующий график:

Я создал этот график, имитируя входные и выходные данные, как указано в ОП. Линейная отделимость была определена как сбой сходимости в модели логистической регрессии из -за эффекта Хаука-Доннера .

Видно, что вероятность возрастает при увеличении . Фактически, мы могли бы подобрать модель, связывающую и , и это было результатом: $n$ $n, d$ $p$

п (N, d) знак равно \frac{1}{1 + е^{- (5,82944 - 4,58261 \times N + 1,37271 \times d - 0.0235785 \times N \times d)}}

$P(n,d)={ 1 \over {1 + e^ {-(5.82944-4.58261\times n + 1.37271 \times d -0.0235785 \times n \times d)} } }$

Код для сюжета (у Юлии):

using GLM

ds = 10; #number of dimensions to be investigated
ns = 100 #number of examples to be investigated
niter = 1000; #number of iterations per d per n
P = niter * ones(Int64, ds, ns); #starting the number of successes

for d in 1:ds
    for n in (d+1):ns
        p = 0 #0 hits
        for i in 1:niter
            println("Dimensions: $d; Samples: $n; Iteration: $i;")
            try #we will try to catch errors in the logistic glm, these are due to perfect separability
                X = hcat(rand((n,d)), ones(n)); #sampling from uniform plus intercept
                Y = sample(0:1, n)  #sampling a binary outcome
                glm(X, Y, Binomial(), LogitLink())
            catch
                p = p+1 #if we catch an error, increase the count
            end
        end
        P[d,n] = p
    end
end

using Plots

gui(heatmap(P./niter, xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Probability of linear separability"))

Код для модели, относящейся к (в Юлии): $(n,d)$ $p$

probs = P./niter
N = transpose(repmat(1:ns, 1, ds))
D = repmat(1:ds, 1, ns)

fit = glm(hcat(log.(N[:]), D[:], N[:].*D[:], ones(ds*ns)), probs[:], Binomial(), LogitLink())
coef(fit)
#4-element Array{Float64,1}:
# -4.58261
#  1.37271
# -0.0235785
#  5.82944

gui(heatmap(reshape(predict(fit), ds, ns), xlabel = "Number of Samples", ylabel = "Number of Dimensions", title = "Fit of probability of linear separability"))

— поджигатель
источник

+1. Почему log (n), а не n? Желто-черная граница для меня выглядит как прямая линия на верхней фигуре, но на второй фигуре кажется изогнутой. Может быть из-за журнала (n)? Не уверена.

— говорит амеба, восстанови Монику

@amoeba Я изменил это. Я также включил взаимодействие, потому что оно могло объяснить постепенное расширение границы между и (именно поэтому я попробовал логарифм раньше).

p = 1

$p=1$

p = 0

$p=0$

— Firebug