Как логистическая регрессия может создавать кривые, которые не являются традиционными функциями?

15

Я думаю, что у меня есть некоторая фундаментальная путаница в отношении того, как работают функции в логистической регрессии (или, может быть, просто функции в целом).

Как получается, что функция h (x) создает кривую, видимую слева на изображении?

Я вижу, что это график двух переменных, но тогда эти две переменные (x1 и x2) также являются аргументами самой функции. Я знаю стандартные функции отображения одной переменной на один выход, но эта функция явно этого не делает - и я не совсем уверен, почему.

Моя интуиция заключается в том, что сине-розовая кривая на самом деле не изображена на этом графике, а скорее представляет собой представление (круги и X), которые отображаются на значения в следующем измерении (третьем) графика. Это рассуждение ошибочно, и я что-то упускаю? Спасибо за понимание / интуицию.

logistic data-visualization function

— Сэм
источник

8

Обратите внимание на метки оси, обратите внимание, что ни одна из них не помечена как .

y

$y$

— Мэтью Друри

3

Какой будет «традиционная функция»?

— whuber

@matthewDrury Я понимаю это, и это объясняет 2D X / Os. Я спрашиваю, откуда тогда идет построенная кривая

— Сэм

19

Это пример переобучения курса Coursera по ML Эндрю Нгом в случае модели классификации с двумя признаками , в которой истинные значения обозначены и и граница принятия решения точно адаптирована к обучающему набору с использованием полиномиальных терминов высокого порядка. $(x_1, x_2)$ $\color{red}{\large \times}$ $\color{blue}{\large\circ},$

Проблема, которую он пытается проиллюстрировать, связана с тем фактом, что, хотя линия принятия решения о границе (криволинейная линия синим цветом) не приводит к неправильной классификации каких-либо примеров, ее способность обобщать из обучающего набора будет поставлена под угрозу. Эндрю Нг продолжает объяснять, что регуляризация может смягчить этот эффект, и рисует пурпурную кривую как границу решения, менее плотную по отношению к обучающему набору и с большей вероятностью обобщающую.

Что касается вашего конкретного вопроса:

Моя интуиция заключается в том, что сине-розовая кривая на самом деле не изображена на этом графике, а скорее представляет собой представление (круги и X), которые отображаются на значения в следующем измерении (третьем) графика.

Высота отсутствует (третье измерение): есть две категории и и линия принятия решений показывает, как модель разделяет их. В более простой модели $(\large\times$ $\large\circ),$

{час}_{θ} (Икс) знак равно грамм (θ_{0} + θ_{1} {Икс}_{1} + θ_{2} {Икс}_{2})

$h_\theta(x)=g\left(\theta_0 + \theta_1 \, x_1 + \theta_2 \, x_2 \right)$

граница решения будет линейной.

Возможно, вы имеете в виду что-то вроде этого, например:

5 + 2 Икс - 1,3 {Икс}^{2} - 1.2 {Икс}^{2} Y + 1 {Икс}^{2} Y^{2} + 3 {Икс}^{2} Y^{3}

$5 + 2 x - 1.3 x^2 -1.2 x^2 y + 1 x^2 y^2 + 3 x^2 y^3$

Однако обратите внимание, что в гипотезе есть функция - логистическая активация в вашем первоначальном вопросе. Таким образом, для каждого значения и полиномиальная функция подвергается «активации» (часто нелинейной, например, в сигмовидной функции, как в OP, хотя не обязательно (например, RELU)). В качестве ограниченного вывода активация сигмоидальной формы поддается вероятностной интерпретации: идея в модели классификации заключается в том, что при заданном пороговом значении выход будет помечен как илиФактически, непрерывный вывод будет сведен к двоичному выводу. $g(\cdot)$ $x_1$ $x_2$ $\large \times$ $\large($ $\large \circ).$ $(1,0)$

В зависимости от весов (или параметров) и функции активации каждая точка в плоскости признаков будет отображаться в категорию или . Эта маркировка может быть или не быть правильной: они будут правильными, когда точки в образце, нарисованные и на плоскости на рисунке на ОП соответствуют предсказанные метки. Границы между областями плоскости с меткой и соседними областями с меткой . Они могут быть линией или несколькими линиями, изолирующими «острова» (посмотрите сами, играя с этим приложением Тони Фишетти $(x_1,x_2)$ $\large \times$ $\large \circ$ $\color{red}{\large \times}$ $\color{blue}{\large \circ}$ $\large \times$ $\large \circ$ часть этой записи в блоге о R-блогерах ).

Обратите внимание на запись в Википедии о границе решения :

В задаче статистической классификации с двумя классами граница решения или поверхность решения - это гиперповерхность, которая разделяет базовое векторное пространство на два набора, по одному для каждого класса. Классификатор будет классифицировать все точки на одной стороне границы решения как принадлежащие одному классу, а все точки на другой стороне как принадлежащие другому классу. Граница решения - это область проблемного пространства, в которой выходная метка классификатора неоднозначна.

Нет необходимости в компоненте высоты для отображения фактической границы. Если, с другой стороны, вы наносите на график значение активации сигмоида (непрерывное с диапазоном тогда вам необходим третий («высота») компонент для визуализации графика: $∈[0,1]),$

Если вы хотите , чтобы ввести визуализацию D для поверхности решений, проверить этот слайд на онлайн курса по Нижегородскому Уго Larochelle , представляющая активацию нейрона: $3$

где , а - вектор весов в примере в OP. Наиболее интересным является тот факт, что ортогональна разделяющему «гребню» в классификаторе: фактически, если гребень представляет собой (гипер-) плоскость, вектор весов или параметров является вектором нормали. $y_1 = h_\theta(x)$ $\mathbf W$ $(\Theta)$ $\Theta$

Объединяя несколько нейронов, эти разделяющие гиперплоскости могут быть добавлены и вычтены, чтобы получить капризные формы:

Это связано с теоремой универсального приближения .

— Антони Пареллада
источник

1

+1 всегда с удовольствием читаю твой ответ. Возможно, было бы еще лучше, если бы плоскость принятия решений пересекалась с вашим сюжетом. чтобы показать некоторые выше, а некоторые ниже.

— Haitao Du

Большое спасибо за это. Мне все еще кажется, что я упускаю что-то маленькое в самой кривой - значит ли это, что граница принятия решения на самом деле не «рисуется», а скорее является способом Эндрю Нга, указывающим пороговые значения значений x1 и x2 сделать гипотезу либо ×, либо ∘? Я думаю, что некоторая моя путаница проистекала из того, как эта кривая могла быть функцией в первую очередь, но теперь я понимаю, что это не так.

— Сэм

1

@AntoniParellada Это здорово, теперь я вижу различие. Большое спасибо за помощь.

— Сэм

0

У нас есть некоторые сверхмощные математики, отвечающие на этот вопрос. Я никогда не видел диаграмму, подобную той, что изображена здесь, со значениями для предикторов X1 и X2 и линией «границы решения», отделяющей предсказанные положительные стороны от предсказанных отрицательных. (или это карта прогнозируемых и фактических результатов?) Но это полезно - если у вас есть только два предиктора интереса, которые вы хотите отобразить.
Похоже, что пурпурная линия отделяет прогнозируемые позитивы от прогнозируемых негативов, тогда как темно-синяя линия включает все позитивы. Это обычно имеет место в логистической регрессии: модель будет правильно прогнозировать результат менее чем в 100% случаев (и будет предсказывать некоторые ложные срабатывания и / или ложные отрицания).
Можно запустить логистическую регрессию и заставить процедуру создать функцию h (x) для каждого отдельного случая в наборе данных. Это даст оценку склонности для каждого субъекта от 0 до 1, которая дает прогнозируемую вероятность или вероятность положительного результата для каждого субъекта на основе переменных предиктора этого субъекта на основе модели логистической регрессии с использованием всех субъектов. Те, у кого показатель предрасположенности равен 0,5 или выше, по прогнозам, будут иметь результат, а те, кто ниже 0,5, по прогнозам не будут иметь результата. Но вы можете отрегулировать этот уровень отсечки по своему усмотрению, например, чтобы создать диагностическую модель прогнозирования какого-либо результата на основе всех входных переменных, которые введены в ваш анализ логистической регрессии. Вы можете установить отсечение на 0,3, например. Затем вы можете составить таблицу прогнозируемых и фактических результатов 2X2 и определить свою чувствительность, специфичность, уровень ложноположительных и ложноотрицательных результатов модели на основе этого уровня отсечки. Это дает больше информации, а также освобождает вас от ограничения 2 переменных, используемых в вашем графике. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца. Вы можете использовать столько предикторов, сколько сможете разумно вписать в модель, и при этом составить таблицу результатов 2X2 с фактическим прогнозированием. Поскольку в логистической регрессии используются категориальные (да-нет) результаты, каждая ячейка в таблице 2X2 представляет собой просто число субъектов, которые соответствуют критериям строки и столбца.
На графике, который вы предоставляете, это, вероятно, предполагает отсечение 0,5. Это общее значение по умолчанию для программного обеспечения. Если вы отрегулируете его выше (например, до 0,65), он может включать все О внутри линии, но у вас также будут некоторые ложные срабатывания (Х, которые, по его мнению, должны быть О), которые будут предсказаны моделью для получения результата интерес. (или отрегулируйте показатель отсечки ниже и получите больше ложных негативов).
Надеюсь, это поможет.

— Джерри
источник