Стоит ли когда-нибудь стандартизировать бинарные переменные?


26

У меня есть набор данных с набором функций. Некоторые из них являются двоичными активен или запущен, неактивен или неактивен), а остальные являются действительными, например, .(1=4564,3420=4564.342

Я хочу , чтобы кормить эти данные для алгоритма машинного обучения, так что я -score всех вещественных функций. Я получаю их между диапазонами и примерно. Теперь двоичные значения также скорированы, поэтому нули становятся а единицы - .3 - 2 z - 0,222 0,5555z32z0.2220.5555

Имеет ли смысл такая стандартизация бинарных переменных?

Ответы:


15

Бинарную переменную со значениями 0, 1 можно (обычно) масштабировать до (значение - среднее) / SD, что, вероятно, является вашим z-счетом.

Самым очевидным ограничением этого является то, что если вам удастся получить все нули или все единицы, то включение SD-карты вслепую означало бы, что z-оценка является неопределенной. Существует также случай назначения нуля, поскольку значение - среднее значение равно нулю. Но многие статистические вещи не будут иметь большого смысла, если переменная действительно является константой. В целом, однако, если SD невелик, существует больший риск того, что оценки будут нестабильными и / или не будут точно определены.

Проблема в том, чтобы дать лучший ответ на ваш вопрос, заключается именно в том, какой «алгоритм машинного обучения» вы рассматриваете. Это звучит так, как будто это алгоритм, который объединяет данные для нескольких переменных, и поэтому обычно имеет смысл предоставлять их в одинаковых масштабах.

(ПОЗЖЕ) Поскольку оригинальный постер добавляет комментарии один за другим, их вопрос превращается. Я все еще считаю, что (значение - среднее) / SD имеет смысл (то есть не является бессмысленным) для бинарных переменных, пока SD является положительным. Тем не менее, логистическая регрессия была позже названа как приложение, и для этого нет теоретической или практической выгоды (и даже некоторой потери простоты) в чем-либо, кроме подачи двоичных переменных как 0, 1. Ваше программное обеспечение должно быть в состоянии хорошо справляться с что; если нет, откажитесь от этого программного обеспечения в пользу программы, которая может. С точки зрения заглавного вопроса: можно, да; должен, нет.


3
Короткий ответ: это ничего не значит по-другому, и я не вижу причин, почему изменение 0, 1 на z-показатели поможет чему-либо в этой ситуации. Чтобы убедить себя, попробуйте оба варианта и убедитесь, что ничего важного не меняется.
Ник Кокс

3
Наоборот, я думаю, что большинство людей будут использовать 0, 1 здесь.
Ник Кокс

1
Когда вы выполняете логистическую регрессию, программное обеспечение почти наверняка выполнит стандартизацию под капотом (для достижения лучших числовых свойств). Таким образом, это хорошая идея, чтобы сохранить бинарный индикатор в значимой форме. Стандартизация не звучит ни хорошо, ни полезно.
whuber

1
Любой метод машинного обучения, который требует от вас «стандартизации» двоичных предикторов, является подозрительным.
Фрэнк Харрелл

2
Поскольку это ваша собственная реализация, то никто не может дать вам объективный ответ! Вам необходимо проверить, как ваше программное обеспечение обрабатывает данные, чтобы решить, имеет ли смысл предварительная стандартизация.
uber

14

Стандартизация бинарных переменных не имеет никакого смысла. Значения являются произвольными; они ничего не значат сами по себе. Может быть обоснование выбора некоторых значений, таких как 0 и 1, в отношении проблем числовой стабильности, но это так.


что если бы они были между 0-100. Как я уже сказал, они означают такие вещи, как «распознанное лицо» и «неопознанное лицо», а 0-100 означает уровень доверия. Имеет ли смысл z-Score это?
Сиамии

Ваш пример 0-100 звучит как порядковый рейтинг. Есть немного подробностей относительно того, как лучше всего справляться с этой ситуацией, и это довольно часто обсуждается в резюме. Поиск по порядковому тегу, чтобы узнать больше.
gung - Восстановить Монику

проблема в том, что только некоторые переменные имеют значение 0-100. Другие, например, -400 - +400
Сиамия

В чем проблема с этим? Это проблема численной стабильности?
gung - Восстановить Монику

Может быть, вы предлагаете мне не z-счет?
Сиамии

3

Один хороший пример, где может быть полезно стандартизировать немного другим способом, приведен в разделе 4.2 Gelman and Hill ( http://www.stat.columbia.edu/~gelman/arm/ ). Это в основном, когда интерес представляет интерпретация коэффициентов, и, возможно, когда не так много предикторов.

xμx2σx,
σ±0.5x=0x=1σx

Пожалуйста, объясните «с равным соотношением 0 и 1», так как двоичные переменные, которые я вижу, редко бывают такими.
Ник Кокс

Я не думаю, что пропорция на самом деле будет иметь значение, они просто используют ее, чтобы сделать пример чище.
Студент Госсета

1

Что вы хотите стандартизировать, двоичную случайную переменную или пропорцию?

Y:SRY{0,1}

X[0,1]xR+


0

В логистической регрессии бинарные переменные могут быть стандартизированы для объединения их с непрерывными переменными, когда вы хотите дать всем им неинформативный априор, такой как N ~ (0,5) или Коши ~ (0,5). Рекомендуется стандартизация следующим образом: возьмите общее количество и дайте

1 = пропорция 1

0 = 1 - пропорция 1.

-----

Редактировать: На самом деле я был не прав, это не стандартизация, а смещение, которое должно быть сосредоточено на 0 и отличаться на 1 в нижнем и верхнем состояниях, скажем, что население составляет 30% в компании А и 70% в другом, мы можем определить центрированную переменную «Компания А», чтобы принимать значения -0,3 и 0,7.


Не могу понять это как стандартизацию.
Майкл Р. Черник
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.