Бинарную переменную со значениями 0, 1 можно (обычно) масштабировать до (значение - среднее) / SD, что, вероятно, является вашим z-счетом.
Самым очевидным ограничением этого является то, что если вам удастся получить все нули или все единицы, то включение SD-карты вслепую означало бы, что z-оценка является неопределенной. Существует также случай назначения нуля, поскольку значение - среднее значение равно нулю. Но многие статистические вещи не будут иметь большого смысла, если переменная действительно является константой. В целом, однако, если SD невелик, существует больший риск того, что оценки будут нестабильными и / или не будут точно определены.
Проблема в том, чтобы дать лучший ответ на ваш вопрос, заключается именно в том, какой «алгоритм машинного обучения» вы рассматриваете. Это звучит так, как будто это алгоритм, который объединяет данные для нескольких переменных, и поэтому обычно имеет смысл предоставлять их в одинаковых масштабах.
(ПОЗЖЕ) Поскольку оригинальный постер добавляет комментарии один за другим, их вопрос превращается. Я все еще считаю, что (значение - среднее) / SD имеет смысл (то есть не является бессмысленным) для бинарных переменных, пока SD является положительным. Тем не менее, логистическая регрессия была позже названа как приложение, и для этого нет теоретической или практической выгоды (и даже некоторой потери простоты) в чем-либо, кроме подачи двоичных переменных как 0, 1. Ваше программное обеспечение должно быть в состоянии хорошо справляться с что; если нет, откажитесь от этого программного обеспечения в пользу программы, которая может. С точки зрения заглавного вопроса: можно, да; должен, нет.