В чем разница между нормализацией и стандартизацией?

118

На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они кажутся взаимозаменяемыми и с другими возможностями.

При создании какой-то универсальной оценки, которая составляет разных показателя, которые имеют разные средние значения и разные SD, вы бы нормализовали, стандартизировали или что-то еще? Один человек сказал мне, что нужно просто взять каждую метрику и разделить их по их SD, индивидуально. Затем суммируем два. И это приведет к универсальной оценке, которая может быть использована для оценки обеих метрик. $2$

Например, скажем, у вас было количество людей, которые едут на метро на работу (в Нью-Йорке) и количество людей, которые ездили на работу (в Нью-Йорке).

Train ⟶ x

$\text{Train} \longrightarrow x$

Car ⟶ y

$\text{Car} \longrightarrow y$

$\text{mean}(x)$ $\text{mean}(y)$

$\text{mean}(x) = 8,000,000$

$\text{mean}(y) = 800,000$

$x$ $y$ $x$ $y$

Любая статья или главы книг для справки будет принята с благодарностью. СПАСИБО!

Также вот еще один пример того, что я пытаюсь сделать.

Представьте, что вы декан колледжа и обсуждаете требования для поступления. Возможно, вы захотите, чтобы студенты имели по крайней мере определенный средний балл и определенный тестовый балл. Было бы хорошо, если бы они оба были в одном масштабе, потому что тогда вы можете просто сложить их вместе и сказать: «Любой, у кого есть хотя бы 7.0, может быть допущен». Таким образом, если у будущего студента будет средний балл 4,0, он может набрать всего 3,0 балла и все равно получить допуск. И наоборот, если у кого-то был средний балл 3,0, он все равно мог получить допуск с оценкой 4,0.

Но это не так. ACT по 36-балльной шкале, и большинство GPA на 4.0 (некоторые 4.3, да, раздражает). Поскольку я не могу просто добавить ACT и GPA, чтобы получить какой-то универсальный балл, как я могу преобразовать их, чтобы их можно было добавить, создавая таким образом универсальный балл при поступлении. И тогда, как декан, я мог просто автоматически принять кого-либо с оценкой выше определенного порога. Или даже автоматически принимать всех, чей счет находится в верхних 95% ... такого рода вещи.

Будет ли это нормализацией? стандартизация? или просто делим каждый на их SD и затем суммируем?

descriptive-statistics normalization standardization

— Крис
источник

4

Последняя часть вопроса звучит так, будто вы пытаетесь создать оценку из нескольких атрибутов. Подробнее об этом см. Вопрос и ответы по адресу stats.stackexchange.com/q/9137 и stats.stackexchange.com/q/9358 . В частности, обратите внимание, что ни нормализация, ни стандартизация не имеют прямого отношения к проблеме Дина.

— whuber

65

Нормализация изменяет значения в диапазон [0,1]. Это может быть полезно в некоторых случаях, когда все параметры должны иметь одинаковую положительную шкалу. Однако выбросы из набора данных теряются.

X_{c h a n g e d} = \frac{X - X_{m i n}}{X_{m a x} - X_{m i n}}

$X_{changed} = \frac{X - X_{min}}{X_{max}-X_{min}}$

$\mu$ $\sigma$

X_{c h a n g e d} = \frac{X - μ}{σ}

$X_{changed} = \frac{X - \mu}{\sigma}$

Для большинства приложений рекомендуется стандартизация.

— Вивек Кумар
источник

7

Не могли бы вы объяснить, почему «выбросы из набора данных теряются» при нормализации данных?

— ученик

3

выбросы в этом случае масштабирования повлияют на результат и не будут потеряны.

— Feras

@learner Представь, если у тебя есть [1 2 3 4 5 1000 2 4 5 2000 ...]. Нормализованное значение 1000 точек данных станет меньше, потому что у нас 2000

— ХОЛОДНЫЙ ЛЕД

3

@COLDICE Я думаю, это зависит от используемого вами алгоритма нормализации. Например, если вы разделите каждое число в вашем наборе данных на максимальное значение (например, 2000), они будут находиться в диапазоне от 0 до 1, и это не повлияет на выбросы.

— Алиссон

3

Я думаю, что это не влияет на выбросы вообще, иначе это не было бы сделано в программах обнаружения аномалий.

— Алиссон

44

В деловом мире «нормализация» обычно означает, что диапазон значений «нормируется на значение от 0,0 до 1,0». «Стандартизация» обычно означает, что диапазон значений «стандартизирован» для измерения количества стандартных отклонений значения от его среднего значения. Однако не все с этим согласятся. Лучше объяснить ваши определения, прежде чем использовать их.

В любом случае, ваше преобразование должно обеспечить что-то полезное.

В своем примере поезда / вагона вы получаете что-нибудь, зная, сколько стандартных отклонений от их среднего значения лежит в каждом значении? Если вы нанесете эти «стандартизированные» меры друг на друга как график xy, вы можете увидеть корреляцию (см. Первый график справа):

http://en.wikipedia.org/wiki/Correlation_and_dependence

Если так, значит ли это что-нибудь для вас?

Что касается вашего второго примера, если вы хотите «приравнять» GPA от одной шкалы к другой шкале, что общего у этих шкал? Другими словами, как вы можете преобразовать эти минимумы в эквивалентные, а максимумы в эквивалентные?

Вот пример «нормализации»:

Нормализация Ссылка

Имеет ли смысл по-разному оценивать оценки ACT и GPA после получения баллов GPA и ACT в взаимозаменяемой форме? Если да, то что для вас что-то значит?

Изменить 1 (05/03/2011) ======================================== знак равно

Во- первых, я хотел бы проверить ссылки , предложенные whuber выше. Суть в том, что в обеих ваших задачах с двумя переменными вам придётся придумать «эквивалентность» одной переменной по сравнению с другой. И способ отличить одну переменную от другой. Другими словами, даже если вы можете упростить это до простых линейных отношений, вам понадобятся «веса», чтобы отличать одну переменную от другой.

Вот пример проблемы с двумя переменными:

Утилиты с несколькими атрибутами

На последней странице, если вы можете сказать, что стандартизированное движение поездов по U1(x)сравнению со стандартизированным автомобильным движением U2(y)является «аддитивно независимым», то вы можете обойтись простым уравнением, например:

U(x, y) = k1*U1(x) + (1 - k1)*U2(y)

Где k1 = 0,5 означает, что вы безразличны к стандартизированному движению автомобилей / поездов. Более высокое k1 означало бы, что движение поездов U1(x)более важно.

Однако, если эти две переменные не являются «аддитивно независимыми», вам придется использовать более сложное уравнение. Одна возможность показана на странице 1:

U(x, y) = k1*U1(x) + k2*U2(y) + (1-k1-k2)*U1(x)*U2(y)

В любом случае вам придётся придумать утилиту, U(x, y)которая имеет смысл.

Те же общие концепции взвешивания / сравнения применимы к вашей проблеме GPA / ACT. Даже если они «нормализованы», а не «стандартизированы».

Последний вопрос Я знаю, что вам это не понравится, но определение термина «аддитивно независимый» приведено на странице 4 следующей ссылки. Я искал менее вызывающее определение, но не смог найти. Вы можете посмотреть вокруг, чтобы найти что-то лучше.

Аддитивно независимый

Цитирую ссылку:

Intuitively, the agent prefers being both healthy and wealthy
more than might be suggested by considering the two attributes
separately. It thus displays a preference for probability
distributions in which health and wealth are positively
correlated.

Как показано в верхней части этого ответа, если вы построите стандартизированное движение поездов по сравнению со стандартизованным движением автомобилей на графике xy, вы можете увидеть корреляцию. Если это так, то вы застряли с вышеупомянутым нелинейным уравнением полезности или чем-то подобным.

— bill_080
источник

Хорошо. Вы правы. Лучше всего объяснить мои определения. И если подумать еще раз, мне нужны не определения. Что мне нужно, так это подходящий метод для создания 1 универсального счета. Будь то оценка приема или трафика. Как можно создать универсальную метрику, которая является функцией других переменных, которые были преобразованы, чтобы поместить их обоих в одинаковый масштаб? И не беспокойся о весах. Я понимаю, что даже просто прямое суммирование взвешивает метрики 1/1. Но сейчас меня это не беспокоит.

— Крис

@ Крис, я добавил свой ответ как редактирование выше.

— bill_080

2

(+1) Хорошее редактирование. @Chris: вас могут заинтересовать заметки к небольшому набору слайдов PowerPoint здесь : это презентация на тему, которую я дал нетехническим людям. Я упоминаю об этом, потому что в нем есть некоторые иллюстрации и рекомендации о том, как «создать универсальную метрику».

— whuber

Ссылка на Multi-Attribute Utilities

— устарела

6

Ответ прост, но вам не понравится: это зависит. Если вы оцениваете 1 стандартное отклонение от обоих показателей в равной степени, тогда стандартизация - это то, что вам нужно (примечание: на самом деле вы изучаете , потому что делите на оценку SD населения).

Если нет, вполне вероятно, что стандартизация будет хорошим первым шагом, после которого вы можете придать больший вес одному из баллов, умножив его на коэффициент выбора.

— Ник Сабби
источник

Итак, вы говорите, по крайней мере, начать с того, что я описал как Стандартизация (изучение), а затем скорректировать весовые коэффициенты, чтобы они наилучшим образом соответствовали данным / сценарию? Это имеет смысл. Я просто не понимаю, почему я бы разделить на SD. И в исследовании я обнаружил нечто, называемое стандартизированной средней разницей ... и я просто запутался. Кажется, все должно быть просто. Вы либо помещаете их в Scale-A, либо один в тот же масштаб, что и другой, затем суммируете. Но нет. Вместо этого я в замешательстве, и все вики на данный момент отсутствуют.

— Крис

0

Чтобы решить проблему GPA / ACT или поезда / автомобиля, почему бы не использовать среднее геометрическое ?

n√ (a1 × a2 × ... × an)

Где a*это значение из распределения и nявляется индексом распределения.

Это среднее геометрическое значение гарантирует, что каждое значение независимо от его масштаба одинаково влияет на среднее значение. Увидеть больше в среднем геометрическом

— LingxB
источник

3

Я не вижу, что среднее геометрическое было бы уместно для ситуаций, которые описывает OP.

— gung

1

Я согласен с Gung. Среднее геометрическое не является решением этой проблемы.

— Ферди

Среднее геометрическое будет предотвращать уменьшение вклада меньших чисел. Следовательно, это может быть альтернативой стандартизации или нормализации, когда неравные шкалы должны быть объединены.

— rnso

0

В моей области, науки о данных, нормализация - это преобразование данных, которое позволяет легко сравнивать полученные данные. Существует много типов нормализаций. Масштабирование является одним из них. Вы также можете регистрировать данные или делать что-либо еще, что вы хотите. Тип используемой вами нормализации будет зависеть от желаемого результата, поскольку все нормализации преобразуют данные во что-то другое.

Вот некоторые из примеров нормализации, которые я рассматриваю. Масштабирование нормализации Квантиль нормализация

— yevishere
источник