Идея сделать данные имеют среднее значение

12

Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить о наборе данных? Помогает ли это при визуализации понимать данные?

data-mining dataset

— Джек Твен
источник

9

Этот подход называется центрированием . Одно из его применений заключается в том, чтобы превратить перехват модели регрессии в «предсказанный y, когда x находится в среднем», делая пересечение немного более интерпретируемым.

— Penguin_Knight

Можно также сказать, что центрированный элемент / набор данных хорошо подготовлен . Смотрите здесь для визуального объяснения. Операция нормализации ввода делает градиентный спуск намного проще.

— настроено

12

Некоторые случаи, когда «центрирование данных по их среднему значению» (далее просто «де-смысл») полезно:

$N(10,4)$ $N(100,4)$

2) Упростите вычисления более высоких моментов: хотя добавление константы к случайной переменной не меняет ее дисперсию или ее ковариацию с другой случайной величиной, тем не менее, если у вас есть ненулевое среднее значение, и вы должны выписать подробные вычисления, Вы должны написать все условия и показать, что они отменяют. Если переменные не имеют значения, вы сохраняете много бесполезных вычислений.

3) Случайные переменные с центром в среднем значении являются предметом центральной предельной теоремы

4) Отклонения от «среднего значения» во многих случаях представляют интерес, и имеют ли они тенденцию быть «выше или ниже среднего», а не фактические значения случайных величин. «Перевод» (визуально и / или в вычислительном отношении) отклонений ниже среднего значения в виде отрицательных значений и отклонений выше среднего значения в качестве положительных значений делает сообщение более четким и сильным.

Более подробные обсуждения см. Также

При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?

Центрирование данных в множественной регрессии

Если вы будете искать «центрированные данные» в резюме, вы также найдете другие интересные посты.

— Алекос Пападопулос
источник

@OP: я думаю, что этот ответ должен быть принят.

— ротвейлер

4

Также по практическим причинам выгодно центрировать данные, например, при обучении нейронных сетей.

Идея состоит в том, что для обучения нейронной сети необходимо решить невыпуклую задачу оптимизации с использованием некоторого градиентного подхода. Градиенты рассчитываются с помощью обратного распространения. Теперь эти градиенты зависят от входных данных, а центрирование данных устраняет возможные отклонения в градиентах.

Конкретно, ненулевое среднее значение отражается в большом собственном значении, что означает, что градиенты имеют тенденцию быть больше в одном направлении, чем в других (смещение), тем самым замедляя процесс сходимости, что в конечном итоге приводит к худшим решениям.

— jpmuc
источник

1

Чтобы добавить к сказанному Алекосом, что очень хорошо, центрирование ваших данных на нуле чрезвычайно важно при использовании байесовской статистики или регуляризации, поскольку в противном случае данные могут быть соотнесены с перехватом, что делает регуляризацию не такой, какой вы обычно хотите.

Если данные равны нулю, это может уменьшить многие недиагональные члены ковариационной матрицы, что делает данные более легко интерпретируемыми, а коэффициенты - более значимыми, поскольку каждый коэффициент применяется в большей степени к этому фактору и действует меньше благодаря корреляции с другие факторы.

— Джо
источник