Вопросы с тегом «standardization»

Обычно относится к «z-стандартизации», которая смещает и масштабирует данные, чтобы гарантировать, что они имеют нулевое среднее значение и единичную дисперсию. Возможны и другие «стандартизации».

7
При проведении множественной регрессии, когда вы должны центрировать свои предикторные переменные и когда вы должны стандартизировать их?
В какой-то литературе я читал, что необходимо стандартизировать регрессию с несколькими объясняющими переменными, если они в разных единицах. (Стандартизация заключается в вычитании среднего значения и делении на стандартное отклонение.) В каких других случаях мне нужно стандартизировать мои данные? Существуют ли случаи, когда мне следует центрировать только мои данные (т.е. без …

5
В чем разница между нормализацией и стандартизацией?
На работе мы обсуждали это, так как мой начальник никогда не слышал о нормализации. В линейной алгебре нормализация, по-видимому, относится к делению вектора на его длину. И в статистике стандартизация, по-видимому, относится к вычитанию среднего значения, которое затем делится на его SD. Но они кажутся взаимозаменяемыми и с другими возможностями. …

3
Переменные часто корректируются (например, стандартизируются) перед созданием модели - когда это хорошая идея, а когда плохая?
В каких обстоятельствах вы хотите или не хотите масштабировать или стандартизировать переменную до подбора модели? И каковы преимущества / недостатки масштабирования переменной?

3
Выполнить нормализацию объекта до или в рамках валидации модели?
Обычной хорошей практикой в ​​машинном обучении является нормализация характеристик или стандартизация данных переменных предиктора, вот и все, центрируйте данные, вычитая среднее значение, и нормализуйте его, деля на дисперсию (или стандартное отклонение тоже). Для самодостаточности и, насколько я понимаю, мы делаем это для достижения двух основных целей: Избегайте сверхмалых весов модели …

1
Как применить стандартизацию / нормализацию к обучению и тестам, если целью является прогнозирование?
Преобразовываю ли я все свои данные или сгибы (если применяется CV) одновременно? например (allData - mean(allData)) / sd(allData) Преобразовать ли наборы поездов и наборы тестов отдельно? например (trainData - mean(trainData)) / sd(trainData) (testData - mean(testData)) / sd(testData) Или я преобразую поездный набор и использую вычисления на тестовом наборе? например (trainData …

3
Нужна ли стандартизация перед установкой логистической регрессии?
Мой вопрос заключается в том, нужно ли нам стандартизировать набор данных, чтобы убедиться, что все переменные имеют одинаковую шкалу, между [0,1], до подбора логистической регрессии. Формула: xi−min(xi)max(xi)−min(xi)xi−min(xi)max(xi)−min(xi)\frac{x_i-\min(x_i)}{\max(x_i)-\min(x_i)} В моем наборе данных есть 2 переменные, они описывают одно и то же для двух каналов, но громкость отличается. Скажем, это количество посещений …

2
Когда и как использовать стандартизированные объясняющие переменные в линейной регрессии
У меня есть 2 простых вопроса о линейной регрессии: Когда рекомендуется стандартизировать объясняющие переменные? Как только можно выполнить оценку с использованием стандартизированных значений, как можно прогнозировать с помощью новых значений (как следует стандартизировать новые значения)? Некоторые ссылки будут полезны.

3
следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO
Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной) летней школы, которую я связал с масштабированием непрерывных переменных, должны …

2
Стандартизация до Лассо действительно необходима?
Я прочитал три основные причины стандартизации переменных, прежде чем что-то вроде Lassoрегрессии: 1) Интерпретируемость коэффициентов. 2) Возможность ранжировать важность коэффициента по относительной величине оценок коэффициента после усадки. 3) Нет необходимости перехватывать. Но меня интересует самый важный момент. Есть ли у нас основания полагать, что стандартизация улучшит обобщение модели вне выборки? …


3
Что означает «нормализация» и как проверить, что выборка или распределение нормализованы?
У меня есть вопрос, в котором он просит проверить, нормализовано ли равномерное распределение ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ). С одной стороны, что означает для любого распределения быть нормализованным? И второе: как нам проверить, нормализовано ли распределение? Я понимаю, вычисляя X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} мы получаем нормализованныеданные, но здесь мы просим проверить,нормализованолираспределение.

2
Вопрос о стандартизации в гребне регрессии
Эй, ребята, я нашел одну или две статьи, в которых используется регрессия гребня (для данных о баскетболе). Мне всегда говорили стандартизировать мои переменные, если я запускал регрессию гребня, но мне просто сказали сделать это, потому что гребень был масштабным вариантом (регрессия гребня не была действительно частью нашего курса, поэтому наш …

2
Является ли хорошей практикой стандартизировать ваши данные в регрессии с панельными / продольными данными?
В общем, я стандартизирую свои независимые переменные в регрессиях, чтобы правильно сравнить коэффициенты (таким образом, они имеют одинаковые единицы: стандартные отклонения). Однако с панельными / продольными данными я не уверен, как мне следует стандартизировать мои данные, особенно если я оцениваю иерархическую модель. Чтобы понять, почему это может быть потенциальной проблемой, …

1
Необходимость центрирования и стандартизации данных в регрессии
Рассмотрим линейную регрессию с некоторой регуляризацией: например, найдите который минимизируетxИксx||Ax−b||2+λ||x||1||Ax−b||2+λ||x||1||Ax - b||^2+\lambda||x||_1 Обычно столбцы A стандартизированы, чтобы иметь нулевое среднее и единичную норму, тогда как центрируется, чтобы иметь нулевое среднее. Я хочу убедиться в правильности моего понимания причины стандартизации и центрирования.bbb Обнуляя значения столбцов и , мы больше не нуждаемся …

2
Нужен ли случайный лес масштабируемым или центрированным входным переменным?
Мои входные переменные имеют разные размеры. Некоторые переменные являются десятичными, а некоторые - сотнями. Необходимо ли центрировать (вычитать среднее) или масштабировать (делить на стандартное отклонение) эти входные переменные, чтобы сделать данные безразмерными при использовании случайного леса?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.