Вопросы с тегом «normalization»

Обычно «нормализация» означает повторное выражение данных, чтобы значения лежали в указанном диапазоне.

1
Случайные матрицы с ограничениями на длину строки и столбца
Мне нужно сгенерировать случайные неквадратные матрицы с RRR строками и столбцами , элементами, случайно распределенными со средним значением = 0, и ограниченными таким образом, чтобы длина (норма L2) каждой строки составляла а длина каждого столбца составляла . Эквивалентно, сумма квадратных значений равна 1 для каждой строки и для каждого столбца.CCC111RC−−√RC\sqrt{\frac{R}{C}}RCRC\frac{R}{C} …

1
Преобразование (нормализация) очень малых значений вероятности в вероятность
Я пишу алгоритм, в котором, учитывая модель, я вычисляю вероятности для списка наборов данных, а затем должен нормализовать (для вероятности) каждый из вероятностей. Таким образом, что-то вроде [0.00043, 0.00004, 0.00321] может быть преобразовано в что-то вроде [0.2, 0.03, 0.77]. Моя проблема заключается в том, что вероятность журналов, с которыми я …

3
Причина нормализации в евклидовых мерах расстояния в иерархической кластеризации
Очевидно, что в иерархической кластеризации, в которой мерой расстояния является евклидово расстояние, данные должны быть сначала нормализованы или стандартизированы, чтобы предотвратить кластеризацию с помощью ковариации с наибольшей дисперсией. Почему это? Разве этот факт не желателен?

1
Должны ли данные центрироваться + масштабироваться перед применением t-SNE?
Некоторые из функций моих данных имеют большие значения, в то время как другие функции имеют гораздо меньшие значения. Необходимо ли центрировать + масштабировать данные перед применением t-SNE, чтобы предотвратить смещение в сторону больших значений? Я использую реализацию Python sklearn.manifold.TSNE с евклидовой метрикой расстояния по умолчанию.

3
Что означает «нормализация» и как проверить, что выборка или распределение нормализованы?
У меня есть вопрос, в котором он просит проверить, нормализовано ли равномерное распределение ( Uniform(a,b)Uniform(a,b){\rm Uniform}(a,b) ). С одной стороны, что означает для любого распределения быть нормализованным? И второе: как нам проверить, нормализовано ли распределение? Я понимаю, вычисляя X−meansdX−meansd \frac{X-\text{mean}}{\text{sd}} мы получаем нормализованныеданные, но здесь мы просим проверить,нормализованолираспределение.

4
«Нормализующие» переменные для SVD / PCA
Предположим, у нас есть NNN измеримых переменных (a1,a2,…,aN)(a1,a2,...,aN)(a_1, a_2, \ldots, a_N) , мы выполняем ряд измерений M>NM>NM > N , а затем хотим выполнить разложение по сингулярным значениям результатов, чтобы найти оси наибольшей дисперсии для MMM точек в NNN мерном пространстве. ( Примечание: предположим , что средства я уже вычитали, …

4
Нормализация до перекрестной проверки
Имеют ли нормализующие данные (чтобы иметь нулевое среднее значение и единичное стандартное отклонение) до выполнения повторной перекрестной проверки в k-кратном порядке какие-либо негативные последствия, такие как переоснащение? Примечание: это для ситуации, когда #cases> total #features Я преобразовываю некоторые из моих данных с помощью преобразования журнала, а затем нормализую все данные, …

1
Как работает квантильная нормализация?
В исследованиях экспрессии генов с использованием микрочипов данные интенсивности должны быть нормализованы, чтобы можно было сравнивать интенсивности между индивидуумами, между генами. Концептуально и алгоритмически, как работает «квантильная нормализация», и как бы вы объяснили это не статистику?

3
Регуляризация и масштабирование функций в онлайн-обучении?
Допустим, у меня есть классификатор логистической регрессии. В обычном пакетном обучении я бы использовал термин регуляризатор, чтобы предотвратить переоснащение и сохранить вес небольшим. Я также нормализую и масштабирую свои функции. В режиме онлайн обучения я получаю непрерывный поток данных. Я делаю обновление градиентного спуска с каждым примером и затем отбрасываю …

4
Масштабирование функций и нормализация среднего
Я прохожу курс машинного обучения Эндрю Нг и не смог получить правильный ответ на этот вопрос после нескольких попыток. Пожалуйста, помогите решить это, хотя я прошел через уровень. Предположим, что ученики взяли какой-то класс, и у класса был промежуточный экзамен и итоговый экзамен. Вы собрали набор данных их результатов на …

2
Могу ли я использовать CLR (центрированное преобразование логарифмического отношения) для подготовки данных для PCA?
Я использую скрипт. Это для основных записей. У меня есть датафрейм, который показывает различные элементные композиции в столбцах на заданной глубине (в первом столбце). Я хочу провести с ним PCA, и меня не устраивает метод стандартизации, который я должен выбрать. Кто-нибудь из вас использовал clr()данные для подготовки prcomp()? Или это …

4
Какова цель нормализации строк
Я понимаю причину нормализации столбцов, поскольку она приводит к одинаковому взвешиванию объектов, даже если они не измеряются в одном и том же масштабе - однако часто в литературе ближайшего соседа столбцы и строки нормализуются. Что такое нормализация строк для / почему нормализация строк? В частности, как результат нормализации строк влияет …

3
Как нормализовать данные неизвестного распределения
Я пытаюсь найти наиболее подходящее характеристическое распределение данных повторных измерений определенного типа. По сути, в моей области геологии мы часто используем радиометрическое датирование минералов из образцов (кусков породы), чтобы выяснить, как давно произошло событие (камень охлажден ниже пороговой температуры). Как правило, несколько (3-10) измерений будут сделаны из каждого образца. Затем …

5
Как выполнить вменение значений в очень большом количестве точек данных?
У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 

1
Алгоритм нормализации данных временных рядов в реальном времени?
Я работаю над алгоритмом, который берет вектор самой последней точки данных из ряда потоков датчиков и сравнивает евклидово расстояние с предыдущими векторами. Проблема заключается в том, что разные потоки данных поступают от совершенно разных датчиков, поэтому простое евклидово расстояние резко переоценит некоторые значения. Понятно, что мне нужен какой-то способ нормализации …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.