Статистика и большие данные matlab

1

Смещенная оценка для регрессии, достигающая лучших результатов, чем объективная оценка в модели Error In Variables

Я работаю над некоторыми синтетическими данными для модели Error In Variable для некоторых исследований. В настоящее время у меня есть одна независимая переменная, и я предполагаю, что знаю дисперсию для истинного значения зависимой переменной. Таким образом, с помощью этой информации я могу получить объективную оценку для коэффициента зависимой переменной. Модель: …

13 regression matlab unbiased-estimator errors-in-variables

4

Гауссовские процессы: как использовать GPML для многомерного вывода

Есть ли способ выполнить Гауссовскую регрессию процесса на многомерном выходе (возможно, коррелированном) с использованием GPML ? В демонстрационном скрипте я мог найти только 1D пример. Аналогичный вопрос о том , что CV тали случай многомерного ввода. Я просмотрел их книгу, чтобы узнать, смогу ли я найти что-нибудь. В 9-й главе …

13 regression machine-learning matlab gaussian-process nonparametric-bayes

5

Как выполнить вменение значений в очень большом количестве точек данных?

У меня очень большой набор данных и около 5% случайных значений отсутствуют. Эти переменные связаны друг с другом. В следующем примере набор данных R - просто игрушечный пример с фиктивными коррелированными данными. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, 2000000, replace = TRUE), ncol = 10000) colnames(xmat) <- …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

2

Автоматически определять распределение вероятностей с учетом набора данных

Учитывая набор данных: x <- c(4.9958942,5.9730174,9.8642732,11.5609671,10.1178216,6.6279774,9.2441754,9.9419299,13.4710469,6.0601435,8.2095239,7.9456672,12.7039825,7.4197810,9.5928275,8.2267352,2.8314614,11.5653497,6.0828073,11.3926117,10.5403929,14.9751607,11.7647580,8.2867261,10.0291522,7.7132033,6.3337642,14.6066222,11.3436587,11.2717791,10.8818323,8.0320657,6.7354041,9.1871676,13.4381778,7.4353197,8.9210043,10.2010750,11.9442048,11.0081195,4.3369520,13.2562675,15.9945674,8.7528248,14.4948086,14.3577443,6.7438382,9.1434984,15.4599419,13.1424011,7.0481925,7.4823108,10.5743730,6.4166006,11.8225244,8.9388744,10.3698150,10.3965596,13.5226492,16.0069239,6.1139247,11.0838351,9.1659242,7.9896031,10.7282936,14.2666492,13.6478802,10.6248561,15.3834373,11.5096033,14.5806570,10.7648690,5.3407430,7.7535042,7.1942866,9.8867927,12.7413156,10.8127809,8.1726772,8.3965665) .. Я хотел бы определить наиболее подходящее распределение вероятностей (гамма, бета, нормальное, экспоненциальное, пуассоновское, хи-квадрат и т. Д.) С оценкой параметров. Мне уже известен вопрос по следующей ссылке, где решение предоставляется с использованием R: /programming/2661402/given-a-set-of-random-numbers-drawn-from-a- Непрерывное-одномерное-распределение-f лучшее предлагаемое решение следующее: > library(MASS) > fitdistr(x, …

12 r matlab distributions

1

Как сформировать кривую Precision-Recall, когда у меня есть только одно значение для PR?

У меня есть задание по извлечению данных, где я создаю систему поиска изображений на основе контента. У меня 20 изображений 5 животных. Итак, всего 100 изображений. Моя система возвращает 10 наиболее релевантных изображений для входного изображения. Теперь мне нужно оценить производительность моей системы с помощью кривой Precision-Recall. Однако я не …

12 data-mining matlab precision-recall curves computer-vision

2

Как выполнить перекрестную проверку для PCA, чтобы определить количество основных компонентов?

Я пытаюсь написать свою собственную функцию для анализа главных компонентов, PCA (конечно, многое уже написано, но я просто заинтересован в том, чтобы реализовать что-то самостоятельно). Основная проблема, с которой я столкнулся, - это этап перекрестной проверки и вычисления прогнозируемой суммы квадратов (PRESS). Неважно, какую перекрестную проверку я использую, речь идет …

12 pca cross-validation matlab

1

Точный критерий Фишера и гипергеометрическое распределение

Я хотел лучше понять точный критерий Фишера, поэтому я разработал следующий пример игрушки, где f и m соответствуют мужской и женской части, а n и y соответствуют «потреблению соды», например: > soda_gender f m n 0 5 y 5 0 Очевидно, это резкое упрощение, но я не хотел, чтобы контекст …

12 fishers-exact hypergeometric clustering supervised-learning modeling econometrics r regression residuals heteroscedasticity independence distributions self-study matlab libsvm self-study conditional-probability conditional-expectation hypothesis-testing self-study multiple-comparisons mode statistical-significance chi-squared multiple-comparisons maximum-likelihood poisson-process optimization uncertainty genetic-algorithms bayesian model-selection overfitting maximum-likelihood optimization approximation r prediction model-evaluation r machine-learning survival neural-networks cox-model machine-learning bayesian bayesian-network hierarchical-bayesian pooling

5

Какой язык программирования вы рекомендуете для создания прототипа проблемы машинного обучения?

В настоящее время работает в Octave, но из-за плохой документации прогресс очень медленный. Какой язык прост в изучении и использовании и хорошо документирован для решения проблем машинного обучения? Я ищу прототип на небольшом наборе данных (тысячи примеров), поэтому скорость не важна. РЕДАКТИРОВАТЬ: я разрабатываю механизм рекомендации. Итак, я заинтересован в …

12 r machine-learning matlab software python

2

Коэффициент корреляции для недихотомической номинальной переменной и порядковой или числовой переменной

Я уже прочитал все страницы на этом сайте, пытаясь найти ответ на мою проблему, но, похоже, никто не подходит мне ... Сначала я объясню вам, с какими данными я работаю ... Допустим, у меня есть вектор-массив с несколькими названиями городов, по одному для каждого из 300 пользователей. У меня также …

12 correlation matlab ordinal-data categorical-data continuous-data

3

Как провести факторный анализ, если ковариационная матрица не является положительно определенной?

У меня есть набор данных, который состоит из 717 наблюдений (строк), которые описываются 33 переменными (столбцами). Данные стандартизируются путем z-оценки всех переменных. Нет двух переменных линейно зависимых ( ). Я также удалил все переменные с очень низкой дисперсией (менее ). На рисунке ниже показана соответствующая матрица корреляции (в абсолютных значениях).r=1r=1r=10.10.10.1 …

11 matlab factor-analysis covariance covariance-matrix

3

Доверительный интервал для перекрестной проверки точности классификации

Я работаю над проблемой классификации, которая вычисляет показатель сходства между двумя входными рентгеновскими изображениями. Если изображения принадлежат одному человеку (метка «справа»), будет рассчитана более высокая метрика; входные изображения двух разных людей (метка «неправильно») приведут к снижению показателя. Я использовал стратифицированную 10-кратную перекрестную проверку для вычисления вероятности ошибочной классификации. Мой текущий …

11 classification confidence-interval cross-validation matlab

8

Визуализация данных больших размеров

У меня есть образцы двух классов, которые являются векторами в многомерном пространстве, и я хочу построить их в 2D или 3D. Я знаю о методах уменьшения размерности, но мне нужен действительно простой и легкий в использовании инструмент (в matlab, python или в готовом .exe). Также мне интересно, будет ли представление …

11 data-visualization matlab python dimensionality-reduction

4

Как я могу получить значение случайно из оценки плотности ядра?

У меня есть некоторые наблюдения, и я хочу повторить выборку на основе этих наблюдений. Здесь я рассматриваю непараметрическую модель, в частности, я использую сглаживание ядра для оценки CDF из ограниченных наблюдений. Затем я рисую значения случайным образом из полученного CDF. Ниже приведен мой код (идея состоит в том, чтобы случайным …

10 sampling matlab kernel-smoothing density-estimation

1

Почему Anova () и drop1 () предоставили разные ответы для GLMM?

У меня есть GLMM формы: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Когда я использую drop1(model, test="Chi"), я получаю другие результаты, чем если бы я использовал Anova(model, type="III")из пакета автомобиля или summary(model). Последние два дают одинаковые ответы. Используя кучу сфабрикованных данных, я обнаружил, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

3

Выбор функций с использованием взаимной информации в Matlab

Я пытаюсь применить идею взаимной информации к выбору функций, как описано в этих примечаниях к лекции (на странице 5). Моя платформа - Matlab. Одна проблема, которую я нахожу при вычислении взаимной информации из эмпирических данных, состоит в том, что число всегда смещено вверх. Я нашел около 3 ~ 4 разных …

10 matlab feature-selection information-theory mutual-information

Вопросы с тегом «matlab»