Статистика и большие данные data-visualization

1

Объединение калибровочных участков после многократного вменения

Я хотел бы получить совет по объединению калибровочных графиков / статистики после многократного вменения. В условиях разработки статистических моделей для прогнозирования будущего события (например, с использованием данных из больничных записей для прогнозирования выживаемости или событий после выписки из больницы) можно предположить, что существует некоторая или много недостающей информации. Множественное вменение …

15 data-visualization data-imputation multiple-imputation pooling calibration

4

Точность градиентной машины уменьшается с увеличением числа итераций

Я экспериментирую с алгоритмом машины повышения градиента через caretпакет в R. Используя небольшой набор данных для поступления в колледж, я запустил следующий код: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- "yes" ### Gradient boosting machine algorithm. …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

11

Отображение трех частей информации на графике

Примечание: сейчас добавлено 50 точек необработанных данных. Я хочу показать, сколько я изучил, и сколько страниц я выполнил за неделю, разбито по дням, и я сделал это, как показано ниже: У меня были люди, которые говорили мне, что не могут понять графики, но я понятия не имею, как еще я …

15 data-visualization

1

Какова интуиция за сменными образцами при нулевой гипотезе?

Тесты перестановки (также называемые тестом рандомизации, тестом повторной рандомизации или точным тестом) очень полезны и оказываются полезными, когда предположение о нормальном распределении, требуемое, например, t-testне выполняется, и когда преобразование значений путем ранжирования непараметрическое тестирование, как, Mann-Whitney-U-testможет привести к потере большего количества информации. Тем не менее, одно и только одно предположение …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

1

Интерпретация переменных трассировок LASSO

Я новичок в glmnetпакете, и я все еще не уверен, как интерпретировать результаты. Может ли кто-нибудь помочь мне прочитать следующий сюжет трассировки? График был получен путем запуска следующего: library(glmnet) return <- matrix(ret.ff.zoo[which(index(ret.ff.zoo)==beta.df$date[2]), ]) data <- matrix(unlist(beta.df[which(beta.df$date==beta.df$date[2]), ][ ,-1]), ncol=num.factors) model <- cv.glmnet(data, return, standardize=TRUE) op <- par(mfrow=c(1, 2)) plot(model$glmnet.fit, "norm", …

15 r data-visualization interpretation lasso glmnet

1

Визуализация результатов смешанной модели

Одна из проблем, с которыми я всегда сталкивался при работе со смешанными моделями, это выяснение визуализаций данных - таких, которые могут оказаться на бумаге или плакате, - как только кто-то получит результаты. Сейчас я работаю над моделью смешанных эффектов Пуассона с формулой, которая выглядит примерно так: a <- glmer(counts ~ …

15 r data-visualization mixed-model

2

Объединение классификаторов путем подбрасывания монеты

Я изучаю курс машинного обучения, и слайды лекций содержат информацию, которая, на мой взгляд, противоречит рекомендуемой книге. Проблема в следующем: существует три классификатора: классификатор А, обеспечивающий лучшую производительность в нижнем диапазоне порогов, классификатор B, обеспечивающий лучшую производительность в более высоком диапазоне порогов, Классификатор C, что мы получаем, подбрасывая p-монету и …

15 machine-learning probability data-visualization classification roc

3

Лучший способ визуализировать истощение, используя R?

Через этот сайт я недавно обнаружил диаграммы Санки, отличный способ визуализировать то, что происходит в традиционной блок-схеме. Вот хороший пример диаграммы Санки Джорджа М. Уайтсайда и Джорджа В. Крэбтри , источник; Не забывайте долгосрочные фундаментальные исследования в области энергетики , науки 9 февраля 2007: Том. 315. нет. 5813, с. 796 …

15 r data-visualization sankey-diagram

1

Как построить функцию ступеней лестницы с помощью ggplot?

Locked . Этот вопрос и его ответы заблокированы, потому что вопрос не по теме, но имеет историческое значение. В настоящее время он не принимает новые ответы или взаимодействия. У меня есть график, как это: R код для его генерации: DF <- data.frame(date = as.Date(runif(100, 0, 800),origin="2005-01-01"), outcome = rbinom(100, 1, …

15 r data-visualization ggplot2

4

Как я могу улучшить свой анализ влияния репутации на голосование?

Недавно я провел некоторый анализ влияния репутации на положительные отзывы (см. Пост в блоге ), и впоследствии у меня возникло несколько вопросов о, возможно, более информативном (или более подходящем) анализе и графике. Итак, несколько вопросов (и не стесняйтесь отвечать кому-то конкретно и игнорировать других): В своем нынешнем воплощении я не …

15 data-visualization large-data fixed-effects-model

2

Показывать среднее вместо медианного в боксплоте [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 месяца назад . При построении коробочного графика с помощью python matplotblib линии на половине графика являются медианой распределения. Есть ли возможность вместо …

15 data-visualization python matplotlib boxplot

5

Хороший способ показать много данных в графическом виде

Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения графиков. Я уже вижу, что в …

15 r data-visualization large-data eda

8

Альтернативная графика для «обработки линейки» графиков

В моей области исследований популярным способом отображения данных является использование комбинации гистограммы с «ручками». Например, «Ручки» чередуются между стандартными ошибками и стандартными отклонениями в зависимости от автора. Как правило, размеры выборки для каждого «бара» довольно малы - около шести. Эти сюжеты, кажется, особенно популярны в биологических науках - см. Несколько …

15 data-visualization

1

Лучший способ визуально представить отношения из множественной линейной модели

У меня есть линейная модель с примерно 6 предикторами, и я собираюсь представить оценки, значения F, значения p и т. Д. Однако мне было интересно, какой будет лучший визуальный график для представления отдельного влияния одного предиктора на переменная ответа? Разброс точек? Условный участок? Эффект сюжета? и т.д? Как бы я …

15 r regression data-visualization multiple-regression partial-plot

3

Как построить вывод данных кластеризации?

Я попытался кластеризовать набор данных (набор меток) и получил 2 кластера. Я хотел бы представить это графически. Немного запутался в представлении, так как у меня нет координат (x, y). Также ищем функцию MATLAB / Python для этого. РЕДАКТИРОВАТЬ Я думаю, что размещение данных делает вопрос более ясным. У меня есть …

15 clustering data-visualization python

Вопросы с тегом «data-visualization»