Вопросы с тегом «project-management»

Организация вычислительной работы над * статистическими * проектами; используйте для вопросов о хранении данных, совместном использовании данных, репозиториях кода и т. д. Обратите внимание, что вопросы о программировании или не связанные со статистикой не по теме.

7
Как эффективно управлять проектом статистического анализа?
Мы часто слышим о шаблонах управления проектами и проектирования в компьютерных науках, но реже в статистическом анализе. Тем не менее, кажется, что решающим шагом на пути к созданию эффективного и долгосрочного статистического проекта является обеспечение организованности. Я часто выступаю за использование R и последовательную организацию файлов в отдельных папках (файл …

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

7
Почему запятая является плохим разделителем / разделителем записей в файлах CSV?
Я читал эту статью, и мне любопытно найти правильный ответ на этот вопрос. Единственное, что мне приходит в голову, это, возможно, то, что в некоторых странах десятичный разделитель - это запятая, и это может быть проблемой при обмене данными в CSV , но я не совсем уверен в своем ответе.

6
Как повысить долгосрочную воспроизводимость исследований (особенно с использованием R и Sweave)
Контекст: в ответ на предыдущий вопрос о воспроизводимых исследованиях Джейк написал Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, …

1
Вычисление повторяемости эффектов по модели Лмера
Я только что наткнулся на эту статью , в которой описывается, как вычислить повторяемость (или надежность, или внутриклассовую корреляцию) измерения с помощью моделирования смешанных эффектов. Код R будет: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = attr(vc,'sc')^2 intercept_var = attr(vc$id,'stddev')[1]^2 #compute the unadjusted …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 

4
Каковы эффективные способы организации R кода и вывода? [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто в прошлом году . Я ищу информацию о том, как другие организуют свой код R и вывод. Моя текущая практика заключается в написании кода …

5
Как контролировать предварительные анализы больших наборов данных?
Когда я начинаю исследовательский анализ большого набора данных (много выборок, много переменных), я часто оказываюсь с сотнями производных переменных и тоннами разных графиков, и у меня нет реального способа отслеживать, что и где происходит. Код заканчивается как спагетти, потому что нет направления с самого начала ... Существуют ли рекомендуемые методы …

10
Стратегия редактирования файлов с разделением запятыми (CSV)
Когда я работаю над проектами по анализу данных, я часто храню данные в файлах данных с разделителями-запятыми (CSV, TSV). При этом данные часто принадлежат к выделенной системе управления базами данных. Для многих моих приложений это было бы слишком. Я могу редактировать файлы CSV и TSV в Excel (или, предположительно, в …

5
Простой, надежный, открытый и совместимый текстовый формат для хранения данных
В предыдущем вопросе я спрашивал об инструментах для редактирования файлов CSV . Гэвин ссылается на комментарий к R Help Дункана Мердока, в котором говорится, что формат обмена данными является более надежным способом хранения данных, чем CSV. Для некоторых приложений необходима выделенная система управления базами данных. Однако для небольших проектов анализа …

3
Что такое практически хороший процесс анализа данных?
Я хотел бы знать, или иметь ссылки на процесс анализа, который проходит большинство статистических аналитиков данных для каждого проекта анализа данных. Если я составлю «список», для завершения проекта анализа данных аналитик должен: сначала собрать требования к проекту, планировать / проектировать свой анализ данных на основе этих требований до на самом …

3
Улучшение имен переменных в наборе данных
Хорошие имена переменных: а) короткий / легкий для ввода, б) легко запомнить, в) понятный / коммуникативный. Я забыл что-нибудь? Последовательность - это то, что нужно искать. Я бы сказал, что согласованные соглашения об именах способствуют достижению указанных выше качеств. Последовательность способствует (б) легкости запоминания и (в) понятности, хотя другие факторы …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.