Вопросы с тегом «eda»

EDA расшифровывается как «Исследовательский анализ данных». Разработано Tukey для сравнения с Confirmatory Data Analysis или CDA (формальное тестирование гипотез). EDA, как правило, занимается числовым и графическим описанием данных, чтобы их было легче понять и получить новое понимание.

5
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?
Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA для них обоих и …

2
Есть ли различия в байесовских и частых подходах к EDA?
Проще говоря: есть ли различия в байесовском и частом подходах к исследовательскому анализу данных? Я не знаю присущих методов EDA, поскольку гистограмма - это гистограмма, диаграмма рассеяния - это диаграмма рассеяния и т. Д., А также я не нашел примеров различий в том, как преподается или преподносится EDA (игнорируя особенно …

3
Блок-схемы, помогающие выбрать правильную методику анализа и тестирования
Как человек, который нуждается в статистических знаниях, но не является формально обученным статистиком, я бы счел полезным иметь блок-схему (или какое-то дерево решений), чтобы помочь мне выбрать правильный подход для решения конкретной проблемы (например, " нужно ли это и знать то и то и считать ли данные нормально распределенными? Используйте …

6
Пакет R для определения отношений между переменными [закрыт]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 4 года назад . Есть ли пакет R, который я могу использовать, чтобы выяснить, существуют ли отношения между переменными? Обычно, когда я ищу …

4
Лучшие способы агрегирования и анализа данных
Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее: Как я должен хранить эти …

2
Разница между поисковым и подтверждающим факторным анализом при определении независимости конструкции
Исследователи часто используют две меры, которые имеют очень похожие предметы, и утверждают, что они измеряют разные вещи (например, «я всегда волнуюсь, когда я рядом с машинами»; «я боюсь машин»). Назовем гипотетические меры «Мера страха перед автомобилем» и «Беспокойство от автомобильной шкалы». Я заинтересован в эмпирическом тестировании, если они действительно оценивают …

2
Если моя гистограмма показывает колоколообразную кривую, могу ли я сказать, что мои данные нормально распределены?
Я создал гистограмму для возраста респондента и сумел получить очень хороший колоколообразный изгиб, из которого я пришел к выводу, что распределение нормальное. Затем я выполнил тест нормальности в SPSS, с n = 169. Значение p (Sig.) Теста Колмогорова-Смирнова меньше 0,05, и поэтому данные нарушили предположение о нормальности. Почему тест показывает, …

1
Как интерпретировать участки с надрезами
Делая некоторые EDA, я решил использовать рамочный график, чтобы проиллюстрировать разницу между двумя уровнями фактора. Способ, которым ggplot отображал рамочный график, был удовлетворительным, но немного упрощенным (первый график ниже). Изучая характеристики коробочных участков, я начал экспериментировать с выемками. Я понимаю, что метки отображают CI вокруг медианы, и что если две …

2
Что подразумевается под «Пусть данные говорят сами за себя»?
Читая следующую статью , я натолкнулся на следующее утверждение: Как уже упоминалось, он часто представлен без какой-либо ссылки на вероятностные модели, в соответствии с идеей Benzecri [1973] «позволить данным говорить самим за себя». (Цитата из JP Benzécri. L'analyse des données. Том II: L'analyse des соответствия. Dunod, 1973.) Из того, как …
10 eda  quotation 

3
Первый быстрый взгляд на набор данных
Прошу прощения за мое невежество, но ... Я продолжаю оказываться в ситуации, когда сталкиваюсь с кучей новых данных, которые мне удалось найти. Эти данные обычно выглядят примерно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Обычно …

4
Советы и рекомендации для начала статистического моделирования?
Я работаю в области интеллектуального анализа данных, и у меня было очень мало формального обучения статистике. В последнее время я читаю много работ, посвященных байесовским парадигмам для изучения и майнинга, что мне очень интересно. У меня вопрос (в нескольких частях), учитывая проблему, есть ли общие рамки, по которым можно построить …

4
Почему тот факт, что 1 медиана ниже, чем другой медианы, не означает, что большинство в группе 1 меньше, чем большинство в группе 2?
Я полагал, что приведенные ниже прямоугольники могут быть интерпретированы как «большинство мужчин быстрее, чем большинство женщин» (в этом наборе данных), главным образом потому, что среднее время мужчин было меньше среднего времени женщин. Но курс EDX на R- и статистика викторине сказал мне , что это неправильно. Пожалуйста, помогите мне понять, …

2
Параметрический, полупараметрический и непараметрический бутстрап для смешанных моделей
Следующие прививки взяты из этой статьи . Я новичок в начальной загрузке и пытаюсь реализовать параметрическую, полупараметрическую и непараметрическую загрузку начальной загрузки для линейной смешанной модели с R bootпакетом. Код R Вот мой Rкод: library(SASmixed) library(lme4) library(boot) fm1Cult <- lmer(drywt ~ Inoc + Cult + (1|Block) + (1|Cult), data=Cultivation) fixef(fm1Cult) …
9 r  mixed-model  bootstrap  central-limit-theorem  stable-distribution  time-series  hypothesis-testing  markov-process  r  correlation  categorical-data  association-measure  meta-analysis  r  anova  confidence-interval  lm  r  bayesian  multilevel-analysis  logit  regression  logistic  least-squares  eda  regression  notation  distributions  random-variable  expected-value  distributions  markov-process  hidden-markov-model  r  variance  group-differences  microarray  r  descriptive-statistics  machine-learning  references  r  regression  r  categorical-data  random-forest  data-transformation  data-visualization  interactive-visualization  binomial  beta-distribution  time-series  forecasting  logistic  arima  beta-regression  r  time-series  seasonality  large-data  unevenly-spaced-time-series  correlation  statistical-significance  normalization  population  group-differences  demography 

3
Руководство по открытию новых знаний в данных
Я планирую что-то, чтобы подчеркнуть себя или кого-то еще. Обычно вопрос начинает этот процесс, и часто спрашивающий надеется на конкретный ответ. Как я могу узнать интересные вещи о данных менее предвзятым способом? Прямо сейчас я примерно следую этому методу: Сводные статистические данные. Stripchart. Разброс сюжета. Может быть, повторить с интересным …
Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.