Вопросы с тегом «eda»

EDA расшифровывается как «Исследовательский анализ данных». Разработано Tukey для сравнения с Confirmatory Data Analysis или CDA (формальное тестирование гипотез). EDA, как правило, занимается числовым и графическим описанием данных, чтобы их было легче понять и получить новое понимание.

24
Практические правила для «современной» статистики
Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа …

6
Есть ли веская причина использовать PCA вместо EFA? Кроме того, может ли PCA заменить факторный анализ?
В некоторых дисциплинах PCA (анализ основных компонентов) систематически используется без какого-либо обоснования, а PCA и EFA (анализ факторных факторов) рассматриваются как синонимы. Поэтому я недавно использовал PCA для анализа результатов исследования валидации шкалы (21 элемент по 7-балльной шкале Лайкерта, предполагаемый составление 3 факторов по 7 пунктов каждый), и рецензент спрашивает …

8
Современный преемник исследовательского анализа данных Тьюки?
Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?

8
Функция графического обзора данных (сводная) в R
Я уверен, что раньше я сталкивался с подобной функцией в пакете R, но после интенсивного поиска в Google я, кажется, нигде не могу ее найти. Функция, о которой я думаю, создала графическое резюме для заданной ей переменной, создавая вывод с некоторыми графиками (гистограммой и, возможно, графиком с усами) и некоторым …

5
Данные «разведка» против данных «слежка» / «пытки»?
Много раз я сталкивался с неофициальными предупреждениями против «отслеживания данных» (вот один забавный пример ), и я думаю, что у меня есть интуитивное представление о том, что это значит, и почему это может быть проблемой. С другой стороны, «исследовательский анализ данных» представляется вполне респектабельной процедурой в статистике, по крайней мере, …

4
Поддержал ли журнал Science анализ анализов в Саду Форка?
Идея адаптивного анализа данных заключается в том, что вы меняете свой план анализа данных, когда узнаете о них больше. В случае исследовательского анализа данных (EDA) это, как правило, хорошая идея (вы часто ищете непредвиденные закономерности в данных), но для подтверждающего исследования это широко признается как очень некорректный метод анализа (если …

2
Как справиться с поисковым анализом данных и дноуглубительными работами в исследованиях малых выборок?
Исследовательский анализ данных (EDA) часто приводит к исследованию других «следов», которые не обязательно принадлежат исходному набору гипотез. Я сталкиваюсь с такой ситуацией в случае исследований с ограниченным размером выборки и большим количеством данных, собранных с помощью различных вопросников (социально-демографические данные, нейропсихологические или медицинские шкалы - например, умственное или физическое функционирование, …

5
Важен ли исследовательский анализ данных при чисто прогностическом моделировании?
При построении прогностической модели с использованием методов машинного обучения, какой смысл проводить исследовательский анализ данных (EDA)? Можно ли сразу перейти к генерации объектов и созданию вашей модели? Как важна описательная статистика, используемая в EDA?

6
Ошибка стрелка из Техаса в анализе поисковых данных
Я читал эту статью в Природе, в которой некоторые ошибки объясняются в контексте анализа данных. Я заметил, что ошибки техасского снайпера было особенно трудно избежать: Когнитивная ловушка, которая ожидает во время анализа данных, проиллюстрирована басней о техасском снайпере: неумелый меткий стрелок, который стреляет случайным образом из пуль сбоку сарая, рисует …
23 eda  fallacy 

5
Что выучить после Casella & Berger?
Я чистый аспирант с небольшим опытом в прикладной математике. С прошлой осени я посещал занятия по книге Казеллы и Бергера, и я закончил сотни (более 230) страниц с упражнениями в книге. Прямо сейчас я нахожусь в главе 10. Однако, поскольку я не специализировался в статистике или планировал стать статистиком, я …

5
Как контролировать предварительные анализы больших наборов данных?
Когда я начинаю исследовательский анализ большого набора данных (много выборок, много переменных), я часто оказываюсь с сотнями производных переменных и тоннами разных графиков, и у меня нет реального способа отслеживать, что и где происходит. Код заканчивается как спагетти, потому что нет направления с самого начала ... Существуют ли рекомендуемые методы …

1
Что такое «эффект подковы» и / или «эффект арки» в PCA / анализе соответствия?
Существует много методов в экологической статистике для анализа разведочных данных многомерных данных. Это так называемые техники рукоположения. Многие из них совпадают или тесно связаны с общими методами в других областях статистики. Возможно, прототипным примером будет анализ основных компонентов (PCA). Экологи могут использовать PCA и связанные с ними методы для изучения …

8
Идеи для «лабораторного ноутбука»?
Так что это странная подгонка, хотя на самом деле я думаю, что это странная подгонка для любого сайта, поэтому я решил попробовать это здесь, среди моих собратьев по обработке данных. Я пришел к эпидемиологии и биостатистике из биологии, и у меня все еще есть определенные привычки в этой области. Один …

2
Как провести исследовательский анализ данных, чтобы выбрать подходящий алгоритм машинного обучения
Мы изучаем машинное обучение с помощью машинного обучения: вероятностная перспектива (Кевин Мерфи). Хотя в тексте объясняется теоретическая основа каждого алгоритма, в нем редко говорится, в каком случае какой алгоритм лучше, а когда - нет, но не говорится, как определить, в каком случае я нахожусь. Например, для выбора ядра мне было …

5
Хороший способ показать много данных в графическом виде
Я работаю над проектом, который включает 14 переменных и 345 000 наблюдений для данных о жилье (такие как год постройки, квадратные метры, проданная цена, округ проживания и т. Д.). Меня интересует попытка найти хорошие графические методы и библиотеки R, которые содержат хорошие методы построения графиков. Я уже вижу, что в …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.