Вопросы с тегом «dataset»

Запросы на наборы данных не по теме на этом сайте. Используйте этот тег для вопросов, касающихся создания, обработки или обслуживания наборов данных.

14
Являются ли большие наборы данных неподходящими для проверки гипотез?
В недавней статье в Amstat Новости , авторы (Марк ван дер Лан и Шерри Роуз) заявил , что «Мы знаем , что для достаточно больших размеров выборки, каждое исследование, в том числе те , в которых нулевая гипотеза об отсутствии эффекта верно - будет объявить статистически значимый эффект. Ну, я, …

25
Нахождение свободно доступных образцов данных
Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его …

6
Основные тесты проверки данных
В своей работе я часто работаю с наборами данных других людей, неспециалисты приносят мне клинические данные, и я помогаю им обобщать их и выполнять статистические тесты. Проблема, с которой я сталкиваюсь, состоит в том, что наборы данных, которые я привожу, почти всегда полны опечаток, несоответствий и других проблем. Мне интересно …

8
Как смоделировать данные, которые удовлетворяют определенным ограничениям, таким как наличие определенного среднего значения и стандартного отклонения?
Этот вопрос мотивирован моим вопросом о метаанализе . Но я полагаю, что это также было бы полезно при обучении контекстов, в которых вы хотите создать набор данных, который точно отражает существующий опубликованный набор данных. Я знаю, как генерировать случайные данные из данного распределения. Так, например, если я читаю о результатах …

3
API данных / каналы доступны как пакеты в R
РЕДАКТИРОВАТЬ: Представление задачи « Веб-технологии и службы CRAN» содержит гораздо более полный список источников данных и API-интерфейсов, доступных в R. Вы можете отправить запрос на извлечение на github, если вы хотите добавить пакет в представление задач. Я делаю список различных каналов данных, которые уже подключены к R или которые легко …
53 r  references  dataset 

3
Интерпретация логарифмически преобразованного предиктора и / или ответа
Мне интересно, имеет ли это значение при интерпретации того, являются ли логически преобразованными только зависимые, как зависимые, так и независимые, или только независимые переменные. Рассмотрим случай log(DV) = Intercept + B1*IV + Error Я могу интерпретировать IV как процентное увеличение, но как это меняется, когда у меня есть log(DV) = …
46 regression  data-transformation  interpretation  regression-coefficients  logarithm  r  dataset  stata  hypothesis-testing  contingency-tables  hypothesis-testing  statistical-significance  standard-deviation  unbiased-estimator  t-distribution  r  functional-data-analysis  maximum-likelihood  bootstrap  regression  change-point  regression  sas  hypothesis-testing  bayesian  randomness  predictive-models  nonparametric  terminology  parametric  correlation  effect-size  loess  mean  pdf  quantile-function  bioinformatics  regression  terminology  r-squared  pdf  maximum  multivariate-analysis  references  data-visualization  r  pca  r  mixed-model  lme4-nlme  distributions  probability  bayesian  prior  anova  chi-squared  binomial  generalized-linear-model  anova  repeated-measures  t-test  post-hoc  clustering  variance  probability  hypothesis-testing  references  binomial  profile-likelihood  self-study  excel  data-transformation  skewness  distributions  statistical-significance  econometrics  spatial  r  regression  anova  spss  linear-model 

9
Крошечные (реальные) наборы данных для примеров в классе?
Преподавая уроки начального уровня, учителя, которых я знаю, склонны придумывать цифры и рассказы, чтобы проиллюстрировать метод, которому они учат. Я бы предпочел рассказать реальную историю с реальными числами. Однако эти истории должны относиться к очень крошечному набору данных, который позволяет выполнять ручные вычисления. Любые предложения по таким наборам данных будут …

8
Как заставить людей лучше заботиться о данных?
На моем рабочем месте работают сотрудники из самых разных дисциплин, поэтому мы генерируем данные в самых разных формах. Следовательно, каждая команда разработала свою собственную систему хранения данных. Некоторые используют базы данных Access или SQL; некоторые команды (к моему ужасу) почти полностью зависят от электронных таблиц Excel. Часто форматы данных меняются …

2
Как сделать правильные выводы из «больших данных»?
«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь …

2
Как нормализовать данные между -1 и 1?
Я видел формулу нормализации min-max, но она нормализует значения между 0 и 1. Как бы я нормализовал мои данные между -1 и 1? В моей матрице данных есть как отрицательные, так и положительные значения.

5
Свободный набор данных для очень высокой размерной классификации [закрыто]
Что такое свободно доступный набор данных для классификации с более чем 1000 объектов (или точек выборки, если он содержит кривые)? Уже есть вики сообщества о бесплатных наборах данных: поиск свободно доступных образцов данных Но здесь было бы неплохо иметь более сфокусированный список, который можно использовать более удобно , также я …

5
Что если мои данные линейной регрессии содержат несколько смешанных линейных отношений?
Допустим, я изучаю, как нарциссы реагируют на различные почвенные условия. Я собрал данные о pH почвы в зависимости от зрелой высоты нарцисса. Я ожидаю линейных отношений, поэтому я продолжаю выполнять линейную регрессию. Однако, когда я начал свое исследование, я не осознавал, что популяция на самом деле содержит две разновидности нарцисса, …

3
Наборы данных, построенные с целью, аналогичной таковой в квартете Анскомба
Я только что натолкнулся на квартет Анскомба (четыре набора данных, которые имеют почти неразличимую описательную статистику, но выглядят совсем иначе при построении графика), и мне любопытно, есть ли другие более или менее известные наборы данных, которые были созданы, чтобы продемонстрировать важность определенных аспектов статистического анализа.

2
Выполнение статистического теста после визуализации данных - выемка данных?
Я предложу этот вопрос на примере. Предположим, у меня есть набор данных, такой как набор данных по ценам на жилье в Бостоне, в котором у меня есть непрерывные и категориальные переменные. Здесь у нас есть переменная «качество», от 1 до 10, и цена продажи. Я могу разделить данные на дома …

3
Визуализация пересечений множества множеств
Есть ли модель визуализации, которая хороша для отображения пересечения многих множеств? Я думаю что-то вроде диаграмм Венна, но это может как-то подойти для большего числа наборов, таких как 10 или более. Википедия показывает некоторые диаграммы Венна с более высокими наборами, но даже диаграммы с четырьмя наборами - это много, что …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.