Вопросы с тегом «dataset»

Запросы на наборы данных не по теме на этом сайте. Используйте этот тег для вопросов, касающихся создания, обработки или обслуживания наборов данных.

3
Идея сделать данные имеют среднее значение
Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить о наборе данных? Помогает ли …

2
Почему некоторые люди проверяют допущения регрессионных моделей на своих необработанных данных, а другие проверяют их на остаточных данных?
Я аспирант в области экспериментальной психологии, и я стараюсь улучшить свои навыки и знания о том, как анализировать мои данные. До пятого курса психологии я думал, что регрессионные модели (например, ANOVA) предполагают следующее: нормальность данных однородность дисперсии для данных и так далее Мои курсы бакалавриата заставляют меня полагать, что предположения …

4
Лучший способ просто хранить данные для статистического анализа в R [закрыто]
Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я уже некоторое время использую текстовые файлы для хранения своих данных для R без каких-либо проблем. Но для недавнего …
12 r  dataset 

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

4
Примеры дорогостоящих последствий неправильного использования статистических инструментов
Я подозреваю, что большинство пользователей статистических инструментов являются вспомогательными пользователями (люди, которые практически не имели формального обучения статистике). Для исследователей и других специалистов очень заманчиво применять статистические методы к своим данным просто потому, что они видели, как они «делали это раньше» в рецензируемых статьях, серой литературе, в Интернете или на …

2
Лучшие практики для создания «аккуратных данных»
В прошлом году Хэдли Уикхем написала в JSS звездную статью под названием «Tidy Data» ( ссылка ) о манипулировании данными и приведении данных в «оптимальное» состояние для выполнения анализа. Однако мне было интересно, каковы наилучшие методы представления табличных данных в рабочих условиях? Допустим, ваш коллега просит вас предоставить ему некоторые …
12 dataset  tables 

2
Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?
Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и статистический анализ. Тем не менее, я замечаю резкую …

2
Оптимальное биннинг по отношению к заданной переменной отклика
Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и "has_back_pains" (бинарная). Я хочу разделить высоту на 3 интервала (группы) не более, …

3
Практическое пособие по PCA с данными
Поиск в Интернете учебника PCA дает тысячи результатов (даже видео). Многие учебники очень хороши. Но я не могу найти практического примера, где PCA объясняется с использованием некоторых наборов данных, которые я могу использовать для демонстрации. Мне нужен учебник, который предоставляет небольшой набор данных, который легко построить (не 10000 строк данных …

14
Как много информации вы можете извлечь из имени?
Имя: имя, отчество, фамилия. Мне интересно, сколько информации вы можете извлечь из имени, используя общедоступные наборы данных. Я знаю, что вы можете получить следующее с любой низкой вероятностью (в зависимости от входных данных), используя данные переписи США: 1) Пол. 2) Гонка. Например, Facebook использовал именно это, чтобы с достаточной степенью …

3
Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?
У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал …

3
Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов
Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не был бы счастлив чем-то, что является отправной точкой и цитирует …

4
Что именно подразумевается под «набором данных»?
Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?

1
Ошибки обработки данных уже «учтены» в статистическом анализе?
Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение? Для справки, я делаю анализ долгосрочного исследования, которое включает в себя множество …
10 dataset  error 

2
Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?
Так, например, вот определения, которые я получаю из стандартных учебников Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест Данные - фактические наблюдаемые значения Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими наблюдаемыми значениями {dave | 100K}, {Джим | …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.