Статистика и большие данные dataset

3

Идея сделать данные имеют среднее значение

Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить о наборе данных? Помогает ли …

12 data-mining dataset

2

Почему некоторые люди проверяют допущения регрессионных моделей на своих необработанных данных, а другие проверяют их на остаточных данных?

Я аспирант в области экспериментальной психологии, и я стараюсь улучшить свои навыки и знания о том, как анализировать мои данные. До пятого курса психологии я думал, что регрессионные модели (например, ANOVA) предполагают следующее: нормальность данных однородность дисперсии для данных и так далее Мои курсы бакалавриата заставляют меня полагать, что предположения …

12 regression dataset residuals assumptions

4

Лучший способ просто хранить данные для статистического анализа в R [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время он не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 6 лет назад . Я уже некоторое время использую текстовые файлы для хранения своих данных для R без каких-либо проблем. Но для недавнего …

12 r dataset

1

Различия между PROC Mixed и lme / lmer в R - степени свободы

Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …

12 r mixed-model sas degrees-of-freedom pdf unbiased-estimator distance-functions functional-data-analysis hellinger time-series outliers c++ relative-risk absolute-risk rare-events regression t-test multiple-regression survival teaching multiple-regression regression self-study t-distribution machine-learning recommender-system self-study binomial standard-deviation data-visualization r predictive-models pearson-r spearman-rho r regression modeling r categorical-data data-visualization ggplot2 many-categories machine-learning cross-validation weka microarray variance sampling monte-carlo regression cross-validation model-selection feature-selection elastic-net distance-functions information-theory r regression mixed-model random-effects-model fixed-effects-model dataset data-mining

4

Примеры дорогостоящих последствий неправильного использования статистических инструментов

Я подозреваю, что большинство пользователей статистических инструментов являются вспомогательными пользователями (люди, которые практически не имели формального обучения статистике). Для исследователей и других специалистов очень заманчиво применять статистические методы к своим данным просто потому, что они видели, как они «делали это раньше» в рецензируемых статьях, серой литературе, в Интернете или на …

12 dataset methodology

2

Лучшие практики для создания «аккуратных данных»

В прошлом году Хэдли Уикхем написала в JSS звездную статью под названием «Tidy Data» ( ссылка ) о манипулировании данными и приведении данных в «оптимальное» состояние для выполнения анализа. Однако мне было интересно, каковы наилучшие методы представления табличных данных в рабочих условиях? Допустим, ваш коллега просит вас предоставить ему некоторые …

12 dataset tables

2

Является ли разделение данных на тестовые и обучающие наборы чисто статистическими данными?

Я студент-физик, изучающий машинное обучение / науку о данных, поэтому я не хочу, чтобы этот вопрос вызвал какие-либо конфликты :) Однако большая часть любой программы по физике для студентов-физиков - это проведение лабораторных работ / экспериментов, что означает много данных. обработка и статистический анализ. Тем не менее, я замечаю резкую …

11 regression machine-learning cross-validation dataset experiment-design

2

Оптимальное биннинг по отношению к заданной переменной отклика

Я ищу оптимальный метод биннинга (дискретизации) непрерывной переменной по отношению к заданной ответной (целевой) двоичной переменной и с максимальным количеством интервалов в качестве параметра. пример: у меня есть набор наблюдений за людьми с переменными "высота" (цифра непрерывная) и "has_back_pains" (бинарная). Я хочу разделить высоту на 3 интервала (группы) не более, …

11 r dataset optimization discrete-data binning

3

Практическое пособие по PCA с данными

Поиск в Интернете учебника PCA дает тысячи результатов (даже видео). Многие учебники очень хороши. Но я не могу найти практического примера, где PCA объясняется с использованием некоторых наборов данных, которые я могу использовать для демонстрации. Мне нужен учебник, который предоставляет небольшой набор данных, который легко построить (не 10000 строк данных …

11 data-visualization dataset pca data-mining

14

Как много информации вы можете извлечь из имени?

Имя: имя, отчество, фамилия. Мне интересно, сколько информации вы можете извлечь из имени, используя общедоступные наборы данных. Я знаю, что вы можете получить следующее с любой низкой вероятностью (в зависимости от входных данных), используя данные переписи США: 1) Пол. 2) Гонка. Например, Facebook использовал именно это, чтобы с достаточной степенью …

11 dataset data-mining census

3

Какой алгоритм я должен использовать, чтобы разбить огромный набор двоичных данных на несколько категорий?

У меня есть большая (650K строк * 62 столбцов) матрица двоичных данных (только 0-1 записей). Матрица в основном скудная: около 8% заполнено. Я хотел бы разбить его на 5 групп, скажем, с именами от 1 до 5. Я пробовал иерархическую кластеризацию, и она не смогла обработать размер. Я также использовал …

11 clustering dataset k-means binary-data

3

Хорошие книги, посвященные методам предварительной обработки данных и обнаружения выбросов

Как гласит заголовок, знает ли кто-нибудь хорошую, современную книгу, которая описывает предварительную обработку данных в целом и особенно методы обнаружения выбросов? Книга не должна быть сосредоточена исключительно на этом, но она должна быть исчерпывающе затронута вышеупомянутыми темами - я не был бы счастлив чем-то, что является отправной точкой и цитирует …

11 dataset data-mining references outliers

4

Что именно подразумевается под «набором данных»?

Это просто совокупность точек данных? Или это представление точек данных для разных элементов в табличном формате, упорядоченных по значениям разных переменных? Чем он отличается от необработанных данных?

10 dataset terminology definition

1

Ошибки обработки данных уже «учтены» в статистическом анализе?

Хорошо, честное предупреждение - это философский вопрос, в котором нет цифр. Я много размышлял о том, как ошибки проникают в наборы данных с течением времени и как это следует обрабатывать аналитикам - или это вообще должно иметь значение? Для справки, я делаю анализ долгосрочного исследования, которое включает в себя множество …

10 dataset error

2

Должны ли типы данных (номинальные / порядковые / интервалы / отношения) действительно рассматриваться как типы переменных?

Так, например, вот определения, которые я получаю из стандартных учебников Переменная - характеристика популяции или выборки. ех. Цена акции или оценки на тест Данные - фактические наблюдаемые значения Итак, для отчета из двух столбцов [Имя | Income] имена столбцов будут переменными и фактическими наблюдаемыми значениями {dave | 100K}, {Джим | …

10 dataset ordinal-data categorical-data ratio

Вопросы с тегом «dataset»