Статистика и большие данные rule-of-thumb

24

Практические правила для «современной» статистики

Мне нравится книга Дж. Ван Белля о статистических правилах большого пальца и, в меньшей степени, распространенные ошибки в статистике (и как их избежать) от Филиппа Гуда и Джеймса У. Хардина. Они учитывают распространенные ошибки при интерпретации результатов экспериментальных и наблюдательных исследований и предоставляют практические рекомендации для статистического вывода или анализа …

85 modeling eda rule-of-thumb

8

Расчет оптимального количества бинов в гистограмме

Я заинтересован в поиске как можно более оптимального метода для определения количества бинов, которые я должен использовать в гистограмме. Мои данные должны быть в диапазоне от 30 до 350 объектов максимум, и в частности я пытаюсь применить пороговое значение (как метод Оцу), где "хорошие" объекты, которых у меня должно быть …

80 rule-of-thumb histogram

7

Эмпирические правила для минимального размера выборки для множественной регрессии

В рамках предложения по исследованию социальных наук мне был задан следующий вопрос: Я всегда использовал 100 + m (где m - количество предикторов) при определении минимального размера выборки для множественной регрессии. Это уместно? Я часто получаю похожие вопросы, часто с разными правилами. Я также очень много читал такие практические правила …

72 regression sample-size power-analysis rule-of-thumb

4

Какие ссылки следует привести, чтобы использовать 30 как достаточно большой размер выборки?

Я много раз читал / слышал, что размер выборки, по крайней мере, 30 единиц, считается «большой выборкой» (предположения о нормальности средств обычно приблизительно соответствуют CLT, ...). Поэтому в своих экспериментах я обычно генерирую образцы по 30 единиц. Можете ли вы дать мне некоторые ссылки, которые должны быть указаны при использовании …

43 references sample-size normality-assumption central-limit-theorem rule-of-thumb

2

Хороший онлайн-ресурс с советами по графическому сопоставлению двух числовых переменных при различных условиях

Контекст: За это время я приобрел набор эвристик о том, как эффективно построить связь между двумя числовыми переменными. Я полагаю, что большинство людей, которые работают с данными, будут иметь подобный набор правил. Примеры таких правил могут быть: Если одна из переменных имеет положительный перекос, рассмотрите возможность построения этой оси в …

22 data-visualization correlation teaching rule-of-thumb scatterplot

4

Как спроецировать новый вектор на пространство PCA?

После выполнения анализа главных компонентов (PCA) я хочу спроецировать новый вектор на пространство PCA (т.е. найти его координаты в системе координат PCA). Я рассчитал PCA на языке R, используя prcomp. Теперь я должен быть в состоянии умножить свой вектор на матрицу вращения PCA. Должны ли главные компоненты в этой матрице …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

3

Метрики или для кластеризации?

Кто-нибудь использует метрики или для кластеризации, а не ? Аггарвал и др. Об удивительном поведении метрик расстояния в многомерном пространстве сказали (в 2001 г.), чтоL1L1L_1L.5L.5L_.5L2L2L_2 L1L1L_1 неизменно предпочтительнее, чем евклидова метрика расстояния для приложений анализа больших размеров данных.L2L2L_2 и утверждал, что или могут быть еще лучше.L.5L.5L_.5L.1L.1L_.1 Причины использования или могут …

14 clustering distance-functions rule-of-thumb

2

Правила «когда использовать боксплот и когда барплот» (большого пальца?)

Оба коробчатые и усы- график и гистограмма являются соответствующими графиками для ANOVA в соответствии с R Book (Кроули, 2013), но который является более подходящим ? Я полагаю, это зависит от ситуации ... кто-нибудь может мне помочь?

14 boxplot rule-of-thumb barplot

1

Размер выборки, необходимый для определения, какой из набора рекламных объявлений имеет самый высокий рейтинг кликов.

По профессии я дизайнер программного обеспечения и работаю над проектом для клиента, и я хотел бы убедиться, что мой анализ является статистически обоснованным. Подумайте над следующим: у нас есть n рекламных объявлений (n <10), и мы просто хотим знать, какое объявление работает лучше всего. Наш рекламный сервер будет случайным образом …

11 anova sample-size t-test rule-of-thumb

4

MANOVA и корреляции между зависимыми переменными: насколько сильный слишком сильный?

Зависимые переменные в MANOVA не должны быть «слишком сильно коррелированными». Но насколько сильна корреляция, слишком сильна? Было бы интересно узнать мнение людей по этому вопросу. Например, вы бы продолжили с MANOVA в следующих ситуациях? Y1 и Y2 коррелируют с иг = 0,3рзнак равно0,3r=0.3р < 0,005п<0,005p<0.005 Y1 и Y2 коррелируют с …

11 correlation anova multivariate-analysis rule-of-thumb manova

1

Связь между скоростью обучения и количеством скрытых слоев?

Есть ли эмпирическое правило между глубиной нейронной сети и скоростью обучения? Я заметил, что чем глубже сеть, тем ниже должна быть скорость обучения. Если это правильно, то почему?

10 neural-networks deep-learning hyperparameter rule-of-thumb

1

Гистограмма с однородными и неоднородными ячейками

Этот вопрос описывает принципиальное различие между равномерной и неоднородной гистограммой. И в этом вопросе обсуждается эмпирическое правило для выбора количества бинов однородной гистограммы, которое оптимизирует (в некотором смысле) степень, в которой гистограмма представляет распределение, из которого были взяты выборки данных. Похоже, я не могу найти такой же вид «оптимальности» в …

10 nonparametric outliers histogram rule-of-thumb

1

Как формализовать предыдущее распределение вероятностей? Есть ли практические правила или советы, которые следует использовать?

Хотя мне нравится думать, что я хорошо понимаю концепцию предварительной информации в байесовском статистическом анализе и принятии решений, у меня часто возникают проблемы с нахождением головы вокруг ее применения. Я имею в виду пару ситуаций, которые иллюстрируют мою борьбу, и я чувствую, что они не были должным образом рассмотрены в …

9 bayesian prior rule-of-thumb elicitation

Вопросы с тегом «rule-of-thumb»