Статистика и большие данные

16

Какие неправильно используемые статистические термины стоит исправить?

Статистика везде; однако, часто используются статистические термины, которые не всегда ясны. Термины вероятность и шансы используются взаимозаменяемо в английском языке, несмотря на их четкие и разные математические выражения. Отсутствие разделения термина « вероятность и вероятность» обычно сбивает с толку врачей, пытающихся количественно оценить вероятность рака молочной железы с учетом положительной …

104 terminology

5

Различия между перекрестной проверкой и начальной загрузкой для оценки ошибки предсказания

Мне бы хотелось, чтобы ваши мысли о различиях между перекрестной проверкой и начальной загрузкой оценили ошибку прогноза. Работает ли лучше для небольших наборов данных или больших наборов данных?

104 cross-validation predictive-models bootstrap

19

Как раздражать статистического судью?

Недавно я задал вопрос об общих принципах рассмотрения статистики в документах . Теперь я хотел бы спросить, что особенно раздражает вас при просмотре статьи, то есть, как лучше всего раздражать статистического судью! Один пример за ответ, пожалуйста.

102 references referee

2

Удаление статистически значимого члена перехвата увеличивает в линейной модели

В простой линейной модели с одной объясняющей переменной αi=β0+β1δi+ϵiαi=β0+β1δi+ϵi\alpha_i = \beta_0 + \beta_1 \delta_i + \epsilon_i Я считаю, что удаление члена перехвата значительно улучшает соответствие (значение идет от 0,3 до 0,9). Однако термин «перехват» представляется статистически значимым.R2R2R^2 С перехватом: Call: lm(formula = alpha ~ delta, data = cf) Residuals: Min …

101 r linear-model interpretation r-squared intercept

3

Пакетный градиентный спуск против стохастического градиентного спуска

Предположим, у нас есть некоторый обучающий набор ( х( я ), у( я ))(x(i),y(i))(x_{(i)}, y_{(i)}) для я = 1 , … , мi=1,…,mi = 1, \dots, m . Также предположим, что мы запускаем некоторый тип контролируемого алгоритма обучения на тренировочном наборе. Гипотезы представлены в виде часθ( х( я )) = …

101 optimization gradient-descent sgd

8

ASA обсуждает ограничения

У нас уже есть несколько потоков, помеченных как p-значения, которые показывают много недоразумений о них. Десять месяцев назад мы имели нить о психологическом журнале , что «запрещено» -значенияпpp р , в настоящее время Американской статистической ассоциации (2016) говорит , что с нашим анализом мы «не должны заканчиваться с расчетом на …

100 hypothesis-testing bayesian p-value frequentist

10

В чем разница между корреляцией и простой линейной регрессией?

В частности, я имею в виду коэффициент корреляции Пирсона и момента произведения.

99 correlation regression

14

Книги для самостоятельного изучения временных рядов?

Я начал с анализа временных рядов Гамильтона, но безнадежно потерян. Эта книга действительно слишком теоретическая, чтобы я мог учиться сам. У кого-нибудь есть рекомендации для учебника по анализу временных рядов, который подходит для самостоятельного изучения?

99 time-series self-study references

25

Нахождение свободно доступных образцов данных

Я работал над новым методом анализа и анализа наборов данных, чтобы идентифицировать и изолировать подгруппы населения без предварительного знания характеристик какой-либо подгруппы. Хотя этот метод достаточно хорошо работает с искусственными выборками данных (то есть наборами данных, созданными специально для идентификации и разделения подмножеств населения), я хотел бы попробовать протестировать его …

98 dataset sample population teaching

9

Это действительно, как работают p-значения? Может ли миллион научных работ в год основываться на чистой случайности?

Я очень плохо знаком со статистикой, и я только учусь понимать основы, включая . Но сейчас у меня в голове огромный вопросительный знак, и я надеюсь, что мое понимание неверно. Вот мой мыслительный процесс:пpp Разве все исследования в мире не похожи на обезьян в «теореме о бесконечной обезьяне»? Учтите, что …

98 hypothesis-testing statistical-significance p-value

4

Как интуитивно объяснить, что такое ядро?

Многие классификаторы машинного обучения (например, машины опорных векторов) позволяют указывать ядро. Что было бы интуитивно понятным способом объяснить, что такое ядро? Один из аспектов, о котором я думал, - это различие между линейным и нелинейным ядрами. Проще говоря, я мог бы говорить о «линейных решающих функциях» и «нелинейных решающих функциях». …

98 machine-learning svm references kernel-trick intuition

1

Деревья условного вывода против традиционных деревьев решений

Может ли кто-нибудь объяснить основные различия между деревьями условного вывода ( ctreeиз partyпакета в R) по сравнению с более традиционными алгоритмами дерева решений (такими как rpartв R)? Что отличает CI-деревья? Сильные и слабые стороны? Обновление: я посмотрел на статью Хортхорна и др., На которую ссылается Чи в комментариях. Я не …

97 r machine-learning cart

9

В чем разница между линейной регрессией по y с x и x с y?

Коэффициент корреляции Пирсона для x и y одинаков, независимо от того, вычисляете ли вы Pearson (x, y) или Pearson (y, x). Это говорит о том, что выполнение линейной регрессии y с учетом x или x с учетом y должно быть таким же, но я не думаю, что это так. Может …

97 regression correlation linear-model pearson-r

6

Почему L1 норма для разреженных моделей

Я читаю книги о линейной регрессии. Есть несколько предложений о нормах L1 и L2. Я их знаю, просто не понимаю, почему L1 норма для разреженных моделей. Может кто-то использовать дать простое объяснение?

97 regression lasso regularization ridge-regression

3

Интуитивное объяснение единичного корня

Как бы вы объяснили интуитивно, что такое единичный корень в контексте теста единичного корня? Я думаю о способах объяснения, которые я основал в этом вопросе . Случай с корневым модулем состоит в том, что я знаю (кстати, немного), что тест корневого модуля используется для проверки стационарности во временном ряду, но …

97 intuition unit-root