Статистика и большие данные statistical-significance

3

Статистическая значимость (p-значение) для сравнения двух классификаторов в отношении (среднего) ROC AUC, чувствительности и специфичности

У меня есть тестовый набор из 100 случаев и два классификатора. Я генерировал прогнозы и вычислял ROC AUC, чувствительность и специфичность для обоих классификаторов. Вопрос 1: Как я могу вычислить значение p, чтобы проверить, является ли одно значительно лучше другого по всем показателям (ROC AUC, чувствительность, специфичность)? Теперь для одного …

14 machine-learning statistical-significance roc auc sensitivity-specificity

3

Что случилось со статистической значимостью в регрессии, когда размер данных гигантский?

Я читал этот вопрос о крупномасштабной регрессии ( ссылка ), где Уубер указал на интересный момент: «Практически любой выполняемый вами статистический тест будет настолько мощным, что почти наверняка будет выявлен« значительный »эффект. Вы должны уделять больше внимания статистической значимости, такой как величина эффекта, а не значимость». --- whuber Мне было …

13 regression statistical-significance

7

Правильно ли называть результаты «почти» или «несколько» значительными?

Общий консенсус по аналогичному вопросу. Неправильно ли называть результаты «очень значимыми»? заключается в том, что «очень значительный» является допустимым, хотя и неспецифическим, способом описания силы ассоциации, у которой значение p намного ниже предварительно установленного порога значимости. Однако как насчет описания p-значений, которые немного выше вашего порога? Я видел, что в …

13 hypothesis-testing statistical-significance p-value terminology

1

Насколько меньшими могут быть значения

Вступление: отметив внимание, которое получил сегодня этот вопрос: « Может ли ANOVA быть значимым, если ни один из парных t-тестов не является? », Я подумал, что смогу перефразировать его интересным способом, который заслуживает своего собственного набора ответов. , Различные несоответствующие результаты (по номинальной стоимости) могут иметь место, когда статистическая значимость …

13 hypothesis-testing anova statistical-significance t-test multiple-comparisons

3

Как мне сравнить загрузочные наклоны регрессии?

Предположим, у меня есть два набора данных с n наблюдениями пар данных независимой переменной x и зависимой переменной y каждый. Предположим далее, что я хочу сгенерировать распределение наклонов регрессии для каждого набора данных путем начальной загрузки наблюдений (с заменой) N раз и вычисления регрессии y = a + bxкаждый раз. …

13 regression statistical-significance bootstrap

2

Использование теста статистической значимости для проверки результатов кластерного анализа

Я изучаю использование статистической значимости (SST) для проверки результатов кластерного анализа. Я нашел несколько статей по этой теме, таких как « Статистическая значимость кластеризации для данных большого размера с малым размером выборки », Liu, Yufeng et al. (2008) « О некоторых тестах значимости в кластерном анализе », Бок (1985) Но …

13 hypothesis-testing clustering statistical-significance

1

Тест на значимость разности коэффициента корреляции Спирмена

(Большое спасибо за быстрые ответы! Я плохо задал вопрос, поэтому позвольте мне повторить.) Я не знаю, как выяснить, является ли разница между двумя корреляциями Спирмена статистически значимой. Я хотел бы знать, как это выяснить. Причина, которую я хотел выяснить, заключается в том, что в следующей статье: Основанная на Википедии семантическая …

13 hypothesis-testing statistical-significance spearman-rho

1

LARS против координатного спуска для лассо

Каковы плюсы и минусы использования LARS [1] по сравнению с использованием координатного спуска для подбора L1-регуляризованной линейной регрессии? Я в основном заинтересован в аспектах производительности (мои проблемы, как правило, Nисчисляются сотнями тысяч и p<20). Однако, любые другие идеи также будут оценены. редактировать: так как я разместил вопрос, chl любезно указал …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

Пакет GBM против Карет с использованием GBM

Я занимался настройкой модели caret, но затем перезапустил модель, используя gbmпакет. Насколько я понимаю, caretпакет использует gbmи вывод должен быть одинаковым. Тем не менее, только быстрый запуск теста data(iris)показывает несоответствие в модели около 5% с использованием RMSE и R ^ 2 в качестве метрики оценки. Я хочу найти оптимальную производительность …

13 r caret gbm matrix linear-algebra logistic modeling logit ordered-logit r confidence-interval survival population weibull classification separation hypothesis-testing correlation statistical-significance p-value python r data-visualization r regression multiple-regression chi-squared multivariate-analysis distributions random-variable experiment-design distributions poisson-regression residuals excel time-series garch var survival modeling cox-model interaction r pca normality-assumption

3

Почему высокий положительный эксцесс проблематичен для проверки гипотез?

Я слышал (извините, не могу предоставить ссылку на текст, что мне сказали), что высокий положительный эксцесс остатков может быть проблематичным для точных проверок гипотез и доверительных интервалов (и, следовательно, проблем со статистическим выводом). Это правда, и если да, то почему? Не будет ли высокий положительный эксцесс остатков не указывать на …

13 statistical-significance p-value assumptions kurtosis

3

Общий рейтинг из нескольких рейтинговых списков

Я просмотрел много литературы, доступной в Интернете, в том числе этот форум, но безуспешно и надеюсь, что кто-то может помочь в статистической проблеме, с которой я сейчас сталкиваюсь: У меня есть 5 списков ранжированных данных, каждый из которых содержит 10 пунктов, ранжированных от позиции 1 (лучшая) до позиции 10 (худшая). …

13 statistical-significance ranking valuation

2

Поиск лучших функций в моделях взаимодействия

У меня есть список белков с их характеристиками. Пример таблицы выглядит так: ...............Feature1...Feature2...Feature3...Feature4 Protein1 Protein2 Protein3 Protein4 Ряды - это белки, а столбцы - это особенности. У меня также есть список белков, которые также взаимодействуют; например Protein3, Protein4 Protein1, Protein2 Protein4, Protein1 Проблема : для предварительного анализа я хочу знать, …

13 machine-learning statistical-significance feature-selection networks

2

Кросс-корреляционная значимость в R

Как определить, значимы ли корреляции при разных лагах, полученные из взаимной корреляции (функция ccf) двух временных рядов?

13 r statistical-significance cross-correlation

2

Почему неправильно останавливать тестирование A / B до достижения оптимального размера выборки?

Я отвечаю за представление результатов A / B-тестов (на разных сайтах) в моей компании. Мы запускаем тест в течение месяца, а затем регулярно проверяем p-значения до тех пор, пока не достигнем значимости (или откажемся, если значимость не будет достигнута после длительного выполнения теста), что я сейчас выясняю, что это ошибочная …

13 hypothesis-testing statistical-significance bias ab-test optimal-stopping

3

Статистика: отношения между альфа и бета

Мой вопрос касается связи между альфа и бета и их определениями в статистике. альфа = тип ошибки I типа = рассматриваемый уровень значимости, что гипотеза NULL верна Бета = тип ошибки II Если альфа понижена (специфичность увеличивается как альфа = 1-специфичность), бета увеличивается (чувствительность / мощность уменьшается, поскольку бета = …

13 statistical-significance mathematical-statistics

Вопросы с тегом «statistical-significance»