Статистика и большие данные

3

Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая: Коэффициенты смещены от нуля. Слишком малые стандартные ошибки и слишком узкие доверительные интервалы. Проверьте статистику и p-значения, которые не имеют объявленного значения. Оценки соответствия модели, которые являются …

31 modeling feature-selection

5

В чем разница между «средним значением» и «средним»?

Википедия объясняет: Для набора данных среднее значение представляет собой сумму значений, деленную на количество значений. Это определение, однако, соответствует тому, что я называю «средним» (по крайней мере, это то, что я помню, изучая). И все же Википедия еще раз цитирует: Существуют и другие статистические показатели, в которых используются выборки, которые …

31 mean interpretation average

3

Как соотносятся корреляции Гудмана-Крускала и тау Кендалла или Спирмена?

В моей работе мы сравниваем прогнозируемые рейтинги с истинными рейтингами для некоторых наборов данных. До недавнего времени мы использовали только Кендалл-Тау. Группа, работающая над аналогичным проектом, предложила нам вместо этого использовать Гудман-Крускал Гамма и предпочла это. Мне было интересно, каковы различия между различными алгоритмами корреляции ранга. Лучшее, что я нашел, …

31 spearman-rho kendall-tau goodman-kruskal-gamma

1

Есть ли статистические уроки из эпизода «Библейский кодекс»?

Хотя этот вопрос несколько субъективен, я надеюсь, что в соответствии с рекомендациями часто задаваемых вопросов он квалифицируется как хороший субъективный вопрос . Это основано на вопросе, который Олле Хэггстрем задал мне год назад, и хотя у меня есть некоторые мысли по этому поводу, у меня нет определенного ответа, и я …

31 hypothesis-testing data-mining

3

Визуализация миллиона, выпуск PCA

Можно ли визуализировать результаты анализа основных компонентов способами, которые дают больше понимания, чем просто сводные таблицы? Возможно ли это сделать, когда число наблюдений велико, скажем, ~ 1e4? И возможно ли это сделать в R [приветствуются другие среды]?

31 r data-visualization pca biplot

3

Связь между доверительным интервалом и проверкой статистической гипотезы для t-критерия

Хорошо известно, что доверительные интервалы и проверка статистической гипотезы тесно связаны. Мои вопросы направлены на сравнение средств для двух групп на основе числовой переменной. Предположим, что такая гипотеза проверяется с помощью t-критерия. С другой стороны, можно рассчитать доверительные интервалы для средств обеих групп. Существует ли какая-либо связь между перекрытием доверительных …

31 hypothesis-testing confidence-interval

1

Для каких распределений параметры параметризации в BUGS и R различны?

Я нашел несколько дистрибутивов, для которых BUGS и R имеют разные параметризации: Normal, log-Normal и Weibull. Для каждого из них я понимаю, что второй параметр, используемый R, необходимо преобразовать в обратном направлении (1 / параметр), прежде чем использовать в BUGS (или в моем случае JAGS). Кто-нибудь знает исчерпывающий список этих …

31 r distributions bugs jags parameterization

1

Многократные сравнения на модели смешанных эффектов

Я пытаюсь проанализировать некоторые данные, используя модель смешанного эффекта. Собранные мной данные показывают вес некоторых молодых животных с различным генотипом с течением времени. Я использую предлагаемый здесь подход: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ В частности я использую решение № 2 Так у меня что то типа require(nlme) model <- lme(weight ~ time * Genotype, …

31 r anova mixed-model multiple-comparisons repeated-measures

3

Коэффициенты регрессии, которые переворачивают знак после включения других предикторов

Представить Вы запускаете линейную регрессию с четырьмя числовыми предикторами (IV1, ..., IV4) Когда в качестве предиктора включен только IV1, стандартизированная бета +.20 Когда вы также включаете IV2-IV4, знак стандартизированного коэффициента регрессии IV1 меняется на -.25(т.е. он становится отрицательным). Это вызывает несколько вопросов: Что касается терминологии, вы называете это «эффект подавления»? …

31 regression predictor

6

Как повысить долгосрочную воспроизводимость исследований (особенно с использованием R и Sweave)

Контекст: в ответ на предыдущий вопрос о воспроизводимых исследованиях Джейк написал Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, …

31 r reproducible-research project-management

6

Может ли кто-нибудь предложить пример унимодального распределения, у которого асимметрия равна нулю, но который не является симметричным?

В мае 2010 года пользователь из Википедии Mcorazao добавил в статью об асимметрии следующее предложение : «Нулевое значение указывает на то, что значения относительно равномерно распределены по обе стороны от среднего значения, обычно, но не обязательно, подразумевая симметричное распределение». Однако на вики-странице нет реальных примеров дистрибутивов, которые нарушают это правило. …

31 distributions expected-value skewness

3

Приспосабливая укоренившиеся представления значений p

Иногда в отчеты я включаю заявление об отказе от p-значений и другую логическую статистику, которую я предоставил. Я говорю, что, поскольку выборка не была случайной, такая статистика не будет строго применяться. Моя конкретная формулировка обычно приводится в сноске: «В то время как, строго говоря, логическая статистика применима только в контексте …

31 inference p-value

8

Инструменты с открытым исходным кодом для визуализации многомерных данных?

Помимо gnuplot и ggobi , какие инструменты с открытым исходным кодом люди используют для визуализации многомерных данных? Gnuplot - более или менее базовый пакет для построения графиков. Ггоби может сделать несколько изящных вещей, таких как: анимировать данные вдоль измерения или среди дискретных коллекций одушевленные линейные комбинации, меняющие коэффициенты вычислить основные …

31 data-visualization open-source

2

Когда логистическая регрессия решается в закрытом виде?

Возьмем и и предположим, что мы смоделировали задачу прогнозирования y для данного x с использованием логистической регрессии. Когда коэффициенты логистической регрессии могут быть записаны в закрытом виде? y ∈ { 0 , 1 }x ∈ { 0 , 1 }dИкс∈{0,1}dx \in \{0,1\}^dY∈ { 0 , 1 }Y∈{0,1}y \in \{0,1\} Один …

31 logistic generalized-linear-model

8

Что такое стандартное отклонение?

Что такое стандартное отклонение, как оно рассчитывается и как его использовать в статистике?

31 standard-deviation