Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Почему выбор переменных необходим?
Общие процедуры выбора переменных на основе данных (например, прямое, обратное, пошаговое, все подмножества) имеют тенденцию приводить к появлению моделей с нежелательными свойствами, включая: Коэффициенты смещены от нуля. Слишком малые стандартные ошибки и слишком узкие доверительные интервалы. Проверьте статистику и p-значения, которые не имеют объявленного значения. Оценки соответствия модели, которые являются …

5
В чем разница между «средним значением» и «средним»?
Википедия объясняет: Для набора данных среднее значение представляет собой сумму значений, деленную на количество значений. Это определение, однако, соответствует тому, что я называю «средним» (по крайней мере, это то, что я помню, изучая). И все же Википедия еще раз цитирует: Существуют и другие статистические показатели, в которых используются выборки, которые …

3
Как соотносятся корреляции Гудмана-Крускала и тау Кендалла или Спирмена?
В моей работе мы сравниваем прогнозируемые рейтинги с истинными рейтингами для некоторых наборов данных. До недавнего времени мы использовали только Кендалл-Тау. Группа, работающая над аналогичным проектом, предложила нам вместо этого использовать Гудман-Крускал Гамма и предпочла это. Мне было интересно, каковы различия между различными алгоритмами корреляции ранга. Лучшее, что я нашел, …

1
Есть ли статистические уроки из эпизода «Библейский кодекс»?
Хотя этот вопрос несколько субъективен, я надеюсь, что в соответствии с рекомендациями часто задаваемых вопросов он квалифицируется как хороший субъективный вопрос . Это основано на вопросе, который Олле Хэггстрем задал мне год назад, и хотя у меня есть некоторые мысли по этому поводу, у меня нет определенного ответа, и я …

3
Визуализация миллиона, выпуск PCA
Можно ли визуализировать результаты анализа основных компонентов способами, которые дают больше понимания, чем просто сводные таблицы? Возможно ли это сделать, когда число наблюдений велико, скажем, ~ 1e4? И возможно ли это сделать в R [приветствуются другие среды]?

3
Связь между доверительным интервалом и проверкой статистической гипотезы для t-критерия
Хорошо известно, что доверительные интервалы и проверка статистической гипотезы тесно связаны. Мои вопросы направлены на сравнение средств для двух групп на основе числовой переменной. Предположим, что такая гипотеза проверяется с помощью t-критерия. С другой стороны, можно рассчитать доверительные интервалы для средств обеих групп. Существует ли какая-либо связь между перекрытием доверительных …

1
Для каких распределений параметры параметризации в BUGS и R различны?
Я нашел несколько дистрибутивов, для которых BUGS и R имеют разные параметризации: Normal, log-Normal и Weibull. Для каждого из них я понимаю, что второй параметр, используемый R, необходимо преобразовать в обратном направлении (1 / параметр), прежде чем использовать в BUGS (или в моем случае JAGS). Кто-нибудь знает исчерпывающий список этих …

1
Многократные сравнения на модели смешанных эффектов
Я пытаюсь проанализировать некоторые данные, используя модель смешанного эффекта. Собранные мной данные показывают вес некоторых молодых животных с различным генотипом с течением времени. Я использую предлагаемый здесь подход: https://gribblelab.wordpress.com/2009/03/09/repeated-measures-anova-using-r/ В частности я использую решение № 2 Так у меня что то типа require(nlme) model <- lme(weight ~ time * Genotype, …

3
Коэффициенты регрессии, которые переворачивают знак после включения других предикторов
Представить Вы запускаете линейную регрессию с четырьмя числовыми предикторами (IV1, ..., IV4) Когда в качестве предиктора включен только IV1, стандартизированная бета +.20 Когда вы также включаете IV2-IV4, знак стандартизированного коэффициента регрессии IV1 меняется на -.25(т.е. он становится отрицательным). Это вызывает несколько вопросов: Что касается терминологии, вы называете это «эффект подавления»? …

6
Как повысить долгосрочную воспроизводимость исследований (особенно с использованием R и Sweave)
Контекст: в ответ на предыдущий вопрос о воспроизводимых исследованиях Джейк написал Одна проблема, которую мы обнаружили при создании нашего архива JASA, заключалась в том, что версии и значения по умолчанию пакетов CRAN изменились. Итак, в этот архив мы также включили версии пакетов, которые мы использовали. Система, основанная на виньетировании, вероятно, …

6
Может ли кто-нибудь предложить пример унимодального распределения, у которого асимметрия равна нулю, но который не является симметричным?
В мае 2010 года пользователь из Википедии Mcorazao добавил в статью об асимметрии следующее предложение : «Нулевое значение указывает на то, что значения относительно равномерно распределены по обе стороны от среднего значения, обычно, но не обязательно, подразумевая симметричное распределение». Однако на вики-странице нет реальных примеров дистрибутивов, которые нарушают это правило. …

3
Приспосабливая укоренившиеся представления значений p
Иногда в отчеты я включаю заявление об отказе от p-значений и другую логическую статистику, которую я предоставил. Я говорю, что, поскольку выборка не была случайной, такая статистика не будет строго применяться. Моя конкретная формулировка обычно приводится в сноске: «В то время как, строго говоря, логическая статистика применима только в контексте …

8
Инструменты с открытым исходным кодом для визуализации многомерных данных?
Помимо gnuplot и ggobi , какие инструменты с открытым исходным кодом люди используют для визуализации многомерных данных? Gnuplot - более или менее базовый пакет для построения графиков. Ггоби может сделать несколько изящных вещей, таких как: анимировать данные вдоль измерения или среди дискретных коллекций одушевленные линейные комбинации, меняющие коэффициенты вычислить основные …

2
Когда логистическая регрессия решается в закрытом виде?
Возьмем и и предположим, что мы смоделировали задачу прогнозирования y для данного x с использованием логистической регрессии. Когда коэффициенты логистической регрессии могут быть записаны в закрытом виде? y ∈ { 0 , 1 }x ∈ { 0 , 1 }dИкс∈{0,1}dx \in \{0,1\}^dY∈ { 0 , 1 }Y∈{0,1}y \in \{0,1\} Один …


Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.