Статистика и большие данные r

1

Я хотел бы найти способ количественно оценить интенсивность бимодальности некоторых распределений, которые я получил эмпирически. Из того, что я прочитал, до сих пор идут споры о том, как количественно определить бимодальность. Я решил использовать тест Хартиганса, который кажется единственным, доступным на R (оригинал статьи: http://www.stat.washington.edu/wxs/Stat593-s03/Literature/hartigan85a.pdf ). Тест на погружение Хартиганса …

18 r distributions

3

Почему статистика разрыва для k-средних предполагает один кластер, хотя, очевидно, их два?

Я использую K-средства для кластеризации своих данных и искал способ предложить «оптимальный» номер кластера. Статистика зазоров, кажется, является распространенным способом найти хороший номер кластера. По некоторым причинам он возвращает 1 в качестве оптимального номера кластера, но когда я смотрю на данные, становится очевидно, что есть 2 кластера: Вот как я …

18 r machine-learning clustering k-means

1

Использование начальной загрузки под H0 для проведения теста на разницу двух средств: замена в группах или в объединенном образце

Предположим, у меня есть данные с двумя независимыми группами: g1.lengths <- c (112.64, 97.10, 84.18, 106.96, 98.42, 101.66) g2.lengths <- c (84.44, 82.10, 83.26, 81.02, 81.86, 86.80, 85.84, 97.08, 79.64, 83.32, 91.04, 85.92, 73.52, 85.58, 97.70, 89.72, 88.92, 103.72, 105.02, 99.48, 89.50, 81.74) group = rep (c ("g1", "g2"), c …

18 r hypothesis-testing bootstrap small-sample permutation-test

5

Обнаружение изменений во временных рядах (пример R)

Я хотел бы обнаружить изменения в данных временных рядов, которые обычно имеют одинаковую форму. До сих пор я работал с changepointпакетом для R cpt.mean(), cpt.var()и cpt.meanvar()функций и. cpt.mean()с методом PELT хорошо работает, когда данные обычно остаются на одном уровне. Однако я также хотел бы обнаружить изменения во время спусков. Примером …

18 r time-series change-point structural-change

3

Отрицательно-биномиальное GLM против логарифмического преобразования для данных подсчета: повышенная частота ошибок типа I

Некоторые из вас, возможно, читали эту прекрасную статью: O'Hara RB, Kotze DJ (2010) Не регистрируйте данные преобразований. Методы в экологии и эволюции 1: 118–122. Клик . В моей области исследований (экотоксикология) мы имеем дело с плохо реплицированными экспериментами, и GLM не используются широко. Поэтому я выполнил моделирование, аналогичное O'Hara & …

18 r generalized-linear-model simulation negative-binomial type-i-and-ii-errors

1

Алгоритмы кластеризации, работающие с разреженными матрицами данных [закрыто]

Закрыто. Этот вопрос не по теме . В настоящее время не принимает ответы. Хотите улучшить этот вопрос? Обновите вопрос, чтобы он соответствовал теме перекрестной проверки. Закрыто 5 лет назад . Я пытаюсь составить список алгоритмов кластеризации, которые: Реализовано в R Работа с разреженными матрицами данных (а не матрицами сходства), например, …

18 r clustering sparse

4

Линейная регрессия с ограничением наклона

Я хочу выполнить очень простую линейную регрессию в R. Формула так же проста, как . Однако я бы хотел, чтобы наклон ( ) находился внутри интервала, скажем, между 1,4 и 1,6.Y= а х + бYзнак равноaИкс+бy = ax + baaa Как это может быть сделано?

18 r regression constrained-regression

3

Какова связь между вероятностью профиля и доверительными интервалами?

Для построения этой диаграммы я сгенерировал случайные выборки разного размера из нормального распределения со средним значением = 0 и sd = 1. Затем были рассчитаны доверительные интервалы с использованием альфа-срезов в диапазоне от 0,001 до 0,999 (красная линия) с помощью функции t.test (), вероятность профиля была рассчитана с использованием кода, …

18 r confidence-interval profile-likelihood

1

Чем экстремальный случайный лес отличается от случайного леса?

Является ли ER более эффективной реализацией (что-то вроде Extreme Gradient Boostingповышения градиента) - важно ли различие с практической точки зрения? Существует пакет R, который их реализует. Это новый алгоритм, который преодолевает «универсальную» реализацию (пакет RandomForest от R) не только с точки зрения эффективности или также в некоторых других областях? Экстремальный …

18 r machine-learning algorithms random-forest

3

Дисперсионно-ковариационная матрица в лмер

Я знаю, что одним из преимуществ смешанных моделей является то, что они позволяют задавать дисперсионно-ковариационную матрицу для данных (составная симметрия, авторегрессия, неструктурированная и т. Д.). Однако lmerфункция в R не позволяет легко определить эту матрицу. Кто-нибудь знает, какую структуру lmerиспользует по умолчанию и почему нет способа ее легко указать?

18 r mixed-model lme4-nlme covariance-matrix

9

Попарное расстояние Махаланобис

Мне нужно рассчитать выборочное расстояние Махаланобиса в R между каждой парой наблюдений в матрице ковариат n×pn×pn \times p . Мне нужно решение, которое является эффективным, то есть только n(n−1)/2n(n−1)/2n(n-1)/2 Е. Рассчитываются расстояний, и желательно, чтобы они были реализованы в C / RCpp / Fortran и т. Д. Я предполагаю, что …

18 r algorithms distance

6

Опции анализа неосновных данных

Я профессионально использую SAS около 5 лет. Он установлен на моем ноутбуке, и мне часто приходится анализировать наборы данных с 1000-2000 переменных и сотнями тысяч наблюдений. Я искал альтернативы SAS, которые позволили бы мне проводить анализ наборов данных аналогичного размера. Мне любопытно, что другие люди используют для таких ситуаций, как …

18 r sas large-data

2

Какое значение «

Какое значение приведено в сводке модели Кокша в R? Например,R2R2R^2 Rsquare= 0.186 (max possible= 0.991 ) Я по глупости включил его в рукопись в качестве значения и рецензент вскочил на него, сказав, что он не знал об аналоге статистики из классической линейной регрессии, разрабатываемой для модели Кокса, и, если она …

18 r survival r-squared cox-model

5

Какие надежные методы корреляции действительно используются?

Я планирую провести симуляционное исследование, в котором сравниваю эффективность нескольких надежных методов корреляции с различными распределениями (искаженное, с выбросами и т. Д.). Под устойчивым я имею в виду идеальный случай быть устойчивым к: а) перекосам, б) выбросам и в) тяжелым хвостам. Наряду с корреляцией Пирсона в качестве базовой линии, я …

18 r correlation robust spearman-rho winsorizing

1

Как рассчитывать стандартные ошибки для оценок модели смешанных эффектов?

В частности, как следует рассчитывать стандартные ошибки фиксированных эффектов в линейной модели смешанных эффектов (в частом смысле)? Я был ведущим полагать , что типичные оценки ( ), такие как те , которые представлены в Laird и Ware [1982 года] даст системотехники, которые занижены в размерах , так как Компоненты оценочной …

18 r mixed-model random-effects-model

Вопросы с тегом «r»