Статистика и большие данные

6

Как лучше всего запомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывом?

Несмотря на то, что я видел эти термины 502847894789 раз, я на всю жизнь не могу вспомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывчивостью. Это довольно простые понятия, но имена для меня совершенно не интуитивны, поэтому я постоянно путаю их друг с другом. Что такое хороший способ думать об …

50 terminology accuracy sensitivity-specificity

4

Порог вероятности классификации

У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос заключается в том, …

49 machine-learning classification binary-data threshold

1

Насколько большим должен быть размер партии для стохастического градиентного спуска?

Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер партии?

49 machine-learning neural-networks gradient-descent backpropagation

2

Как следует интерпретировать сравнение средств из разных размеров выборки?

Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Теперь из-за большого размера выборки Книги А «среднее значение стабилизировалось» до 4,25. Теперь …

49 t-test mean sample-size

4

Как регрессия, t-критерий и ANOVA являются всеми версиями общей линейной модели?

Как они все версии одного и того же базового статистического метода?

49 regression self-study anova generalized-linear-model t-test

4

Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7

Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285: ... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7 Я попробовал это в …

49 correlation random-variable intuition

1

Бутстрап против Джекниф

Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож не так популярен, как бутстрап в исследованиях …

49 r confidence-interval bootstrap jackknife

6

Вводит ли Amazon в заблуждение «средний рейтинг»?

Если я правильно понимаю, рейтинги книг по шкале от 1 до 5 - это баллы Лайкерта. То есть 3 для меня не обязательно может быть 3 для кого-то еще. Это порядковая шкала ИМО. На самом деле не следует усреднять порядковые шкалы, но определенно можно выбрать моду, медиану и процентили. Так …

49 mean ordinal-data likert

3

Почему логистическая регрессия является линейным классификатором?

Поскольку мы используем логистическую функцию для преобразования линейной комбинации входных данных в нелинейный выход, как логистическую регрессию можно считать линейным классификатором? Линейная регрессия похожа на нейронную сеть без скрытого слоя, так почему же нейронные сети считаются нелинейными классификаторами, а логистическая регрессия является линейной?

49 logistic classification neural-networks

4

Вычисление значения P вручную из t-значения в t-тесте

У меня есть образец набора данных с 31 значениями. Я выполнил двусторонний t-тест, используя R, чтобы проверить, равно ли истинное среднее значение 10: t.test(x=data, mu=10, conf.level=0.95) Выход: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 …

49 r statistical-significance t-test p-value

2

В чем разница между случайными эффектами, фиксированными эффектами и предельной моделью?

Я пытаюсь расширить свои знания в области статистики. Я родом из области физических наук с «основанным на рецептах» подходом к статистическому тестированию, где мы говорим, является ли оно непрерывным, нормально ли оно распределено - регрессия OLS . В моем чтении я встретил термины: модель случайных эффектов, модель с фиксированными эффектами, …

49 random-effects-model fixed-effects-model marginal

4

Время вычисления случайного леса в R

Я использую пакет party в R с 10 000 строк и 34 функциями, а некоторые факторные функции имеют более 300 уровней. Время вычислений слишком велико. (Это заняло 3 часа и еще не закончено.) Я хочу знать, какие элементы оказывают большое влияние на время вычислений случайного леса. Есть ли факторы со …

49 r random-forest

1

Показатели эффективности для оценки обучения без учителя

Что касается неконтролируемого обучения (например, кластеризации), есть ли какие-либо показатели для оценки эффективности?

49 machine-learning clustering data-mining unsupervised-learning

6

Что такое случайные переменные?

Как бы вы объяснили iid (независимый и одинаково распространяемый) нетехническим людям?

49 random-variable intuition

4

Означает ли корреляция = 0,2, что существует ассоциация «только у 1 из 5 человек»?

В книге «Идиотский мозг: нейробиолог объясняет, чем на самом деле занимается ваша голова», - писал Дин Бернетт Корреляция между ростом и интеллектом обычно указывается как около , что означает, что рост и интеллект, по-видимому, связаны только у 1 из 5 человек.0.20.20.2111555 Для меня это звучит неправильно: я понимаю корреляцию больше …

48 correlation neuroscience