Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Как лучше всего запомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывом?
Несмотря на то, что я видел эти термины 502847894789 раз, я на всю жизнь не могу вспомнить разницу между чувствительностью, специфичностью, точностью, точностью и отзывчивостью. Это довольно простые понятия, но имена для меня совершенно не интуитивны, поэтому я постоянно путаю их друг с другом. Что такое хороший способ думать об …

4
Порог вероятности классификации
У меня есть вопрос относительно классификации в целом. Пусть f - классификатор, который выводит набор вероятностей с учетом некоторых данных D. Обычно можно сказать: хорошо, если P (c | D)> 0,5, мы назначим класс 1, в противном случае 0 (пусть это будет двоичный файл классификация). Мой вопрос заключается в том, …

1
Насколько большим должен быть размер партии для стохастического градиентного спуска?
Я понимаю, что стохастический градиентный спуск может быть использован для оптимизации нейронной сети с использованием обратного распространения путем обновления каждой итерации различным образцом обучающего набора данных. Насколько большим должен быть размер партии?

2
Как следует интерпретировать сравнение средств из разных размеров выборки?
Возьмите случай с рейтингами книг на сайте. Книгу А оценивают 10000 человек со средним рейтингом 4,25 и дисперсией . Точно так же книга B оценивается 100 людьми и имеет рейтинг 4,5 с .σ=0.5σ=0.5\sigma = 0.5σ=0.25σ=0.25\sigma = 0.25 Теперь из-за большого размера выборки Книги А «среднее значение стабилизировалось» до 4,25. Теперь …


4
Почему коэффициент корреляции между случайными величинами X и XY имеет тенденцию быть 0,7
Взято из Практической статистики для медицинских исследований, где Дуглас Альтман пишет на странице 285: ... для любых двух величин X и Y X будет коррелировать с XY. Действительно, даже если X и Y являются выборками случайных чисел, мы ожидаем, что корреляция X и XY будет 0,7 Я попробовал это в …

1
Бутстрап против Джекниф
Как методы начальной загрузки, так и методы складного ножа могут быть использованы для оценки систематической ошибки и стандартной ошибки оценки, а механизмы обоих методов повторной выборки не сильно отличаются: выборка с заменой против пропуска одного наблюдения за раз. Тем не менее, складной нож не так популярен, как бутстрап в исследованиях …

6
Вводит ли Amazon в заблуждение «средний рейтинг»?
Если я правильно понимаю, рейтинги книг по шкале от 1 до 5 - это баллы Лайкерта. То есть 3 для меня не обязательно может быть 3 для кого-то еще. Это порядковая шкала ИМО. На самом деле не следует усреднять порядковые шкалы, но определенно можно выбрать моду, медиану и процентили. Так …

3
Почему логистическая регрессия является линейным классификатором?
Поскольку мы используем логистическую функцию для преобразования линейной комбинации входных данных в нелинейный выход, как логистическую регрессию можно считать линейным классификатором? Линейная регрессия похожа на нейронную сеть без скрытого слоя, так почему же нейронные сети считаются нелинейными классификаторами, а логистическая регрессия является линейной?

4
Вычисление значения P вручную из t-значения в t-тесте
У меня есть образец набора данных с 31 значениями. Я выполнил двусторонний t-тест, используя R, чтобы проверить, равно ли истинное среднее значение 10: t.test(x=data, mu=10, conf.level=0.95) Выход: t = 11.244, df = 30, p-value = 2.786e-12 alternative hypothesis: true mean is not equal to 10 95 percent confidence interval: 19.18980 …

2
В чем разница между случайными эффектами, фиксированными эффектами и предельной моделью?
Я пытаюсь расширить свои знания в области статистики. Я родом из области физических наук с «основанным на рецептах» подходом к статистическому тестированию, где мы говорим, является ли оно непрерывным, нормально ли оно распределено - регрессия OLS . В моем чтении я встретил термины: модель случайных эффектов, модель с фиксированными эффектами, …

4
Время вычисления случайного леса в R
Я использую пакет party в R с 10 000 строк и 34 функциями, а некоторые факторные функции имеют более 300 уровней. Время вычислений слишком велико. (Это заняло 3 часа и еще не закончено.) Я хочу знать, какие элементы оказывают большое влияние на время вычислений случайного леса. Есть ли факторы со …
49 r  random-forest 



4
Означает ли корреляция = 0,2, что существует ассоциация «только у 1 из 5 человек»?
В книге «Идиотский мозг: нейробиолог объясняет, чем на самом деле занимается ваша голова», - писал Дин Бернетт Корреляция между ростом и интеллектом обычно указывается как около , что означает, что рост и интеллект, по-видимому, связаны только у 1 из 5 человек.0.20.20.2111555 Для меня это звучит неправильно: я понимаю корреляцию больше …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.