Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных


3
Средняя абсолютная ошибка ИЛИ среднеквадратическая ошибка?
Зачем использовать среднеквадратичную ошибку (RMSE) вместо средней абсолютной ошибки (MAE) ?? Здравствуй Я исследовал ошибку, сгенерированную в вычислениях - сначала я рассчитал ошибку как среднеквадратичную среднеквадратичную ошибку. Присмотревшись немного поближе, я вижу, что эффекты возведения в квадрат ошибки дают больший вес большим ошибкам, чем меньшим, отклоняя оценку ошибки в сторону …
59 least-squares  mean  rms  mae 


12
Двухсторонние тесты ... Я просто не уверен. В чем смысл?
Следующий отрывок из записи: В чем различия между односторонним и двусторонним тестами? , на сайте помощи статистики UCLA. ... рассмотреть последствия пропуска эффекта в другом направлении. Представьте, что вы разработали новый препарат, который, по вашему мнению, является улучшением по сравнению с существующим препаратом. Вы хотите максимизировать свою способность обнаруживать улучшение, …

6
Принципиальный способ свертывания категориальных переменных со многими уровнями?
Какие методы доступны для объединения (или объединения) многих категорий в несколько с целью использования их в качестве входных данных (предиктора) в статистической модели? Рассмотрим переменную, например, степень студента колледжа (дисциплина, выбранная студентом). Он неупорядочен и категоричен, но потенциально может иметь десятки различных уровней. Допустим, я хочу использовать майор в качестве …

11
Мозговой тизер: Как сгенерировать 7 целых чисел с равной вероятностью, используя смещенную монету, у которой pr (голова) = p?
Это вопрос, который я нашел на Glassdoor : как можно сгенерировать 7 целых чисел с равной вероятностью, используя монету с Pr(Head)=p∈(0,1)Pr(Head)=p∈(0,1)\mathbb{Pr}(\text{Head}) = p\in(0,1) ? По сути, у вас есть монета, которая может быть или не быть честной, и это единственный процесс генерации случайных чисел, который у вас есть, поэтому придумайте …

2
Как я могу изменить название легенды в ggplot2? [закрыто]
У меня есть график, который я делаю в ggplot2, чтобы суммировать данные из набора данных размером 2 x 4 x 3. Я был в состоянии сделать панели для переменной с двумя уровнями, используя facet_grid(. ~ Age)и установить оси X и Y, используя aes(x=4leveledVariable, y=DV). aes(group=3leveledvariable, lty=3leveledvariable)До сих пор я создавал …

10
Ошибка проверки меньше, чем ошибка обучения?
Здесь и здесь я нашел два вопроса об этой проблеме, но пока нет очевидного ответа или объяснения. Я навязываю ту же проблему, где ошибка проверки меньше, чем ошибка обучения в моей Convolution Neural Network. Что это обозначает?

1
Понимание кривой ROC
У меня проблемы с пониманием кривой ROC. Есть ли какое-либо преимущество / улучшение в области под кривой ROC, если я строю разные модели из каждого уникального подмножества обучающего набора и использую его для получения вероятности? Например, если имеет значения , и я строю модель , используя из 1-го по 4-е …
57 r  roc 


1
Почему преобразование квадратного корня рекомендуется для данных подсчета?
Часто рекомендуется брать квадратный корень, когда у вас есть данные подсчета. (Некоторые примеры CV можно найти в ответе @ HarveyMotulsky здесь или в ответе @ whuber здесь .) С другой стороны, при подборе обобщенной линейной модели с переменной отклика, распределенной как Пуассон, журнал является канонической ссылкой . Это похоже на …

13
10 голов подряд повышают вероятность того, что следующий бросок будет хвостом?
Я предполагаю, что верно следующее: при условии честной монеты, получение 10 голов подряд при подбрасывании монеты не увеличивает вероятность того, что следующая монета окажется хвостом , независимо от того, какое количество вероятности и / или статистического жаргона подброшено вокруг (извините за каламбур). Предполагая, что это так, мой вопрос заключается в …

7
Примеры, где метод моментов может превзойти максимальную вероятность в маленьких выборках?
Оценки максимального правдоподобия (MLE) асимптотически эффективны; мы видим практический результат в том, что они часто работают лучше, чем оценки методом моментов (MoM) (когда они различаются), даже при небольших размерах выборки Здесь «лучше чем» означает то, что обычно имеет меньшую дисперсию, когда оба несмещены, и, как правило, меньше среднеквадратичная ошибка (MSE) …

4
Имеет ли смысл добавлять в модель квадратный член, но не линейный?
У меня есть (смешанная) модель, в которой один из моих предикторов априори должен быть только квадратично связан с предиктором (из-за экспериментальных манипуляций). Следовательно, я хотел бы добавить только квадратичный член в модель. Две вещи не дают мне этого сделать: Я думаю, что я читал кое-что, что вы должны всегда включать …

11
Ресурсы для изучения цепей Маркова и скрытых марковских моделей
Я ищу ресурсы (учебные пособия, учебники, веб-трансляции и т. Д.), Чтобы узнать о цепи Маркова и HMM. Я работаю биологом, и в настоящее время я участвую в проекте, связанном с биоинформатикой. Кроме того, каковы необходимые математические знания, необходимые для достаточного понимания моделей Маркова и HMM? Я искал с помощью Google, …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.