Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Являются ли цифры
Предположим, вы соблюдаете последовательность: 7, 9, 0, 5, 5, 5, 4, 8, 0, 6, 9, 5, 3, 8, 7, 8, 5, 4, 0, 0, 6, 6, 4, 5, 3, 3, 7, 5, 9, 8, 1, 8, 6, 2, 8, 4, 6, 4, 1, 9, 9, 0, 5, 2, 2, 0, …

1
Как обучить и проверить модель нейронной сети в R?
Я новичок в моделировании с нейронными сетями, но мне удалось создать нейронную сеть со всеми доступными точками данных, которая хорошо соответствует наблюдаемым данным. Нейронная сеть была сделана в R с пакетом nnet: require(nnet) ##33.8 is the highest value mynnet.fit <- nnet(DOC/33.80 ~ ., data = MyData, size = 6, decay …


2
Понимание р-значения
Я знаю, что есть много материалов, объясняющих р-значение. Однако эту концепцию нелегко понять без дальнейшего разъяснения. Вот определение p-значения из Википедии: Значение p - это вероятность получения тестовой статистики, по крайней мере, такой же экстремальной, как и та, которая фактически наблюдалась, при условии, что нулевая гипотеза верна. ( http://en.wikipedia.org/wiki/P-value ) …

3
Как установить ARIMAX-модель с R?
У меня есть четыре разных временных ряда часовых измерений: Потребление тепла внутри дома Температура вне дома Солнечная радиация Скорость ветра Я хочу иметь возможность прогнозировать потребление тепла в доме. Существует четкая сезонная тенденция, как на ежегодной, так и на ежедневной основе. Поскольку существует четкая корреляция между различными сериями, я хочу …

3
Как наиболее точно определить цвет объекта?
Я написал компьютерную программу, которая может обнаруживать монеты в статическом изображении (.jpeg, .png и т. Д.), Используя некоторые стандартные методы для компьютерного зрения (размытие по Гауссу, определение порога, преобразование Хафа и т. Д.). Используя соотношения монет, взятых из данного изображения, я могу с уверенностью установить, какие монеты какие. Тем не …

4
Стандартная кластеризация ошибок в R (вручную или в plm)
Я пытаюсь понять стандартную ошибку «кластеризация» и как выполнить в R (это тривиально в Stata). В РИ были неудачные попытки использования либо plmнаписания моей собственной функции. Я буду использовать diamondsданные из ggplot2пакета. Я могу сделать фиксированные эффекты с помощью фиктивных переменных > library(plyr) > library(ggplot2) > library(lmtest) > library(sandwich) > …

4
Что такое основной аргумент и почему он не был принят?
Одним из поздних вкладов Р.А. Фишера были опорные интервалы и опорные принципиальные аргументы . Этот подход, однако, далеко не так популярен, как частые или байесовские принципиальные аргументы. Что такое опорный аргумент и почему он не был принят?


2
Существует ли вариант коробчатого графика для распределенных данных Пуассона?
Я хотел бы знать, есть ли вариант коробочного графика, адаптированный к распределенным данным Пуассона (или, возможно, другим дистрибутивам)? При гауссовском распределении, с усами, расположенными при L = Q1 - 1,5 IQR и U = Q3 + 1,5 IQR, у боксплотта есть свойство, что будет примерно столько же низких выбросов (точек …

6
Как оценить сходство двух гистограмм?
Учитывая две гистограммы, как мы оцениваем, похожи они или нет? Достаточно ли просто посмотреть на две гистограммы? Простое сопоставление один к одному имеет проблему, заключающуюся в том, что если гистограмма немного отличается и немного смещается, то мы не получим желаемый результат. Какие-либо предложения?

5
Почему для подсчета используется регрессия Пуассона?
Я понимаю, что для определенных наборов данных, таких как голосование, он работает лучше. Почему регрессия Пуассона используется поверх обычной линейной регрессии или логистической регрессии? Какова математическая мотивация для этого?

10
Как научить студентов, которые боятся статистики?
Я собираюсь помочь преподавать статистику студентам-медикам в этом семестре. Я слышал много страшных историй о страхе этих студентов от изучения статистики. Кто-нибудь может подсказать, что делать с этим страхом? (Либо ссылки на людей, которые обсуждают это, либо предлагать предложения из собственного опыта)
33 teaching 

2
Дисперсия функции одной случайной величины
Допустим, у нас есть случайная величина с известной дисперсией и средним значением. Вопрос в том, какова дисперсия f ( X ) для некоторой заданной функции f. Единственный общий метод, который мне известен, - это дельта-метод, но он дает только приблизительное значение. Теперь меня интересует f ( x ) = √ИксИксXе( …

1
Математические различия между GBM, XGBoost, LightGBM, CatBoost?
Существует несколько реализаций модели семейства GBDT, таких как: GBM XGBoost LightGBM Catboost. Каковы математические различия между этими различными реализациями? Catboost, кажется, превосходит другие реализации, даже используя только параметры по умолчанию в соответствии с этим тестом , но все еще очень медленный. Я предполагаю, что catboost не использует dummified переменных, поэтому …
33 boosting  xgboost 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.