Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

6
Как начать работу с нейронными сетями
Я совершенно новичок в нейронных сетях, но очень заинтересован в их понимании. Однако начать совсем не легко. Кто-нибудь может порекомендовать хорошую книгу или любой другой вид ресурса? Нужно ли читать? Я благодарен за любой совет.

1
Почему R возвращает NA как коэффициент lm ()?
Я подгоняю lm()модель к набору данных, который включает индикаторы для финансового квартала (Q1, Q2, Q3, делая Q4 по умолчанию). Используя lm(Y~., data = data) я получаю в NAкачестве коэффициента для Q3 и предупреждение о том, что одна переменная была исключена из-за особенностей. Нужно ли добавлять столбец Q4?
32 r  regression 

2
Как найти доверительные интервалы для рейтингов?
В книге Эвана Миллера « Как не сортировать по среднему рейтингу » предлагается использовать нижнюю границу доверительного интервала для получения разумного совокупного «балла» для оцениваемых предметов. Тем не менее, он работает с моделью Бернулли: рейтинги либо большие, либо большие. Какой разумный доверительный интервал следует использовать для модели оценки, которая присваивает …

5
Почему политические опросы имеют такой большой размер выборки?
Когда я смотрел новости, я заметил, что опросы Гэллапа по таким вещам, как президентские выборы, имеют [я предполагаю случайный] выборочный размер более 1000. Из того, что я помню из статистики колледжа, было то, что размер выборки 30 был «значительно большим». Было сделано впечатление, что размер выборки более 30 бессмыслен из-за …

1
Отклонение от суммы прогнозируемых значений из модели со смешанным эффектом для временных рядов
У меня есть модель смешанного эффекта (фактически обобщенная аддитивная смешанная модель), которая дает мне прогнозы для временных рядов. Чтобы противодействовать автокорреляции, я использую модель corCAR1, учитывая тот факт, что у меня отсутствуют данные. Предполагается, что данные дают мне полную нагрузку, поэтому мне нужно суммировать за весь интервал прогнозирования. Но я …

3
Как нарисовать аккуратные полигоны вокруг областей диаграммы рассеяния в ggplot2 [закрыто]
Как добавить аккуратный многоугольник вокруг группы точек на диаграмме рассеяния? Я использую ggplot2, но разочарован результатами geom_polygon. Набор данных находится там как текстовый файл с разделителями табуляции. На графике ниже показаны два показателя отношения к здоровью и безработице в ряде стран: Я хотел бы перейти от geom_density2dменее причудливой, но эмпирически …

6
Какой будет надежная байесовская модель для оценки масштаба примерно нормального распределения?
Существует ряд надежных оценок масштаба . Ярким примером является медианой абсолютное отклонение , которое относится к стандартному отклонению , как σ=MAD⋅1.4826σ=MAD⋅1.4826\sigma = \mathrm{MAD}\cdot1.4826 . В байесовской структуре существует ряд способов надежной оценки местоположения примерно нормального распределения (скажем, нормального, загрязненного выбросами), например, можно предположить, что данные распределены как при распределении, так …


3
Как рассчитать объединенную дисперсию двух или более групп с учетом известных групповых дисперсий, средних значений и размеров выборки?
Скажем, есть m+nm+nm+n элементов, разбитых на две группы ( mmm и nnn ). Дисперсия первой группы σ2mσm2\sigma_m^2 и дисперсия второй группы σ2nσn2\sigma^2_n . Предполагается, что сами элементы неизвестны, но я знаю, что означает μmμm\mu_m и μnμn\mu_n . Есть ли способ расчета комбинированной дисперсии σ2(m+n)σ(m+n)2\sigma^2_{(m+n)} ? The variance doesn't have to …
32 variance  pooling 


2
Распределения, отличные от нормальных, где среднее значение и дисперсия независимы
Мне было интересно, есть ли какие-либо распределения, кроме нормального, где среднее значение и дисперсия не зависят друг от друга (или, другими словами, где дисперсия не является функцией среднего значения).

5
Как изменить данные между широким и длинным форматами в R? [закрыто]
Вы можете иметь данные в широком формате или в длинном формате. Это довольно важная вещь, так как используемые методы различаются в зависимости от формата. Я знаю, что вы должны работать melt()иcast() пакетом измененных форм из него, но есть некоторые вещи, которые я не понимаю. Может кто-нибудь дать мне краткий обзор, …

7
Существуют ли алгоритмы для вычисления «работающих» параметров линейной или логистической регрессии?
В документе «Точное вычисление текущей дисперсии» по адресу http://www.johndcook.com/standard_deviation.html показано, как вычислить среднее значение, дисперсию и стандартные отклонения. Существуют ли алгоритмы, в которых параметры модели линейной или логистической регрессии можно аналогичным образом «динамически» обновлять при предоставлении каждой новой записи обучения?

12
Какую статистическую концепцию сложнее всего понять?
Это вопрос, похожий на тот, что здесь , но я думаю, что он достаточно интересен. Я думал, что я поставлю как стартер, что я думаю, что один из самых трудных для понимания является. Моя разница между вероятностью и частотой . Один находится на уровне «знания реальности» (вероятности), а другой - …
32 teaching 

4
ANOVA на биномиальных данных
Я анализирую экспериментальные данные. Данные состоят из парного вектора типа лечения и биномиального исхода: Treatment Outcome A 1 B 0 C 0 D 1 A 0 ... В столбце результатов 1 означает успех, а 0 - сбой. Я хотел бы выяснить, значительно ли меняет результат лечение. Есть 4 различных лечения …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.