Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

11
Можно ли сделать простую линейную регрессию без использования графиков и линейной алгебры?
Я полностью слепой и пришел из программирования. Я пытаюсь научиться машинному обучению, и для этого мне сначала нужно узнать о линейной регрессии. Все объяснения в Интернете, которые я нахожу об этом предмете, наносят данные в первую очередь. Я ищу практическое объяснение линейной регрессии, которая не зависит от графиков и графиков. …

4
Классовый дисбаланс в контролируемом машинном обучении
Это вопрос в целом, не относящийся к какому-либо методу или набору данных. Как мы решаем проблему дисбаланса классов в обучении с использованием контролируемой машины, где число 0 составляет около 90%, а число 1 составляет около 10% в вашем наборе данных. Как оптимально обучить классификатор. Одним из способов, которым я следую, …

3
AIC, BIC, CIC, DIC, EIC, FIC, GIC, HIC, IIC - Могу ли я использовать их взаимозаменяемо?
На стр. 34 из его PRNN Брайан Рипли комментирует, что «АИК был назван Акаике (1974) как« Информационный критерий », хотя, как представляется, принято считать, что А означает Акаике». Действительно, при введении статистики AIC Akaike (1974, с.719) объясняет, что "IC stands for information criterion and A is added so that similar …

2
Оптимальное количество сгибов в перекрестной проверке с
Помимо соображений вычислительной мощности, есть ли основания полагать, что увеличение количества сгибов при перекрестной проверке приводит к лучшему выбору / проверке модели (т. Е. Чем больше сгибов, тем лучше)? Если доводить аргумент до крайности, обязательно ли перекрестная проверка по принципу « один-за-один» обязательно приведет к лучшим моделям, чем перекрестная проверка …

5
Интерпретация QQplot - есть ли эмпирическое правило, чтобы принять решение о ненормальности?
Я прочитал достаточно потоков на QQplots здесь, чтобы понять, что QQplot может быть более информативным, чем другие тесты нормальности. Тем не менее, я неопытен в интерпретации QQplots. Я много гуглил; Я нашел много графиков ненормальных QQplots, но нет четких правил, как их интерпретировать, кроме того, что кажется сравнением с известными …

2
Сплайны перекрывают данные?
Моя проблема : я недавно встретил статистика, который сообщил мне, что сплайны полезны только для исследования данных и подвержены переобучению, таким образом, бесполезны при прогнозировании. Он предпочел исследовать с помощью простых полиномов ... Так как я большой поклонник сплайнов, и это противоречит моей интуиции, мне интересно узнать, насколько верны эти …

4
Почему ожидание такое же, как среднее арифметическое?
Сегодня я натолкнулся на новую тему под названием «Математическое ожидание». В книге, за которой я следую, говорится, что ожидание - это среднее арифметическое случайной величины, получаемой из любого распределения вероятностей. Но он определяет ожидание как сумму произведений некоторых данных и вероятности этого. Как эти два (среднее и ожидание) могут быть …

3
Как найти пики в наборе данных?
Если у меня есть набор данных, который создает график, подобный следующему, как бы я алгоритмически определил значения x показанных пиков (в данном случае три из них):

6
Байесовский учебник статистики
Я пытаюсь набрать скорость в байесовской статистике. У меня есть немного истории статистики (STAT 101), но не слишком много - я думаю, что могу понять предшествующую, заднюю и вероятность: D. Я пока не хочу читать байесовский учебник. Я предпочел бы читать из источника (веб-сайт), который быстро нарастит меня. Что - …

4
Как сделать выбор поднабора логистической регрессии?
Я подгоняю биномиальное семейство glm в R, и у меня есть целая группа объясняющих переменных, и мне нужно найти лучшее (R-квадрат в качестве меры - это хорошо). Если не считать сценария для циклического перебора различных комбинаций объясняющих переменных и последующей записи, которая дает наилучшие результаты, я действительно не знаю, что …
47 r  logistic 

15
Наиболее запутанные статистические термины
Мы, статистики, используем много слов способами, которые немного отличаются от того, как их используют все остальные. Это вызывает много проблем, когда мы учим или объясняем, что делаем. Я начну список (и теперь я добавлю некоторые определения, по комментариям): Сила - это способность правильно отвергнуть ложную нулевую гипотезу. Обычно это означает …

5
Первые R пакеты исходного кода для изучения при подготовке к написанию собственного пакета
Я планирую начать писать R пакетов. Я подумал, что было бы хорошо изучить исходный код существующих пакетов, чтобы изучить правила построения пакетов. Мои критерии для хороших пакетов для изучения: Простые статистические / технические идеи : цель состоит в том, чтобы узнать о механике конструкции упаковки. Понимание пакета не должно требовать …
47 r 

3
Можно ли выполнять кластеризацию временных рядов на основе формы кривой?
У меня есть данные о продажах для ряда торговых точек, и я хочу классифицировать их в зависимости от формы их кривых с течением времени. Данные выглядят примерно так (но, очевидно, не случайны и содержат некоторые пропущенные данные): n.quarters <- 100 n.stores <- 20 if (exists("test.data")){ rm(test.data) } for (i in …

7
При проведении t-теста, почему предпочтительнее предполагать (или проверять) равные дисперсии, а не всегда использовать приближение Уэлча для df?
Кажется, что, когда предположение об однородности дисперсии встречается, результаты скорректированного по Уэлчу t-критерия и стандартного t-критерия примерно одинаковы. Почему бы просто не всегда использовать отрегулированный Welch t?

14
Разъяснения по интерпретации доверительных интервалов?
Мое нынешнее понимание понятия «доверительный интервал с уровнем доверия » является то , что если бы мы попытались вычислить доверительный интервал много раз (каждый раз с новым образцом), он будет содержать правильный параметр из время.1 - α1 - α1−α1 - \alpha1 - α1−α1 - \alpha Хотя я понимаю, что это …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.