Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Почему мы так заботимся о нормально распределенных членах ошибки (и гомоскедастичности) в линейной регрессии, когда нам это не нужно?
Я полагаю, что расстраиваюсь каждый раз, когда слышу, как кто-то говорит, что ненормальность остатков и / или гетероскедастичность нарушают допущения OLS. Для оценки параметров в модели МНК ни одно из этих предположений не является необходимым по теореме Гаусса-Маркова. Я вижу, как это важно в тестировании гипотез для модели OLS, потому …

3
Выполнить нормализацию объекта до или в рамках валидации модели?
Обычной хорошей практикой в ​​машинном обучении является нормализация характеристик или стандартизация данных переменных предиктора, вот и все, центрируйте данные, вычитая среднее значение, и нормализуйте его, деля на дисперсию (или стандартное отклонение тоже). Для самодостаточности и, насколько я понимаю, мы делаем это для достижения двух основных целей: Избегайте сверхмалых весов модели …

4
Камминг (2008) утверждает, что распределение значений p, полученных в репликациях, зависит только от исходного значения p. Как это может быть правдой?
Я читал 2008 документ Джеффа Камминг репликации и Интервалы: значения предсказывать будущее лишь смутно, но доверительные интервалы делают намного лучше pppppp р р[~ 200 ссылок в Google Scholar] - и смущает одно из центральных требований. Это одна из серии статей, где Камминг спорит с и поддерживает доверительные интервалы; Мой вопрос, …

5
Нейронные сети против опорных векторных машин: второе определенно превосходит?
Многие авторы статей, которые я читаю, утверждают, что SVM - это превосходный метод для решения проблемы регрессии / классификации, осознавая, что они не могут получить аналогичные результаты с помощью NN. Часто сравнение утверждает, что SVM вместо NN, Иметь сильную теорию основания Достигнуть глобального оптимума благодаря квадратичному программированию Нет проблем для …

6
Имеют ли предсказания модели случайного леса интервал предсказания?
Если я запускаю randomForestмодель, я могу делать прогнозы на основе этой модели. Есть ли способ получить интервал прогнозирования для каждого из прогнозов, чтобы я знал, насколько «уверена» модель в своем ответе. Если это возможно, то просто ли это основано на изменчивости зависимой переменной для всей модели или она будет иметь …

2
Вывод лассо раствора в закрытой форме
Для задачи Лассо minβ(Y−Xβ)T(Y−Xβ)minβ(Y−Xβ)T(Y−Xβ)\min_\beta (Y-X\beta)^T(Y-X\beta) такая, что ∥β∥1≤t‖β‖1≤t\|\beta\|_1 \leq t . Я часто вижу результат мягкого определения порога βlassoj=sgn(βLSj)(|βLSj|−γ)+βjlasso=sgn(βjLS)(|βjLS|−γ)+ \beta_j^{\text{lasso}}= \mathrm{sgn}(\beta^{\text{LS}}_j)(|\beta_j^{\text{LS}}|-\gamma)^+ для ортонормированного случая XXXУтверждается, что решение может быть «легко показано» таким, но я никогда не видел работающего решения. Кто-нибудь видел один или, возможно, сделал вывод?
52 lasso 

3
ANOVA предположение нормальность / нормальное распределение остатков
На странице Википедии в ANOVA перечислены три предположения , а именно: Независимость случаев - это предположение модели, которая упрощает статистический анализ. Нормальность - распределение остатков нормальное. Равенство (или «однородность») дисперсий, называемых гомоскедастичностью ... Интересным моментом здесь является второе предположение. Несколько источников перечисляют это предположение по-разному. Некоторые говорят о нормальности исходных …

8
Excel как инструмент для статистики
Похоже, что многие люди (в том числе и я) любят проводить предварительный анализ данных в Excel. Некоторые ограничения, такие как количество строк, разрешенных в электронной таблице, являются проблемой, но в большинстве случаев не делают невозможным использование Excel для работы с данными. Тем не менее, статья МакКаллоу и Хайзера практически кричит …

10
Кластеризация с матрицей расстояний
У меня есть (симметричная) матрица, Mкоторая представляет расстояние между каждой парой узлов. Например, ABCDEFGHIJKL A 0 20 20 20 40 60 60 60 100 120 120 120 B 20 0 20 20 60 80 80 80 120 140 140 140 C 20 20 0 20 60 80 80 80 120 …
52 clustering 

2
Какова связь между тестом хи-квадрат и тестом равных пропорций?
Предположим, что у меня есть три популяции с четырьмя взаимоисключающими характеристиками. Я беру случайные выборки из каждой популяции и строю кросс-таблицу или таблицу частот для характеристик, которые я измеряю. Правильно ли я сказал, что: Если я хотел проверить, существует ли какая-либо связь между популяциями и характеристиками (например, имеет ли одна …

14
Какая наиболее удивительная характеристика гауссова (нормального) распределения?
Стандартизированное распределение Гаусса в можно определить, явно указав его плотность: RR\mathbb{R}12π−−√e−x2/212πe−x2/2 \frac{1}{\sqrt{2\pi}}e^{-x^2/2} или его характерная функция. Как указано в этом вопросе, это также единственное распределение, для которого выборочное среднее и дисперсия независимы. Какие еще удивительные альтернативные характеристики гауссовских мер вы знаете? Я приму самый удивительный ответ

8
Современный преемник исследовательского анализа данных Тьюки?
Я читал книгу Тьюки "Исследовательский анализ данных". Книга, написанная в 1977 году, делает упор на бумажных / карандашных методах. Есть ли более «современный» преемник, который учитывает, что теперь мы можем мгновенно строить большие наборы данных?

6
Бинарная классификация с сильно несбалансированными классами
У меня есть набор данных в виде (функции, двоичный вывод 0 или 1), но 1 случается довольно редко, поэтому, всегда прогнозируя 0, я получаю точность от 70% до 90% (в зависимости от конкретных данных, на которые я смотрю ). Методы ML дают мне примерно одинаковую точность, и я считаю, что …

5
Необходимо ли масштабировать целевое значение в дополнение к функциям масштабирования для регрессионного анализа?
Я строю регрессионные модели. В качестве шага предварительной обработки я масштабирую значения моих объектов так, чтобы они имели среднее значение 0 и стандартное отклонение 1. Необходимо ли также нормализовать целевые значения?

4
При каких условиях весы Лайкерта должны использоваться в качестве порядковых или интервальных данных?
Многие исследования в области социальных наук используют шкалы Лайкерта. Когда уместно использовать данные Лайкерта в качестве порядковых и когда уместно использовать их в качестве интервальных данных?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.