Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Что означают остатки в логистической регрессии?
Отвечая на этот вопрос, Джон Кристи предложил оценить соответствие моделей логистической регрессии путем оценки остатков. Я знаком с тем, как интерпретировать невязки в OLS, они находятся в том же масштабе, что и DV, и очень четко различие между y и y, предсказанное моделью. Однако для логистической регрессии, в прошлом я …

8
Байесовцы: рабы с вероятностной функцией?
В своей книге «Вся статистика» профессор Ларри Вассерман приводит следующий пример (11.10, стр. 188). Предположим , что мы имеем плотность такой , что , где является известным (неотрицательное интегрируемой) функции и нормализация постоянной является неизвестной .еffе( х ) = сграмм( х )f(x)=cg(x)f(x)=c\,g(x)c > 0граммggс > 0c>0c>0 Нас интересуют те случаи, …


7
Регрессия с несколькими зависимыми переменными?
Возможно ли иметь (множественное) уравнение регрессии с двумя или более зависимыми переменными? Конечно, вы могли бы запустить два отдельных уравнения регрессии, по одному для каждого DV, но не похоже, чтобы оно охватило какую-либо связь между двумя DV?
62 regression 

3
Кто создал первую стандартную нормальную таблицу?
Я собираюсь представить стандартную нормальную таблицу в своем классе вводной статистики, и это заставило меня задуматься: кто создал первую стандартную нормальную таблицу? Как они это делали до появления компьютеров? Мне страшно подумать, что кто-то перебор вычисляет тысячу римановых сумм вручную.

10
Что означает «Ученые восстают против статистической значимости»? (Комментарий в природе)
Название комментария в природе Ученые восстают против статистической значимости начинается с: Валентин Амрейн, Сандер Гренландия, Блейк МакШейн и более 800 подписантов призывают прекратить раздутые заявления и исключить, возможно, важные последствия. и позже содержит такие утверждения, как: Опять же, мы не защищаем запрет на значения P, доверительные интервалы или другие статистические …

2
Отношение правдоподобия к фактору Байеса
Я довольно евангелист в отношении использования отношений правдоподобия для представления объективных доказательств за / против данного явления. Однако недавно я узнал, что байесовский фактор выполняет аналогичную функцию в контексте байесовских методов (т.е. субъективный априор объединяется с объективным байесовским фактором для получения объективно обновленного субъективного состояния убеждения). Сейчас я пытаюсь понять …

5
Почему Джефрис полезен ранее?
Я понимаю, что априор Джеффриса инвариантен при повторной параметризации. Однако я не понимаю, почему это свойство желательно. Почему вы не хотите, чтобы предыдущий изменялся при смене переменных?
61 bayesian  prior 

2
Почему только три раздела? (обучение, проверка, тестирование)
Когда вы пытаетесь подогнать модели к большому набору данных, общий совет - разбить данные на три части: набор данных обучения, проверки и тестирования. Это связано с тем, что модели обычно имеют три «уровня» параметров: первый «параметр» - это класс модели (например, SVM, нейронная сеть, случайный лес), второй набор параметров - …

5
Какую проблему решают методы усадки?
Курортный сезон дал мне возможность свернуться калачиком рядом с огнем вместе с «Элементами статистического обучения» . Исходя из (часто) точки зрения эконометрики, у меня возникают проблемы с пониманием использования методов усадки, таких как регрессия гребня, лассо и регрессия с наименьшим углом (LAR). Как правило, меня интересуют оценки параметров самих себя …

6
В чем разница между «вложенной» и «не вложенной» моделью?
В литературе по иерархическим / многоуровневым моделям я часто читал о «вложенных моделях» и «не вложенных моделях», но что это значит? Может ли кто-нибудь дать мне несколько примеров или рассказать о математических последствиях этой фразы?

9
Как и почему работают нормализация и масштабирование функций?
Я вижу, что многие алгоритмы машинного обучения работают лучше при средней отмене и выравнивании ковариации. Например, нейронные сети имеют тенденцию сходиться быстрее, а K-Means обычно дает лучшую кластеризацию с предварительно обработанными функциями. Я не вижу, что интуиция за этими этапами предварительной обработки приводит к повышению производительности. Может кто-нибудь объяснить это …

6
Где вырезать дендрограмму?
Иерархическая кластеризация может быть представлена ​​дендрограммой. Вырезание дендрограммы на определенном уровне дает набор кластеров. Резка на другом уровне дает другой набор кластеров. Как бы вы выбрали, где вырезать дендрограмму? Есть ли что-то, что мы могли бы считать оптимальной точкой? Если я посмотрю на дендрограмму во времени, когда она меняется, я …

5
Какова связь между кластеризацией k-средних и PCA?
Обычной практикой является применение PCA (анализ главных компонентов) перед алгоритмом кластеризации (таким как k-средних). Считается, что это улучшает результаты кластеризации на практике (снижение шума). Однако я заинтересован в сравнительном и углубленном изучении взаимосвязи между PCA и k-средних. Например, Крис Дин и Сяофэн Хе, 2004, Кластеризация K-средних с помощью анализа главных …

6
Стандартные ошибки для предсказания Лассо с использованием R
Я пытаюсь использовать модель LASSO для прогнозирования, и мне нужно оценить стандартные ошибки. Наверняка кто-то уже написал пакет для этого. Но, насколько я вижу, ни один из пакетов в CRAN, которые делают прогнозы с использованием LASSO, не будет возвращать стандартные ошибки для этих прогнозов. Итак, мой вопрос: есть ли пакет …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.