Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Диагностика логистической регрессии
Для линейной регрессии мы можем проверить диагностические графики (графики остатков, графики нормального QQ и т. Д.), Чтобы проверить, не нарушены ли предположения о линейной регрессии. Что касается логистической регрессии, у меня возникают проблемы с поиском ресурсов, которые объясняют, как диагностировать подходящую модель логистической регрессии. Подытоживая некоторые заметки о курсе для …

29
Примеры для обучения: корреляция не означает причинно-следственную связь
Существует старая поговорка: «Соотношение не означает причинность». Когда я преподаю, я склонен использовать следующие стандартные примеры, чтобы проиллюстрировать этот момент: количество аистов и рождаемость в Дании; количество священников в Америке и алкоголизм; в начале 20-го века было отмечено, что существует сильная корреляция между «количеством радиоприемников» и «количеством людей в безумных …

6
Зачем использовать градиентный спуск для линейной регрессии, когда доступно математическое решение замкнутой формы?
Я беру онлайн курсы машинного обучения и узнал о градиентном спуске для расчета оптимальных значений в гипотезе. h(x) = B0 + B1X почему нам нужно использовать градиентный спуск, если мы можем легко найти значения по формуле ниже? Это выглядит прямо и легко. но GD нужно несколько итераций, чтобы получить значение. …

5
Что такое регуляризация в простом английском?
В отличие от других статей, я нашел запись в Википедии по этой теме нечитаемой для не математического человека (такого как я). Я понял основную идею, что вы предпочитаете модели с меньшим количеством правил. Чего я не понимаю, так это как вы переходите от набора правил к «показателю регуляризации», который вы …

4
Психологический журнал запретил р-значения и доверительные интервалы; действительно ли разумно прекратить их использование?
25 февраля 2015 года журнал « Базовая и прикладная социальная психология» опубликовал редакционную статью, запрещающую и доверительные интервалы во всех будущих статьях.ppp В частности, они говорят (форматирование и акцент мои): [...] перед публикацией авторы должны будут удалить все остатки NHSTP [процедура проверки значимости нулевой гипотезы] ( , , , утверждения …


3
Что такое «ограниченная максимальная вероятность» и когда ее следует использовать?
Я прочитал в реферате этой статьи, что: «Процедура максимального правдоподобия (ML) в Hartley aud Rao модифицируется путем адаптации преобразования Паттерсона и Томпсона, которое делит нормальность правдоподобия на две части, одна из которых не имеет фиксированных эффектов. Максимизация этой части дает то, что называется ограниченным максимальным правдоподобием (REML) оценки ". Я …

11
Работать в области интеллектуального анализа данных без PhD
Некоторое время я был очень заинтересован в интеллектуальном анализе данных и машинном обучении , отчасти потому, что я специализировался в этой области в школе, а также потому, что я действительно гораздо более взволнован, пытаясь решить проблемы, которые требуют немного больше размышлений, чем просто программирование. знания и чье решение может иметь …


6
Выбор метода кластеризации
При использовании кластерного анализа в наборе данных для группировки аналогичных случаев необходимо выбирать из большого числа методов кластеризации и измерений расстояния. Иногда один выбор может влиять на другой, но существует множество возможных комбинаций методов. Кто-нибудь есть какие-либо рекомендации о том, как выбрать среди различных алгоритмов / методов кластеризации и меры …

9
Как следует учитывать выбросы в линейном регрессионном анализе?
Часто статистическому аналитику передают набор данных и просят соответствовать модели, используя метод, такой как линейная регрессия. Очень часто набор данных сопровождается заявлением об отказе, похожем на «О, да, мы испортили сбор некоторых из этих точек данных - делай, что можешь». Эта ситуация приводит к припадкам регрессии, на которые сильно влияет …

6
Есть ли веская причина использовать PCA вместо EFA? Кроме того, может ли PCA заменить факторный анализ?
В некоторых дисциплинах PCA (анализ основных компонентов) систематически используется без какого-либо обоснования, а PCA и EFA (анализ факторных факторов) рассматриваются как синонимы. Поэтому я недавно использовал PCA для анализа результатов исследования валидации шкалы (21 элемент по 7-балльной шкале Лайкерта, предполагаемый составление 3 факторов по 7 пунктов каждый), и рецензент спрашивает …

4
Почему нейронные сети становятся глубже, а не шире?
В последние годы сверточные нейронные сети (или, возможно, глубокие нейронные сети в целом) стали глубже и глубже: современные сети переходят от 7 уровней ( AlexNet ) до 1000 слоев ( остаточных сетей) в пространстве 4 года. Причиной повышения производительности в более глубокой сети является то, что можно изучить более сложную …

4
Когда использовать рамки Фишера и Неймана-Пирсона?
В последнее время я много читал о различиях между методом проверки гипотез Фишера и школой мысли Неймана-Пирсона. Мой вопрос, игнорируя философские возражения на мгновение; когда мы должны использовать подход статистического моделирования Фишера, а когда следует использовать метод уровней значимости Неймана-Пирсона и так далее? Есть ли практический способ решить, какую точку …

4
Что такое «неинформативный априор»? Можем ли мы когда-нибудь иметь действительно без информации?
Вдохновленный комментарием к этому вопросу : Что мы считаем «неинформативным» в априоре - и какая информация все еще содержится в предположительно неинформативном априоре? Я обычно вижу приору в анализе, где это либо анализ по типу частых, пытающийся заимствовать некоторые хорошие части из байесовского анализа (будь то какая-то более простая интерпретация …
73 bayesian  prior 

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.