Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

2
Теория за частичной регрессией наименьших квадратов
Кто-нибудь может порекомендовать хорошее изложение теории за частичной регрессией наименьших квадратов (доступно онлайн) для тех, кто понимает SVD и PCA? Я просмотрел многие источники в Интернете и не нашел ничего, что имело бы правильное сочетание строгости и доступности. zi=Xφizi=Xφiz_i=X \varphi_iyTziyTzi y^Tz_i z T i z j = 0 i ≠ …

1
В чем разница между «коэффициентом детерминации» и «среднеквадратичной ошибкой»?
Что касается проблемы регрессии, я видел, как люди использовали «коэффициент детерминации» (он же R в квадрате), чтобы выполнить выбор модели, например, найти подходящий штрафной коэффициент для регуляризации. Однако также часто используют «среднеквадратичную ошибку» или «среднеквадратичную ошибку» в качестве меры точности регрессии. Так в чем же главное отличие этих двух? Могут …

2
Как вы делаете самозагрузку с данными временных рядов?
Недавно я узнал об использовании методов начальной загрузки для расчета стандартных ошибок и доверительных интервалов для оценок. Я узнал, что если данные являются IID, вы можете обрабатывать данные выборки как совокупность и выполнять выборку с заменой, и это позволит вам получить несколько результатов моделирования статистики теста. В случае временных рядов …

10
Почему сумма двух случайных величин является сверткой?
Долгое время я не понимал, почему «сумма» двух случайных величин является их сверткой , тогда как сумма функции плотности смеси суммы и равнаf(x)f(x)f(x)g(x)g(x)g(x)pf(x)+(1−p)g(x)pf(x)+(1−p)g(x)p\,f(x)+(1-p)g(x)n; арифметическая сумма, а не их свертка. Точная фраза «сумма двух случайных величин» появляется в Google 146 000 раз и имеет эллиптическую форму следующим образом. Если считать, что …


7
Как интерпретировать коэффициент вариации?
Я пытаюсь понять Коэффициент Вариации . Когда я пытаюсь применить его к следующим двум образцам данных, я не могу понять, как интерпретировать результаты. Допустим, образец 1 равен а образец 2 - . Здесь образец 2 образец 1 как вы можете видеть.10 , 15 , 17 , 22 , 21 , …

1
Если я генерирую случайную симметричную матрицу, какова вероятность того, что она положительно определена?
У меня возник странный вопрос, когда я экспериментировал с некоторыми выпуклыми оптимизациями. Вопрос в том: Предположим, что я случайно (скажем, стандартное нормальное распределение) генерирую симметричную матрицу (например, я генерирую верхнюю треугольную матрицу и заполняю нижнюю половину, чтобы убедиться, что она симметричная), какова вероятность того, что она является положительно определенной матрица? …

3
Почему обнаружение небольших эффектов в больших исследованиях указывает на предвзятость публикации?
В нескольких методологических документах (например, Egger et al 1997a, 1997b) обсуждается систематическая ошибка публикации, выявленная метаанализом с использованием графиков воронки, таких как приведенная ниже. Далее в статье 1997b говорится, что «при наличии предвзятости публикации ожидается, что из опубликованных исследований самые большие из них сообщат о наименьших эффектах». Но почему это …

6
Есть ли примеры, когда центральная предельная теорема не выполняется?
Википедия говорит - В теории вероятностей центральная предельная теорема (CLT) устанавливает, что в большинстве ситуаций , когда добавляются независимые случайные величины, их должным образом нормализованная сумма стремится к нормальному распределению (неофициально - «кривая колокола»), даже если сами исходные переменные не являются нормально распределенный ... Когда говорится «в большинстве ситуаций», в …

3
Почему базовое тестирование гипотез фокусируется на среднем, а не на медиане?
На базовых курсах по статистике для студентов (обычно?) Обучают проверке гипотез для среднего населения. Почему основное внимание уделяется среднему значению, а не срединному значению? Я предполагаю, что из-за центральной предельной теоремы легче проверить среднее значение, но я бы хотел прочитать некоторые обоснованные объяснения.

2
Были ли порождающие противоборствующие сети введены Юргеном Шмидхубером?
Я прочитал на https://en.wikipedia.org/wiki/Generative_adversarial_networks : [Генеративные состязательные сети] были представлены Яном Гудфеллоу и др. В 2014 году. но Юрген Шмидхубер утверждает, что ранее выполнял аналогичную работу в этом направлении (например, на NIPS 2016 были некоторые дебаты во время учебного пособия по генеративным состязательным сетям: https://channel9.msdn.com/Events/Neural-Information-Processing-Systems- Conference / Neural-Information-Processing-Systems-Conference-NIPS-2016 / Generative-Adversarial-Networks …

4
Зачем использовать регуляризацию в полиномиальной регрессии вместо понижения степени?
При выполнении регрессии, например, два гиперпараметра, которые нужно выбрать, часто являются емкостью функции (например, наибольшим показателем многочлена) и величиной регуляризации. Что меня смущает, так это почему бы просто не выбрать функцию с низкой пропускной способностью, а затем игнорировать любую регуляризацию? Таким образом, это не будет соответствовать. Если у меня есть …

8
Должен ли я учить байесовской или частой статистике в первую очередь?
Я помогаю своим мальчикам, которые в настоящее время учатся в старших классах, разбираться в статистике, и я собираюсь начать с нескольких простых примеров, не забывая о проблесках теории. Моя цель состояла бы в том, чтобы дать им наиболее интуитивный, но в то же время инструментальный подход к изучению статистики с …


5
Почему некоторые люди используют -999 или -9999 для замены пропущенных значений?
У меня есть набор данных. Есть много пропущенных значений. Для некоторых столбцов отсутствующее значение было заменено на -999, но для других столбцов отсутствующее значение было отмечено как «NA». Почему мы используем -999 для замены отсутствующего значения?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.