Статистика и большие данные

3

Статистический тест, чтобы определить, взяты ли две пробы из одной популяции?

Допустим, у меня есть два образца. Если я хочу сказать, получены ли они из разных групп населения, я могу провести t-тест. Но допустим, я хочу проверить, являются ли образцы одной популяции. Как это сделать? То есть как рассчитать статистическую вероятность того, что эти две выборки были получены из одной популяции?

30 statistical-significance

6

В чем разница между логистической регрессией и персептроном?

Я собираюсь через лекцию Эндрю Нг ноту на Machine Learning. Примечания знакомят нас с логистической регрессией, а затем с персептроном. При описании Перцептрона в заметках говорится, что мы просто изменили определение пороговой функции, используемой для логистической регрессии. После этого мы можем использовать модель Perceptron для классификации. Итак, мой вопрос - …

30 regression machine-learning self-study logistic perceptron

3

Почему бы не сообщить о значении дистрибутива начальной загрузки?

Когда кто-то загружает параметр, чтобы получить стандартную ошибку, мы получаем распределение параметра. Почему мы не используем среднее значение этого распределения в качестве результата или оценки для параметра, который мы пытаемся получить? Разве распределение не должно приближаться к реальному? Поэтому мы бы получили хорошую оценку «реальной» стоимости? Тем не менее, мы …

30 distributions bootstrap standard-error expected-value

5

Как отдельный исследователь должен думать о частоте ложных открытий?

Я пытался обдумать, как частота ложных открытий (FDR) должна отражать выводы отдельного исследователя. Например, если ваше исследование недостаточно эффективно, следует ли вам сбрасывать со счетов результаты, даже если они значимы при ? Примечание: я говорю о FDR в контексте изучения результатов нескольких исследований в совокупности, а не в качестве метода …

30 statistical-significance p-value publication-bias false-discovery-rate

3

следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO

Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной) летней школы, которую я связал с масштабированием непрерывных переменных, должны …

30 predictive-models model-selection lasso standardization multidimensional-scaling

3

Какая разница инфляции фактор я должен использовать:

Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vifфункции в пакете R car. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значениеVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Чтобы настроить размер доверительного эллипсоида, функция также печатает GVIF ^ [1 / (2 * df)], где df - степени свободы, связанные с термином. Я …

30 r multicollinearity vif

3

Почему ковариационная матрица выборки является единственной, если размер выборки меньше числа переменных?

Допустим, у меня есть ppp мерное многомерное распределение Гаусса. И я беру nnn наблюдения (каждый из них ppp -векторных) от этого распределения и вычислить образец ковариационной матрицы SSS . В этой статье авторы утверждают, что выборочная ковариационная матрица, рассчитанная при p>np>np > n является сингулярной. Как это правда или выведено? …

30 covariance-matrix linear-algebra

5

Как вывести оценку наименьших квадратов для множественной линейной регрессии?

В случае простой линейной регрессии вы можете получить оценку наименьших квадратов , что вам не нужно знать чтобы оценитьβ 1 = Σ ( х я - ˉ х ) ( у я - ˉ у )y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 Предположим, у меня есть , как мне получить …

30 regression multiple-regression generalized-linear-model linear-model

4

В чем разница между тестом Макнемара и тестом хи-квадрат, и как вы знаете, когда их использовать?

Я пытался читать из разных источников, но мне все еще не ясно, какой тест будет уместным в моем случае. Есть три разных вопроса о моем наборе данных: Испытуемые проверяются на инфекции от X в разное время. Я хочу знать, связана ли доля положительного для X после доли с положительным для …

30 r chi-squared mcnemar-test

5

Как я могу использовать SVD в совместной фильтрации?

Я немного запутался с тем, как SVD используется в совместной фильтрации. Предположим, у меня есть социальный граф, и я строю матрицу смежности по краям, затем беру SVD (давайте забудем о регуляризации, скоростях обучения, оптимизации разреженности и т. Д.), Как я могу использовать этот SVD для улучшения моих рекомендаций? Предположим, что …

30 svd recommender-system

1

Имеет ли регрессия Кокса основное распределение Пуассона?

Наша небольшая команда провела дискуссию и застряла. Кто-нибудь знает, имеет ли регрессия Кокса основное распределение Пуассона. У нас была дискуссия о том, что, возможно, регрессия Кокса с постоянным временем риска будет иметь сходство с регрессией Пуассона с устойчивой дисперсией. Любые идеи?

30 regression poisson-distribution cox-model

1

Выполнение анализа основных компонентов или факторного анализа двоичных данных

У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.

30 spss categorical-data pca factor-analysis binary-data

7

Опасность установки всех начальных весов в ноль при обратном распространении

Почему опасно инициализировать веса нулями? Есть ли простой пример, который демонстрирует это?

30 neural-networks backpropagation

5

Что означает глубина взаимодействия в GBM?

У меня был вопрос о параметре глубины взаимодействия в gbm в R. Это может быть вопрос noob, за который я прошу прощения, но как параметр, который, я считаю, обозначает количество терминальных узлов в дереве, в основном указывает X-way взаимодействие между предикторами? Просто пытаюсь понять, как это работает. Кроме того, я …

30 r machine-learning boosting gbm

2

Что означает термин насыщающие нелинейности?

Я читал статью Классификация ImageNet с глубокими сверточными нейронными сетями, и в разделе 3 они объясняли архитектуру своей сверточной нейронной сети и объясняли, как они предпочитают использовать: ненасыщенная нелинейность f(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). потому что это было быстрее тренироваться. В этой статье они, по-видимому, ссылаются на насыщающие нелинейности как на …

30 machine-learning neural-networks terminology conv-neural-network