Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Статистический тест, чтобы определить, взяты ли две пробы из одной популяции?
Допустим, у меня есть два образца. Если я хочу сказать, получены ли они из разных групп населения, я могу провести t-тест. Но допустим, я хочу проверить, являются ли образцы одной популяции. Как это сделать? То есть как рассчитать статистическую вероятность того, что эти две выборки были получены из одной популяции?

6
В чем разница между логистической регрессией и персептроном?
Я собираюсь через лекцию Эндрю Нг ноту на Machine Learning. Примечания знакомят нас с логистической регрессией, а затем с персептроном. При описании Перцептрона в заметках говорится, что мы просто изменили определение пороговой функции, используемой для логистической регрессии. После этого мы можем использовать модель Perceptron для классификации. Итак, мой вопрос - …

3
Почему бы не сообщить о значении дистрибутива начальной загрузки?
Когда кто-то загружает параметр, чтобы получить стандартную ошибку, мы получаем распределение параметра. Почему мы не используем среднее значение этого распределения в качестве результата или оценки для параметра, который мы пытаемся получить? Разве распределение не должно приближаться к реальному? Поэтому мы бы получили хорошую оценку «реальной» стоимости? Тем не менее, мы …

5
Как отдельный исследователь должен думать о частоте ложных открытий?
Я пытался обдумать, как частота ложных открытий (FDR) должна отражать выводы отдельного исследователя. Например, если ваше исследование недостаточно эффективно, следует ли вам сбрасывать со счетов результаты, даже если они значимы при ? Примечание: я говорю о FDR в контексте изучения результатов нескольких исследований в совокупности, а не в качестве метода …

3
следует ли изменять масштаб индикатора / двоичных / фиктивных предикторов для LASSO
Для LASSO (и других процедур выбора модели) важно изменить масштаб предикторов. Общая рекомендация я следую просто использовать 0, 1 среднее стандартное отклонение нормализации для непрерывных переменных. Но что тут делать с чайниками? Например, некоторые прикладные примеры из той же (отличной) летней школы, которую я связал с масштабированием непрерывных переменных, должны …

3
Какая разница инфляции фактор я должен использовать:
Я пытаюсь интерпретировать дисперсии коэффициентов инфляции с использованием vifфункции в пакете R car. Функция печатает как обобщенный и . Согласно файлу справки , это последнее значениеVIFVIF\text{VIF}GVIF1/(2⋅df)GVIF1/(2⋅df)\text{GVIF}^{1/(2\cdot\text{df})} Чтобы настроить размер доверительного эллипсоида, функция также печатает GVIF ^ [1 / (2 * df)], где df - степени свободы, связанные с термином. Я …

3
Почему ковариационная матрица выборки является единственной, если размер выборки меньше числа переменных?
Допустим, у меня есть ppp мерное многомерное распределение Гаусса. И я беру nnn наблюдения (каждый из них ppp -векторных) от этого распределения и вычислить образец ковариационной матрицы SSS . В этой статье авторы утверждают, что выборочная ковариационная матрица, рассчитанная при p>np>np > n является сингулярной. Как это правда или выведено? …

5
Как вывести оценку наименьших квадратов для множественной линейной регрессии?
В случае простой линейной регрессии вы можете получить оценку наименьших квадратов , что вам не нужно знать чтобы оценитьβ 1 = Σ ( х я - ˉ х ) ( у я - ˉ у )y=β0+β1xy=β0+β1xy=\beta_0+\beta_1xβ 0 β 1β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2β^1=∑(xi−x¯)(yi−y¯)∑(xi−x¯)2\hat\beta_1=\frac{\sum(x_i-\bar x)(y_i-\bar y)}{\sum(x_i-\bar x)^2}β^0β^0\hat\beta_0β^1β^1\hat\beta_1 Предположим, у меня есть , как мне получить …

4
В чем разница между тестом Макнемара и тестом хи-квадрат, и как вы знаете, когда их использовать?
Я пытался читать из разных источников, но мне все еще не ясно, какой тест будет уместным в моем случае. Есть три разных вопроса о моем наборе данных: Испытуемые проверяются на инфекции от X в разное время. Я хочу знать, связана ли доля положительного для X после доли с положительным для …

5
Как я могу использовать SVD в совместной фильтрации?
Я немного запутался с тем, как SVD используется в совместной фильтрации. Предположим, у меня есть социальный граф, и я строю матрицу смежности по краям, затем беру SVD (давайте забудем о регуляризации, скоростях обучения, оптимизации разреженности и т. Д.), Как я могу использовать этот SVD для улучшения моих рекомендаций? Предположим, что …

1
Имеет ли регрессия Кокса основное распределение Пуассона?
Наша небольшая команда провела дискуссию и застряла. Кто-нибудь знает, имеет ли регрессия Кокса основное распределение Пуассона. У нас была дискуссия о том, что, возможно, регрессия Кокса с постоянным временем риска будет иметь сходство с регрессией Пуассона с устойчивой дисперсией. Любые идеи?

1
Выполнение анализа основных компонентов или факторного анализа двоичных данных
У меня есть набор данных с большим количеством ответов Да / Нет. Могу ли я использовать основные компоненты (PCA) или любой другой анализ сокращения данных (такой как факторный анализ) для данных этого типа? Посоветуйте, пожалуйста, как мне это сделать, используя SPSS.


5
Что означает глубина взаимодействия в GBM?
У меня был вопрос о параметре глубины взаимодействия в gbm в R. Это может быть вопрос noob, за который я прошу прощения, но как параметр, который, я считаю, обозначает количество терминальных узлов в дереве, в основном указывает X-way взаимодействие между предикторами? Просто пытаюсь понять, как это работает. Кроме того, я …

2
Что означает термин насыщающие нелинейности?
Я читал статью Классификация ImageNet с глубокими сверточными нейронными сетями, и в разделе 3 они объясняли архитектуру своей сверточной нейронной сети и объясняли, как они предпочитают использовать: ненасыщенная нелинейность f(x)=max(0,x).f(x)=max(0,x).f(x) = max(0, x). потому что это было быстрее тренироваться. В этой статье они, по-видимому, ссылаются на насыщающие нелинейности как на …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.