Статистика и большие данные

Вопросы и ответы для людей, интересующихся статистикой, машинным обучением, анализом данных, интеллектуальным анализом данных и визуализацией данных

3
Какова связь между иерархическими моделями, нейронными сетями, графическими моделями, байесовскими сетями?
Кажется, что все они представляют случайные величины узлами и (в) зависимости через (возможно, направленные) ребра. Мне особенно интересна точка зрения Байеса.

3
Разница между обобщенными линейными моделями и обобщенными линейными смешанными моделями
Мне интересно, в чем различия между смешанными и несмешанными GLM. Например, в SPSS раскрывающееся меню позволяет пользователям выбрать: analyze-> generalized linear models-> generalized linear models & analyze-> mixed models-> generalized linear Они имеют дело с отсутствующими значениями по-другому? Моя зависимая переменная является двоичной, и у меня есть несколько категориальных и …


4
Как интерпретировать среднее значение силуэта?
Я пытаюсь использовать силуэт графика, чтобы определить количество кластеров в моем наборе данных. Учитывая набор данных Train , я использовал следующий код Matlab Train_data = full(Train); Result = []; for num_of_cluster = 1:20 centroid = kmeans(Train_data,num_of_cluster,'distance','sqeuclid'); s = silhouette(Train_data,centroid,'sqeuclid'); Result = [ Result; num_of_cluster mean(s)]; end plot( Result(:,1),Result(:,2),'r*-.');` Результирующий график …

4
X и Y не коррелируют, но X является значимым предиктором Y при множественной регрессии. Что это означает?
Х и Y не коррелированы (-.01); однако, когда я помещаю X в предсказание множественной регрессии Y, наряду с тремя (A, B, C) другими (связанными) переменными, X и две другие переменные (A, B) являются значимыми предикторами Y. Обратите внимание, что два других ( A, B) переменные значительно коррелируют с Y вне …

3
Как интерпретировать среднее снижение точности и среднее снижение GINI в моделях случайных лесов
У меня возникают трудности с пониманием того, как интерпретировать выходные данные переменной важности из пакета Random Forest. Среднее снижение точности обычно описывается как «снижение точности модели из-за изменения значений в каждой функции». Это утверждение о функции в целом или о конкретных значениях в функции? В любом случае, означает ли среднее …

3
Почему t-SNE не используется как метод уменьшения размерности для кластеризации или классификации?
В недавнем задании нам было сказано использовать PCA для цифр MNIST, чтобы уменьшить размеры с 64 (8 x 8 изображений) до 2. Затем нам пришлось кластеризовать цифры, используя модель гауссовой смеси. PCA, использующий только 2 основных компонента, не дает отдельных кластеров, и в результате модель не может создавать полезные группировки. …


2
Почему критерий отношения правдоподобия распределяется по критерию хи-квадрат?
Почему тестовая статистика теста отношения правдоподобия распределяется по хи-квадрату? 2(ln Lalt model−ln Lnull model)∼χ2dfalt−dfnull2(ln⁡ Lalt model−ln⁡ Lnull model)∼χdfalt−dfnull22(\ln \text{ L}_{\rm alt\ model} - \ln \text{ L}_{\rm null\ model} ) \sim \chi^{2}_{df_{\rm alt}-df_{\rm null}}

5
Найти ожидаемое значение с помощью CDF
Я собираюсь начать с того, что сразу скажу, что это домашнее задание. Я потратил пару часов на поиски ожидаемых значений и решил, что ничего не понимаю. Пусть имеет CDF . Найдите для тех значений для которых существует .XXXF(x)=1−x−α,x≥1F(x)=1−x−α,x≥1F(x) = 1 - x^{-\alpha}, x\ge1E(X)E(X)E(X)αα\alphaE(X)E(X)E(X) Я понятия не имею, как даже начать …

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

4
Какова слабая сторона деревьев решений?
Деревья решений кажутся очень понятным методом машинного обучения. После создания он может быть легко проверен человеком, что является большим преимуществом в некоторых приложениях. Каковы практические слабые стороны деревьев решений?

6
Интеллектуальный анализ данных: как мне найти функциональную форму?
Мне любопытно , повторяемых процедур , которые могут быть использованы , чтобы обнаружить функциональную форму функции , y = f(A, B, C) + error_termгде мой единственный вход множество наблюдений ( y, A, Bи C). Обратите внимание, что функциональная форма fнеизвестна. Рассмотрим следующий набор данных: AA BB CC DD EE FF …

3
Что подразумевается под «слабым учеником»?
Может кто-нибудь сказать мне, что подразумевается под фразой «слабый ученик»? Это должна быть слабая гипотеза? Я запутался в отношениях между слабым учеником и слабым классификатором. Оба одинаковы или есть какая-то разница? В алгоритме adaboost T=10. Что подразумевается под этим? Почему мы выбираем T=10?

3
Существует ли какая-либо проблема контролируемого обучения, которую (глубокие) нейронные сети, очевидно, не могут превзойти другими методами?
Я видел людей, которые приложили много усилий к SVM и ядрам, и они выглядят довольно интересно, как начинающие в машинном обучении. Но если мы ожидаем, что почти всегда мы сможем найти превосходящее решение с точки зрения (глубокой) нейронной сети, каков смысл использования других методов в эту эпоху? Вот мое ограничение …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.