Статистика и большие данные data-mining

2

Как сделать правильные выводы из «больших данных»?

«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь …

40 data-mining dataset large-data validation

5

Поднимите меру в интеллектуальном анализе данных

Я искал много сайтов, чтобы знать, что именно будет делать лифт? Все результаты, которые я обнаружил, касались его использования в приложениях, а не в самом себе. Я знаю о функции поддержки и доверия. Из Википедии, в области интеллектуального анализа данных, лифт является мерой эффективности модели при прогнозировании или классификации случаев, …

36 data-mining

5

Думайте как байесовский, проверяйте как частый человек: что это значит?

Я смотрю на слайды лекций по курсу науки о данных, которые можно найти здесь: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, к сожалению, не вижу видео для этой лекции, и в какой-то момент на слайде у докладчика есть следующий текст: Некоторые ключевые принципы Думай как байесовский, проверяй как частый (примирение) Кто-нибудь знает, что это на …

35 bayesian data-mining frequentist

3

Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?

Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …

34 r regression logistic confidence-interval profile-likelihood correlation mcmc error mixture measurement data-augmentation r logistic goodness-of-fit r time-series exponential descriptive-statistics average expected-value data-visualization anova teaching hypothesis-testing multivariate-analysis r r mixed-model clustering categorical-data unsupervised-learning r logistic anova binomial estimation variance expected-value r r anova mixed-model multiple-comparisons repeated-measures project-management r poisson-distribution control-chart project-management regression residuals r distributions data-visualization r unbiased-estimator kurtosis expected-value regression spss meta-analysis r censoring regression classification data-mining mixture

6

Интеллектуальный анализ данных: как мне найти функциональную форму?

Мне любопытно , повторяемых процедур , которые могут быть использованы , чтобы обнаружить функциональную форму функции , y = f(A, B, C) + error_termгде мой единственный вход множество наблюдений ( y, A, Bи C). Обратите внимание, что функциональная форма fнеизвестна. Рассмотрим следующий набор данных: AA BB CC DD EE FF …

34 regression machine-learning algorithms model-selection data-mining

1

Относительная важность переменной для повышения

Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …

33 machine-learning data-mining predictive-models cart boosting

1

Есть ли статистические уроки из эпизода «Библейский кодекс»?

Хотя этот вопрос несколько субъективен, я надеюсь, что в соответствии с рекомендациями часто задаваемых вопросов он квалифицируется как хороший субъективный вопрос . Это основано на вопросе, который Олле Хэггстрем задал мне год назад, и хотя у меня есть некоторые мысли по этому поводу, у меня нет определенного ответа, и я …

31 hypothesis-testing data-mining

8

Какие предметы по математике вы бы предложили для подготовки данных и машинного обучения?

Я пытаюсь составить самостоятельную учебную программу по математике, чтобы подготовиться к изучению интеллектуального анализа данных и машинного обучения. Это мотивировано тем, что я начал курс машинного обучения Эндрю Нга на Coursera и почувствовал, что перед тем, как продолжить, мне нужно улучшить свои математические навыки. Я недавно закончил колледж, так что …

30 machine-learning references data-mining

2

Почему p-значения вводят в заблуждение после пошагового выбора?

Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю. Я слышал, что следует рассматривать все переменные, оставшиеся в …

28 multiple-regression predictive-models data-mining stepwise-regression

1

Разница между стандартным и сферическим алгоритмами k-средних

Я хотел бы понять, в чем заключается основная разница между стандартными и сферическими алгоритмами кластеризации k-средних. На каждом шаге k-means вычисляет расстояния между векторами элементов и центроидами кластера и переназначает документ этому кластеру, центроид которого является ближайшим. Затем все центроиды пересчитываются. В сферических k-средних все векторы нормированы, а мера расстояния …

28 clustering data-mining algorithms k-means

9

Программное обеспечение для статистики и интеллектуального анализа данных для работы с большими наборами данных

В настоящее время мне нужно проанализировать около 20 миллионов записей и построить модели прогнозирования. До сих пор я опробовал Statistica, SPSS, RapidMiner и R. Среди них Statistica кажется наиболее подходящим для работы с интеллектуальным анализом данных, а пользовательский интерфейс RapidMiner также очень удобен, но кажется, что Statistica, RapidMiner и SPSS …

27 large-data software data-mining

7

Каков распорядок дня ученого-машиностроителя?

Я магистрант CS в немецком университете, сейчас пишу свою диссертацию. Я закончу через два месяца, и мне придется принять очень трудное решение, если я продолжу работу над докторской диссертацией или найду работу в отрасли. Мои причины для получения докторской степени: Я очень любопытный человек , и я чувствую , что …

25 machine-learning data-mining careers

3

LSA против PCA (кластеризация документов)

Я изучаю различные методы, используемые в кластеризации документов, и я хотел бы прояснить некоторые сомнения, касающиеся PCA (анализ главных компонентов) и LSA (скрытый семантический анализ). Первое - какие различия между ними? Я знаю, что в PCA декомпозиция SVD применяется к матрице терминов-ковариаций, в то время как в LSA это матрица …

25 clustering pca data-mining svd lsa

3

Какова мера точности данных с несколькими метками?

Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel. Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких строках есть много 1 (эти экземпляры имеют несколько …

25 machine-learning data-mining multilabel

2

В чем разница между функцией потерь и функцией принятия решений?

Я вижу, что обе функции являются частью методов интеллектуального анализа данных, таких как Gradient Boosting Regressors. Я вижу, что это тоже отдельные объекты. Каковы отношения между обоими в целом?

23 regression classification data-mining decision-theory

Вопросы с тегом «data-mining»