Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

2
Как сделать правильные выводы из «больших данных»?
«Большие данные» повсюду в СМИ. Все говорят, что «большие данные» - это большая вещь для 2012 года, например, опрос KDNuggets на горячие темы 2012 года . Однако у меня есть глубокие опасения здесь. С большими данными, все , кажется , чтобы быть счастливым только , чтобы получить что - нибудь …

5
Поднимите меру в интеллектуальном анализе данных
Я искал много сайтов, чтобы знать, что именно будет делать лифт? Все результаты, которые я обнаружил, касались его использования в приложениях, а не в самом себе. Я знаю о функции поддержки и доверия. Из Википедии, в области интеллектуального анализа данных, лифт является мерой эффективности модели при прогнозировании или классификации случаев, …

5
Думайте как байесовский, проверяйте как частый человек: что это значит?
Я смотрю на слайды лекций по курсу науки о данных, которые можно найти здесь: https://github.com/cs109/2015/blob/master/Lectures/01-Introduction.pdf Я, к сожалению, не вижу видео для этой лекции, и в какой-то момент на слайде у докладчика есть следующий текст: Некоторые ключевые принципы Думай как байесовский, проверяй как частый (примирение) Кто-нибудь знает, что это на …

3
Почему существует разница между ручным вычислением 95-процентного доверительного интервала и использованием функции confint () в R?
Дорогие, я заметил нечто странное, что не могу объяснить, не так ли? В итоге: ручной подход к вычислению доверительного интервала в модели логистической регрессии и функция R confint()дают разные результаты. Я проходил Прикладную логистическую регрессию Хосмера и Лемешоу (2-е издание). В 3-й главе приведен пример расчета отношения шансов и 95% …
34 r  regression  logistic  confidence-interval  profile-likelihood  correlation  mcmc  error  mixture  measurement  data-augmentation  r  logistic  goodness-of-fit  r  time-series  exponential  descriptive-statistics  average  expected-value  data-visualization  anova  teaching  hypothesis-testing  multivariate-analysis  r  r  mixed-model  clustering  categorical-data  unsupervised-learning  r  logistic  anova  binomial  estimation  variance  expected-value  r  r  anova  mixed-model  multiple-comparisons  repeated-measures  project-management  r  poisson-distribution  control-chart  project-management  regression  residuals  r  distributions  data-visualization  r  unbiased-estimator  kurtosis  expected-value  regression  spss  meta-analysis  r  censoring  regression  classification  data-mining  mixture 

6
Интеллектуальный анализ данных: как мне найти функциональную форму?
Мне любопытно , повторяемых процедур , которые могут быть использованы , чтобы обнаружить функциональную форму функции , y = f(A, B, C) + error_termгде мой единственный вход множество наблюдений ( y, A, Bи C). Обратите внимание, что функциональная форма fнеизвестна. Рассмотрим следующий набор данных: AA BB CC DD EE FF …

1
Относительная важность переменной для повышения
Я ищу объяснение того, как относительная важность переменной вычисляется в деревьях с градиентным усилением, которое не является слишком общим / упрощенным, например: Измерения основаны на количестве раз, которое переменная была выбрана для расщепления, взвешенной по квадрату улучшения модели в результате каждого расщепления и усредненном по всем деревьям . [ Элит …

1
Есть ли статистические уроки из эпизода «Библейский кодекс»?
Хотя этот вопрос несколько субъективен, я надеюсь, что в соответствии с рекомендациями часто задаваемых вопросов он квалифицируется как хороший субъективный вопрос . Это основано на вопросе, который Олле Хэггстрем задал мне год назад, и хотя у меня есть некоторые мысли по этому поводу, у меня нет определенного ответа, и я …

8
Какие предметы по математике вы бы предложили для подготовки данных и машинного обучения?
Я пытаюсь составить самостоятельную учебную программу по математике, чтобы подготовиться к изучению интеллектуального анализа данных и машинного обучения. Это мотивировано тем, что я начал курс машинного обучения Эндрю Нга на Coursera и почувствовал, что перед тем, как продолжить, мне нужно улучшить свои математические навыки. Я недавно закончил колледж, так что …

2
Почему p-значения вводят в заблуждение после пошагового выбора?
Давайте рассмотрим, например, модель линейной регрессии. Я слышал, что в процессе интеллектуального анализа данных после выполнения пошагового выбора на основе критерия AIC вводить в заблуждение взгляды на p-значения для проверки нулевой гипотезы о том, что каждый истинный коэффициент регрессии равен нулю. Я слышал, что следует рассматривать все переменные, оставшиеся в …

1
Разница между стандартным и сферическим алгоритмами k-средних
Я хотел бы понять, в чем заключается основная разница между стандартными и сферическими алгоритмами кластеризации k-средних. На каждом шаге k-means вычисляет расстояния между векторами элементов и центроидами кластера и переназначает документ этому кластеру, центроид которого является ближайшим. Затем все центроиды пересчитываются. В сферических k-средних все векторы нормированы, а мера расстояния …

9
Программное обеспечение для статистики и интеллектуального анализа данных для работы с большими наборами данных
В настоящее время мне нужно проанализировать около 20 миллионов записей и построить модели прогнозирования. До сих пор я опробовал Statistica, SPSS, RapidMiner и R. Среди них Statistica кажется наиболее подходящим для работы с интеллектуальным анализом данных, а пользовательский интерфейс RapidMiner также очень удобен, но кажется, что Statistica, RapidMiner и SPSS …

7
Каков распорядок дня ученого-машиностроителя?
Я магистрант CS в немецком университете, сейчас пишу свою диссертацию. Я закончу через два месяца, и мне придется принять очень трудное решение, если я продолжу работу над докторской диссертацией или найду работу в отрасли. Мои причины для получения докторской степени: Я очень любопытный человек , и я чувствую , что …

3
LSA против PCA (кластеризация документов)
Я изучаю различные методы, используемые в кластеризации документов, и я хотел бы прояснить некоторые сомнения, касающиеся PCA (анализ главных компонентов) и LSA (скрытый семантический анализ). Первое - какие различия между ними? Я знаю, что в PCA декомпозиция SVD применяется к матрице терминов-ковариаций, в то время как в LSA это матрица …

3
Какова мера точности данных с несколькими метками?
Рассмотрим сценарий, в котором вам предоставляются матрицы KnownLabel и PredictedLabel. Я хотел бы измерить качество матрицы PredictedLabel по сравнению с матрицей KnownLabel. Но проблема здесь заключается в том, что в KnownLabel Matrix есть несколько строк, только одна 1, а в других нескольких строках есть много 1 (эти экземпляры имеют несколько …

2
В чем разница между функцией потерь и функцией принятия решений?
Я вижу, что обе функции являются частью методов интеллектуального анализа данных, таких как Gradient Boosting Regressors. Я вижу, что это тоже отдельные объекты. Каковы отношения между обоими в целом?

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.