Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

2
Как я могу сгруппировать строки по общим темам?
Например, я пытаюсь сгруппировать строки о программировании с другими строками о программировании, строки о физике с другими строками о физике и т. Д. По широкому кругу тем. Несмотря на вопиющий теоретический лингвистический аспект проблемы, я собираюсь сделать это с помощью программирования / программного обеспечения. Краткое изложение: Учитывая большое количество строк, …

3
Первый быстрый взгляд на набор данных
Прошу прощения за мое невежество, но ... Я продолжаю оказываться в ситуации, когда сталкиваюсь с кучей новых данных, которые мне удалось найти. Эти данные обычно выглядят примерно так: Date Number1 Number2 Category1 Category2 20120125 11 101 Dog Brown 20120126 21 90 Cat Black 20120126 31 134 Cat Brown (...) Обычно …

1
Как я могу найти корреляции между сбоями и системными средами?
В свое свободное время я работаю над небольшой веб-системой, которая собирает отчеты о сбоях (но не о других, не сообщающих об ошибках), отправляемых из приложений Delphi для Windows. Для устранения неполадок пользователи хотели бы иметь функцию интеллектуального анализа данных, чтобы найти взаимосвязи между версиями оборудования или операционной системы и конкретной …

1
Документированные / воспроизводимые примеры успешного применения эконометрических методов в реальных условиях?
Этот вопрос может показаться очень широким, но вот что я ищу. Я знаю, что есть много прекрасных книг об эконометрических методах и много отличных пояснительных статей об эконометрических методах. Существуют даже превосходные воспроизводимые примеры эконометрики, как описано в этом перекрестном вопросе . На самом деле примеры в этом вопросе очень …

2
В чем разница между функциональным анализом данных и анализом многомерных данных
В статистической литературе имеется много ссылок на « функциональные данные » (то есть данные, которые являются кривыми), и параллельно, на « высокоразмерные данные » (то есть, когда данные являются векторами с высокой размерностью). Мой вопрос о разнице между этими двумя типами данных. Говоря о прикладных статистических методологиях, которые применяются в …

6
Сомнительное использование принципов обработки сигналов для определения тенденции
Я предлагаю попытаться найти тенденцию в некоторых очень шумных долгосрочных данных. Данные в основном представляют собой еженедельные измерения чего-то, что переместилось на 5 мм за период около 8 месяцев. Данные с точностью до 1 мм и очень шумные, регулярно меняются +/- 1 или 2 мм в неделю. У нас есть …

1
K-означает: сколько итераций в практических ситуациях?
У меня нет отраслевого опыта в области интеллектуального анализа данных или больших данных, поэтому я хотел бы услышать, как вы поделились своим опытом. Люди на самом деле используют k-means, PAM, CLARA и т. Д. В действительно большом наборе данных? Или они просто случайно выбирают из него образец? Если они просто …


1
R линейная регрессия категориальной переменной «скрытое» значение
Это всего лишь пример, с которым я сталкивался несколько раз, поэтому у меня нет примеров данных. Запуск модели линейной регрессии в R: a.lm = lm(Y ~ x1 + x2) x1является непрерывной переменной x2является категориальным и имеет три значения, например, «Низкий», «Средний» и «Высокий». Однако вывод, заданный R, будет выглядеть примерно …
10 r  regression  categorical-data  regression-coefficients  categorical-encoding  machine-learning  random-forest  anova  spss  r  self-study  bootstrap  monte-carlo  r  multiple-regression  partitioning  neural-networks  normalization  machine-learning  svm  kernel-trick  self-study  survival  cox-model  repeated-measures  survey  likert  correlation  variance  sampling  meta-analysis  anova  independence  sample  assumptions  bayesian  covariance  r  regression  time-series  mathematical-statistics  graphical-model  machine-learning  linear-model  kernel-trick  linear-algebra  self-study  moments  function  correlation  spss  probability  confidence-interval  sampling  mean  population  r  generalized-linear-model  prediction  offset  data-visualization  clustering  sas  cart  binning  sas  logistic  causality  regression  self-study  standard-error  r  distributions  r  regression  time-series  multiple-regression  python  chi-squared  independence  sample  clustering  data-mining  rapidminer  probability  stochastic-processes  clustering  binary-data  dimensionality-reduction  svd  correspondence-analysis  data-visualization  excel  c#  hypothesis-testing  econometrics  survey  rating  composite  regression  least-squares  mcmc  markov-process  kullback-leibler  convergence  predictive-models  r  regression  anova  confidence-interval  survival  cox-model  hazard  normal-distribution  autoregressive  mixed-model  r  mixed-model  sas  hypothesis-testing  mediation  interaction 


2
Оценка ошибки из пакета для повышения?
В Случайном Лесу каждое дерево растет параллельно на уникальной выборке данных Boostrap. Поскольку ожидается, что каждая выборка бустрапа будет содержать около 63% уникальных наблюдений, это оставляет примерно 37% наблюдений, которые можно использовать для тестирования дерева. Теперь, кажется , что в стохастической Градиент Активизации, существует также оценки похож на тот , …

2
Улавливают ли деревья CART взаимодействия между предикторами?
В этой статье утверждается, что в CART, поскольку двоичное разбиение выполняется в одной ковариате на каждом шаге, все разбиения являются ортогональными и, следовательно, взаимодействия между ковариатами не рассматриваются. Тем не менее, многие очень серьезные ссылки утверждают, напротив, что иерархическая структура дерева гарантирует, что взаимодействия между предикторами будут автоматически смоделированы (например, …

1
Выбор значения k для анализа обнаружения локального фактора выброса (LOF)
У меня есть набор трехмерных данных, и я пытаюсь использовать локальный анализ коэффициента выбросов, чтобы определить наиболее уникальные или странные значения. Как определить значение k для использования в анализе LOF? Я понимаю, что определяет значение k, и поэтому я не удивлен, что вижу несколько разные результаты, используя разные k, но …

1
Использование инструментов анализа текста / естественного языка для эконометрики
Я не уверен, является ли этот вопрос полностью уместным здесь, если нет, пожалуйста, удалите. Я аспирант по экономике. Для проекта, который исследует проблемы социального страхования, у меня есть доступ к большому количеству отчетов об административных делах (> 200 тыс.), Которые касаются оценки приемлемости. Эти отчеты могут быть связаны с индивидуальной …

5
Помогает ли предварительная кластеризация построить лучшую прогностическую модель?
Для задачи моделирования оттока я рассматривал: Вычислить k кластеров для данных Постройте k моделей для каждого кластера индивидуально. Основанием для этого является то, что нечего доказывать, что совокупность подписчиков однородна, поэтому разумно предположить, что процесс генерирования данных может быть различным для разных «групп». У меня вопрос, это подходящий метод? Это …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.