Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

4
Как начать читать о майнинге данных?
Я новичок, который собирается начать читать о интеллектуальном анализе данных. У меня есть базовые знания по ИИ и статистике. Поскольку многие говорят, что машинное обучение также играет важную роль в интеллектуальном анализе данных, нужно ли читать о машинном обучении, прежде чем я смогу продолжить изучение данных?


2
Каковы известные, существующие практические применения теории хаоса в интеллектуальном анализе данных?
Случайно читая некоторые работы массового рынка по теории хаоса за последние несколько лет, я начал задаваться вопросом, как различные аспекты этого могут быть применены к интеллектуальному анализу данных и смежным областям, таким как нейронные сети, распознавание образов, управление неопределенностью и т. Д. На сегодняшний день я В опубликованном исследовании мы …

3
Случайный лес и усиление являются параметрическими или непараметрическими?
Прочитав отличное статистическое моделирование: две культуры (Breiman 2001) , мы можем использовать все различия между традиционными статистическими моделями (например, линейной регрессией) и алгоритмами машинного обучения (например, Bagging, Random Forest, Boosted trees ...). Брейман критикует модели данных (параметрические), потому что они основаны на предположении, что наблюдения генерируются известной формальной моделью, предписанной …

2
Как далеко зайдет самообучение?
Я никогда не участвовал в официальных или структурированных курсах анализа данных или машинного обучения (кроме недавних онлайн-предложений) и узнал большую часть того, что я знаю, читая и пробуя что-то. Я знаю, что далеко от возможности устроиться на работу. Мой вопрос не в том, что лучше ( например, в этом вопросе …

2
Пакетирование с передискретизацией для моделей с редкими событиями
Кто-нибудь знает, было ли описано следующее (и так или иначе), если это звучит как правдоподобный метод изучения прогностической модели с очень несбалансированной целевой переменной? Часто в CRM-приложениях интеллектуального анализа данных мы будем искать модель, в которой положительное событие (успех) очень редко по сравнению с большинством (отрицательный класс). Например, у меня …

2
Исследовательский анализ пространственно-временных ошибок прогноза
Данные: я недавно работал над анализом стохастических свойств пространственно-временного поля ошибок прогноза производства энергии ветра. Формально можно сказать, что это процесс индексируются дважды во времени (сtиh) и один раз в пространстве (p), гдеH- это количество времени просмотра вперед (равно примерно24, регулярно выбирается),T- это число «время прогноза» (т. е. время выдачи …

3
Нужно ли отбрасывать переменные, которые коррелированы / коллинеарны перед запуском kmeans?
Я использую kmeans для определения групп клиентов. У меня есть около 100 переменных для определения кластеров. Каждая из этих переменных представляет собой процент расходов клиента на категорию. Итак, если у меня есть 100 категорий, у меня есть эти 100 переменных, так что сумма этих переменных составляет 100% для каждого клиента. …

4
Лучшие способы агрегирования и анализа данных
Совсем недавно начав учить себя машинному обучению и анализу данных, я сталкиваюсь с необходимостью создавать и запрашивать большие наборы данных. Я хотел бы взять данные, которые я собирал в своей профессиональной и личной жизни, и проанализировать их, но я не уверен, как лучше сделать следующее: Как я должен хранить эти …

3
Идея сделать данные имеют среднее значение
Я часто вижу людей, делающих измерение / особенность набора данных нулевым средним, удаляя среднее из всех элементов. Но я так и не понял, зачем это делать? Каков эффект от этого в качестве шага предварительной обработки? Улучшает ли это эффективность классификации? Помогает ли это что-то ответить о наборе данных? Помогает ли …

5
Термин частота / обратная частота документа (TF / IDF): взвешивание
У меня есть набор данных, который представляет 1000 документов и все слова, которые появляются в нем. Таким образом, строки представляют документы, а столбцы представляют слова. Так, например, значение в ячейке обозначает время, когда слово встречается в документе(i,j)(i,j)(i,j)jjj . Теперь я должен найти «веса» слов, используя метод tf / idf, но …

3
Математическая база для интеллектуального анализа данных и алгоритмов искусственного интеллекта
Не могли бы вы дать мне некоторые разъяснения об алгоритмах интеллектуального анализа данных и искусственного интеллекта? Какую математическую базу они использовали? Не могли бы вы дать мне отправную точку в математике, чтобы понять эти типы алгоритмов?

1
Различия между PROC Mixed и lme / lmer в R - степени свободы
Примечание: этот вопрос является репостом, так как мой предыдущий вопрос пришлось удалить по юридическим причинам. Сравнивая PROC MIXED из SAS с функцией lmeиз nlmeпакета в R, я наткнулся на некоторые довольно запутанные различия. Более конкретно, степени свободы в разных тестах различаются между PROC MIXEDи lme, и я задавался вопросом, почему. …
12 r  mixed-model  sas  degrees-of-freedom  pdf  unbiased-estimator  distance-functions  functional-data-analysis  hellinger  time-series  outliers  c++  relative-risk  absolute-risk  rare-events  regression  t-test  multiple-regression  survival  teaching  multiple-regression  regression  self-study  t-distribution  machine-learning  recommender-system  self-study  binomial  standard-deviation  data-visualization  r  predictive-models  pearson-r  spearman-rho  r  regression  modeling  r  categorical-data  data-visualization  ggplot2  many-categories  machine-learning  cross-validation  weka  microarray  variance  sampling  monte-carlo  regression  cross-validation  model-selection  feature-selection  elastic-net  distance-functions  information-theory  r  regression  mixed-model  random-effects-model  fixed-effects-model  dataset  data-mining 

1
Как сформировать кривую Precision-Recall, когда у меня есть только одно значение для PR?
У меня есть задание по извлечению данных, где я создаю систему поиска изображений на основе контента. У меня 20 изображений 5 животных. Итак, всего 100 изображений. Моя система возвращает 10 наиболее релевантных изображений для входного изображения. Теперь мне нужно оценить производительность моей системы с помощью кривой Precision-Recall. Однако я не …

1
Связь между гессенской матрицей и ковариационной матрицей
Пока я изучаю оценку максимального правдоподобия, чтобы сделать вывод в оценке максимального правдоподобия, нам нужно знать дисперсию. Чтобы выяснить разницу, мне нужно знать нижнюю границу Рао Крамера, которая выглядит как гессианская матрица со вторым производным по кривизне. Я вроде как перепутал, чтобы определить связь между ковариационной матрицей и гессианской матрицей. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.