Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

2
Как предсказать, когда произойдет следующее событие, основываясь на времени предыдущих событий?
Я учусь в старших классах и работаю над проектом по программированию, но у меня нет большого опыта в области статистики и моделирования данных, кроме курса по статистике в старших классах, поэтому я немного растерялся. По сути, у меня есть достаточно большой список (предположим, он достаточно большой, чтобы соответствовать предположениям для …

7
Смещенные данные в машинном обучении
Я работаю над проектом машинного обучения с данными, которые уже (сильно) смещены при выборе данных. Предположим, у вас есть набор жестко закодированных правил. Как вы строите модель машинного обучения, чтобы заменить ее, когда все данные, которые она может использовать, являются данными, которые уже были отфильтрованы по этим правилам? Чтобы прояснить …

3
Когда полезна интерактивная визуализация данных?
Готовясь к выступлению, которое я скоро дам, я недавно начал копаться в двух основных (бесплатных) инструментах для интерактивной визуализации данных: GGobi и mondrian - оба предлагают широкий спектр возможностей (даже если они немного глючат). Я хочу попросить вас помочь в формулировании (как для себя, так и для моей будущей аудитории). …

2
При каких условиях машины повышения градиента превосходят случайные леса?
Может ли машина повышения градиента Фридмана достичь лучшей производительности, чем «Случайный лес» Бреймана ? Если да, то в каких условиях или какой набор данных может сделать gbm лучше?

2
учебные подходы для сильно несбалансированного набора данных
У меня очень несбалансированный набор тестовых данных. Положительный набор состоит из 100 случаев, а отрицательный - 1500 случаев. Что касается обучения, у меня больше кандидатов: в наборе положительных тренировок 1200 случаев, а в наборе отрицательных - 12000 случаев. Для такого сценария у меня есть несколько вариантов: 1) Использование взвешенного SVM …

3
Что такое смешивание данных?
Этот термин часто встречается в темах, связанных с методом . Является ли смешивание конкретным методом в интеллектуальном анализе данных и статистическом обучении? Я не могу получить соответствующий результат от Google. Кажется, смешивание смешивает результаты многих моделей и приводит к лучшему результату. Есть ли какой-нибудь ресурс, который поможет мне узнать больше …

10
Обзор программных инструментов интеллектуального анализа данных
Несмотря на то, что я получил образование инженера, я обнаружил, что все больше интересуюсь данными. Прямо сейчас я пытаюсь исследовать область далее. В частности, я хотел бы понять различные категории программных инструментов, которые существуют, и какие инструменты известны в каждой категории и почему. (Обратите внимание, что я не сказал «лучшие» …

4
Значение скрытых черт?
Я пытаюсь понять модели матричной факторизации для рекомендательных систем и всегда читаю «скрытые функции», но что это значит? Я знаю, что означает особенность для учебного набора данных, но я не могу понять идею скрытых возможностей. Каждая статья по теме, которую я могу найти, слишком мелкая. Редактировать: если вы хотя бы …

1
Разница между логистической регрессией и машинами опорных векторов?
Я знаю, что логистическая регрессия находит гиперплоскость, которая разделяет тренировочные образцы. Я также знаю, что опорные векторные машины находят гиперплоскость с максимальным запасом. Мой вопрос: есть ли разница между логистической регрессией (LR) и машинами опорных векторов (SVM) в том, что LR находит любую гиперплоскость, которая разделяет обучающие выборки, в то …

3
Почему мы используем k-средства вместо других алгоритмов?
Я исследовал k-means, и вот что я получил: k-means - это один из самых простых алгоритмов, который использует неконтролируемый метод обучения для решения известных проблем кластеризации. Это работает очень хорошо с большими наборами данных. Однако есть и недостатки K-Means, которые: Сильная чувствительность к выбросам и шуму Не очень хорошо работает …

2
Модель производительности в квантовом моделировании
Я использую квантильную регрессию (например, через gbmили quantregв R) - фокусируюсь не на медиане, а на верхнем квантиле (например, 75-й). Исходя из опыта прогнозного моделирования, я хочу измерить, насколько хорошо модель вписывается в набор тестов, и иметь возможность описать это для бизнес-пользователя. Мой вопрос как? В типичной обстановке с непрерывной …

3
Блок-схемы, помогающие выбрать правильную методику анализа и тестирования
Как человек, который нуждается в статистических знаниях, но не является формально обученным статистиком, я бы счел полезным иметь блок-схему (или какое-то дерево решений), чтобы помочь мне выбрать правильный подход для решения конкретной проблемы (например, " нужно ли это и знать то и то и считать ли данные нормально распределенными? Используйте …


3
Разница между факторизационными машинами и матричной факторизацией?
Я сталкивался с термином «Машины факторизации» в рекомендательных системах. Я знаю, что такое матричная факторизация для рекомендательных систем, но никогда не слышала о факторизационных машинах. Так в чем же разница?

2
Математика за деревьями классификации и регрессии
Может ли кто-нибудь помочь объяснить некоторые математические основы классификации в CART? Я смотрю, чтобы понять, как происходит два основных этапа. Например, я обучил классификатор CART на наборе данных и использовал тестовый набор данных, чтобы отметить его прогнозную производительность, но: Как выбрать начальный корень дерева? Почему и как формируется каждая отрасль? …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.