Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

5
Как понять недостатки К-средних
K-means - широко используемый метод в кластерном анализе. В моем понимании, этот метод НЕ требует ЛЮБЫХ предположений, т. Е. Дает мне набор данных и заранее определенное количество кластеров, k, и я просто применяю этот алгоритм, который минимизирует сумму квадратов ошибок (SSE), в квадрате внутри кластера ошибка. Таким образом, k-means - …

12
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом?
В чем разница между сбором данных, статистикой, машинным обучением и искусственным интеллектом? Правильно ли будет сказать, что это 4 поля, пытающиеся решить очень похожие проблемы, но с разными подходами? Что именно у них общего и чем они отличаются? Если бы между ними была какая-то иерархия, что бы это было? Подобные …

4
Каппа Коэна на простом английском
Я читаю книгу по интеллектуальному анализу данных, в которой упоминается статистика Каппа как средство оценки эффективности прогнозирования классификаторов. Однако я просто не могу этого понять. Я также проверил Википедию, но это тоже не помогло: https://en.wikipedia.org/wiki/Cohen's_kappa . Как каппа Коэна помогает в оценке эффективности прогнозирования классификаторов? Что это говорит? Я понимаю, …

9
Получение знаний из случайного леса
Случайные леса считаются черными ящиками, но недавно я подумал, какие знания можно получить из случайного леса? Наиболее очевидной вещью является важность переменных, в простейшем варианте это можно сделать, просто рассчитав количество вхождений переменной. Второе, о чем я думал, это взаимодействие. Я думаю, что если количество деревьев достаточно велико, можно проверить …

11
Работать в области интеллектуального анализа данных без PhD
Некоторое время я был очень заинтересован в интеллектуальном анализе данных и машинном обучении , отчасти потому, что я специализировался в этой области в школе, а также потому, что я действительно гораздо более взволнован, пытаясь решить проблемы, которые требуют немного больше размышлений, чем просто программирование. знания и чье решение может иметь …

7
Евклидово расстояние обычно не хорошо для разреженных данных?
Я где-то видел, что классические расстояния (например, евклидово расстояние) становятся слабо дискриминирующими, когда у нас имеются многомерные и разреженные данные. Почему? У вас есть пример двух разреженных векторов данных, где евклидово расстояние не работает хорошо? В этом случае какое сходство мы должны использовать?

8
Навыки трудно найти в машинного обучения?
Кажется, что интеллектуальный анализ данных и машинное обучение стали настолько популярными, что теперь почти каждый студент CS знает о классификаторах, кластеризации, статистической НЛП ... и т. Д. Таким образом, кажется, что в настоящее время найти майнеры данных не сложно. Мой вопрос: какие навыки может извлечь майнер, который отличает его от …

8
Генерация случайной величины с определенной корреляцией с существующей переменной
Для исследования моделирования я должен генерировать случайные переменные , которые показывают prefined (населения) корреляцию с существующей переменной .YYY Я посмотрел на Rпакеты copulaи CDVineкоторые могут производить случайные многомерные распределения с заданной структурой зависимостей. Однако невозможно зафиксировать одну из результирующих переменных в существующей переменной. Любые идеи и ссылки на существующие функции …

2
Почему только три раздела? (обучение, проверка, тестирование)
Когда вы пытаетесь подогнать модели к большому набору данных, общий совет - разбить данные на три части: набор данных обучения, проверки и тестирования. Это связано с тем, что модели обычно имеют три «уровня» параметров: первый «параметр» - это класс модели (например, SVM, нейронная сеть, случайный лес), второй набор параметров - …

12
Программное обеспечение, необходимое для очистки данных от графика [закрыто]
У кого-нибудь есть опыт работы с программным обеспечением (желательно бесплатным, предпочтительно с открытым исходным кодом), которое будет снимать данные, нанесенные на декартовы координаты (стандартный, повседневный график), и извлекать координаты точек, нанесенных на график? По сути, это проблема интеллектуального анализа данных и обратная визуализация данных.

8
Актуальна ли выборка во время «больших данных»?
Или тем более "будет"? Большие данные делают статистику и релевантные знания еще более важными, но, похоже, не соответствуют теории выборки. Я видел эту шумиху вокруг «Больших данных» и не могу не задаться вопросом, «почему», я бы хотел все проанализировать ? Разве не было причины, по которой «Теория выборки» была разработана …

3
Есть ли у нас проблема «жалких голосов»?
Я знаю, это может звучать как не по теме, но выслушайте меня. В Stack Overflow и здесь мы получаем голоса за сообщения, все это хранится в табличной форме. Например: идентификатор сообщения идентификатор голосования тип голосования дата и время ------- -------- --------- -------- 10 1 2 2000-1-1 10:00:01 11 3 3 …

3
Кластеризация с K-Means и EM: как они связаны?
Я изучал алгоритмы кластеризации данных (обучение без учителя): EM и k-means. Я продолжаю читать следующее: К-среднее является вариантом EM, с предположениями, что кластеры являются сферическими. Может кто-нибудь объяснить вышеприведенное предложение? Я не понимаю, что означает сферическое, и как связаны kmeans и EM, поскольку одно выполняет вероятностное назначение, а другое - …


3
Чем отличаются скрытые марковские модели от нейронных сетей?
Я просто промочил статистику, поэтому извините, если этот вопрос не имеет смысла. Я использовал модели Маркова для прогнозирования скрытых состояний (нечестных казино, бросков игральных костей и т. Д.) И нейронных сетей для изучения кликов пользователей в поисковой системе. У обоих были скрытые состояния, которые мы пытались выяснить, используя наблюдения. Насколько …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.