Вопросы с тегом «data-mining»

Data Mining использует методы из искусственного интеллекта в контексте базы данных для обнаружения ранее неизвестных моделей. Таким образом, методы обычно не контролируются. Это тесно связано, но не идентично машинному обучению. Ключевыми задачами интеллектуального анализа данных являются кластерный анализ, обнаружение выбросов и анализ правил ассоциации.

3
Отрицательное биномиальное распределение против биномиального распределения
В чем разница между отрицательным биномиальным распределением и биномиальным распределением? Я попытался читать онлайн, и обнаружил, что отрицательное биномиальное распределение используется, когда точки данных дискретны, но я думаю, что даже биномиальное распределение можно использовать для дискретных точек данных.

8
Выполнять K-средние (или их близкие родственники) кластеризацию только с матрицей расстояний, а не с данными по точкам
Я хочу выполнить кластеризацию K-средних на имеющихся у меня объектах, но объекты не описываются как точки в пространстве, то есть objects x featuresнабором данных. Тем не менее, я могу вычислить расстояние между любыми двумя объектами (оно основано на функции подобия). Итак, я избавляюсь от матрицы расстояний objects x objects. Я …

5
Новый революционный способ добычи данных?
Следующий отрывок взят из интервью Швагера «Рынок хедж-фондов Wizzards» (май 2012 года) с постоянно успешным менеджером хедж-фонда Джаффреем Вудриффом: На вопрос: «Каковы некоторые из худших ошибок, которые люди допускают при извлечении данных?»: Многие люди думают, что они в порядке, потому что они используют данные в выборке для обучения и данные …

3
Первый шаг для больших данных ( , )
Предположим, вы анализируете огромный набор данных из миллиардов наблюдений в день, где каждое наблюдение имеет несколько тысяч разреженных и, возможно, избыточных числовых и категориальных переменных. Скажем, есть одна проблема регрессии, одна проблема неуравновешенной двоичной классификации и одна задача «выяснить, какие предикторы являются наиболее важными». Моя мысль о том, как подойти …

4
Являются ли деревья решений почти всегда бинарными деревьями?
Почти каждый пример дерева решений, с которым я сталкивался, является двоичным деревом. Это в значительной степени универсально? Поддерживает ли большинство стандартных алгоритмов (C4.5, CART и т. Д.) Только двоичные деревья? Из того, что я понял , CHAID не ограничивается бинарными деревьями, но это, похоже, исключение. Двухстороннее разделение, сопровождаемое другим двусторонним …

2
Перекрестная проверка (обобщение ошибок) после выбора модели
Примечание: регистр n >> p Я читаю Элементы статистического обучения, и есть различные упоминания о «правильном» способе перекрестной проверки (например, стр. 60, стр. 245). В частности, мой вопрос заключается в том, как оценить итоговую модель (без отдельного набора тестов) с использованием k-кратного CV или начальной загрузки, когда был поиск модели? …

2
Если кластеризация k-средних является формой моделирования гауссовой смеси, можно ли ее использовать, когда данные не являются нормальными?
Я читаю Бишопа об алгоритме EM для GMM и взаимосвязи между GMM и k-means. В этой книге говорится, что k-means - это жестко заданная версия GMM. Мне интересно, означает ли это, что если данные, которые я пытаюсь кластеризовать, не являются гауссовыми, я не могу использовать k-means (или, по крайней мере, …

4
Как узнать, являются ли данные линейно разделимыми?
Данные имеют много функций (например, 100), а количество экземпляров равно 100 000. Данные редки. Я хочу соответствовать данным, используя логистическую регрессию или SVM. Как я узнаю, являются ли объекты линейными или нелинейными, чтобы я мог использовать трюк ядра, если он нелинейный?

2
Где и почему глубокое обучение сияет?
Со всеми разговорами в средствах массовой информации и шумихой о глубоком изучении в эти дни я прочитал некоторые элементарные вещи об этом. Я только что обнаружил, что это просто еще один метод машинного обучения для изучения шаблонов на основе данных. Но мой вопрос: где и почему этот метод светит? Почему …

2
Функция «Интерес» для вопросов StackExchange
Я пытаюсь собрать пакет сбора данных для сайтов StackExchange и, в частности, я застрял в попытке определить «самые интересные» вопросы. Я хотел бы использовать оценку вопроса, но убрать смещение из-за количества просмотров, но я не знаю, как к этому строго подходить. В идеальном мире я мог бы отсортировать вопросы, рассчитав …

1
Дистанционное наблюдение: под наблюдением, под наблюдением или оба?
«Дистанционный контроль» - это схема обучения, в которой классификатор обучается с использованием слабо маркированного обучающего набора (данные обучения автоматически маркируются на основе эвристики / правил). Я думаю, что как контролируемое обучение, так и полууправляемое обучение могут включать такое «дистанционное наблюдение», если их помеченные данные эвристически / автоматически помечены. Тем не …

2
Повышение: почему скорость обучения называется параметром регуляризации?
Параметр скорости обучения ( ) в Gradient Boosting сокращает вклад каждой новой базовой модели - обычно мелкого дерева - который добавляется в серию. Было показано, что резко повышается точность набора тестов, что понятно, так как при меньших шагах минимум функции потерь может быть достигнут более точно. ν∈ [ 0 , …

3
В чем практическая разница между правилами ассоциации и деревьями решений в интеллектуальном анализе данных?
Есть ли действительно простое описание практических различий между этими двумя методами? Похоже, что оба они используются для обучения под наблюдением (хотя правила ассоциации могут также обрабатывать без присмотра). Оба могут быть использованы для прогнозирования Самое близкое к «хорошему» описанию я нашел из учебника Statsoft . Они говорят, что Правила Ассоциации …

6
Программист хочет проникнуть в область машинного обучения
Я разработчик программного обеспечения (в основном .NET и Python около 5 лет опыта). Что я могу сделать, чтобы помочь мне получить работу в области машинного обучения или что-нибудь еще, что поможет мне начать работать в этой области? Является ли аспирантура жестким требованием?

6
В чем разница между сбором данных и статистическим анализом?
В чем разница между сбором данных и статистическим анализом? Для некоторого фона мое статистическое образование было, я думаю, довольно традиционным. Поставлен конкретный вопрос, разработано исследование, собраны и проанализированы данные, чтобы дать некоторое представление об этом вопросе. В результате я всегда скептически относился к тому, что я считал «углублением данных», т. …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.