Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

2
Выбор объектов со случайными лесами
У меня есть набор данных с в основном финансовыми переменными (120 функций, 4k примеров), которые в основном сильно коррелированы и очень шумные (например, технические индикаторы), поэтому я хотел бы выбрать около 20-30 максимум для последующего использования с обучением модели (бинарная классификация) - увеличение уменьшение). Я думал об использовании случайных лесов …

4
Низкая точность классификации, что делать дальше?
Итак, я новичок в области ОД и пытаюсь провести некоторую классификацию. Моя цель - предсказать исход спортивного события. Я собрал некоторые исторические данные и сейчас пытаюсь обучить классификатор. Я получил около 1200 сэмплов, 0,2 из которых я разделил для целей тестирования, другие я включил в поиск по сетке (включая перекрестную …

4
Text Mining: как кластеризовать тексты (например, новостные статьи) с помощью искусственного интеллекта?
Я построил некоторые нейронные сети (MLP (полностью подключенные), Elman (рекуррентные)) для различных задач, таких как игра в понг, классификация рукописных цифр и прочее ... Кроме того, я попытался создать несколько первых сверточных нейронных сетей, например, для классификации многозначных рукописных заметок, но я совершенно новичок в анализе и кластеризации текстов, например, …

1
Уменьшение Джини и примеси Джини у детей
Я работаю над критерием важности функции Джини для случайного леса. Следовательно, мне нужно рассчитать уменьшение Джини примеси в узле. Вот как я это делаю, что приводит к конфликту с определением, предполагающим, что я где-то ошибаюсь ... :) Для бинарного дерева и с учетом вероятностей левого и правого потомков я могу …

2
LASSO / LARS против общего к специфическому (GETS) методу
Мне было интересно, почему методы выбора моделей LASSO и LARS так популярны, даже если они в основном представляют собой просто варианты пошагового прямого выбора (и, следовательно, страдают от зависимости пути)? Точно так же, почему методы General to Specific (GETS) для выбора модели в основном игнорируются, даже если они работают лучше, …

5
Применение методов машинного обучения в небольших выборочных клинических исследованиях.
Что вы думаете о применении методов машинного обучения, таких как случайные леса или штрафная регрессия (со штрафом L1 или L2 или их комбинацией) в небольших выборочных клинических исследованиях, когда цель состоит в том, чтобы выделить интересные предикторы в контексте классификации? Это не вопрос выбора модели, и я не спрашиваю, как …

3
Для линейных классификаторов, большие коэффициенты подразумевают более важные особенности?
Я инженер-программист, работающий над машинным обучением. Насколько я понимаю, линейная регрессия (например, OLS) и линейная классификация (например, логистическая регрессия и SVM) делают прогноз на основе внутреннего произведения между обучаемыми коэффициентами и характеристическими переменными :вес⃗ вес→\vec{w}Икс⃗ Икс→\vec{x} Y^= ф( ш⃗ ⋅ х⃗ ) = f( ∑явесяИкся)Y^знак равное(вес→⋅Икс→)знак равное(ΣявесяИкся) \hat{y} = f(\vec{w} …

2
Смешивать непрерывные и двоичные данные с линейным SVM?
Так что я играл с SVM, и мне интересно, хорошо ли это делать: У меня есть набор непрерывных функций (от 0 до 1) и набор категориальных функций, которые я преобразовал в фиктивные переменные. В этом конкретном случае я кодирую дату измерения в фиктивной переменной: У меня есть 3 периода, из …

1
Как именно работает выбор элемента хи-квадрат?
Я знаю, что для каждой пары классов пространственных объектов значение статистики хи-квадрат вычисляется и сравнивается с пороговым значением. Я немного смущен, хотя. Если имеется объектов и классов, как построить таблицу сопряженности? Как решить, какие функции оставить, а какие удалить?ммmККk Любое разъяснение будет высоко ценится. заранее спасибо

1
Какой метод множественного сравнения использовать для модели lmer: lsmeans или glht?
Я анализирую набор данных, используя модель смешанных эффектов с одним фиксированным эффектом (условием) и двумя случайными эффектами (участник из-за дизайна объекта и пары). Модель была сгенерирована с lme4пакетом: exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). Затем я выполнил тест отношения правдоподобия этой модели по сравнению с моделью без фиксированного эффекта (условия) и получил значительную разницу. В …

5
Лучше ли проводить анализ разведочных данных только на наборе обучающих данных?
Я делаю предварительный анализ данных (EDA) на наборе данных. Затем я выберу некоторые функции для прогнозирования зависимой переменной. Вопрос в том, должен ли я делать EDA только для своего набора данных для обучения? Или я должен объединить учебные и тестовые наборы данных, а затем выполнить EDA для них обоих и …

2
Разница между выбором признаков на основе «F-регрессии» и на основе значений
Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ?р2R2R^2 Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn: sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` Некоторые, пожалуйста, скажите мне - почему это дает те же результаты, что …

3
Выбор байесовской переменной - действительно ли это работает?
Я подумал, что могу поиграть с некоторыми байесовскими переменными, после хорошего поста в блоге и связанных с ним статей. Я написал программу на rjags (где я довольно новичок) и получил данные о ценах на Exxon Mobil, а также некоторые вещи, которые вряд ли могут объяснить его доходность (например, цены на …

1
Какой алгоритм прямой поэтапной регрессии?
Может быть, я просто устал, но у меня возникли проблемы при попытке понять алгоритм прямой поэтапной регрессии. Из раздела «Элементы статистического обучения», стр. 60: Прямая стадия регрессии (FS) еще более ограничена, чем прямая пошаговая регрессия. Он начинается как пошаговая регрессия вперед, с перехватом, равным [среднее значение] y, и центрированными предикторами …

1
ГАМ против проигрыша против сплайнов
Контекст : Я хочу , чтобы нарисовать линию в диаграмме рассеяния , что не появляется параметрическими, поэтому я использую geom_smooth()в ggplotв R. Он автоматически возвращает geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.