Вопросы с тегом «feature-selection»

Методы и принципы выбора подмножества атрибутов для использования в дальнейшем моделировании

1
В каких реализациях требуется масштабирование переменных (возможностей) и нормализация (настройка) переменных деревьев решений?
Во многих алгоритмах машинного обучения масштабирование функций (или переменное масштабирование, нормализация) является обычным этапом предварительной обработки. Википедия - Масштабирование функций - этот вопрос был близким Вопрос № 41704 - Как и почему работают нормализация и масштабирование функций? У меня есть два вопроса, особенно в отношении деревьев решений: Существуют ли какие-либо …

3
Должен ли выбор функций выполняться только для данных обучения (или всех данных)?
Должен ли выбор функций выполняться только для данных обучения (или всех данных)? Я прошел через некоторые обсуждения и документы, такие как Guyon (2003) и Singhi and Liu (2006) , но все еще не был уверен в правильном ответе. Моя экспериментальная установка выглядит следующим образом: Набор данных: 50 здоровых контрольных пациентов …

1
Как LASSO выбирает среди коллинеарных предикторов?
Я ищу интуитивно понятный ответ, почему модель GLM LASSO выбирает конкретный предиктор из группы сильно коррелированных и почему это делает иначе, чем выбор лучшего подмножества. Исходя из геометрии LASSO, показанной на рис. 2 в Tibshirani 1996, я считаю, что LASSO выбирает предиктор с большей дисперсией. Теперь предположим, что я использую …

3
Выбор функций с использованием взаимной информации в Matlab
Я пытаюсь применить идею взаимной информации к выбору функций, как описано в этих примечаниях к лекции (на странице 5). Моя платформа - Matlab. Одна проблема, которую я нахожу при вычислении взаимной информации из эмпирических данных, состоит в том, что число всегда смещено вверх. Я нашел около 3 ~ 4 разных …

1
Работа с очень большими наборами данных временных рядов
У меня есть доступ к очень большому набору данных. Данные взяты из записей MEG людей, слушающих музыкальные отрывки из одного из четырех жанров. Данные следующие: 6 предметов 3 экспериментальных повторения (эпохи) 120 испытаний за эпоху 8 секунд данных на испытание при 500 Гц (= 4000 отсчетов) по 275 каналам MEG …

4
Есть ли способ использовать перекрестную проверку для выбора переменных / признаков в R?
У меня есть набор данных с около 70 переменных, которые я хотел бы сократить. Я хочу использовать CV, чтобы найти наиболее полезные переменные следующим образом. 1) Случайно выберите, скажем, 20 переменных. 2) Используйте stepwise/ LASSO/ lars/ etc для выбора наиболее важных переменных. 3) Повторите ~ 50x и посмотрите, какие переменные …

4
Улучшение SVM классификации диабета
Я использую SVM для прогнозирования диабета. Я использую набор данных BRFSS для этой цели. Набор данных имеет размеры и искажен. Процент s в целевой переменной составляет тогда как s составляют оставшиеся .432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% Я использую только 15из 136независимых переменных из набора данных. Одна из причин …

2
Лучшие методы выбора признаков для непараметрической регрессии
Вопрос новичка здесь. В настоящее время я выполняю непараметрическую регрессию, используя пакет np в R. У меня есть 7 функций, и я использую метод грубой силы, я определил лучшие 3. Но скоро у меня будет гораздо больше, чем 7 функций! Мой вопрос заключается в том, каковы в настоящее время лучшие …

1
Как количественно оценить избыточность функций?
У меня есть три функции, которые я использую для решения проблемы классификации. Первоначально эти функции создавали логические значения, поэтому я мог оценить их избыточность, посмотрев, насколько перекрываются наборы положительных и отрицательных классификаций. Теперь я расширил возможности для получения реальных значений (баллов), и я хотел бы снова проанализировать их избыточность, но …

3
Определение отфильтрованных объектов после выбора функции с помощью Scikit Learn.
Вот мой код для выбора метода в Python: from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) Но после получения нового X (зависимая переменная - X_new), как узнать, какие переменные удалены …


3
Как уменьшить предикторы правильным способом для модели логистической регрессии
Поэтому я читал некоторые книги (или их части) по моделированию (в частности, «Стратегии регрессионного моделирования» Ф. Харрелла), поскольку моя текущая ситуация сейчас заключается в том, что мне нужно создать логистическую модель, основанную на данных двоичного отклика. У меня есть как непрерывные, категориальные, так и двоичные данные (предикторы) в моем наборе …

3
Выбор байесовской модели и вероятный интервал
У меня есть набор данных с тремя переменными, где все переменные являются количественными. Давайте назовем это , и . Я подгоняю регрессионную модель в байесовской перспективе через MCMC сх 1 х 2yyyx1x1x_1x2x2x_2rjags Я сделал предварительный анализ, и график рассеяния подсказывает, что следует использовать квадратичный термин. Тогда я установил две моделиy×x2y×x2y\times …

3
Выбор функций с использованием глубокого обучения?
Я хочу рассчитать важность каждой входной функции, используя глубокую модель. Но я нашел только одну статью о выборе функций с использованием глубокого обучения - глубокий выбор функций . Они вставляют слой узлов, связанных с каждым объектом, непосредственно перед первым скрытым слоем. Я слышал, что сеть глубокого убеждения (DBN) также может …

2
На самом деле это нормально, чтобы выполнить неконтролируемый выбор функции перед перекрестной проверкой?
В «Элементах статистического обучения» я нашел следующее утверждение: Существует одна квалификация: начальные неконтролируемые этапы скрининга могут быть выполнены до того, как образцы будут опущены. Например, мы могли бы выбрать 1000 предикторов с наибольшей дисперсией во всех 50 выборках перед началом перекрестной проверки. Поскольку эта фильтрация не включает метки классов, она …

Используя наш сайт, вы подтверждаете, что прочитали и поняли нашу Политику в отношении файлов cookie и Политику конфиденциальности.
Licensed under cc by-sa 3.0 with attribution required.