Разница между выбором признаков на основе «F-регрессии» и на основе значений

Использует ли сравнение элементов F-regressionто же самое, что и сопоставление элементов с меткой по отдельности и соблюдение значения ? $R^2$

Я часто видел, как мои коллеги использовали F regressionдля выбора функций в своем конвейере машинного обучения из sklearn:

sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)`

Некоторые, пожалуйста, скажите мне - почему это дает те же результаты, что и просто корреляция с меткой / зависимой переменной?

Мне не понятно преимущество использования F_regressionпри выборе функции.

Вот мой код: я использую mtcarsнабор данных из R:

import pandas as pd
import numpy as np
from sklearn import feature_selection
from sklearn.linear_model import LinearRegression

#....load mtcars dataset into a pandas dataframe called "df", not shown here for conciseness

# only using these numerical columns as features ['mpg', 'disp', 'drat', 'wt']
# using this column as the label:  ['qsec']

model = feature_selection.SelectKBest(score_func=feature_selection.f_regression,\
                                      k=4)

results = model.fit(df[columns], df['qsec'])

print results.scores_
print results.pvalues_

# Using just correlation coefficient:

columns = ['mpg', 'disp', 'drat', 'wt']
for col in columns:
    lm = LinearRegression(fit_intercept=True)
    lm.fit(df[[col]], df['qsec'])
    print lm.score(df[[col]], df['qsec'])

Как и предполагалось, рейтинг функций точно такой же:

scores using f_regression:

[ 6.376702    6.95008354  0.25164249  0.94460378]


 scores using coefficient of determination:

0.175296320261  
0.18809385182
0.00831830818303
0.0305256382746

Как видите, вторая функция имеет самый высокий рейтинг, первая функция - вторая, четвертая функция - третья, а третья функция - последняя, в обоих случаях.

Был ли когда-нибудь случай, когда F_regressionон давал бы разные результаты или каким-то образом оценивал бы функции по-другому?

РЕДАКТИРОВАТЬ: Подводя итог, я хотел бы знать, дают ли эти два рейтинга функций когда-либо разные результаты:

1) ранжирование функций по их F-статистике при регрессии их с результатами по отдельности (это то, что делает sklearn) И,

2) ранжирование элементов по их R-квадрату при регрессии их с результатом, опять же индивидуально.

— Hunle
источник

ТАК пошел вниз сразу после того, как я отправил это, которое, я уверен, повредило шансы того, что это получит какое-либо внимание.

— Hunle

Ваш вопрос содержит термин «F-регрессия». Что это такое и чем оно отличается от регрессии? ... (Правка :) Что-то происходит со мной только сейчас: вы имеете в виду F-тест (или, возможно, просто F-статистику) для общей регрессии против ноль-ноль (т. Е. Только перехват)?

— Glen_b

Я имею в виду F-тест. В регрессии F-тест и, следовательно, F-статистика используются для проверки нулевой гипотезы об отсутствии связи между регрессором и результатом / меткой. sklearnназывает это F-регрессией, которая, возможно, немного вводит в заблуждение, поскольку на самом деле это тест. scikit-learn.org/stable/modules/generated/…

— Hunle

Ваш комментарий предполагает, что у вас есть только одна переменная регрессора (в таком случае, почему вы говорите о выборе объектов?)

— Glen_b

Не могли бы вы отредактировать это объяснение в своем вопросе?

— Glen_b

Ответы:

TL: DR

Не будет никакой разницы, если F-regressionпросто вычислить статистику F и выбрать лучшие функции. Может быть разница в рейтинге, если предположить F-regression, что:

$M_0$
$M_1$
$M_2$ $M_1$

Поскольку корреляция не будет одинаковой на каждой итерации. Но вы все равно можете получить этот рейтинг, просто вычислив корреляцию на каждом шаге, так почему же F-regressionтребуется дополнительный шаг? Это делает две вещи:

$k$
$p$ F-regression

Что такое F-тест

$M_0$ $M_1$ $M_0$ $M_1$ $M_0$ $p$

Для этого он использует остаточную сумму квадратов в качестве меры погрешности и сравнивает уменьшение погрешности с числом добавленных переменных и количеством наблюдений (более подробную информацию о Википедии ). Ожидается, что добавление переменных, даже если они являются абсолютно случайными, всегда поможет модели снизить погрешность путем добавления другого измерения. Цель состоит в том, чтобы выяснить, действительно ли новые функции полезны или они являются случайными числами, но все же помогают модели, поскольку они добавляют измерение.

Что f_regressionделать

Обратите внимание, что я не знаком с реализацией Scikit Learn, но давайте попробуем выяснить, что f_regressionделает. В документации говорится, что процедура является последовательной. Если слово sequential означает то же самое, что и в других статистических пакетах, таких как Matlab Sequential Feature Selection , я ожидаю, что оно будет продолжаться:

$M_0$
$M_1$
$M_2$ $M_1$

Сейчас я думаю, что это достаточно близкое приближение, чтобы ответить на ваш вопрос; есть ли разница между ранжированием f_regressionи ранжированием по корреляции.

$M_0$ $M_1$ f_regression $M_0$ $M_1$ $M_2$

$x_1, x_2, x_3$ $x_1$ $x_2$ $y$ $x_3$ $y$ $x_1$ $x_2$ $x_1$ $M_1$ $x_2$ $x_3$ $M_2$ $x_2$ $x_3$ $y$ $x_1$ $x_2$

$M_0$ f_regression

$p$ $k$

Дополнительные материалы: вот введение в F-тест , которое может оказаться полезным

— подмигивает
источник

Хорошо, теперь я вижу, как этот метод выбора функций может защитить от мультиколлинеарности. Я полагаю, что если я запускаю что-то вроде случайного леса, который не так подвержен мультиколлинеарности, то этот метод выбора функции может быть не применим. спасибо @Winks

— Hunle

Остерегайтесь использования корреляции только в качестве меры важности признаков. Он измеряет линейную зависимость между переменными и говорит вам, что функция (может быть) хороша для линейной модели. Это не предположение, которое вы можете сделать для случайного леса, поскольку деревья могут изучать гораздо больше, чем линейные отношения. Корреляция - это еще не все (см. Anscombe Dataset (Википедия) .

— Winks

Что за « небольшая проблема с p-значениями », на которую вы ссылаетесь? И есть ли проблема множественных сравнений, так как мы каждый раз тестируем одни и те же данные?

— Hunle

M_{2}

$M_2$

R^{2}

$R^2$

$p$

Я потратил некоторое время на просмотр исходного кода Scikit , чтобы понять, что f_regressionпроисходит, и я хотел бы опубликовать свои наблюдения здесь.

Первоначальный вопрос был:

Q : Дает ли SelectKBest(f_regression, k = 4)тот же результат, что и использование LinearRegression(fit_intercept=True)и выбор первых 4 функций с наивысшими оценками?

Ответ - да . Более того, относительный порядок, заданный баллами, одинаков.

f_regression $X$ $y$ $X[:, i]$ $y$

ρ_{i} = \frac{(X [:, i] - m e a n (X [:, i])) * (y - m e a n (y))}{s t d (X [:, i]) * s t d (y)} .

$\rho_i = \frac{(X[:, i] - mean(X[:, i])) * (y - mean(y))}{std(X[:, i]) * std(y)}.$

F_{i} = \frac{ρ_{i}^{2}}{1 - ρ_{i}^{2}} * (n - 2),

$F_i = \frac{\rho_i^2}{1 - \rho_i^2}*(n-2),$

n = l e n (y)

$n = len(y)$ centerFalse

n - 1

$n-1$ SelectKBest

k

$k$

X

$X$ с самыми высокими баллами. Здесь нет последовательного приложения или чего-либо еще, и значения p также не используются.

$R_i^2$ LinearRegression $X[:, i]$ $y$ $R_i^2 = \rho_i^2$

R_{i}^{2} < R_{j}^{2} \Leftrightarrow \frac{ρ_{i}^{2}}{1 - ρ_{i}^{2}} < \frac{ρ_{j}^{2}}{1 - ρ_{j}^{2}} \Leftrightarrow F_{i} < F_{j} .

$R_i^2 < R_j^2 \Leftrightarrow \frac{\rho_i^2}{1 - \rho_i^2} < \frac{\rho_j^2}{1 - \rho_j^2} \Leftrightarrow F_i < F_j.$ f_regressionLinearRegressionSelectKBest

— user43451
источник

Вау, так что `SelectKBest` не строит модель последовательно.

— Hunle

Для чего это стоит, я согласен с интерпретацией user43451. И я хотел бы, чтобы sklearn просто назвал бы это корреляционным рейтингом отдельных функций. F-test, для меня, вводит понятие последовательных моделей, на которое ссылается Winks в своем принятом ответе.

— MrDrFenner