Критерий хи-квадрат является статистическим тестом независимости для определения зависимости двух переменных. Он имеет сходство с коэффициентом детерминации, R². Однако критерий хи-квадрат применим только к категориальным или номинальным данным, в то время как R² применим только к числовым данным.
Из определения хи-квадрат мы можем легко вывести применение техники хи-квадрат при выборе признаков. Предположим, у вас есть целевая переменная (т. Е. Метка класса) и некоторые другие функции (переменные функции), которые описывают каждую выборку данных. Теперь мы вычисляем статистику хи-квадрат между каждой переменной объекта и целевой переменной и наблюдаем наличие связи между переменными и целью. Если целевая переменная не зависит от переменной функции, мы можем отбросить эту переменную функции. Если они зависимы, переменная функции очень важна.
Математические детали описаны здесь: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
Для непрерывных переменных, хи-квадрат может быть применен после «Binning» переменных.
Пример в R, беспардонно скопирован с FSelector
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
Не имеет отношения к выбору функций, но в видео ниже подробно обсуждается chisquare https://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8