การทดสอบไคสแควร์เป็นการทดสอบทางสถิติของความเป็นอิสระเพื่อตรวจสอบการพึ่งพาของตัวแปรสองตัว มันแบ่งปันความคล้ายคลึงกันกับสัมประสิทธิ์การตัดสินใจ, R² อย่างไรก็ตามการทดสอบไคสแควร์สามารถใช้ได้กับข้อมูลที่เป็นหมวดหมู่หรือที่ระบุเท่านั้นในขณะที่R²สามารถใช้ได้กับข้อมูลตัวเลขเท่านั้น
จากความหมายของไคสแควร์เราสามารถสรุปการประยุกต์ใช้เทคนิคไคสแควร์ในการเลือกคุณสมบัติได้อย่างง่ายดาย สมมติว่าคุณมีตัวแปรเป้าหมาย (เช่นป้ายกำกับคลาส) และคุณสมบัติอื่น ๆ (ตัวแปรคุณลักษณะ) ที่อธิบายตัวอย่างแต่ละตัวอย่างของข้อมูล ตอนนี้เราคำนวณสถิติไคสแควร์ระหว่างตัวแปรฟีเจอร์และตัวแปรเป้าหมายและสังเกตการมีอยู่ของความสัมพันธ์ระหว่างตัวแปรและเป้าหมาย หากตัวแปรเป้าหมายนั้นไม่ขึ้นอยู่กับตัวแปรฟีเจอร์เราสามารถยกเลิกตัวแปรคุณลักษณะนั้นได้ หากขึ้นอยู่กับตัวแปรคุณลักษณะนั้นสำคัญมาก
รายละเอียดทางคณิตศาสตร์อธิบายไว้ที่นี่: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html
สำหรับตัวแปรต่อเนื่องไคสแควร์สามารถนำไปใช้หลังจาก "Binning" ตัวแปร
ตัวอย่างใน R คัดลอกมาจาก FSelector อย่างไร้ยางอาย
# Use HouseVotes84 data from mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)
#Calculate the chi square statistics
weights<- chi.squared(Class~., HouseVotes84)
# Print the results
print(weights)
# Select top five variables
subset<- cutoff.k(weights, 5)
# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)
ไม่เกี่ยวข้องกับการเลือกคุณสมบัติมากนัก แต่วิดีโอด้านล่างพูดถึง chisquare โดยละเอียดhttps://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8