การเลือกคุณสมบัติ Chi-Square ทำงานอย่างไร


15

ฉันรู้ว่าสำหรับคู่ของฟีเจอร์คลาสแต่ละคู่ค่าของสถิติไคสแควร์จะถูกคำนวณและเปรียบเทียบกับขีด จำกัด

ฉันสับสนเล็กน้อย หากมีคุณสมบัติและคลาสหนึ่งจะสร้างตารางฉุกเฉินได้อย่างไร ใครจะเป็นผู้ตัดสินใจว่าจะเก็บฟีเจอร์ใดและฟีเจอร์ใดที่จะลบ?ม.k

การชี้แจงใด ๆ จะได้รับการชื่นชมมาก ขอบคุณล่วงหน้า


1
ความคิด / พอยน์เตอร์เกี่ยวกับคนนี้หรือไม่?
user721975

คำตอบ:


5

การทดสอบไคสแควร์เป็นการทดสอบทางสถิติของความเป็นอิสระเพื่อตรวจสอบการพึ่งพาของตัวแปรสองตัว มันแบ่งปันความคล้ายคลึงกันกับสัมประสิทธิ์การตัดสินใจ, R² อย่างไรก็ตามการทดสอบไคสแควร์สามารถใช้ได้กับข้อมูลที่เป็นหมวดหมู่หรือที่ระบุเท่านั้นในขณะที่R²สามารถใช้ได้กับข้อมูลตัวเลขเท่านั้น

จากความหมายของไคสแควร์เราสามารถสรุปการประยุกต์ใช้เทคนิคไคสแควร์ในการเลือกคุณสมบัติได้อย่างง่ายดาย สมมติว่าคุณมีตัวแปรเป้าหมาย (เช่นป้ายกำกับคลาส) และคุณสมบัติอื่น ๆ (ตัวแปรคุณลักษณะ) ที่อธิบายตัวอย่างแต่ละตัวอย่างของข้อมูล ตอนนี้เราคำนวณสถิติไคสแควร์ระหว่างตัวแปรฟีเจอร์และตัวแปรเป้าหมายและสังเกตการมีอยู่ของความสัมพันธ์ระหว่างตัวแปรและเป้าหมาย หากตัวแปรเป้าหมายนั้นไม่ขึ้นอยู่กับตัวแปรฟีเจอร์เราสามารถยกเลิกตัวแปรคุณลักษณะนั้นได้ หากขึ้นอยู่กับตัวแปรคุณลักษณะนั้นสำคัญมาก

รายละเอียดทางคณิตศาสตร์อธิบายไว้ที่นี่: http://nlp.stanford.edu/IR-book/html/htmledition/feature-selectionchi2-feature-selection-1.html

สำหรับตัวแปรต่อเนื่องไคสแควร์สามารถนำไปใช้หลังจาก "Binning" ตัวแปร

ตัวอย่างใน R คัดลอกมาจาก FSelector อย่างไร้ยางอาย

# Use HouseVotes84 data from  mlbench package
library(mlbench)# For data
library(FSelector)#For method
data(HouseVotes84)

#Calculate the chi square statistics 
weights<- chi.squared(Class~., HouseVotes84)

# Print the results 
print(weights)

# Select top five variables
subset<- cutoff.k(weights, 5)

# Print the final formula that can be used in classification
f<- as.simple.formula(subset, "Class")
print(f)

ไม่เกี่ยวข้องกับการเลือกคุณสมบัติมากนัก แต่วิดีโอด้านล่างพูดถึง chisquare โดยละเอียดhttps://www.youtube.com/watch?time_continue=5&v=IrZOKSGShC8

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.