ที่นี่ฉันถามเกี่ยวกับสิ่งที่คนอื่นทำกันโดยทั่วไปเพื่อใช้การทดสอบไคสแควร์สำหรับการเลือกคุณสมบัติ WRT ในการเรียนรู้แบบมีผู้สอน หากฉันเข้าใจอย่างถูกต้องพวกเขาจะทดสอบความเป็นอิสระระหว่างแต่ละคุณลักษณะและผลลัพธ์และเปรียบเทียบค่า p ระหว่างการทดสอบสำหรับแต่ละคุณลักษณะหรือไม่
ในhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
การทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบทางสถิติที่ใช้กับชุดของข้อมูลที่เป็นหมวดหมู่เพื่อประเมินว่ามีความเป็นไปได้ที่ความแตกต่างที่สังเกตได้ระหว่างเซตเกิดขึ้นโดยบังเอิญ
...
การทดสอบความเป็นอิสระประเมินว่าการสังเกตแบบจับคู่กับตัวแปรสองตัวที่แสดงในตารางฉุกเฉินหรือไม่นั้นเป็นอิสระจากกัน (เช่นการตอบแบบสำรวจจากคนต่างชาติเพื่อดูว่าสัญชาติของคนนั้นเกี่ยวข้องกับการตอบสนองหรือไม่)
ดังนั้นตัวแปรทั้งสองที่ต้องทดสอบความเป็นอิสระโดยการทดสอบจะต้องจัดหมวดหมู่หรือไม่ต่อเนื่อง (อนุญาตให้สั่งนอกเหนือจากหมวดหมู่) แต่ไม่ต่อเนื่องกัน?
จากhttp://scikit-learn.org/stable/modules/feature_selection.htmlพวกเขา
ดำเนินการทดสอบกับชุดข้อมูล irisเพื่อดึงเฉพาะคุณสมบัติที่ดีที่สุดสองอย่าง
ในชุดข้อมูล irisคุณลักษณะทั้งหมดเป็นตัวเลขและต่อเนื่องมูลค่าและผลลัพธ์คือเลเบลคลาส (หมวดหมู่) การทดสอบความเป็นอิสระของไคสแควร์นำไปใช้กับคุณลักษณะต่อเนื่องได้อย่างไร
ในการใช้การทดสอบความเป็นอิสระของไคสแควร์กับชุดข้อมูลเราต้องแปลงฟีเจอร์ต่อเนื่องเป็นฟีเจอร์ที่แยกออกจากกันโดยเริ่มจากการทำ binning (เช่นการแยกโดเมนแรกต่อเนื่องของฟีเจอร์ออกเป็นถังขยะแล้วเปลี่ยนฟีเจอร์นั้น ๆ )?
เหตุการณ์ที่เกิดขึ้นในถังขยะหลายรูปแบบนั้นมีคุณลักษณะหลายอย่าง (เกิดขึ้นหรือไม่เกิดขึ้นในแต่ละถังขยะ) ดังนั้นการทดสอบความเป็นอิสระของไคสแควร์จึงสามารถใช้ได้กับพวกมันใช่ไหม?
โดยวิธีการที่ฉันเดาเราสามารถใช้การทดสอบความเป็นอิสระของไคสแควร์กับคุณสมบัติและผลลัพธ์ของชนิดใด ๆถูกต้อง?
สำหรับส่วนผลลัพธ์เราสามารถเลือกฟีเจอร์สำหรับการจัดหมวดหมู่ไม่เพียง แต่สำหรับการถดถอยโดยการทดสอบความเป็นอิสระของไคสแควร์โดยการสรุปผลลัพธ์อย่างต่อเนื่องใช่มั้ย
เว็บไซต์เรียนรู้ scikitยังกล่าวว่า
คำนวณสถิติไคสแควร์ระหว่างคุณลักษณะที่ไม่เป็นลบและคลาส
คะแนนนี้สามารถใช้เพื่อเลือกคุณสมบัติ n_features ที่มีค่าสูงสุดสำหรับสถิติทดสอบไคสแควร์จาก X ซึ่งต้องมีเฉพาะคุณสมบัติที่ไม่เป็นลบเช่น booleans หรือความถี่ (เช่นจำนวนคำในการจำแนกเอกสาร) เทียบกับ ชั้นเรียน
ทำไมการทดสอบจึงต้องการคุณสมบัติที่ไม่จำเป็น
หากคุณสมบัติไม่มีสัญญาณ แต่มีการจัดหมวดหมู่หรือไม่ต่อเนื่องการทดสอบยังสามารถใช้กับมันได้หรือไม่? (ดูส่วนของฉัน 1)
หากคุณสมบัติเป็นลบเราสามารถลบโดเมนของพวกเขาและแทนที่ด้วยสิ่งที่เกิดขึ้น (เช่นเดียวกับสิ่งที่ฉันเดาสำหรับการใช้การทดสอบกับชุดข้อมูลของไอริสดูตอนที่ 2) ใช่ไหม?
หมายเหตุ: ฉันเดา Scikit Learn ตามหลักการทั่วไปและนั่นคือสิ่งที่ฉันขอที่นี่ ถ้าไม่เช่นนั้นก็ยังคงอยู่