1
การเลือกคุณสมบัติแบบใดที่สามารถใช้ทดสอบไคสแควร์ได้
ที่นี่ฉันถามเกี่ยวกับสิ่งที่คนอื่นทำกันโดยทั่วไปเพื่อใช้การทดสอบไคสแควร์สำหรับการเลือกคุณสมบัติ WRT ในการเรียนรู้แบบมีผู้สอน หากฉันเข้าใจอย่างถูกต้องพวกเขาจะทดสอบความเป็นอิสระระหว่างแต่ละคุณลักษณะและผลลัพธ์และเปรียบเทียบค่า p ระหว่างการทดสอบสำหรับแต่ละคุณลักษณะหรือไม่ ในhttp://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test , การทดสอบไคสแควร์ของเพียร์สันเป็นการทดสอบทางสถิติที่ใช้กับชุดของข้อมูลที่เป็นหมวดหมู่เพื่อประเมินว่ามีความเป็นไปได้ที่ความแตกต่างที่สังเกตได้ระหว่างเซตเกิดขึ้นโดยบังเอิญ ... การทดสอบความเป็นอิสระประเมินว่าการสังเกตแบบจับคู่กับตัวแปรสองตัวที่แสดงในตารางฉุกเฉินหรือไม่นั้นเป็นอิสระจากกัน (เช่นการตอบแบบสำรวจจากคนต่างชาติเพื่อดูว่าสัญชาติของคนนั้นเกี่ยวข้องกับการตอบสนองหรือไม่) ดังนั้นตัวแปรทั้งสองที่ต้องทดสอบความเป็นอิสระโดยการทดสอบจะต้องจัดหมวดหมู่หรือไม่ต่อเนื่อง (อนุญาตให้สั่งนอกเหนือจากหมวดหมู่) แต่ไม่ต่อเนื่องกัน? จากhttp://scikit-learn.org/stable/modules/feature_selection.htmlพวกเขา ดำเนินการทดสอบχ2χ2\chi^2กับชุดข้อมูล irisเพื่อดึงเฉพาะคุณสมบัติที่ดีที่สุดสองอย่าง ในชุดข้อมูล irisคุณลักษณะทั้งหมดเป็นตัวเลขและต่อเนื่องมูลค่าและผลลัพธ์คือเลเบลคลาส (หมวดหมู่) การทดสอบความเป็นอิสระของไคสแควร์นำไปใช้กับคุณลักษณะต่อเนื่องได้อย่างไร ในการใช้การทดสอบความเป็นอิสระของไคสแควร์กับชุดข้อมูลเราต้องแปลงฟีเจอร์ต่อเนื่องเป็นฟีเจอร์ที่แยกออกจากกันโดยเริ่มจากการทำ binning (เช่นการแยกโดเมนแรกต่อเนื่องของฟีเจอร์ออกเป็นถังขยะแล้วเปลี่ยนฟีเจอร์นั้น ๆ )? เหตุการณ์ที่เกิดขึ้นในถังขยะหลายรูปแบบนั้นมีคุณลักษณะหลายอย่าง (เกิดขึ้นหรือไม่เกิดขึ้นในแต่ละถังขยะ) ดังนั้นการทดสอบความเป็นอิสระของไคสแควร์จึงสามารถใช้ได้กับพวกมันใช่ไหม? โดยวิธีการที่ฉันเดาเราสามารถใช้การทดสอบความเป็นอิสระของไคสแควร์กับคุณสมบัติและผลลัพธ์ของชนิดใด ๆถูกต้อง? สำหรับส่วนผลลัพธ์เราสามารถเลือกฟีเจอร์สำหรับการจัดหมวดหมู่ไม่เพียง แต่สำหรับการถดถอยโดยการทดสอบความเป็นอิสระของไคสแควร์โดยการสรุปผลลัพธ์อย่างต่อเนื่องใช่มั้ย เว็บไซต์เรียนรู้ scikitยังกล่าวว่า คำนวณสถิติไคสแควร์ระหว่างคุณลักษณะที่ไม่เป็นลบและคลาส คะแนนนี้สามารถใช้เพื่อเลือกคุณสมบัติ n_features ที่มีค่าสูงสุดสำหรับสถิติทดสอบไคสแควร์จาก X ซึ่งต้องมีเฉพาะคุณสมบัติที่ไม่เป็นลบเช่น booleans หรือความถี่ (เช่นจำนวนคำในการจำแนกเอกสาร) เทียบกับ ชั้นเรียน ทำไมการทดสอบจึงต้องการคุณสมบัติที่ไม่จำเป็น หากคุณสมบัติไม่มีสัญญาณ แต่มีการจัดหมวดหมู่หรือไม่ต่อเนื่องการทดสอบยังสามารถใช้กับมันได้หรือไม่? …