การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ


9

ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก
คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน

ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร


5
คุณหมายถึงบางสิ่งบางอย่างเช่นที่ซึ่งรายการของคอลัมน์เดียวของเมทริกซ์การออกแบบได้รับการเปลี่ยนแปลงการถือครองการตอบสนองและตัวแปรอื่น ๆ คงที่หรือไม่ หากคุณมีการอ้างอิงเฉพาะที่คุณใช้อาจเป็นประโยชน์ในการแสดงรายการ
พระคาร์ดินัล

ฉันคิดว่าลิงค์นี้citeseerx.ist.psu.edu/viewdoc/…หมายถึงเทคนิคที่เหมาะสม ขณะนี้ฉันกำลังพยายามติดต่อกับอาจารย์ที่บอกฉันเกี่ยวกับวิธีนี้ ...
Ugo

ไม่สามารถติดต่อกับเขาได้ (Donald Geman)
Ugo

2
มีคำถามที่ไม่ชัดเจนในคำถามของคุณที่คุณอาจต้องการชี้แจง ในกระดาษเชื่อมโยงมีคำอธิบายที่ชัดเจนของอัลกอริทึม คุณต้องการถามบางอย่างเกี่ยวกับอัลกอริทึมนี้หรือไม่? เป็นความคิดของการเลือกคุณสมบัติด้วยการคำนวณ marginal value ที่คุณต้องการคำอธิบายหรือไม่? ยิ่งไปกว่านั้นคุณควรถามนิยามที่ 2ในเอกสาร มันเป็นข้อเรียกร้องที่ไม่ได้รับการสนับสนุนซึ่งอาจเป็นข้อสมมติที่ใช้งานได้ แต่ค่าส่วนต่างเล็กน้อยค่าไม่ได้เกี่ยวข้องโดยทั่วไป LAR คือโดยวิธีการทำการถดถอยเชิงเส้นและไม่ได้จริงๆสำหรับการตอบสนองแบบไบนารี พีพี
NRH

คำตอบ:


10

(ไม่มีเวลามากตอนนี้ดังนั้นฉันจะตอบสั้น ๆ แล้วขยายในภายหลัง)

สมมติว่าเรากำลังพิจารณาปัญหาการจำแนกเลขฐานสองและมีชุดฝึกตัวอย่างคลาส 1 และตัวอย่าง class 2 การทดสอบการเปลี่ยนรูปสำหรับการเลือกคุณลักษณะจะดูที่แต่ละคุณลักษณะ สถิติการทดสอบเช่นการได้รับข้อมูลหรือความแตกต่างที่เป็นมาตรฐานระหว่างค่าเฉลี่ยนั้นถูกคำนวณสำหรับคุณลักษณะ ข้อมูลสำหรับคุณสมบัติจะถูกสุ่มและแบ่งเป็นสองชุดหนึ่งขนาดและขนาดหนึ่ง การทดสอบสถิติคำนวณแล้วขึ้นอยู่กับพาร์ทิชันใหม่นี้ม.nθม.nθพีพี. ทั้งนี้ขึ้นอยู่กับความซับซ้อนของการคำนวณของปัญหาจากนั้นทำซ้ำในพาร์ติชันที่เป็นไปได้ทั้งหมดของคุณสมบัติออกเป็นสองชุดของคำสั่งและหรือเซตย่อยของสิ่งเหล่านี้ม.n

ตอนนี้เราได้สร้างการแจกแจงแบบแล้วเราคำนวณค่า p-value ที่สถิติการทดสอบที่สังเกตเห็นเกิดขึ้นจากพาร์ติชันแบบสุ่มของคุณสมบัติ สมมติฐานว่างคือตัวอย่างจากแต่ละชั้นเรียนมาจากการแจกแจงพื้นฐานเดียวกัน (คุณลักษณะไม่เกี่ยวข้อง)θพีθ

กระบวนการนี้เกิดขึ้นซ้ำกับคุณสมบัติทั้งหมดและจากนั้นสามารถเลือกชุดย่อยของคุณสมบัติที่ใช้สำหรับการจำแนกประเภทได้สองวิธี:

  • ให้บริการกับต่ำสุด P-ค่ายังไม่มีข้อความ
  • คุณลักษณะทั้งหมดที่มีค่า p<ε
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.