การทดสอบการเปลี่ยนแปลงแบบสุ่มสำหรับการเลือกคุณสมบัติ

ฉันสับสนเกี่ยวกับการวิเคราะห์การเปลี่ยนแปลงสำหรับการเลือกคุณสมบัติในบริบทการถดถอยโลจิสติก
คุณสามารถให้คำอธิบายที่ชัดเจนเกี่ยวกับการทดสอบการเปลี่ยนรูปแบบสุ่มและนำไปใช้กับการเลือกคุณสมบัติได้อย่างไร อาจเป็นไปได้ด้วยอัลกอริทึมและตัวอย่างที่แน่นอน

ในที่สุดมันเปรียบเทียบกับวิธีการหดตัวแบบอื่นเช่น Lasso หรือ LAR อย่างไร

— Ugo
แหล่งที่มา

คุณหมายถึงบางสิ่งบางอย่างเช่นที่ซึ่งรายการของคอลัมน์เดียวของเมทริกซ์การออกแบบได้รับการเปลี่ยนแปลงการถือครองการตอบสนองและตัวแปรอื่น ๆ คงที่หรือไม่ หากคุณมีการอ้างอิงเฉพาะที่คุณใช้อาจเป็นประโยชน์ในการแสดงรายการ

— พระคาร์ดินัล

ฉันคิดว่าลิงค์นี้citeseerx.ist.psu.edu/viewdoc/…หมายถึงเทคนิคที่เหมาะสม ขณะนี้ฉันกำลังพยายามติดต่อกับอาจารย์ที่บอกฉันเกี่ยวกับวิธีนี้ ...

— Ugo

ไม่สามารถติดต่อกับเขาได้ (Donald Geman)

— Ugo

มีคำถามที่ไม่ชัดเจนในคำถามของคุณที่คุณอาจต้องการชี้แจง ในกระดาษเชื่อมโยงมีคำอธิบายที่ชัดเจนของอัลกอริทึม คุณต้องการถามบางอย่างเกี่ยวกับอัลกอริทึมนี้หรือไม่? เป็นความคิดของการเลือกคุณสมบัติด้วยการคำนวณ marginal value ที่คุณต้องการคำอธิบายหรือไม่? ยิ่งไปกว่านั้นคุณควรถามนิยามที่ 2ในเอกสาร มันเป็นข้อเรียกร้องที่ไม่ได้รับการสนับสนุนซึ่งอาจเป็นข้อสมมติที่ใช้งานได้ แต่ค่าส่วนต่างเล็กน้อยค่าไม่ได้เกี่ยวข้องโดยทั่วไป LAR คือโดยวิธีการทำการถดถอยเชิงเส้นและไม่ได้จริงๆสำหรับการตอบสนองแบบไบนารี

p

$p$

p

$p$

— NRH

(ไม่มีเวลามากตอนนี้ดังนั้นฉันจะตอบสั้น ๆ แล้วขยายในภายหลัง)

สมมติว่าเรากำลังพิจารณาปัญหาการจำแนกเลขฐานสองและมีชุดฝึกตัวอย่างคลาส 1 และตัวอย่าง class 2 การทดสอบการเปลี่ยนรูปสำหรับการเลือกคุณลักษณะจะดูที่แต่ละคุณลักษณะ สถิติการทดสอบเช่นการได้รับข้อมูลหรือความแตกต่างที่เป็นมาตรฐานระหว่างค่าเฉลี่ยนั้นถูกคำนวณสำหรับคุณลักษณะ ข้อมูลสำหรับคุณสมบัติจะถูกสุ่มและแบ่งเป็นสองชุดหนึ่งขนาดและขนาดหนึ่ง การทดสอบสถิติคำนวณแล้วขึ้นอยู่กับพาร์ทิชันใหม่นี้ $m$ $n$ $\theta$ $m$ $n$ $\theta_p$ $p$ . ทั้งนี้ขึ้นอยู่กับความซับซ้อนของการคำนวณของปัญหาจากนั้นทำซ้ำในพาร์ติชันที่เป็นไปได้ทั้งหมดของคุณสมบัติออกเป็นสองชุดของคำสั่งและหรือเซตย่อยของสิ่งเหล่านี้ $m$ $n$

ตอนนี้เราได้สร้างการแจกแจงแบบแล้วเราคำนวณค่า p-value ที่สถิติการทดสอบที่สังเกตเห็นเกิดขึ้นจากพาร์ติชันแบบสุ่มของคุณสมบัติ สมมติฐานว่างคือตัวอย่างจากแต่ละชั้นเรียนมาจากการแจกแจงพื้นฐานเดียวกัน (คุณลักษณะไม่เกี่ยวข้อง) $\theta_p$ $\theta$

กระบวนการนี้เกิดขึ้นซ้ำกับคุณสมบัติทั้งหมดและจากนั้นสามารถเลือกชุดย่อยของคุณสมบัติที่ใช้สำหรับการจำแนกประเภทได้สองวิธี:

ให้บริการกับต่ำสุด P-ค่า $N$
คุณลักษณะทั้งหมดที่มีค่า p $<\epsilon$

— benhamner
แหล่งที่มา