การเพิ่มน้ำหนักสำหรับชุดข้อมูลที่มีความเบ้สูงในการถดถอยโลจิสติก


9

ฉันใช้การถดถอยโลจิสติกรุ่นมาตรฐานเพื่อให้พอดีกับตัวแปรอินพุตของฉันกับตัวแปรเอาต์พุตไบนารี

อย่างไรก็ตามในปัญหาของฉันผลลัพธ์ลบ (0s) มีจำนวนมากกว่าผลบวก (1s) อัตราส่วนคือ 20: 1 ดังนั้นเมื่อฉันฝึกตัวจําแนกเสียงดูเหมือนว่าแม้กระทั่งคุณสมบัติที่แนะนําอย่างยิ่งถึงความเป็นไปได้ของเอาต์พุตเชิงบวกที่ยังคงมีค่าที่ต่ำมาก (ค่าลบสูง) สำหรับพารามิเตอร์ที่สอดคล้องกัน สำหรับฉันดูเหมือนว่าสิ่งนี้เกิดขึ้นเพราะมีตัวอย่างเชิงลบจำนวนมากเกินไปที่ดึงพารามิเตอร์ในทิศทางของพวกเขา

ดังนั้นฉันสงสัยว่าฉันสามารถเพิ่มน้ำหนัก (พูดโดยใช้ 20 แทน 1) สำหรับตัวอย่างที่เป็นบวก สิ่งนี้มีแนวโน้มที่จะได้รับประโยชน์หรือไม่? และถ้าเป็นเช่นนั้นฉันจะเพิ่มน้ำหนักได้อย่างไร (ในสมการด้านล่าง)

ฟังก์ชั่นค่าใช้จ่ายมีลักษณะดังต่อไปนี้:

J=(1/m)i=1mylog(h(xθ))+(1y)(1log(h(xθ)))

ความชันของฟังก์ชันต้นทุนนี้ (wrt θ) คือ:

grad=((h(xθ)y)X)

ที่นี่ m = จำนวนกรณีทดสอบ x = เมทริกซ์ฟีเจอร์ y = เวกเตอร์เอาท์พุท h= ฟังก์ชัน sigmoid θ = พารามิเตอร์ที่เราพยายามเรียนรู้

ในที่สุดฉันก็วิ่งลงทางลาดเพื่อค้นหาจุดต่ำสุด Jเป็นไปได้ ดูเหมือนว่าการใช้งานจะทำงานอย่างถูกต้อง


สวัสดีฉันมีปัญหาเดียวกันกับที่คุณอธิบาย ในข้อมูลของฉันมีตัวอย่างมากมายที่เป็นค่าลบและมีค่าบวกน้อยมากและสำหรับฉันมันสำคัญมากที่จะต้องจำแนกค่าบวกอย่างถูกต้องแม้ว่านั่นหมายถึงการจำแนกประเภทเชิงลบบางส่วน ดูเหมือนว่าฉันยังใช้วิธีการเดียวกันกับคุณเนื่องจากฉันใช้ฟังก์ชันต้นทุนและสมการไล่ระดับสีเดียวกัน จนถึงตอนนี้ฉันได้ทำการทดสอบสองสามครั้งและได้ผลลัพธ์ดังนี้: - ด้วยพารามิเตอร์ 7 ตัว , ขนาดตัวอย่างการฝึกอบรม: 225000 , ขนาดตัวอย่างทดสอบ: 75000ผลลัพธ์: ความแม่นยำ 92%แม้ว่าในกรณีบวกเพียง 11% w
Cartz

1
สิ่งที่คุณกำลังทำคือสร้างความสับสนกับฟังก์ชั่นการสูญเสียที่มีโอกาสสูงสุด mle ที่ไม่ถ่วงน้ำหนักกำลังทำ "สิ่งที่ถูกต้อง" จากมุมมองเชิงอนุมานและสะท้อนให้เห็นว่าผลลัพธ์ที่เกิดขึ้นนั้นเป็นไปได้ยากเพียงใดสำหรับข้อกำหนดคุณลักษณะ covariate แต่ละรายการ คุณยังสามารถแยกได้ - นี่จะเกิดขึ้นว่าชุดโควาเรียเฉพาะที่สามารถทำนายการตอบสนองในข้อมูลการฝึกอบรมได้อย่างสมบูรณ์ - สิ่งนี้จะนำไปสู่ค่าลบขนาดใหญ่
ความน่าจะเป็นทาง

2
การจำแนกประเภทไม่ใช่เป้าหมายที่ดีและไม่ใช่วิธีการพัฒนาการถดถอยโลจิสติก มันเป็นความคิดของการจำแนกที่ทำให้เกิดปัญหาทั้งหมดที่ระบุไว้ที่นี่ ยึดความน่าจะเป็นที่คาดการณ์ไว้และกฎการให้คะแนนความแม่นยำที่เหมาะสม
Frank Harrell

1
@arahant นั่นเป็นความจริงเพียงบางส่วนเท่านั้น การถดถอยแบบลอจิสติกแบบไบนารีที่มีการเชื่อมโยง logit ยังคงใช้ได้ในที่ค่าสัมประสิทธิ์ใน covariates ของคุณคือ MLE และสะท้อนถึงผลกระทบที่ตัวแปรเหล่านั้นมีต่ออัตราต่อรองของคลาส 1 เมื่อเทียบกับคลาส 0 อย่างไรก็ตามในการออกแบบตัวควบคุมกรณี จับจ้องอยู่เสมอเพื่อสะท้อนสัดส่วนของคลาส 1 ต่อคลาส 0 และสามารถใช้งานได้อย่างสมบูรณ์ในการปรับคำดักจับเพื่อกำหนดคลาสให้สอดคล้องกับเช่นฟังก์ชันต้นทุนบางส่วนของการผิดประเภทหรือกระบวนการอื่น ๆ เพราะสิ่งนี้ไม่เปลี่ยนค่าสัมประสิทธิ์ เกี่ยวกับตัวแปร
Sycorax พูดว่า Reinstate Monica

1
ไม่มีใครได้รับความคิดที่ว่ามีความต้องการการตัด / ต้องการ / ปรารถนา?
Frank Harrell

คำตอบ:


8

นั่นจะไม่เป็นโอกาสสูงสุดอีกต่อไป การกระจายที่สุดขีดของYนำเสนอปัญหาเฉพาะในกรณีที่คุณใช้ตัวจําแนกเท่านั้นเช่นหากคุณคำนวณสัดส่วนที่จำแนกอย่างถูกต้องกฎการให้คะแนนที่ไม่เหมาะสม การประมาณความน่าจะเป็นจากโอกาสสูงสุดมาตรฐานจะถูกต้อง หากจำนวนรวมของ "ผลบวก" น้อยกว่า 15 เท่าของจำนวนของตัวแปรที่มีการสมัครการประเมินความเป็นไปได้สูงสุดที่ถูกลงโทษอาจเป็นไปตามลำดับ


Frank มีการอ้างอิงหรือบางอย่างเพื่อสนับสนุนรายละเอียด "15 ครั้ง ... " ของคุณหรือไม่ ฉันมีความไม่สมดุลที่คล้ายกันในข้อมูลบางอย่างที่ฉันใช้การถดถอยโลจิสติกแทนวิธี ROC นักวิจัยอื่น ๆ พัฒนา เมื่อเร็ว ๆ นี้ฉันได้พบกับอคติตัวอย่างเล็ก ๆ และได้เพิ่มตัวเลือกสำหรับการลดอคติของ Firth เพื่อเป็นทางเลือกที่เหมาะสมในรหัส / แพ็คเกจของฉัน ขณะที่ฉันเขียนบันทึกนี้ขึ้นมามันจะมีประโยชน์ที่จะมีบางสิ่งบางอย่างที่จะกล่าวถึงกฎของหัวแม่มือเช่นนี้ ขออภัยหากการอ้างอิงเป็นหนังสือ RMS ของคุณตามที่นั่งอยู่บนชั้นวางของฉัน แต่ยังไม่ได้ดูที่นั่น
Gavin Simpson

มีเอกสารเกี่ยวกับอคติตัวอย่างขนาดเล็กและคุณค่าของการลงโทษ Firth ฉันไม่มีประโยชน์ เกี่ยวกับ 15: 1 เห็นbiostat.mc.vanderbilt.edu/wiki/pub/Main/FrankHarrell/ ......
Frank Harrell

ขอบคุณ Frank - ประเด็น 15: 1 เป็นสิ่งที่ฉันทำมากที่สุด ฉันมีสิ่งพิมพ์บางอย่างเกี่ยวกับอคติตัวอย่างเล็ก ๆ และวิธีการของ Firth - แต่ถ้าคุณมีบางอย่างที่จะส่งในที่สุดฉันก็จะขอบคุณมากที่สุดถ้าคุณให้ฉันรู้ว่ามันคืออะไร
Gavin Simpson

3
ในกรณีที่คนอื่นควรอ่านผิดข้างต้นอย่างที่ฉันทำในตอนแรก 20: 1 ในคำถามคืออัตราส่วนของการสังเกตเชิงลบต่อเชิงบวก 15: 1 ในคำตอบของ Frank Harrell เป็นอย่างอื่น: อัตราส่วนของการสังเกตเชิงบวกต่อตัวแปรอิสระของผู้สมัคร
Adam Bailey

การแจกแจงแบบสุดขั้วยังนำเสนอปัญหาด้วยการเพิ่มโอกาสของการแยกแบบกึ่งสมบูรณ์โดยเฉพาะอย่างยิ่งถ้าคุณมีตัวทำนายแบบแบ่งหมวดหมู่ การลงโทษช่วยได้ที่นี่เช่นกัน
ความน่าจะเป็นทาง

3

ในกรณีเช่นนี้มันมักจะดีกว่าที่จะใช้ลิงค์ที่มีความยืดหยุ่นแทนการเชื่อมโยงโลจิสติกที่สามารถจับภาพความไม่สมดุลนี้ ตัวอย่างเช่นความเอียงปกติ, GEV , sinh-arcsinhและการอ้างอิงในนั้น มีอื่น ๆ อีกมากมาย แต่ฉันไม่สามารถโพสต์มากกว่า 2 ลิงก์


คุณสามารถให้คำอธิบายใด ๆ สำหรับฟังก์ชั่นลิงค์อื่น ๆ ได้ดีกว่า?
DW
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.