เมื่อใดกฎการให้คะแนนที่เหมาะสมจะมีการประมาณค่าทั่วไปในการจัดหมวดหมู่ที่ดีกว่า


9

วิธีการทั่วไปในการแก้ปัญหาการจำแนกประเภทคือการระบุคลาสของแบบจำลองผู้สมัครแล้วทำการเลือกรูปแบบโดยใช้ขั้นตอนบางอย่างเช่นการตรวจสอบความถูกต้องข้าม โดยปกติคนหนึ่งเลือกรุ่นที่มีความถูกต้องสูงสุดหรือบางฟังก์ชั่นที่เกี่ยวข้องที่ข้อมูลปัญหาถอดรหัสเฉพาะเช่น\Fβ

สมมติว่าเป้าหมายสุดท้ายคือการสร้างลักษณนามที่แม่นยำ (ซึ่งคำจำกัดความความถูกต้องอีกครั้งขึ้นอยู่กับปัญหา) ในสถานการณ์ที่ดีกว่าในการเลือกรูปแบบโดยใช้กฎการให้คะแนนที่เหมาะสมเมื่อเทียบกับสิ่งที่ไม่เหมาะสมเช่นความแม่นยำ ฯลฯ นอกจากนี้เราจะไม่สนใจปัญหาของความซับซ้อนของแบบจำลองและสมมติว่าเราพิจารณาทุกโมเดลที่มีโอกาสเท่ากัน

ก่อนหน้านี้ฉันจะบอกว่าไม่เคย การจำแนกเป็นปัญหาง่ายกว่าการถดถอย [1], [2] และเราสามารถหาขอบเขตที่แคบกว่าสำหรับอดีตได้มากกว่าในภายหลัง ( ) นอกจากนี้ยังมีกรณีเมื่อพยายามที่จะถูกต้องตรงกับความน่าจะได้ผลในการที่ไม่ถูกต้องขอบเขตการตัดสินใจหรืออิง อย่างไรก็ตามจากการสนทนาที่นี่และรูปแบบการลงคะแนนของชุมชนเกี่ยวกับปัญหาดังกล่าวฉันได้ตั้งคำถามกับมุมมองนี้

  1. Devroye, Luc ทฤษฎีความน่าจะเป็นของการจดจำรูปแบบ ฉบับ 31. สปริงเกอร์, 1996. มาตรา 6.7
  2. Kearns, Michael J. และ Robert E. Schapire การเรียนรู้ที่ไม่มีการแจกแจงอย่างมีประสิทธิภาพเกี่ยวกับแนวคิดความน่าจะเป็น รากฐานของวิทยาศาสตร์คอมพิวเตอร์, 1990. การดำเนินการ, การประชุมวิชาการประจำปีครั้งที่ 31 IEEE, 1990

()ข้อความนี้อาจจะเลอะเทอะเล็กน้อย ฉันหมายถึงเฉพาะที่ได้รับข้อมูลฉลากของรูปแบบด้วยและดูเหมือนจะง่ายต่อการประเมินขอบเขตการตัดสินใจมากกว่าการประมาณความน่าจะเป็นแบบมีเงื่อนไขอย่างแม่นยำS={(x1,y1),,(xn,yn)}xiXyi{1,,K}

คำตอบ:


4

คิดว่านี่เป็นการเปรียบเทียบระหว่างการทดสอบ -test / Wilcoxon กับการทดสอบ Mood median การทดสอบค่ามัธยฐานใช้การจำแนกที่เหมาะสม (สูงกว่าหรือต่ำกว่าค่ามัธยฐานสำหรับตัวแปรต่อเนื่อง) เพื่อให้สูญเสียของข้อมูลในตัวอย่างเท่านั้น การแยกขั้วที่จุดที่แตกต่างจากค่ามัธยฐานจะสูญเสียข้อมูลมากขึ้น การใช้กฎการให้คะแนนที่ไม่เหมาะสมเช่นสัดส่วนที่จำแนกว่า "ถูกต้อง" มีประสิทธิภาพสูงสุดที่หรืออย่างมีประสิทธิภาพ ซึ่งส่งผลให้มีการเลือกคุณสมบัติที่ไม่ถูกต้องและการค้นหาแบบจำลองที่เป็นของปลอมเสื้อ1π2π23


ฉันเดาว่าฉันไม่เข้าใจว่าทำไมการแบ่งขั้วต่อจึงมีความเกี่ยวข้อง ท้ายที่สุดเป้าหมายคือการเลือกลักษณนามจากบางระดับสมมติฐานดังกล่าวว่ามีน้อยให้บางตัวอย่างแน่นอนซึ่งประกอบด้วยตัวอย่างกระจายไปตาม . ชั่วโมงHP(x,Y)~D(ชั่วโมง(x)Y)SD
อัลโต

2
ปัญหาคือการจำแนกประเภท (ตรงข้ามกับการทำนายความเสี่ยง) เป็นการแบ่งขั้วที่ไม่จำเป็น
Frank Harrell

ดังนั้นจะปลอดภัยหรือไม่ที่จะถือว่าคำตอบสำหรับคำถามนี้ไม่เคยมีมาก่อนเป้าหมายคือการตัดสินใจที่ดีที่สุดของ Bayes ในส่วนที่เกี่ยวกับฟังก์ชั่นยูทิลิตี้บางอย่างและไม่ตรงกับความน่าจะเป็น
อัลโต

การตัดสินใจที่เหมาะสมที่สุดของ Bayes ต้องการความเสี่ยงที่คาดการณ์ไว้อย่างดีดังนั้นทั้งสองจึงเชื่อมโยงกัน การตัดสินใจที่เหมาะสมไม่ได้ใช้ dichotomization ที่ทำก่อนหน้านี้ในท่อ แต่เงื่อนไขเกี่ยวกับข้อมูลเต็มรูปแบบเช่นไม่ค) PRโอ(Y=1|X=x)PRโอ(Y=1|X>)
Frank Harrell

1
การอภิปรายที่ดี ในบางกรณีเช่นกับตัวตรวจจับสแปมคุณสามารถ 'ไม่แน่ใจ' ได้ ฉันกังวลเกี่ยวกับการกำหนดเกณฑ์ขั้นสูงในปัญหาต่าง ๆ เช่นการวินิจฉัยทางการแพทย์และการพยากรณ์โรค
Frank Harrell
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.