การเปรียบเทียบการแจกแจงของประสิทธิภาพการวางนัยทั่วไป


10

บอกว่าฉันมีวิธีการเรียนรู้สองวิธีสำหรับปัญหาการจัดหมวดหมู่และและฉันประเมินประสิทธิภาพการวางนัยทั่วไปด้วยบางอย่างเช่นการตรวจสอบความถูกต้องแบบไขว้ซ้ำหรือการบูตแบบสแตรป จากกระบวนการนี้ฉันได้รับการแจกแจงคะแนนและสำหรับแต่ละวิธีในการทำซ้ำเหล่านี้ (เช่นการกระจายของค่า ROC AUC สำหรับแต่ละรุ่น)AB PAPB

เมื่อมองไปที่การแจกแจงเหล่านี้อาจเป็นได้ว่า แต่ (เช่นประสิทธิภาพการวางนัยทั่วไปที่คาดไว้ของสูงกว่าแต่มีความไม่แน่นอนเกี่ยวกับการประมาณนี้)μAμBσAσBAB

ฉันคิดว่าสิ่งนี้เรียกว่าภาวะที่กลืนไม่เข้าคายไม่ออกอคติในการถดถอย

อะไรวิธีการทางคณิตศาสตร์ที่ฉันสามารถใช้เพื่อเปรียบเทียบและและในที่สุดก็ทำให้การตัดสินใจเกี่ยวกับรูปแบบการใช้งาน?PAPB

หมายเหตุ:เพื่อความเรียบง่ายฉันหมายถึงสองวิธีและที่นี่ แต่ฉันสนใจวิธีที่สามารถนำมาใช้เพื่อเปรียบเทียบการแจกแจงคะแนนของวิธีการเรียนรู้ ~ 1000 วิธี (เช่นจากการค้นหากริด) และในที่สุดก็สร้าง การตัดสินใจขั้นสุดท้ายเกี่ยวกับรูปแบบที่จะใช้AB


ฉันคิดว่าคำว่าbias-variance tradeoffใช้ไม่ได้ที่นี่เพราะคุณไม่ได้แยกข้อผิดพลาดกำลังสองเฉลี่ยเป็นอคติและความแปรปรวนและคุณไม่ได้พูดถึงความแปรปรวนของตัวประมาณ แต่เกี่ยวกับความแปรปรวนของคะแนน
ลูคัส

ขอบคุณ @Lucas ฉันพยายามประเมินคะแนนตัวแยกประเภทและจากข้อมูลที่มองไม่เห็น สำหรับสิ่งนี้ฉันคิดว่าฉันสามารถใช้คะแนนเฉลี่ยของข้อมูลที่เห็นเป็นตัวประมาณของฉัน (เช่นและสำหรับและตามลำดับ) ความแปรปรวนของตัวประมาณเหล่านี้แตกต่างจากความแปรปรวนของคะแนนและหรือไม่ ABE(PA)E(PB)ABPAPB
Amelio Vazquez-Reina

2
@ user815423426 ฉันคิดว่าการเปรียบเทียบขึ้นอยู่กับฟังก์ชันการสูญเสียที่คุณมี Diebold และ Mariano (2002) มีบทความน่าสนใจสำหรับศึกษาคำถามของคุณ พวกเขาเสนอการทดสอบทางสถิติเปรียบเทียบประสิทธิภาพ "การวางนัยทั่วไป" ฉันไม่รู้วิธีตั้งค่าลิงก์ในความคิดเห็น บทความนี้: Diebold, Francis X. และ Robert S. Mariano "การเปรียบเทียบความแม่นยำในการทำนาย" วารสารธุรกิจ & สถิติเศรษฐกิจ 20.1 (2545): 134-144
semibruin

คำตอบ:


2

หากมีเพียงสองวิธีคือ A และ B ฉันจะคำนวณความน่าจะเป็นที่พาร์ติชันการฝึกอบรม / การทดสอบโดยพลการว่าข้อผิดพลาด (ตามการวัดประสิทธิภาพที่เหมาะสม) สำหรับรุ่น A นั้นต่ำกว่าข้อผิดพลาดสำหรับรุ่น B หากความน่าจะเป็นนี้ มีค่ามากกว่า 0.5 ฉันเลือกรุ่น A และรุ่น B (ทดสอบ Mann-Whitney U หรือไม่?) อย่างไรก็ตามฉันสงสัยอย่างยิ่งว่าจะเลือกรูปแบบด้วยค่าเฉลี่ยที่ต่ำกว่ายกเว้นการกระจายของสถิติประสิทธิภาพไม่มาก -สมมาตร.

สำหรับการค้นหากริดในทางกลับกันสถานการณ์จะแตกต่างกันเล็กน้อยเนื่องจากคุณไม่ได้เปรียบเทียบวิธีการที่แตกต่างกัน แต่แทนที่จะปรับพารามิเตอร์ (ไฮเปอร์ -) ของรุ่นเดียวกันเพื่อให้พอดีกับตัวอย่างข้อมูลที่ จำกัด (ในกรณีนี้โดยอ้อมผ่านทางครอส -validation) ฉันได้พบว่าการปรับจูนแบบนี้มีแนวโน้มที่จะกระชับเกินไปดูกระดาษของฉัน

Gavin C. Cawley, Nicola LC Talbot, "ในการเลือกรุ่นที่มากเกินไปและการเลือกแบบอคติในการประเมินประสิทธิภาพ", วารสารวิจัยการเรียนรู้ของเครื่องจักร, 11 (ก.ค. ): 2079-2107, 2010 ( www )

ฉันมีกระดาษในการตรวจสอบที่แสดงว่ามันน่าจะดีที่สุดที่จะใช้กริดหยาบสำหรับเครื่องเคอร์เนล (เช่น SVM) เพื่อหลีกเลี่ยงการเลือกเกณฑ์การเลือกรุ่น อีกวิธีหนึ่ง (ซึ่งฉันไม่ได้ตรวจสอบดังนั้นข้อ จำกัด ของตัวแปล!) จะเป็นการเลือกแบบจำลองที่มีข้อผิดพลาดสูงสุดซึ่งไม่ด้อยกว่าแบบจำลองที่ดีที่สุดที่พบในการค้นหากริด (แม้ว่าอาจจะเป็นวิธีการมองโลกในแง่ร้ายโดยเฉพาะ สำหรับชุดข้อมูลขนาดเล็ก)

วิธีแก้ปัญหาที่แท้จริงนั้นอาจไม่ใช่การปรับพารามิเตอร์ให้เหมาะสมโดยใช้การค้นหาแบบกริด แต่เป็นการหาค่าเฉลี่ยมากกว่าค่าพารามิเตอร์ทั้งในวิธีการแบบเบย์หรือวิธีการรวมกัน หากคุณไม่ปรับให้เหมาะสมมันเป็นการยากที่จะทำให้พอดี!


ขอบคุณ Dikran เมื่อคุณบอกว่า"average over the parameter values"ฉันคิดว่าเข้าใจวิธีการทำเช่นนี้โดยวิธีการวงดนตรี (เช่นการสร้างเอาท์พุททั้งมวลเป็นค่าเฉลี่ยของผลลักษณนาม) แต่ฉันไม่แน่ใจว่าจะทำอย่างไรกับวิธีแบบเบส์เมื่อทำงานกับแบบจำลองแบบพหุนิยม ฉันเข้าใจทฤษฎีของวิธีการแบบเบย์อย่างเต็มที่ (เช่นหลีกเลี่ยงการประมาณจุดและทำให้พารามิเตอร์ในการสร้างหลังสุดท้าย) แต่สมมติว่าก่อนหน้านี้เกี่ยวกับพารามิเตอร์มีความเหมือนกันทั้งหมดนี้จะไม่เทียบเท่ากับการสร้างชุดเฉลี่ย ?
Amelio Vazquez-Reina

1
ในวิธีการแบบเบย์แบบจำลองจะถูกถ่วงน้ำหนักโดยความเป็นไปได้เล็กน้อย (เช่นหลักฐานแบบเบส์) และสิ่งใด ๆ ที่วางไว้เหนือพารามิเตอร์แบบไฮเปอร์ดังนั้นมันจะเป็นกรณีพิเศษของการหาค่าเฉลี่ยของวงดนตรีด้วยวิธีเฉพาะ
Dikran Marsupial
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.