หนึ่งความแตกต่างที่สำคัญในการตรวจสอบข้ามทางปกติและออกจากบูตวิธีการถูกนำมาใช้คือการที่คนส่วนใหญ่ใช้การตรวจสอบข้ามเพียงครั้งเดียว (เช่นแต่ละกรณีมีการทดสอบครั้งว่า) ในขณะที่ออกจากบูตการตรวจสอบจะดำเนินการที่มีจำนวนมาก ของการทำซ้ำ / การทำซ้ำ ในสถานการณ์นั้นการตรวจสอบความถูกต้องข้ามอาจมีความแปรปรวนสูงขึ้นเนื่องจากความไม่เสถียรของแบบจำลอง อย่างไรก็ตามสามารถหลีกเลี่ยงได้โดยใช้การตรวจสอบความถูกต้องแบบข้ามซ้ำของ -fold ซ้ำแล้วซ้ำอีก หากทำอย่างน้อยที่สุดสำหรับชุดข้อมูลสเปกโทรสโกปีที่ฉันได้ทำงานด้วยข้อผิดพลาดทั้งหมดของแผนการปรับตัวอย่างทั้งสองดูเหมือนว่าจะเหมือนกันในทางปฏิบัติk
การตรวจสอบความถูกต้องแบบลาก่อนออกจากระบบนั้นไม่มีความเป็นไปได้เนื่องจากไม่มีความเป็นไปได้ที่จะลดความแปรปรวนแบบความไม่เสถียรของแบบจำลองและมีตัวจำแนกและปัญหาบางอย่างที่มันแสดงอคติในแง่ร้ายขนาดใหญ่
.632 bootstrap ทำงานได้อย่างสมเหตุสมผลตราบใดที่ข้อผิดพลาด resampling ซึ่งถูกผสมเข้าด้วยกันนั้นไม่ได้ลำเอียงในแง่ดีเกินไป (เช่นสำหรับข้อมูลที่ฉันทำงานด้วยเมทริกซ์ที่กว้างมากที่มีความหลากหลายมากมันไม่ได้ผลดีนักเนื่องจากตัวแบบมีแนวโน้มที่จะเกิดการ overfitting อย่างรุนแรง) นั่นหมายความว่าฉันจะหลีกเลี่ยงการใช้. 632 bootstrap สำหรับการเปรียบเทียบแบบจำลองที่มีความซับซ้อนต่างกัน ด้วย. 632+ bootstrap ฉันไม่มีประสบการณ์: ถ้า overfitting เกิดขึ้นและถูกตรวจจับอย่างเหมาะสมมันจะเท่ากับการประมาณค่าเริ่มต้นจาก bootstrap เดิมดังนั้นฉันจึงติด oob ธรรมดาหรือ iterated / การตรวจสอบข้ามซ้ำสำหรับข้อมูลของฉัน
วรรณกรรม:
- Kohavi, R .: การศึกษาข้ามการตรวจสอบและเงินทุนสำหรับการประเมินความถูกต้องและโมเดลการคัดเลือกปัญญาประดิษฐ์ดำเนินการตามกฎหมายที่ 14 ร่วมประชุมนานาชาติ 20 - 25 สิงหาคม 1995, มอนทรีออควิเบก, แคนาดา, 1995 1137 - 1145.
(คลาสสิก )
Dougherty และ Braga-Neto มีสิ่งพิมพ์จำนวนมากในหัวข้อเช่น
โดเฮอร์ที ER และคณะ : ประสิทธิภาพของเครื่องมือประมาณการข้อผิดพลาดสำหรับการจำแนกทางชีวสารสนเทศปัจจุบัน, 2010, 5, 53-67
Beleites, C. et al. : การลดความแปรปรวนในการประเมินข้อผิดพลาดการจำแนกโดยใช้ชุดข้อมูลกระจัดกระจาย Chemom Intell Lab Syst, 2005, 79, 91 - 100
เรามีการเปรียบเทียบการทำการตรวจสอบข้ามเพียงครั้งเดียวหรือทำซ้ำ / ทำซ้ำและเปรียบเทียบกับ out-of-bootstrap และ. 632 bootstrap เช่นกันสำหรับข้อมูลที่กว้างโดยเฉพาะอย่างยิ่งที่มีหลาย collinearities
คิมเจ-H .: ประมาณการอัตราการจำแนกข้อผิดพลาดซ้ำแล้วซ้ำอีกการตรวจสอบข้ามซ้ำถือออกและบูต, การคำนวณสถิติและการวิเคราะห์ข้อมูล 2009, 53, 3735-374
พบว่าซ้ำ / ซ้ำยังเท่าการตรวจสอบและข้าม out-of-bootstrap มีประสิทธิภาพที่คล้ายกันk
ตัวเลือกของการวัด:
เป้าหมายสูงสุดของฉันคือสามารถพูดด้วยความมั่นใจว่าวิธีการเรียนรู้ของเครื่องวิธีหนึ่งดีกว่าอีกชุดหนึ่งสำหรับชุดข้อมูลเฉพาะ
ใช้การทดสอบแบบจับคู่เพื่อประเมินว่า สำหรับการเปรียบเทียบสัดส่วนลองดูที่การทดสอบของ McNemar
คำตอบสำหรับสิ่งนี้จะได้รับผลกระทบจากการเลือกตัวชี้วัด เนื่องจากมาตรการข้อผิดพลาดประเภทการถดถอยไม่มีขั้นตอน "การชุบแข็ง" ของการตัดการตัดสินใจด้วยขีด จำกัด จึงมักมีความแปรปรวนน้อยกว่าการจำแนกประเภท ตัวชี้วัดเช่นความถูกต้องที่เป็นสัดส่วนจะต้องมีจำนวนมากกรณีทดสอบเพื่อสร้างความเหนือกว่าของหนึ่งลักษณนามมากกว่าอีก
Fleiss: "วิธีการทางสถิติสำหรับอัตราและสัดส่วน" ให้ตัวอย่าง (และตาราง) สำหรับการเปรียบเทียบสัดส่วนที่ไม่มีการจับคู่ เพื่อให้คุณเป็นที่ประทับใจของฉันหมายถึงอะไรด้วย "ขนาดตัวอย่างขนาดใหญ่" ได้ดูภาพในคำตอบของฉันนี้คำถามอื่น ๆ การทดสอบแบบจับคู่เช่น McNemar ต้องการกรณีทดสอบน้อยกว่า แต่ IIRC ยังคงอยู่ในกรณีที่ดีที่สุดครึ่งหนึ่ง (?) ของขนาดตัวอย่างที่จำเป็นสำหรับการทดสอบแบบไม่มีคู่
ในการกำหนดลักษณะการทำงานของลักษณนาม (แข็ง) คุณมักจะต้องใช้เส้นโค้งการทำงานอย่างน้อยสองค่าเช่น ROC (ความไวกับความจำเพาะ) หรือสิ่งที่คล้ายกัน
ฉันไม่ค่อยได้ใช้ความแม่นยำโดยรวมหรือ AUC เนื่องจากแอปพลิเคชันของฉันมักจะมีข้อ จำกัด เช่นความไวนั้นสำคัญกว่าความจำเพาะหรือขอบเขตบางอย่างเกี่ยวกับมาตรการเหล่านี้ หากคุณไปหาคุณลักษณะผลรวม "หมายเลขเดียว" ตรวจสอบให้แน่ใจว่าจุดทำงานของรุ่นที่คุณกำลังดูอยู่นั้นอยู่ในช่วงที่เหมาะสม
เพื่อความแม่นยำและการวัดประสิทธิภาพอื่น ๆ ที่สรุปประสิทธิภาพสำหรับคลาสต่างๆตามฉลากอ้างอิงตรวจสอบให้แน่ใจว่าคุณคำนึงถึงความถี่สัมพัทธ์ของคลาสที่คุณจะพบในแอปพลิเคชันซึ่งไม่จำเป็นต้องเหมือนกับใน ข้อมูลการฝึกอบรมหรือการทดสอบ
พระครูเอฟและคณะ : กรณีต่อต้านการประมาณความแม่นยำสำหรับการเปรียบเทียบอัลกอริทึมการเหนี่ยวนำในการดำเนินการประชุมนานาชาติครั้งที่สิบห้าเรื่องการเรียนรู้ของเครื่องจักร, 1998
แก้ไข: เปรียบเทียบตัวแยกประเภทหลายรายการ
ฉันเคยคิดเกี่ยวกับปัญหานี้มาระยะหนึ่งแล้ว แต่ยังไม่ได้รับการแก้ไข (ฉันไม่ได้พบใครที่มีวิธีแก้ไข)
นี่คือสิ่งที่ฉันได้รับ:
ในขณะนี้ฉันตัดสินใจว่า "การเพิ่มประสิทธิภาพเป็นรากฐานของความชั่วทั้งหมด" และใช้แนวทางที่แตกต่างกันมาก:
ฉันตัดสินใจให้มากที่สุดโดยความรู้จากผู้เชี่ยวชาญเกี่ยวกับปัญหาในมือ ที่จริงแล้วมันช่วยให้สิ่งต่าง ๆ แคบลงเล็กน้อยเพื่อให้ฉันสามารถหลีกเลี่ยงการเปรียบเทียบแบบจำลองได้บ่อยครั้ง เมื่อฉันต้องเปรียบเทียบแบบจำลองฉันพยายามที่จะเปิดกว้างและชัดเจนแจ้งเตือนผู้คนเกี่ยวกับความไม่แน่นอนของการประเมินประสิทธิภาพและการเปรียบเทียบรูปแบบที่หลากหลายโดยเฉพาะอย่างยิ่ง AFAIK ยังคงเป็นปัญหาที่ยังไม่แก้
แก้ไข 2: การทดสอบที่จับคู่
n12( n2- n )การทดสอบหมายถึงความจริงที่ว่าทุกรุ่นมีการทดสอบกับกรณีทดสอบเดียวกันทั้งหมดคุณสามารถแบ่งกรณีเป็นกรณี "ง่าย" และ "ยาก" ในมือข้างหนึ่งซึ่งทุกรุ่นมาถึงที่ถูกต้อง (หรือ การคาดคะเนผิด) พวกเขาไม่ได้ช่วยแยกแยะระหว่างโมเดล ในอีกทางหนึ่งมีกรณี "น่าสนใจ" ซึ่งคาดการณ์ได้อย่างถูกต้องโดยบางคน แต่ไม่ใช่โดยรุ่นอื่น ๆ เฉพาะกรณี "น่าสนใจ" เหล่านี้เท่านั้นที่ต้องได้รับการพิจารณาเพื่อตัดสินความเหนือกว่าทั้งกรณี "ง่าย" และ "ยาก" จะช่วยได้ (นี่คือวิธีที่ฉันเข้าใจความคิดที่อยู่เบื้องหลังการทดสอบของ McNemar)
nn