เมื่อเราประเมินคุณภาพของป่าสุ่มตัวอย่างเช่นใช้ AUC มีความเหมาะสมกว่าหรือไม่ในการคำนวณปริมาณเหล่านี้ผ่านตัวอย่าง Out of Bag หรือชุดตรวจสอบข้ามที่ถูกระงับไว้?
ฉันได้ยินมาว่าการคำนวณมันผ่านตัวอย่าง OOB ให้การประเมินในแง่ร้ายมากกว่า แต่ฉันไม่เห็นสาเหตุ
เมื่อเราประเมินคุณภาพของป่าสุ่มตัวอย่างเช่นใช้ AUC มีความเหมาะสมกว่าหรือไม่ในการคำนวณปริมาณเหล่านี้ผ่านตัวอย่าง Out of Bag หรือชุดตรวจสอบข้ามที่ถูกระงับไว้?
ฉันได้ยินมาว่าการคำนวณมันผ่านตัวอย่าง OOB ให้การประเมินในแง่ร้ายมากกว่า แต่ฉันไม่เห็นสาเหตุ
คำตอบ:
หมายเหตุ: ในขณะที่ฉันรู้สึกว่าคำตอบของฉันอาจถูกต้อง แต่ฉันก็รู้สึกสงสัยเนื่องจากฉันคิดทั้งหมดโดยคิดเกี่ยวกับปัญหานี้หลังจากอ่านคำถามนี้ประมาณ 30-60 นาที ดังนั้นคุณควรระแวงและกลั่นกรองสิ่งนี้ให้ดีขึ้นและอย่าหลงเชื่อในสไตล์การเขียนที่มั่นใจมากเกินไปของฉัน (ฉันใช้คำพูดใหญ่และสัญลักษณ์กรีกแฟนซีไม่ได้หมายความว่าฉันถูก)
นี่เป็นเพียงบทสรุป รายละเอียดทั้งหมดถูกกล่าวถึงในส่วนและด้านล่าง§ 2
สมมติว่ากรณีของการจัดประเภท (สามารถขยายไปสู่การถดถอยได้เช่นกัน แต่ไม่ควรกระชับ) โดยพื้นฐานแล้วเป้าหมายของเราคือการประเมินความผิดพลาดของป่าต้นไม้ ทั้งข้อผิดพลาดนอกกระเป๋าและการตรวจสอบความถูกต้องไขว้กันของ k-fold พยายามบอกเราถึงความน่าจะเป็นที่:
ซึ่งเหมือนกับความน่าจะเป็นที่:
และทั้งคู่เหมือนกัน ข้อแตกต่างคือ k-fold cross-validation และ OOBE ถือว่าขนาดของตัวอย่างการเรียนรู้แตกต่างกัน ตัวอย่างเช่น:
ดังนั้นในมุมมองของฉันเหตุผลเดียวที่ว่าทำไม OOBE คือการประเมินในแง่ร้ายเกี่ยวกับข้อผิดพลาดของป่าเท่านั้นเพราะมันมักจะฝึกด้วยตัวอย่างจำนวนน้อยกว่าปกติด้วย k-fold cross-validation (โดยทั่วไป 10 เท่า)
ด้วยเหตุนี้ฉันจึงคิดว่าการตรวจสอบความถูกต้องไขว้แบบสองเท่านั้นจะเป็นการประเมินในเชิงลบมากขึ้นเกี่ยวกับข้อผิดพลาดของป่ามากกว่า OOBE และการตรวจสอบความถูกต้องไขว้ 3 เท่าจะเท่ากับแง่ร้ายต่อ OOBE
ต้นไม้แต่ละต้นใน RF ถูกปลูกโดยรายการตัวอย่างที่สุ่มจากชุดการเรียนรู้Xพร้อมการแทนที่ วิธีนี้nตัวอย่างจำนวนมากสามารถมีรายการที่ซ้ำกันและถ้าn = | X | จากนั้นจะพบว่าประมาณหนึ่งในสามของตัวอย่างในXมีแนวโน้มที่จะไม่ได้อยู่ในรายการตัวอย่างnที่ใช้ในการปลูกต้นไม้ที่กำหนด (นี่คือตัวอย่างนอกถุงของต้นไม้เฉพาะนี้ กระบวนการนี้ซ้ำสำหรับแต่ละต้นอย่างอิสระดังนั้นต้นไม้แต่ละต้นจึงมีตัวอย่างชุดนอกถุงที่แตกต่างกัน
ทีนี้มาอธิบายการบรรจุถุงกันอีกเล็กน้อยด้วยความหวังว่าจะได้คำอธิบายที่เท่าเทียมกันซึ่งหวังว่าจะจัดการได้ง่ายกว่า
ฉันทำเช่นนี้โดยระบุว่าต้นไม้ได้รับการฝึกฝนโดยตัวอย่างถุงในชุดXเสื้อ ⊆ X อย่างไรก็ตามนี่ไม่เป็นความจริงเนื่องจากชุดX tไม่มีตัวอย่างที่ซ้ำกัน (นี่คือวิธีการที่ชุดทำงาน) ในขณะที่ - ในอีกรายการnตัวอย่างสามารถมีซ้ำได้
ดังนั้นเราจึงสามารถพูดได้ว่าต้นไม้มีการเติบโตขึ้นโดยตัวอย่างการวิเคราะห์X Tบวกจำนวนของรายการที่ซ้ำกันสุ่มเลือกมาจากX TคือX T , 1 , X T , 2 , ... , X T , R ⊆ Xทีเช่น ที่: | X t | + r ∑ i = 1 | X t , i | = n
.
และเหตุผลที่ฉันเชื่อว่าเอนโทรปีจะไม่เปลี่ยนแปลงอย่างเป็นระบบสำหรับการแบ่งที่กำหนดเนื่องจากความน่าจะเป็นที่วัดได้เชิงประจักษ์ของตัวอย่างที่มีป้ายกำกับเฉพาะในชุดย่อยบางชุด (หลังจากใช้การแบ่งการตัดสินใจ) จะไม่เปลี่ยนแปลงเช่นกัน
K i ∩ K j =∅
จากนั้น k-fold การตรวจสอบความถูกต้องของฟอเรสต์คือ: ∑ n k t = 1ทั้งหมด x ใน K t จำแนกได้อย่างถูกต้องโดย f
ซึ่งเป็นความน่าจะเป็นที่ forestจัดประเภทตัวอย่างอินพุตใด ๆ อย่างถูกต้อง