ประเมิน Random Forest: OOB กับ CV


13

เมื่อเราประเมินคุณภาพของป่าสุ่มตัวอย่างเช่นใช้ AUC มีความเหมาะสมกว่าหรือไม่ในการคำนวณปริมาณเหล่านี้ผ่านตัวอย่าง Out of Bag หรือชุดตรวจสอบข้ามที่ถูกระงับไว้?

ฉันได้ยินมาว่าการคำนวณมันผ่านตัวอย่าง OOB ให้การประเมินในแง่ร้ายมากกว่า แต่ฉันไม่เห็นสาเหตุ

คำตอบ:


12

หมายเหตุ: ในขณะที่ฉันรู้สึกว่าคำตอบของฉันอาจถูกต้อง แต่ฉันก็รู้สึกสงสัยเนื่องจากฉันคิดทั้งหมดโดยคิดเกี่ยวกับปัญหานี้หลังจากอ่านคำถามนี้ประมาณ 30-60 นาที ดังนั้นคุณควรระแวงและกลั่นกรองสิ่งนี้ให้ดีขึ้นและอย่าหลงเชื่อในสไตล์การเขียนที่มั่นใจมากเกินไปของฉัน (ฉันใช้คำพูดใหญ่และสัญลักษณ์กรีกแฟนซีไม่ได้หมายความว่าฉันถูก)

สรุป

นี่เป็นเพียงบทสรุป รายละเอียดทั้งหมดถูกกล่าวถึงในส่วนและด้านล่าง§ 2§1§2

สมมติว่ากรณีของการจัดประเภท (สามารถขยายไปสู่การถดถอยได้เช่นกัน แต่ไม่ควรกระชับ) โดยพื้นฐานแล้วเป้าหมายของเราคือการประเมินความผิดพลาดของป่าต้นไม้ ทั้งข้อผิดพลาดนอกกระเป๋าและการตรวจสอบความถูกต้องไขว้กันของ k-fold พยายามบอกเราถึงความน่าจะเป็นที่:

  • ฟอเรสต์ให้การจำแนกที่ถูกต้อง (การตรวจสอบความถูกต้องข้ามของ k-fold จะมองด้วยวิธีนี้)

ซึ่งเหมือนกับความน่าจะเป็นที่:

  • คะแนนเสียงส่วนใหญ่ของต้นไม้ในป่าเป็นคะแนนเสียงที่ถูกต้อง (OOBE มองด้วยวิธีนี้)

และทั้งคู่เหมือนกัน ข้อแตกต่างคือ k-fold cross-validation และ OOBE ถือว่าขนาดของตัวอย่างการเรียนรู้แตกต่างกัน ตัวอย่างเช่น:

  • ในการตรวจสอบข้ามแบบ 10 เท่าชุดการเรียนรู้คือ 90% ในขณะที่ชุดการทดสอบคือ 10%
  • อย่างไรก็ตามใน OOBE หากถุงแต่ละใบมีตัวอย่างตัวอย่างเช่นn =จำนวนตัวอย่างทั้งหมดในชุดตัวอย่างทั้งหมดดังนั้นนี่ก็หมายความว่าชุดการเรียนรู้จะใช้งานจริงประมาณ 66% (สองในสาม) และชุดทดสอบประมาณ 33% ( หนึ่งในสาม)nn=

ดังนั้นในมุมมองของฉันเหตุผลเดียวที่ว่าทำไม OOBE คือการประเมินในแง่ร้ายเกี่ยวกับข้อผิดพลาดของป่าเท่านั้นเพราะมันมักจะฝึกด้วยตัวอย่างจำนวนน้อยกว่าปกติด้วย k-fold cross-validation (โดยทั่วไป 10 เท่า)

ด้วยเหตุนี้ฉันจึงคิดว่าการตรวจสอบความถูกต้องไขว้แบบสองเท่านั้นจะเป็นการประเมินในเชิงลบมากขึ้นเกี่ยวกับข้อผิดพลาดของป่ามากกว่า OOBE และการตรวจสอบความถูกต้องไขว้ 3 เท่าจะเท่ากับแง่ร้ายต่อ OOBE

1. เข้าใจข้อผิดพลาดนอกถุง

1.1 มุมมองทั่วไปเกี่ยวกับการบรรจุถุง

ต้นไม้แต่ละต้นใน RF ถูกปลูกโดยรายการตัวอย่างที่สุ่มจากชุดการเรียนรู้Xพร้อมการแทนที่ วิธีนี้nตัวอย่างจำนวนมากสามารถมีรายการที่ซ้ำกันและถ้าn = | X | จากนั้นจะพบว่าประมาณหนึ่งในสามของตัวอย่างในXมีแนวโน้มที่จะไม่ได้อยู่ในรายการตัวอย่างnที่ใช้ในการปลูกต้นไม้ที่กำหนด (นี่คือตัวอย่างนอกถุงของต้นไม้เฉพาะนี้ กระบวนการนี้ซ้ำสำหรับแต่ละต้นอย่างอิสระดังนั้นต้นไม้แต่ละต้นจึงมีตัวอย่างชุดนอกถุงที่แตกต่างกันnXnn=|X|Xn

1.2 อีกมุมมองหนึ่งเกี่ยวกับการบรรจุถุง

ทีนี้มาอธิบายการบรรจุถุงกันอีกเล็กน้อยด้วยความหวังว่าจะได้คำอธิบายที่เท่าเทียมกันซึ่งหวังว่าจะจัดการได้ง่ายกว่า

ฉันทำเช่นนี้โดยระบุว่าต้นไม้ได้รับการฝึกฝนโดยตัวอย่างถุงในชุดXเสื้อ X อย่างไรก็ตามนี่ไม่เป็นความจริงเนื่องจากชุดX tไม่มีตัวอย่างที่ซ้ำกัน (นี่คือวิธีการที่ชุดทำงาน) ในขณะที่ - ในอีกรายการnตัวอย่างสามารถมีซ้ำได้tXtXXtn

ดังนั้นเราจึงสามารถพูดได้ว่าต้นไม้มีการเติบโตขึ้นโดยตัวอย่างการวิเคราะห์X Tบวกจำนวนของรายการที่ซ้ำกันสุ่มเลือกมาจากX TคือX T , 1 , X T , 2 , ... , X T , RXทีเช่น ที่: | X t | + r i = 1 | X t , i | = ntXt XtXt,1,Xt,2,,Xt,rXt

|Xt|+i=1r|Xt,i|=n

C={Xt,Xt,1,,Xt,r}nCiCa1pnia[p]Ci.

naXt§2a

1.3 ลดความซับซ้อนของการบรรจุถุง

taXt

ntXtta

Xt

และเหตุผลที่ฉันเชื่อว่าเอนโทรปีจะไม่เปลี่ยนแปลงอย่างเป็นระบบสำหรับการแบ่งที่กำหนดเนื่องจากความน่าจะเป็นที่วัดได้เชิงประจักษ์ของตัวอย่างที่มีป้ายกำกับเฉพาะในชุดย่อยบางชุด (หลังจากใช้การแบ่งการตัดสินใจ) จะไม่เปลี่ยนแปลงเช่นกัน

Xtd

1.4 การวัดความผิดพลาดนอกถุง

OttOt=XXtt

total x in Ot correctly classified by t|Ot|
nt
t=1nttotal x in Ot correctly classified by tt=1nt|Ot|

2. การทำความเข้าใจการตรวจสอบความถูกต้องข้ามของ k-fold

XnkK={K1,K2,,Knk}K1K2Knk=XK i K j =Ki,KjKKiKj=

KtK{Kt}

fK{Kt}

จากนั้น k-fold การตรวจสอบความถูกต้องของฟอเรสต์คือ: n k t = 1ทั้งหมด  x  ใน  K t  จำแนกได้อย่างถูกต้องโดย  ff

t=1nktotal x in Kt correctly classified by ft=1nk|Kt|

ซึ่งเป็นความน่าจะเป็นที่ forestจัดประเภทตัวอย่างอินพุตใด ๆ อย่างถูกต้องf

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.