6
เปรียบเทียบ R-squared จาก Random Forest สองรุ่นที่แตกต่างกัน
ฉันใช้แพ็คเกจสุ่มป่าไม้ใน R เพื่อพัฒนาโมเดลฟอเรสต์แบบสุ่มเพื่อพยายามอธิบายผลลัพธ์อย่างต่อเนื่องในชุดข้อมูล "กว้าง" ที่มีตัวทำนายมากกว่าตัวอย่าง โดยเฉพาะฉันเหมาะสมกับโมเดล RF หนึ่งตัวที่อนุญาตให้กระบวนการเลือกชุดตัวแปรพยากรณ์ 75 ตัวที่ฉันคิดว่าสำคัญ ฉันกำลังทดสอบว่าตัวแบบนั้นทำนายผลที่แท้จริงสำหรับชุดการทดสอบที่สงวนไว้อย่างไรโดยใช้วิธีการโพสต์ที่นี่ก่อนหน้านี้คือ ... หรือใน R: 1 - sum((y-predicted)^2)/sum((y-mean(y))^2) แต่ตอนนี้ฉันมีตัวแปรทำนายอีก 25 ตัวที่ฉันสามารถเพิ่มได้ เมื่อใช้ชุดตัวทำนาย ~ 100 ตัวR²จะสูงกว่า ฉันต้องการที่จะทดสอบทางสถิติในคำอื่น ๆ เมื่อใช้ชุดของ ~ 100 ทำนายที่จะทดสอบแบบจำลองอย่างมีนัยสำคัญที่ดีกว่าในการทดสอบข้อมูลกว่ารุ่นพอดีโดยใช้ ~ 75 พยากรณ์ นั่นคือR²จากการทดสอบโมเดล RF บนชุดข้อมูลแบบเต็มสูงกว่าR²อย่างมากจากการทดสอบโมเดล RF บนชุดข้อมูลที่ลดลง นี่เป็นสิ่งสำคัญสำหรับฉันที่จะทดสอบเพราะนี่คือข้อมูลนำร่องและการได้รับผู้ทำนายเพิ่มอีก 25 คนนั้นมีค่าใช้จ่ายสูงและฉันจำเป็นต้องรู้ว่าฉันควรจ่ายเงินเพื่อวัดผู้ทำนายเหล่านั้นในการศึกษาติดตามครั้งใหญ่กว่าหรือไม่ ฉันพยายามคิดถึงวิธี resampling / permutation บางอย่าง แต่ไม่มีสิ่งใดในใจ