ดังนั้นเคียวรีของคุณคือการเปรียบเทียบการถดถอยเชิงเส้นกับความสำคัญของตัวแปรที่ได้จากโมเดลฟอเรสต์แบบสุ่ม
เชือกพบค่าสัมประสิทธิ์การถดถอยเชิงเส้นโดยใช้การทำให้เป็นมาตรฐาน วิธีการที่ได้รับความนิยมในการจัดอันดับความสำคัญของตัวแปรในตัวแบบการถดถอยเชิงเส้นคือการย่อยสลายให้เป็นผลงานของแต่ละตัวแปร แต่ความสำคัญของตัวแปรไม่ได้ตรงไปตรงมาในการถดถอยเชิงเส้นเนื่องจากความสัมพันธ์ระหว่างตัวแปร อ้างถึงเอกสารที่อธิบายถึงวิธีการ PMD (Feldman, 2005) ในการอ้างอิงด้านล่างR2
แนวทางที่ได้รับความนิยมอีกวิธีหนึ่งคือหาค่าเฉลี่ยในการสั่งซื้อ (LMG, 1980) LMG ทำงานเช่นนี้:
- ค้นหาความสัมพันธ์กึ่งบางส่วนของแต่ละทำนายในรูปแบบเช่นการตัวแปรเรา:{ทั้งหมด} มันแสดงว่าเพิ่มขึ้นเท่าใดหากตัวแปรถูกเพิ่มเข้ากับโมเดลSSa/SStotalR2a
- คำนวณค่านี้สำหรับแต่ละตัวแปรสำหรับแต่ละคำสั่งที่ตัวแปรนั้นได้รับการแนะนำให้รู้จักกับโมเดลคือ { }; { }; { }a,b,cb,a,cb,c,a
- ค้นหาค่าเฉลี่ยของความสัมพันธ์กึ่งบางส่วนสำหรับแต่ละคำสั่งซื้อเหล่านี้ นี่คือค่าเฉลี่ยมากกว่าการสั่งซื้อ
อัลกอริธึมป่าสุ่มเหมาะกับต้นไม้หลายต้นต้นไม้แต่ละต้นในป่าถูกสร้างขึ้นโดยการสุ่มเลือกคุณสมบัติที่แตกต่างจากชุดข้อมูล โหนดของต้นไม้แต่ละต้นถูกสร้างขึ้นโดยการเลือกและแยกเพื่อให้เกิดการลดความแปรปรวนสูงสุด ในขณะที่ทำนายชุดข้อมูลการทดสอบเอาต์พุตต้นไม้แต่ละรายการจะได้รับการเฉลี่ยเพื่อให้ได้ผลลัพธ์สุดท้าย แต่ละตัวแปรจะได้รับการเปลี่ยนแปลงระหว่างต้นไม้ทั้งหมดและคำนวณความแตกต่างของข้อผิดพลาดตัวอย่างก่อนและหลังการเปลี่ยนแปลง ตัวแปรที่มีความแตกต่างสูงสุดถือเป็นสิ่งสำคัญที่สุดและตัวแปรที่มีค่าต่ำกว่าจะมีความสำคัญน้อยกว่า
วิธีการที่แบบจำลองมีความสอดคล้องกับข้อมูลการฝึกอบรมนั้นแตกต่างกันมากสำหรับตัวแบบการถดถอยเชิงเส้นเมื่อเทียบกับแบบจำลองฟอเรสต์แบบสุ่ม แต่ทั้งสองรุ่นไม่มีความสัมพันธ์เชิงโครงสร้างระหว่างตัวแปร
เกี่ยวกับการสืบค้นของคุณเกี่ยวกับความไม่เป็นเชิงเส้นของตัวแปรตาม: เชือกเป็นรูปแบบเชิงเส้นซึ่งจะไม่สามารถให้การทำนายที่ดีสำหรับกระบวนการที่ไม่ใช่เชิงเส้นพื้นฐานเมื่อเทียบกับแบบจำลองที่ใช้แผนภูมิ คุณควรจะสามารถตรวจสอบสิ่งนี้ได้โดยการตรวจสอบประสิทธิภาพของแบบจำลองผ่านชุดทดสอบแยกกันหากฟอเรสต์แบบสุ่มทำงานได้ดีขึ้นกระบวนการที่เป็นพื้นฐานอาจไม่ใช่แบบเชิงเส้น อีกวิธีหนึ่งคุณสามารถรวมเอฟเฟกต์การโต้ตอบตัวแปรและตัวแปรลำดับที่สูงขึ้นซึ่งสร้างโดยใช้ a, b และ c ในโมเดล lasso และตรวจสอบว่าโมเดลนี้ทำงานได้ดีกว่าเมื่อเปรียบเทียบกับ lasso ที่มีการผสมเชิงเส้น a, b และ c เท่านั้น ถ้าเป็นเช่นนั้นกระบวนการพื้นฐานอาจไม่ใช่เชิงเส้น
อ้างอิง: