ความสำคัญของคุณสมบัติผ่านป่าสุ่มและการถดถอยเชิงเส้นจะแตกต่างกัน

ใช้ Lasso เพื่อจัดอันดับคุณสมบัติและได้ผลลัพธ์ต่อไปนี้:

rank feature prob.
==================================
1       a     0.1825477951589229
2       b     0.07858498115577893
3       c     0.07041793111843796

โปรดทราบว่าชุดข้อมูลมี 3 ป้าย การจัดอันดับของคุณสมบัติสำหรับป้ายกำกับที่แตกต่างกันเหมือนกัน

จากนั้นใช้ฟอเรสต์แบบสุ่มกับชุดข้อมูลเดียวกัน:

rank feature score
===================================
1       b     0.17504808300002753
6       a     0.05132699243632827
8       c     0.041690685195283385

โปรดสังเกตว่าการจัดอันดับแตกต่างจากการจัดทำโดย Lasso อย่างมาก

จะตีความความแตกต่างได้อย่างไร มันบอกเป็นนัย ๆ ว่าแบบจำลองพื้นฐานไม่เชิงเส้นหรือไม่?

feature-selection random-forest linear-regression

— neurite
แหล่งที่มา

อันดับของคุณสมบัติไม่ได้แปลระหว่างตัวแยกประเภทที่แตกต่างกันจริงๆ หากต้องการทดสอบว่าแบบจำลองไม่เชิงเส้นหรือไม่ให้ดูที่นี่ตัวอย่างเช่น: stats.stackexchange.com/questions/35893/…

— อเล็กซ์อาร์

ความสำคัญของคุณลักษณะเป็นเพียงข้อเสนอแนะตาม "การวิเคราะห์พฤติกรรม" พวกเขาอาจไม่น่าเชื่อถือในบางครั้ง ฉันมักจะเชื่อป่าแบบสุ่มมากกว่า Lasso

— Gerenuk

ดังนั้นเคียวรีของคุณคือการเปรียบเทียบการถดถอยเชิงเส้นกับความสำคัญของตัวแปรที่ได้จากโมเดลฟอเรสต์แบบสุ่ม

เชือกพบค่าสัมประสิทธิ์การถดถอยเชิงเส้นโดยใช้การทำให้เป็นมาตรฐาน วิธีการที่ได้รับความนิยมในการจัดอันดับความสำคัญของตัวแปรในตัวแบบการถดถอยเชิงเส้นคือการย่อยสลายให้เป็นผลงานของแต่ละตัวแปร แต่ความสำคัญของตัวแปรไม่ได้ตรงไปตรงมาในการถดถอยเชิงเส้นเนื่องจากความสัมพันธ์ระหว่างตัวแปร อ้างถึงเอกสารที่อธิบายถึงวิธีการ PMD (Feldman, 2005) ในการอ้างอิงด้านล่าง $R^2$

แนวทางที่ได้รับความนิยมอีกวิธีหนึ่งคือหาค่าเฉลี่ยในการสั่งซื้อ (LMG, 1980) LMG ทำงานเช่นนี้:

ค้นหาความสัมพันธ์กึ่งบางส่วนของแต่ละทำนายในรูปแบบเช่นการตัวแปรเรา:{ทั้งหมด} มันแสดงว่าเพิ่มขึ้นเท่าใดหากตัวแปรถูกเพิ่มเข้ากับโมเดล $SS_a/SS_{total}$ $R^2$ $a$
คำนวณค่านี้สำหรับแต่ละตัวแปรสำหรับแต่ละคำสั่งที่ตัวแปรนั้นได้รับการแนะนำให้รู้จักกับโมเดลคือ { }; { }; { } $a,b,c$ $b,a,c$ $b,c,a$
ค้นหาค่าเฉลี่ยของความสัมพันธ์กึ่งบางส่วนสำหรับแต่ละคำสั่งซื้อเหล่านี้ นี่คือค่าเฉลี่ยมากกว่าการสั่งซื้อ

อัลกอริธึมป่าสุ่มเหมาะกับต้นไม้หลายต้นต้นไม้แต่ละต้นในป่าถูกสร้างขึ้นโดยการสุ่มเลือกคุณสมบัติที่แตกต่างจากชุดข้อมูล โหนดของต้นไม้แต่ละต้นถูกสร้างขึ้นโดยการเลือกและแยกเพื่อให้เกิดการลดความแปรปรวนสูงสุด ในขณะที่ทำนายชุดข้อมูลการทดสอบเอาต์พุตต้นไม้แต่ละรายการจะได้รับการเฉลี่ยเพื่อให้ได้ผลลัพธ์สุดท้าย แต่ละตัวแปรจะได้รับการเปลี่ยนแปลงระหว่างต้นไม้ทั้งหมดและคำนวณความแตกต่างของข้อผิดพลาดตัวอย่างก่อนและหลังการเปลี่ยนแปลง ตัวแปรที่มีความแตกต่างสูงสุดถือเป็นสิ่งสำคัญที่สุดและตัวแปรที่มีค่าต่ำกว่าจะมีความสำคัญน้อยกว่า

วิธีการที่แบบจำลองมีความสอดคล้องกับข้อมูลการฝึกอบรมนั้นแตกต่างกันมากสำหรับตัวแบบการถดถอยเชิงเส้นเมื่อเทียบกับแบบจำลองฟอเรสต์แบบสุ่ม แต่ทั้งสองรุ่นไม่มีความสัมพันธ์เชิงโครงสร้างระหว่างตัวแปร

เกี่ยวกับการสืบค้นของคุณเกี่ยวกับความไม่เป็นเชิงเส้นของตัวแปรตาม: เชือกเป็นรูปแบบเชิงเส้นซึ่งจะไม่สามารถให้การทำนายที่ดีสำหรับกระบวนการที่ไม่ใช่เชิงเส้นพื้นฐานเมื่อเทียบกับแบบจำลองที่ใช้แผนภูมิ คุณควรจะสามารถตรวจสอบสิ่งนี้ได้โดยการตรวจสอบประสิทธิภาพของแบบจำลองผ่านชุดทดสอบแยกกันหากฟอเรสต์แบบสุ่มทำงานได้ดีขึ้นกระบวนการที่เป็นพื้นฐานอาจไม่ใช่แบบเชิงเส้น อีกวิธีหนึ่งคุณสามารถรวมเอฟเฟกต์การโต้ตอบตัวแปรและตัวแปรลำดับที่สูงขึ้นซึ่งสร้างโดยใช้ a, b และ c ในโมเดล lasso และตรวจสอบว่าโมเดลนี้ทำงานได้ดีกว่าเมื่อเปรียบเทียบกับ lasso ที่มีการผสมเชิงเส้น a, b และ c เท่านั้น ถ้าเป็นเช่นนั้นกระบวนการพื้นฐานอาจไม่ใช่เชิงเส้น

อ้างอิง:

— Sandeep S. Sandhu
แหล่งที่มา