วิธีการตีความค่าเฉลี่ยลดลงในความแม่นยำและค่าเฉลี่ยลดลง GINI ในรูปแบบป่าสุ่ม


34

ฉันมีความยากลำบากในการทำความเข้าใจวิธีตีความผลลัพธ์ความสำคัญของตัวแปรจากแพ็คเกจ Random Forest การลดความแม่นยำหมายถึงการลดลงของความแม่นยำของแบบจำลองจากการอนุญาตให้ใช้ค่าในแต่ละคุณสมบัติ

นี่เป็นคำแถลงเกี่ยวกับสถานที่ทั้งหมดหรือเกี่ยวกับค่าเฉพาะภายในสถานที่หรือไม่? ไม่ว่าในกรณีใดค่าเฉลี่ยลดลงในความแม่นยำจำนวนหรือสัดส่วนของการสังเกตที่จำแนกอย่างไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่

สมมติว่าเรามีรูปแบบดังต่อไปนี้:

require(randomForest)
data(iris)
set.seed(1)
dat <- iris
dat$Species <- factor(ifelse(dat$Species=='virginica','virginica','other'))
model.rf <- randomForest(Species~., dat, ntree=25,
importance=TRUE, nodesize=5)
model.rf
varImpPlot(model.rf)

Call:
 randomForest(formula = Species ~ ., data = dat, ntree = 25,
 proximity = TRUE, importance = TRUE, nodesize = 5)

Type of random forest: classification
Number of trees: 25
No. of variables tried at each split: 2

        OOB estimate of  error rate: 3.33%
Confusion matrix:
          other virginica class.error
other        97         3        0.03
virginica     2        48        0.04

ป้อนคำอธิบายรูปภาพที่นี่

ในรุ่นนี้อัตรา OOB ค่อนข้างต่ำ (ประมาณ 5%) ทว่าค่าเฉลี่ยลดลงในความแม่นยำสำหรับตัวทำนาย (Petal.Length) ที่มีค่าสูงสุดในการวัดนี้มีค่าประมาณ 8 เท่านั้น

สิ่งนี้หมายความว่าการลบ Petal ความยาวออกจากตัวแบบจะส่งผลให้มีความผิดพลาดเพิ่มเติมอีก 8 ข้อโดยเฉลี่ยหรือไม่?

ค่าเฉลี่ยลดลงในความแม่นยำของกลีบดอกไม้ความยาวจะต่ำเพียงใดเนื่องจากระดับสูงสุดในการวัดนี้และตัวแปรอื่น ๆ จึงมีค่าที่ต่ำกว่าสำหรับการวัดนี้


ลอง dat <- iris [, c (2: 3,5)] และควรได้ค่า VI ที่สูงขึ้น
Soren Havelund Welling

คำตอบ:


26

" นี่เป็นคำแถลงเกี่ยวกับคุณลักษณะทั้งหมดหรือค่าเฉพาะภายในฟีเจอร์นี้หรือไม่ "

  • ความสำคัญของตัวแปร "ทั่วโลก"คือการลดความแม่นยำของค่าเฉลี่ยในการทำนายที่ผ่านการตรวจสอบความถูกต้องแบบข้ามถุงเมื่อตัวแปรที่กำหนดได้รับอนุญาตหลังจากการฝึกอบรม แต่ก่อนการทำนาย "ทั่วโลก"เป็นนัย ความสำคัญของตัวแปรท้องถิ่นคือการลดความถูกต้องของค่าเฉลี่ยโดยการทำนายค่าที่ได้รับการตรวจสอบความถูกต้องแบบข้ามถุงแต่ละใบ ความสำคัญของตัวแปรทั่วโลกเป็นที่นิยมมากที่สุดเนื่องจากเป็นหมายเลขเดียวต่อตัวแปรง่ายต่อการเข้าใจและมีความแข็งแกร่งมากขึ้นเนื่องจากมีค่าเฉลี่ยมากกว่าการคาดการณ์ทั้งหมด

" ไม่ว่าในกรณีใดหมายถึงจำนวนลดลงหรือความแม่นยำของจำนวนการสังเกตที่จำแนกไม่ถูกต้องโดยการลบคุณลักษณะ (หรือค่าจากคุณลักษณะ) ออกจากแบบจำลองหรือไม่ "

  1. รถไฟป่า
  2. วัดความแม่นยำ CV แบบไม่อยู่ในกระเป๋า→ OOB_acc_base
  3. ตัวแปรเรียงสับเปลี่ยน i
  4. วัดความแม่นยำ CV แบบไม่อยู่ในกระเป๋า→ OOB_acc_perm_i
  5. VI_i = - (OOB_acc_perm_i - OOB_acc_base)

- " นี่หมายความว่าการลบ Petal ความยาวออกจากตัวแบบจะส่งผลให้มีการรวมกลุ่มของการสังเกต 8 ครั้งหรือมากกว่านั้นโดยเฉลี่ย "

  • อ๋อ ทั้ง Petal.length และ Petal.width เพียงอย่างเดียวมีการแยกเชิงเส้นที่สมบูรณ์แบบเกือบ ดังนั้นตัวแปรจึงแบ่งปันข้อมูลที่ซ้ำซ้อนและการอนุญาตเพียงอย่างเดียวไม่ขัดขวางรูปแบบ

" ค่าเฉลี่ยลดลงในความแม่นยำของกลีบดอกไม้ความยาวจะต่ำเพียงใดเนื่องจากว่ามันเป็นค่าสูงสุดในตัววัดนี้และตัวแปรอื่น ๆ จึงมีค่าที่ต่ำกว่าสำหรับมาตรการนี้ "

  • เมื่อรูปแบบที่แข็งแกร่ง / ปกติได้รับการฝึกอบรมเกี่ยวกับตัวแปรที่ซ้ำซ้อนมันค่อนข้างต้านทานต่อการเรียงสับเปลี่ยนในตัวแปรเดี่ยว

ส่วนใหญ่ใช้ความสำคัญของตัวแปรส่วนใหญ่เพื่อจัดอันดับประโยชน์ของตัวแปรของคุณ การตีความที่ชัดเจนของค่าสัมบูรณ์ของความสำคัญของตัวแปรนั้นทำได้ยาก

GINI: ความสำคัญของ GINI วัดค่าเฉลี่ยที่ได้รับจากความบริสุทธิ์โดยแยกของตัวแปรที่กำหนด หากตัวแปรมีประโยชน์ก็จะแบ่งโหนดที่มีป้ายชื่อผสมออกเป็นโหนดคลาสเดียว การแยกโดยตัวแปรที่เปลี่ยนแปลงจะไม่เพิ่มหรือลดความบริสุทธิ์ของโหนด การอนุญาตให้ใช้ตัวแปรที่มีประโยชน์มักจะให้ค่า gini-gain ลดลงค่อนข้างมาก ความสำคัญของ GINI นั้นสัมพันธ์กับฟังก์ชั่นการตัดสินใจในท้องถิ่นนั้นฟอเรสต์แบบสุ่มใช้เพื่อเลือกการแยกที่ดีที่สุด ดังนั้นจึงไม่ต้องใช้เวลาในการคำนวณมากนัก ในทางกลับกันค่าเฉลี่ย gini-gain ในการแยกในพื้นที่ไม่จำเป็นต้องเป็นสิ่งที่มีประโยชน์มากที่สุดในการวัดในทางตรงกันข้ามกับการเปลี่ยนแปลงของประสิทธิภาพของแบบจำลองโดยรวม ความสำคัญของ Gini นั้นมีความสำคัญน้อยกว่าโดยรวม (ตามการเปลี่ยนแปลง) ความสำคัญของตัวแปรเนื่องจากค่อนข้างเอนเอียงมากกว่าไม่เสถียรและมีแนวโน้มที่จะตอบคำถามทางอ้อมมากกว่า


สำหรับการตีความความสำคัญของตัวแปรที่นอกเหนือจากการจัดอันดับที่เรียบง่ายให้ตรวจสอบ: "การเลือกตัวแปร Bivariate สำหรับปัญหาการจำแนก" -Vivian W. Ng และ Leo Breiman digitalassets.lib.berkeley.edu/sdtr/ucb/text/692.pdf
Soren Havelund Welling

ขอบคุณมากสำหรับคำตอบของคุณ! ฉันเคยเห็นบางสถานที่อธิบายการลดลงของความถูกต้องเฉลี่ยในขณะที่การเพิ่มขึ้นของอัตราข้อผิดพลาด OOB (ดังนั้นร้อยละ) สูตรที่คุณโพสต์ดูเหมือนจะแนะนำอัตราข้อผิดพลาด: (OOB_acc_perm_i - OOB_acc_base) แต่คุณแน่ใจหรือว่าค่าเฉลี่ยลดลงในความแม่นยำหมายถึงจำนวนการสังเกตที่จัดอย่างไม่ถูกต้องหรือไม่
FlacoT

1
จำลบไว้ข้างหน้าเนื่องจากความสำคัญของตัวแปรลดลง ฉันไม่เจาะจงกับหน่วยมากเกินไปสิ่งเหล่านี้สามารถแสดงเป็น% หรืออัตราส่วน / สัดส่วนที่บริสุทธิ์ไม่สำคัญ แต่ใช่เป็นความแม่นยำ = 1-error_rate, VI_i = error_rate_perm_i - error_rate_base สำหรับการถดถอยหน่วยของความสำคัญของตัวแปรการเปลี่ยนแปลงคือโดยทั่วไปแล้วจะลดลงถึง% ความแปรปรวนที่อธิบายไว้และหน่วยของความสำคัญของ gini คือการลดลงของค่าเฉลี่ยของ "แต่คุณแน่ใจหรือว่าค่าเฉลี่ยลดลงในความแม่นยำหมายถึงจำนวนการสังเกตที่จัดอย่างไม่ถูกต้องหรือไม่ " - ไม่มีความแม่นยำเป็นเศษส่วนไม่ใช่จำนวน
Soren Havelund Welling

10

นี่คือคำอธิบายของการลดลงของค่าเฉลี่ยความถูกต้อง (MDA) จากคู่มือช่วยเหลือของ randomForest:

การวัดแรกนั้นคำนวณจากการอนุญาตข้อมูล OOB: สำหรับต้นไม้แต่ละต้นจะมีการบันทึกข้อผิดพลาดการทำนายในส่วนนอกถุงของข้อมูล (อัตราความผิดพลาดสำหรับการจำแนก MSE สำหรับการถดถอย) จากนั้นให้ทำเช่นเดียวกันหลังจากอนุญาตตัวแปรตัวทำนายแต่ละตัว จากนั้นความแตกต่างระหว่างต้นไม้ทั้งสองจะถูกนำมาเฉลี่ยกับต้นไม้ทุกต้นและทำให้เป็นมาตรฐานโดยส่วนเบี่ยงเบนมาตรฐานของความแตกต่าง หากค่าเบี่ยงเบนมาตรฐานของความแตกต่างเท่ากับ 0 สำหรับตัวแปรการหารจะไม่ทำ (แต่ค่าเฉลี่ยจะเท่ากับ 0 เสมอในกรณีนั้น)

ตามรายละเอียดที่ "ความถูกต้อง" ในภาคตะวันออกเฉียงเหนือจริงหมายถึงความถูกต้องของต้นไม้เดียวรุ่นโดยไม่คำนึงถึงความจริงที่ว่าเรามีความกังวลมากขึ้นกับอัตราความผิดพลาดของป่า ดังนั้น,

"สิ่งนี้หมายความว่าการลบ Petal ความยาวจากตัวแบบจะส่งผลให้มีการจัดประเภทเพิ่มเติมอีก 8 ครั้งโดยเฉลี่ยหรือไม่?"

  • Mean(Decreases in Accuracy of Trees)StandardDeviation(Decreases in Accuracy of Trees)
  • Mean(Decreases in Accuracy of Trees)

H0:Nodes constructed by predictor i is useless in any single trees
H1:Nodes constructed by predictor i is useful

ตามขั้นตอน MDA ที่อธิบายโดย Soren นั้นแตกต่างจากการใช้แพ็คเกจแบบสุ่มป่าไม้ มันใกล้เคียงกับสิ่งที่เราต้องการจาก MDA นั่นคือความแม่นยำที่ลดลงของแบบจำลองป่าทั้งหมด อย่างไรก็ตามรูปแบบอาจจะติดตั้งที่แตกต่างกันโดยไม่มี Petal ความยาวและพึ่งพาตัวทำนายอื่น ๆ MDA ของโซเรนจะมองโลกในแง่ร้ายเกินไป


คำถามติดตามสองข้อ: 1. ความคิดใด ๆ หากแพ็คเกจอื่นใช้ MDA ที่ใช้งานง่ายกว่าที่อธิบายโดย @Soren? 2. หากการตีความของ MDA ใน RandomForest เป็นสถิติการทดสอบจะมีอะไรเหมือนกฎของหัวแม่มือเกี่ยวกับสถิติการทดสอบที่มีขนาดใหญ่เพียงพอที่จะปฏิเสธ H0 หรือไม่? MDA ติดตามการกระจายที่รู้จักบ้างไหม?
FlacoT

1. ขออภัยฉันไม่ได้ลองแพ็คเกจอื่น 2. มันเป็นเพียงสถิติทดสอบ (เท่าที่ฉันรู้เพียงไม่กี่คนที่มองเข้าไปในเรื่องนี้) หรือการทดสอบนั้นมีความหมาย - ฉันไม่คิดว่าการทดสอบจะสรุปอะไรเกี่ยวกับป่าซึ่งเป็นผลประโยชน์ที่แท้จริงของเรา
Jianyu

4

ล่าสุด (บล็อกโพสต์) [ https://explained.ai/rf-importance/index.html]จากทีมที่มหาวิทยาลัยซานฟรานซิสโกแสดงให้เห็นว่ากลยุทธ์ความสำคัญเริ่มต้นใน R (randomForest) และ Python (scikit) ไม่น่าเชื่อถือ ในสถานการณ์ข้อมูลจำนวนมาก โดยเฉพาะอย่างยิ่งหมายถึงการลดลงของตัวชี้วัดความสำคัญที่ไม่บริสุทธิ์นั้นมีความลำเอียงเมื่อตัวแปรพยากรณ์ที่มีศักยภาพแตกต่างกันไปตามขนาดของการวัดหรือจำนวนหมวดหมู่

บทความและบล็อกโพสต์แสดงให้เห็นว่าตัวแปร cardinality ที่ต่อเนื่องและสูงนั้นเป็นที่ต้องการในการลดความสำคัญของการจัดลำดับความสำคัญที่ไม่บริสุทธิ์ ผู้เขียนแนะนำให้ใช้ความสำคัญของการเปลี่ยนรูปแทนที่จะเป็นค่าเริ่มต้นในกรณีเหล่านี้ หากตัวแปรตัวทำนายในโมเดลของคุณมีความสัมพันธ์กันอย่างมากแนะนำให้มีการเปลี่ยนแปลงการเปลี่ยนแปลงตามเงื่อนไข

สิ่งเจือปนจะมีความลำเอียงเนื่องจากในแต่ละครั้งที่เลือกจุดพักในตัวแปรทุกระดับของตัวแปรจะถูกทดสอบเพื่อหาจุดพักที่ดีที่สุด ตัวแปรเชิงความต่อเนื่องหรือสูงจะมีจุดแยกมากขึ้นซึ่งส่งผลให้เกิดปัญหา "การทดสอบหลาย" นั่นคือมีความเป็นไปได้สูงกว่าที่โอกาสที่ตัวแปรเกิดขึ้นเพื่อทำนายผลลัพธ์ได้ดีเนื่องจากตัวแปรที่พยายามแยกมากขึ้นจะปรากฏบ่อยขึ้นในต้นไม้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.