มีวิธีใดที่จะอธิบายการทำนายจากแบบจำลองฟอเรสต์แบบสุ่มหรือไม่?


11

สมมติว่าฉันมีรูปแบบการจำแนกการคาดการณ์ตามป่าสุ่ม (ใช้แพ็คเกจสุ่มป่าไม้ใน R) ฉันต้องการตั้งค่าเพื่อให้ผู้ใช้ปลายทางสามารถระบุรายการที่จะสร้างการทำนายสำหรับและมันจะส่งออกโอกาสในการจัดหมวดหมู่ จนถึงตอนนี้ก็ไม่มีปัญหา

แต่มันจะมีประโยชน์ / เจ๋งมากที่จะสามารถแสดงผลออกมาเช่นกราฟความสำคัญของตัวแปร แต่สำหรับรายการเฉพาะที่ถูกทำนายไม่ใช่สำหรับชุดฝึก สิ่งที่ต้องการ:

รายการ X ถูกคาดการณ์ว่าจะเป็นสุนัข (มีโอกาส 73%)
เนื่องจาก:
ขา = 4
ลมหายใจ =
ขนที่ไม่ดี=
อาหารสั้น= น่ารังเกียจ

คุณได้รับจุด มีวิธีมาตรฐานหรืออย่างน้อยก็สมควรในการดึงข้อมูลนี้จากป่าสุ่มที่ได้รับการฝึกอบรมแล้ว? ถ้ามีใครมีรหัสที่จะใช้สำหรับแพ็คเกจสุ่มป่าไม้หรือไม่?


ความซับซ้อนบางอย่าง ... คุณสามารถจินตนาการถึงการนับจำนวนครั้งที่ตัวแปรขาเป็นส่วนหนึ่งของเส้นทางการตัดสินใจ แต่คุณจะทำเช่นนั้นกับต้นไม้ที่ทำนายคำตอบส่วนใหญ่หรือทั้งหมดหรือไม่ หรือความแตกต่าง?
Harlan

และเปลี่ยนผู้mทำนายทุกคนทีละคนและมองดูว่าป่าพยากรณ์แตกต่างกันอย่างไรดูเหมือนว่ามีราคาแพง จะต้องมีวิธีที่ดีกว่า
Harlan

ความคิดแรกของฉันคือสงสัยว่าสิ่งที่คุณต้องการทำแตกต่างจากความสำคัญของตัวแปรของข้อมูลการฝึกอบรมอย่างไร คุณกำลังมองหาที่จะบอกว่าให้ค่าอื่น ๆ เหมือนเดิมความไวของการทำนายขา = 4 กับขา = 2 หรือขา = 0? คุณได้ดูฟังก์ชันพล็อตบางส่วนในแพ็คเกจแบบสุ่มหรือไม่
B_Miner

ความสำคัญของตัวแปรมักจะถูกกำหนดตามเงื่อนไขในชุดฝึกอบรมทั้งหมด (หรือประชากรที่คาดเดาหรือบางอย่าง) แต่สิ่งที่ฉันต้องการคือความสำคัญของตัวแปรสำหรับรายการที่คาดการณ์หนึ่งรายการ ลองนึกภาพกรณีที่ป่าไม้ประกอบไปด้วยต้นไม้ตัดสินใจที่ลำเอียง Test Instance 1 สามารถอธิบายได้โดย 1 หรือน้อยมากโหนดการตัดสินใจในขณะที่ Test Instance 2 สามารถอธิบายได้โดยชุดโหนดการตัดสินใจขนาดใหญ่กว่ามาก ฉันต้องการเวอร์ชั่นที่มนุษย์สามารถตีความได้ง่าย ๆ เช่นเดียวกับชุดการตัดสินใจอันดับ 5 ที่ฉันสามารถให้ได้ สำหรับต้นไม้ตัดสินใจเดียวฉันแค่อ่านมันออกไป
Harlan

คำตอบ:


3

ความคิดแรกคือการเลียนแบบกลยุทธ์ที่น่าพิศวงจากความสำคัญของตัวแปรและทดสอบว่าการผสมแต่ละคุณลักษณะจะทำให้ความเชื่อมั่นของป่าลดลงในการจำแนกวัตถุ (บน OOB และมีการทำซ้ำบางอย่างชัดเจน) ต้องใช้การเข้ารหัสบางอย่าง แต่สามารถทำได้อย่างแน่นอน

อย่างไรก็ตามฉันรู้สึกว่ามันเป็นความคิดที่ไม่ดีผลที่ได้อาจแปรปรวนอย่างนรก (โดยไม่กระทบต่อการเฉลี่ยวัตถุ) เสียงดัง (สำหรับวัตถุที่ไม่มั่นใจดังนั้นคุณลักษณะไร้สาระอาจมีผลกระทบมาก) และยากที่จะ ตีความ (กฎความร่วมมือสองแอตทริบิวต์ขึ้นไปอาจส่งผลให้เกิดการสุ่มของแต่ละแอตทริบิวต์ที่มีส่วนร่วม)

เพื่อไม่ให้คุณมีคำตอบเชิงลบฉันอยากลองดูเมทริกซ์ความใกล้เคียงและต้นแบบที่เป็นไปได้ที่อาจเปิดเผย - นี่ดูเหมือนจะเสถียรและตรงไปตรงมามากขึ้น


กฎความร่วมมือ / จุดทำนายที่มีความสัมพันธ์กันเป็นคำวิจารณ์ที่ยอดเยี่ยม เพื่อให้งานนี้มีความจำเป็นต้องฝึกอบรม RF ในชุดของตัวแปรที่ลดลงล่วงหน้าหรือรวมกลยุทธ์การลงโทษบางประเภทเพื่อให้ RF มุ่งเน้นไปที่ชุดย่อยของตัวทำนาย
Harlan

0

ฉันจะลองกับกรอบมะนาว

ใช้งานได้กับหลายรุ่น (รวมถึงฟอเรสต์แบบสุ่ม) มันสามารถใช้สำหรับการตีความในท้องถิ่น (นั่นคือการอธิบายคำทำนายเดียว) หรือสำหรับการตีความทั่วโลก (นั่นคือการอธิบายแบบจำลองทั้งหมด)

อ้างจาก asbtract

ในงานนี้เราเสนอ LIME ซึ่งเป็นเทคนิคการอธิบายแบบใหม่ที่อธิบายการทำนายของตัวจําแนกใด ๆ ในลักษณะที่สามารถตีความและซื่อสัตย์ได้ นอกจากนี้เรายังเสนอวิธีการอธิบายแบบจำลองโดยการนำเสนอการคาดการณ์รายบุคคลของตัวแทนและคำอธิบายของพวกเขาในลักษณะที่ไม่ซ้ำซ้อนทำให้งานเป็นปัญหาการเพิ่มประสิทธิภาพแบบ submodular

มันมีแพ็คเกจสำหรับRและpythonและอีกหลายตัวอย่างถ้าคุณ google มัน

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.