การเปรียบเทียบระหว่าง SHAP (คำอธิบายเพิ่มเติมของแชปลีย์) และ LIME (คำอธิบายแบบจำลองผู้ไม่เชื่อเรื่องพระเจ้าแบบท้องถิ่น)


20

ฉันกำลังอ่านเทคนิคการตีความโมเดลโพสต์ hoc ที่เป็นที่นิยมสองวิธี: LIMEและSHAP

ฉันมีปัญหาในการทำความเข้าใจความแตกต่างที่สำคัญในสองเทคนิคนี้

หากต้องการอ้างอิง Scott Lundbergสมองที่อยู่เบื้องหลัง SHAP:

ค่า SHAP มาพร้อมกับข้อได้เปรียบในการประมาณกล่องดำของ LIME แต่มาพร้อมกับการรับประกันเชิงทฤษฎีเกี่ยวกับความสอดคล้องและความถูกต้องในท้องถิ่นจากทฤษฎีเกม (คุณลักษณะจากวิธีการอื่น ๆ ที่เรารวมเป็นหนึ่ง)

ฉันกำลังมีปัญหาในการทำความเข้าใจว่า ' การรับประกันเชิงทฤษฎีเกี่ยวกับความสอดคล้องและความถูกต้องในท้องถิ่นจากทฤษฎีเกม ' คืออะไร เนื่องจาก SHAP ได้รับการพัฒนาหลังจาก LIME ฉันจึงคิดว่ามันเต็มไปด้วยช่องว่างที่ LIME ไม่สามารถจัดการได้ นู้นคืออะไร?

หนังสือของ Christoph Molnar ในบทหนึ่งเกี่ยวกับ Shapley Estimation ฯ :

ความแตกต่างระหว่างการทำนายและการคาดคะเนเฉลี่ยนั้นได้รับการกระจายอย่างเป็นธรรมในค่าคุณสมบัติของอินสแตนซ์ - คุณสมบัติประสิทธิภาพแชพลีย์ คุณสมบัตินี้ตั้งค่า Shapley นอกเหนือจากวิธีอื่นเช่น LIME LIME ไม่รับประกันว่าจะสามารถกระจายเอฟเฟกต์ได้อย่างสมบูรณ์แบบ มันอาจทำให้ค่าแชปลีย์เป็นวิธีเดียวที่จะส่งคำอธิบายแบบเต็ม

การอ่านสิ่งนี้ฉันเข้าใจว่า SHAP ไม่ใช่เฉพาะในท้องถิ่น แต่เป็นคำอธิบายที่อ่อนช้อยของจุดข้อมูล ฉันผิดที่นี่และต้องการข้อมูลเชิงลึกเกี่ยวกับความหมายของข้อความอ้างอิงข้างต้น เพื่อสรุปคำถามของฉัน: LIME ให้คำอธิบายเฉพาะที่ คำอธิบายของ SHAP แตกต่างจาก LIME อย่างไร


2
เป็นคำถามที่ดี (+1) ฉันจะลองตอบเมื่อฉันมีเวลา แต่สิ่งที่ชัดเจนที่สังเกตได้คือ LIME ไม่ได้มีคำอธิบายที่สอดคล้องกันทั่วโลกในขณะที่ SHAP ทำ นอกจากนี้ SHAP ได้รับการพัฒนาอย่างแน่นอนก่อน LIME SHAP สร้างงานหนักจากงานของ Strumbelj & Kononenko จาก latE 00 / ต้น 10's รวมถึงงานด้านเศรษฐศาสตร์เกี่ยวกับเกมสหกรณ์ที่สามารถถ่ายโอนได้ (เช่น Lipovetsky & Conklin (2001)) นอกจากนี้งานจำนวนมากเกี่ยวกับการวัดการวิเคราะห์ความไว (เช่นดัชนี Sobol) ก็เป็นเช่นนั้น โดยทั่วไปแล้วแนวคิดของ SHAP หลักจะเป็นที่รู้จักกันดีก่อน NIPS 2017
usεr11852กล่าวว่า Reinstate Monic

2
(เพื่อให้ชัดเจนเกี่ยวกับช่วงครึ่งหลังของความคิดเห็นของฉันด้านบน: ฉันไม่แนะนำให้ใช้กระดาษ NIPS 2017 เป็นผลิตภัณฑ์ของการลอกเลียนแบบหรือสิ่งอื่นจากระยะไกลเช่นนั้นมันเป็นเพียงที่ฉันมักจะเห็นคนไม่สนใจงานก่อนหน้านี้มากมาย ภาคสนามและการรักษาที่ผ่านมาข้ามส่วนของวิวัฒนาการอินทรีย์อย่างอื่นของเขตของความรู้เป็นความก้าวหน้าระเบียบวิธีการที่สำคัญในกรณีนี้โดยเฉพาะอย่างยิ่ง. ทฤษฎีเกมอัลกอริทึมได้รับรอบทศวรรษที่ผ่านมาเป็นส่วนหนึ่งของเอไอเพียงแค่ตอนนี้มันกลายเป็นกึ่งเย็น )
usεr11852พูดว่า Reinstate Monic

1
@ usεr11852รอคำตอบของคุณ โปรดช่วยส่งความคิดเห็นของคุณเกี่ยวกับเรื่องนี้
user248884

2
ยังไม่มีเวลาที่จำเป็นทั้งหมด ฉันเขียนประมาณ 400 คำ แต่ต้องใช้เวลาทำงานอีกอย่างน้อย 6-7 ชั่วโมงเพราะต้องอ่านเอกสารใหม่และกระชับข้อความของฉัน - การอธิบาย SHAP โดยที่ไม่ต้องทำการปรับให้เรียบง่ายเกินไปเป็นเรื่องที่ท้าทาย (สำหรับฉันอย่างน้อย) อาจจะทำก่อนกลางเดือนธันวาคม ... :)
us --r11852 พูดว่า Reinstate Monic

1
@ usεr11852แน่นอน จะรอ :)
user248884

คำตอบ:


8

LIME สร้างแบบจำลองตัวแทนในพื้นที่รอบ ๆ หน่วยที่คาดการณ์ไว้ว่าคุณต้องการเข้าใจ ดังนั้นจึงเป็นท้องถิ่นโดยเนื้อแท้ หุ่นดี 'แตกสลาย' การทำนายสุดท้ายในการมีส่วนร่วมของแต่ละคุณลักษณะ - นี่คือความหมายบางอย่างโดย 'สอดคล้อง' (ค่ารวมถึงการทำนายที่แท้จริงของโมเดลจริงนี่ไม่ใช่สิ่งที่คุณได้รับจาก LIME) แต่เพื่อให้ได้ค่าที่ดีจริง ๆ มีการตัดสินใจบางอย่างที่ต้องทำเกี่ยวกับสิ่งที่ต้องทำ / วิธีการจัดการค่าของคุณลักษณะ 'ซ้ายออก' นี่คือวิธีที่ค่ามาถึง ในการตัดสินใจครั้งนี้มีทางเลือกบางอย่างที่สามารถเปลี่ยนการตีความได้ ถ้าฉัน 'ทิ้ง' คุณลักษณะฉันจะเฉลี่ยความเป็นไปได้ทั้งหมดหรือไม่ เลือก 'พื้นฐาน' บางอย่าง?

ดังนั้นหุ่นดีจริง ๆ บอกคุณในทางเพิ่มเติมวิธีคุณได้รับคะแนนของคุณ แต่มีตัวเลือกบางอย่างเกี่ยวกับ 'จุดเริ่มต้น' (เช่นการตัดสินใจเกี่ยวกับคุณลักษณะที่ถูกละเว้น)

LIME บอกคุณในแง่ของท้องถิ่นคุณลักษณะที่สำคัญที่สุดรอบ ๆ จุดข้อมูลที่น่าสนใจคืออะไร


คุณสามารถเพิ่มว่าแต่ละรุ่นทำคะแนนของพวกเขาได้อย่างไร (เช่น shap score) - ฉันพบว่าคะแนนเหล่านี้น่ารำคาญเพราะพวกเขาไม่ได้เป็นปกติและฉันไม่เข้าใจว่าพวกเขาหมายถึงอะไร!
user4581
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.