โมเดลการจำแนกประเภทที่ตีความได้มากที่สุด


10

ยกเว้นต้นไม้ตัดสินใจและการถดถอยโลจิสติกโมเดลการจำแนกประเภทอื่นใดที่ให้การตีความที่ดี ฉันไม่สนใจความถูกต้องหรือพารามิเตอร์อื่น ๆ การตีความผลลัพธ์เป็นสิ่งสำคัญเท่านั้น


คุณควรสนใจความถูกต้องหรือพารามิเตอร์อย่างน้อย มิฉะนั้นทำไมต้องจัดกลุ่มเลย
ประสาทวิทยา

คุณสนใจสิ่งนี้เพื่อดูความสัมพันธ์ระหว่างคุณลักษณะและคลาสหรือไม่
Cem Kalyoncu

@CemKalyoncu ใช่นั่นเป็นส่วนหนึ่งของการตีความด้วยเช่นกัน
Miroslav Sabo

คำตอบ:


30

1) ฉันจะยืนยันว่าต้นไม้การตัดสินใจนั้นไม่สามารถตีความได้อย่างที่คนอื่นคิดไว้ พวกเขาดูสามารถตีความได้เนื่องจากแต่ละโหนดเป็นการตัดสินใจแบบไบนารีที่เรียบง่าย ปัญหาคือเมื่อคุณลงไปที่ต้นไม้แต่ละโหนดจะมีเงื่อนไขในทุก ๆ โหนดที่อยู่ด้านบน หากทรีของคุณมีความลึกเพียงสี่หรือห้าระดับก็ยังไม่ยากที่จะแปลงเส้นทางของเทอร์มินัลโหนดหนึ่ง (สี่หรือห้าแยก) เป็นสิ่งที่ตีความได้ (เช่น "โหนดนี้สะท้อนถึงลูกค้าระยะยาวที่เป็นผู้ชายที่มีรายได้สูง ") แต่การพยายามติดตามโหนดเทอร์มินัลหลายเครื่องเป็นเรื่องยาก

หากสิ่งที่คุณต้องทำคือโน้มน้าวลูกค้าว่าโมเดลของคุณสามารถตีความได้ ("ดูวงกลมแต่ละวงที่นี่มีการตัดสินใจที่ใช่ / ไม่ง่ายเข้าใจง่ายไม่ใช่?") จากนั้นฉันจะเก็บแผนภูมิการตัดสินใจไว้ในรายการของคุณ . หากคุณต้องการการตีความที่สามารถดำเนินการได้ฉันขอแนะนำให้พวกเขาอาจไม่ทำการตัด

2) ปัญหาอื่นกำลังชี้แจงสิ่งที่คุณหมายถึงโดย "การตีความผลลัพธ์" ฉันพบปัญหาการตีความในสี่บริบท:

  1. ลูกค้าสามารถเข้าใจวิธีการ (ไม่ใช่สิ่งที่คุณกำลังถาม) ป่าสุ่มเป็นคำอธิบายที่ค่อนข้างตรงไปตรงมาและลูกค้าส่วนใหญ่รู้สึกสบายใจเมื่อได้อธิบายง่ายๆ

  2. อธิบายวิธีการที่เหมาะกับแบบจำลอง (ฉันมีลูกค้าที่ยืนยันฉันอธิบายว่าต้นไม้การตัดสินใจติดตั้งเพราะพวกเขารู้สึกว่ามันจะช่วยให้พวกเขาเข้าใจวิธีการใช้ผลลัพธ์ได้อย่างชาญฉลาดมากขึ้นหลังจากที่ฉันเขียนบทความที่ดีมากพร้อมไดอะแกรมที่ดีจำนวนมาก มันไม่มีประโยชน์ที่จะตีความ / ทำความเข้าใจเลย) อีกครั้งฉันเชื่อว่านี่ไม่ใช่สิ่งที่คุณถาม

  3. เมื่อแบบจำลองถูกติดตั้งแล้วตีความสิ่งที่ตัวแบบ "เชื่อ" หรือ "พูดว่า" เกี่ยวกับตัวทำนาย ที่นี่ต้นไม้การตัดสินใจดูตีความ แต่มีความซับซ้อนมากกว่าการแสดงผลครั้งแรก การถดถอยโลจิสติกค่อนข้างตรงไปตรงมาที่นี่

  4. เมื่อมีการจำแนกจุดข้อมูลเฉพาะให้อธิบายว่าทำไมการตัดสินใจนั้นจึงเกิดขึ้น เหตุใดการถดถอยโลจิสติกของคุณจึงบอกว่าเป็นโอกาส 80% ของการหลอกลวง ทำไมต้นไม้การตัดสินใจของคุณบอกว่ามันมีความเสี่ยงต่ำ หากลูกค้าพอใจกับการพิมพ์โหนดการตัดสินใจที่นำไปสู่โหนดเทอร์มินัลนี่เป็นเรื่องง่ายสำหรับแผนผังการตัดสินใจ หาก "ทำไม" ต้องสรุปเป็นมนุษย์พูด ("คนนี้มีความเสี่ยงต่ำเนื่องจากเป็นลูกค้าชายระยะยาวที่มีรายได้สูงและหลายบัญชีกับ บริษัท ของเรา") มันยากกว่ามาก

ดังนั้นในระดับหนึ่งของการตีความหรืออธิบายได้ (# 1 ที่มี # 4 เล็กน้อยด้านบน) K- เพื่อนบ้านที่ใกล้ที่สุดจึงเป็นเรื่องง่าย: "ลูกค้ารายนี้ถูกตัดสินว่ามีความเสี่ยงสูงเพราะลูกค้า 8 ใน 10 ที่เคยประเมินและเป็นผู้ใช้มากที่สุด คล้ายกับพวกเขาในแง่ของ X, Y และ Z พบว่ามีความเสี่ยงสูง " ที่การดำเนินการเต็มระดับ # 4 มันไม่สามารถตีความได้ (ฉันคิดว่าจะนำเสนอลูกค้าอีก 8 รายให้กับพวกเขา แต่นั่นจะทำให้พวกเขาเจาะลึกลงไปในลูกค้าเหล่านั้นเพื่อหาว่าลูกค้าเหล่านั้นมีอะไรเหมือนกันด้วยตนเองและสิ่งที่ลูกค้าที่ได้รับการจัดอันดับมีเหมือนกัน)

เมื่อเร็ว ๆ นี้ฉันได้อ่านบทความสองสามฉบับเกี่ยวกับการใช้วิธีการวิเคราะห์ความไวเพื่อหาคำอธิบายอัตโนมัติของประเภท # 4 แม้ว่าฉันจะไม่มีอะไรอยู่ในมือ บางทีบางคนสามารถส่งลิงก์ไปยังความคิดเห็นได้บ้าง?


1
ความเห็นที่ยอดเยี่ยมและรอบคอบเกี่ยวกับศิลปะของการนำเสนอการวิเคราะห์ต่อผู้ชมที่ไม่มีเทคนิคซับซ้อนและ / หรือผู้ชมจำนวนมาก
Mike Hunter

1
+6 คำตอบที่ครอบคลุมและลึกซึ้งสำหรับคำถามที่ค่อนข้างง่ายและตรงไปตรงมา เตือนฉันในอีกไม่กี่วันข้างหน้า & ฉันจะวางรางวัลนี้
gung - Reinstate Monica

@Wayne นี่คือกระดาษที่มาพร้อมกับคำอธิบายอัตโนมัติของประเภท # 4: arxiv.org/abs/1602.04938
madness

7

ขึ้นอยู่กับข้อมูลที่คุณใช้ หากคุณไม่สนใจความถูกต้องฉันเชื่อว่าการแสดงข้อมูลและการจำแนกเป็นวิธีที่ดีที่สุดวิธีหนึ่งในการตีความข้อมูลและประสิทธิภาพของอัลกอริทึม

นี่คือตัวอย่างการเปรียบเทียบตัวแยกประเภทต่างๆ แต่ละแถวเป็นชุดข้อมูลที่แตกต่างกับข้อมูลที่มีความสามารถในการแยกต่างกัน แต่ละคอลัมน์คือการสร้างภาพของแต่ละลักษณนาม

ป้อนคำอธิบายรูปภาพที่นี่

http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html


5

การวิเคราะห์จำแนกเป็นรูปแบบการจำแนกดั้งเดิมซึ่งย้อนหลังไปกว่าหนึ่งร้อยปีเพื่อ RA Fisher ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ) ทั้งหมดนี้มักถูกมองข้ามในโลกของเครื่องจักรและรูปแบบการเรียนรู้เชิงสถิติในปัจจุบันซึ่งถูกแทนที่ด้วยวิธีการที่สอดคล้องกับศัพท์แสงล่าสุด

บทความนี้อยู่ในวารสารการเรียนรู้ของเครื่องและมีรายการซักวิธีอื่น ๆเราจำเป็นต้องมีตัวจําแนกหลายร้อยตัวในการแก้ไขปัญหาการจัดประเภทโลกแห่งความจริงหรือไม่? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf


0

ในการค้นหาความสัมพันธ์ระหว่างคุณลักษณะและคลาสคุณสามารถใช้วิธีความสัมพันธ์ คุณสามารถใช้วิธีไคสแควร์เพื่อค้นหาว่ามีการเชื่อมโยงกับชั้นเรียนหรือไม่ ในการดำเนินการนี้คุณควรใช้ความเท่าเทียมกันของคลาสป้ายกำกับ ตัวอย่างเช่นหากคุณกำลังทดสอบคุณลักษณะ 1 และคลาส 1 คุณควรทำการ binning สำหรับคุณสมบัติ 1 และคำนวณ chi ^ 2 ระหว่างความน่าจะเป็นที่ถูกหลอมรวมและตัวแปรสมาชิกที่มีค่า 1 เมื่อคลาสเป็น 1, 0 มิฉะนั้น ด้วยวิธีนี้หากการเป็นคลาส 1 ขึ้นอยู่กับฟีเจอร์ที่ 1 ถังขยะบางตัวจะมีอัตราการเป็นคลาสที่สูงกว่าในขณะที่บางถังจะมีระดับที่ต่ำกว่า

วิธีการเพิ่มเติมที่ฉันได้ลองด้วยความสำเร็จปานกลางก็คือการทำให้คุณสมบัติของคลาสเข้ากับการแจกแจงแบบปกติ จากนั้นสำหรับทุกตัวอย่างในชั้นเรียนให้ปรับปรุงคะแนนคุณลักษณะโดยความเหมาะสมของกลุ่มตัวอย่างเพื่อการแจกแจง สำหรับทุกตัวอย่างที่ไม่ได้อยู่ในชั้นเรียน เห็นได้ชัดว่าคุณต้องทำให้ปกติสำหรับจำนวนตัวอย่างที่อยู่ในและไม่ได้อยู่ในชั้นเรียน สิ่งนี้ใช้ได้กับคุณสมบัติที่มีการกระจายใกล้เคียงกับการแจกแจงแบบปกติเท่านั้น ฉันใช้วิธีนี้เพื่อกำหนดคะแนนต่อคุณลักษณะสำหรับทุกชั้นเรียน


0

ไม่มีใครพูดถึงการจำแนกเพื่อนบ้านที่ใกล้ที่สุด คำอธิบายนี้ง่ายมาก การสังเกตถูกจำแนกตามระดับที่พบบ่อยที่สุดในบรรดาการสังเกตเหล่านั้น ปกติแล้วเราจะเลือกเพื่อนบ้านที่ใกล้ที่สุดเพื่อดูดังนั้นจึงไม่มีความผูกพันที่จะทำลาย


2
> ไม่มีใครพูดถึงการจำแนกเพื่อนบ้านที่ใกล้ที่สุด จริงๆ? คุณควรอ่านคำตอบอีกครั้ง
Alleo

โอเคฉันเดาว่าฉลากส่วนล่างของเนื้อเรื่องมีค่า ถึงกระนั้น NN ก็เป็นวิธีที่ง่ายที่สุดที่จะอธิบายโดยเฉพาะถ้าผู้ชมของคุณไม่ได้อยู่ในคณิตศาสตร์
JDL
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.