ตัวจําแนกข้อความที่อธิบายการตัดสินใจ


11

ฉันกำลังสร้างตัวจัดหมวดหมู่ข้อความสำหรับประโยคสั้น ๆ นอกเหนือจากการบอกผู้ใช้ว่า "หมวดหมู่ของข้อความที่คุณป้อนคือ C" ฉันต้องการอธิบายได้ว่าทำไมฉันจึงตัดสินใจนี้ด้วยวิธีที่สั้นและเข้าใจง่าย ตัวอย่างเช่นฉันไม่ต้องการบอกผู้ใช้ว่า "ฉันใส่ประโยคของคุณลงในเครือข่ายนิวรัล 3 ชั้นที่ซับซ้อนและนั่นคือคำตอบที่ให้คะแนนดีที่สุด"; ฉันต้องการคำอธิบายเช่น "ประโยคของคุณมีคำว่า U, V และ W ซึ่งเป็นลักษณะของหมวดหมู่นี้เนื่องจากประโยคเช่น X, Y และ Z ที่ปรากฏในข้อมูลการฝึกอบรม"

คำถามของฉันคือ: อัลกอริธึมการจำแนกประเภทใดที่เหมาะที่สุดสำหรับแอปพลิเคชันดังกล่าว

k- เพื่อนบ้านที่อยู่ใกล้ที่สุดดูเหมือนจะเป็นผู้สมัครที่ดีเพราะฉันสามารถบอกผู้ใช้ "ประโยคของคุณมีหมวดหมู่ C เพราะมันคล้ายกับประโยค X, Y และ Z ที่มีหมวดหมู่เดียวกัน แต่ประสิทธิภาพของปัญหาการจัดหมวดหมู่ข้อความเป็นที่รู้จักกัน ไม่ดีฉันกำลังมองหา classifie ที่ถ่วงดุลประสิทธิภาพด้วยความสามารถในการอธิบาย

แก้ไข: หลังจากใช้เวลามากในการค้นหาตัวจําแนกเช่นนี้ฉันเริ่มสร้างไลบรารี่การเรียนรู้ของเครื่องที่เรียกว่าlimduซึ่งช่วยให้ตัวแยกประเภทอธิบายการตัดสินใจของพวกเขา มันยังอยู่ระหว่างการพัฒนา แต่มันช่วยฉันอธิบายตัวเองและเพื่อนร่วมงานแล้วทำไมตัวจําแนกของเราล้มเหลวบ่อยครั้ง ...


จุดประสงค์ของการเรียนรู้ของเครื่องคือคุณไม่สนใจว่าจะเกิดอะไรขึ้นภายใต้ประทุนคุณเพียง แต่สนใจเกี่ยวกับประสิทธิภาพ วิธีการอื่นล้มเหลวและนั่นเป็นเหตุผลว่าทำไมทุกคนในปัจจุบันจึงใช้วิธีการทางสถิติแบบทึบแสง - พวกเขาดีขึ้นมาก
Yuval Filmus

2
@Yuval ฉันไม่เห็นด้วยอย่างยิ่งว่าวิธีการอื่นล้มเหลว มันไม่ได้ดีที่สุด แต่พวกเขายังคงบรรลุเป้าหมายของการจำแนกงานโดยอัตโนมัติเหนือสิ่งที่มนุษย์มีความสามารถหรือความอดทนที่จะทำ กล่องดำทึบแสงไม่ใช่วิธีเดียวที่จะทำให้การเรียนรู้ของเครื่องทำได้อย่างมีประสิทธิภาพโดยเฉพาะอย่างยิ่งในสถานการณ์เช่นนี้ซึ่งการปฏิบัติไม่ใช่แค่การพิจารณาเท่านั้น เป็นคนใจกว้างมากขึ้นเกี่ยวกับเป้าหมายที่แตกต่างกันหลังงานการเรียนรู้ของเครื่อง
Richard D

คำตอบ:


7

แม้ว่ามันจะทำงานได้ไม่ดีในงานการจัดหมวดหมู่ข้อความ แต่ถ้าคุณต้องการคำอธิบายที่ชัดเจนเกี่ยวกับเหตุผลการจัดหมวดหมู่ต้นไม้การตัดสินใจจะเป็นตัวเลือกที่ดีที่สุดของคุณเนื่องจากมีกฎที่ชัดเจนสำหรับวิธีการจำแนกอินสแตนซ์ การติดตามของแผนผังจะจัดเตรียมค่าที่กำหนดและโดยการวิเคราะห์อินสแตนซ์ใกล้กับโหนดรูทคุณอาจสามารถกำหนดคุณลักษณะที่สำคัญยิ่งกว่าในการจำแนกประเภท

อีกทางเลือกหนึ่งคือการใช้ตัวจําแนกNaive Bayesซึ่งมีประสิทธิภาพดีกว่าสําหรับงานขุดข้อความและจะให้รูปแบบการประเมินที่เข้าใจได้โดยอิงตามความน่าจะเป็นที่คุณสามารถใช้เพื่อสร้าง "ทำไม" ที่คุณกำลังมองหา ค่าแอตทริบิวต์ใดมีความสำคัญมากกว่าค่าอื่นในการตัดสินใจ

สนับสนุน Vector Machinesโดยเฉพาะอย่างยิ่ง Sequential Minimum Optimization (SMO) ดูเหมือนจะทำงานได้ดีกับงานเหล่านี้และในทำนองเดียวกันก็มีการระบุค่าที่ใช้ในการจัดประเภทในรูปแบบของน้ำหนักแอตทริบิวต์และเวกเตอร์สนับสนุน แต่ฉันคิดว่าคุณอาจลำบากกว่า ทำให้ชัดเจนว่าน้ำหนักและเวกเตอร์เหล่านี้มีอิทธิพลต่อการตัดสินใจจำแนกโดยรวมอย่างไร

โชคดีกับโครงการของคุณ! ฟังดูน่าสนใจมาก


1
ขอบคุณ ฉันยังพบว่าตัวแยกประเภทออนไลน์เช่น perceptron และ winnow ค่อนข้างดีในงานนี้ (อย่างน้อยในสถานการณ์ของฉัน) และมันเป็นเรื่องง่ายที่จะอธิบายการตัดสินใจโดยดูที่ค่าสัมบูรณ์ของแต่ละคุณลักษณะที่เพิ่มเข้ากับคะแนนการจำแนก สำหรับแต่ละตัวอย่างฉันจัดเรียงคุณสมบัติตามค่าสัมบูรณ์ของ (คุณสมบัติ * น้ำหนัก) และแสดงสองสามอย่างแรก
Erel Segal-Halevi

3

ฉันจำได้อย่างชัดเจนว่าPeter Norvigมีการใช้งานMYCINซึ่งเป็นระบบผู้เชี่ยวชาญด้านการวินิจฉัยทางการแพทย์ที่เขียนด้วยLISPในหนังสือของเขากระบวนทัศน์ของการเขียนโปรแกรมปัญญาประดิษฐ์: กรณีศึกษาใน Common LISPซึ่งทำสิ่งนี้

อาจเป็นจุดเริ่มต้นที่ดีในการทำวิจัยของคุณ คุณจะพบซอร์สโค้ดออนไลน์พร้อมกับกฎพื้นฐานอย่างไรก็ตามฉันขอแนะนำให้อ่านข้อความและไม่พยายามที่จะเข้าใจจากซอร์สโค้ดเพียงอย่างเดียว

คุณยังสามารถตรงไปที่หน้าสำหรับEmycin (ความสำคัญของฉัน)

Emycin เป็นเชลล์ระบบผู้เชี่ยวชาญกรอบการทำงานสำหรับการสร้างโปรแกรมที่บันทึกความรู้ของผู้เชี่ยวชาญด้านโดเมนและใช้ความรู้นั้นเพื่อช่วยผู้ใช้ที่ไม่ใช่ผู้เชี่ยวชาญในการแก้ปัญหา มีอินเทอร์เฟซที่ช่วยให้ผู้เชี่ยวชาญกำหนดประเภทข้อมูลและกฎระเบียบอัลกอริทึมการให้เหตุผลย้อนหลัง (คล้ายกับ Prolog แต่มีความแตกต่างที่สำคัญ) กลไกสำหรับจัดการกับความไม่แน่นอนและสิ่งอำนวยความสะดวกสำหรับการวิปัสสนา และมันกำลังทำอะไรอยู่


2
มีเหตุผลว่าทำไมระบบผู้เชี่ยวชาญไม่เป็นที่นิยมอีกต่อไปแม้ว่ามันจะยากที่จะเขียนกฎทั้งหมด
adrianN
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.