ทำไมตัวแยกประเภทการถดถอยของริดจ์ทำงานได้ค่อนข้างดีสำหรับการจัดประเภทข้อความ


18

ในระหว่างการทดสอบการจำแนกข้อความฉันพบว่าตัวจําแนกประเภทสันเขาสร้างผลลัพธ์ที่ยอดการทดสอบอย่างต่อเนื่องระหว่างตัวจําแนกเหล่านั้นซึ่งถูกกล่าวถึงมากขึ้นและถูกนําไปใช้ในงานการขุดข้อความเช่น SVM, NB, kNN เป็นต้น ในการเพิ่มประสิทธิภาพลักษณนามแต่ละตัวในงานการจัดหมวดหมู่ข้อความเฉพาะนี้ยกเว้นการปรับแต่งง่าย ๆ เกี่ยวกับพารามิเตอร์

ผลดังกล่าวยังได้กล่าวถึงDikran กระเป๋า

ไม่ได้มาจากภูมิหลังทางสถิติหลังจากอ่านผ่านสื่อออนไลน์ฉันยังไม่สามารถหาสาเหตุหลักของเรื่องนี้ได้ มีใครให้ข้อมูลเชิงลึกเกี่ยวกับผลลัพธ์ดังกล่าวบ้าง

คำตอบ:


16

ปัญหาการจำแนกข้อความมักจะมีมิติค่อนข้างสูง (มีคุณสมบัติหลายอย่าง) และปัญหามิติสูงมีแนวโน้มที่จะแยกได้เป็นเส้นตรง (ในขณะที่คุณสามารถแยก d + 1 จุดใด ๆ ในพื้นที่ d-มิติด้วยตัวจําแนกเชิงเส้น มีป้ายกำกับ) ตัวแยกประเภทแบบเชิงเส้นไม่ว่าจะเป็นการถดถอยของสันหรือ SVM ที่มีเคอร์เนลเชิงเส้นมีแนวโน้มที่จะทำได้ดี ในทั้งสองกรณีพารามิเตอร์สันหรือ C สำหรับ SVM (ตามที่กล่าวถึง +1) ควบคุมความซับซ้อนของตัวจําแนกและช่วยหลีกเลี่ยงการปรับตัวมากเกินไปโดยการแยกรูปแบบของแต่ละคลาสด้วยขอบขนาดใหญ่ (เช่นพื้นผิวการตัดสินใจผ่านลง ตรงกลางของช่องว่างระหว่างสองคะแนน) อย่างไรก็ตามเพื่อให้ได้ประสิทธิภาพที่ดีพารามิเตอร์ ridge / normalization จำเป็นต้องได้รับการปรับแต่งอย่างเหมาะสม

อย่างไรก็ตามเหตุผลที่การถดถอยของสันเขาทำงานได้ดีก็คือวิธีการที่ไม่เป็นเชิงเส้นนั้นมีพลังมากเกินไปและยากที่จะหลีกเลี่ยงการปรับให้แน่นเกินไป อาจมีตัวจําแนกประเภทไม่ใช่เชิงเส้นที่ให้ประสิทธิภาพการทํางานทั่วไปที่ดีกว่าตัวแบบเชิงเส้นที่ดีที่สุด แต่มันยากเกินไปที่จะประมาณค่าพารามิเตอร์เหล่านั้นโดยใช้ตัวอย่างจํากัดของข้อมูลการฝึกอบรมที่เรามี ในทางปฏิบัติแบบจำลองที่ง่ายขึ้นปัญหาที่น้อยกว่าที่เรามีในการประมาณค่าพารามิเตอร์ดังนั้นจึงมีแนวโน้มที่จะปรับตัวได้น้อยกว่าดังนั้นเราจึงได้ผลลัพธ์ที่ดีกว่าในการปฏิบัติ

ปัญหาอื่นคือการเลือกคุณสมบัติการถดถอยของสันเขาหลีกเลี่ยงการปรับให้เหมาะสมโดยการปรับน้ำหนักให้เป็นปกติและทำให้การเลือกรุ่นตรงไปตรงมาเพราะคุณเพียงแค่เลือกค่าของพารามิเตอร์การถดถอยเดียว หากคุณพยายามหลีกเลี่ยงการปรับให้แน่นเกินไปโดยเลือกชุดคุณสมบัติที่เหมาะสมที่สุดการเลือกรุ่นจะยากเนื่องจากมีระดับความเป็นอิสระ (เรียงลำดับ) สำหรับแต่ละคุณลักษณะซึ่งทำให้คุณสามารถปรับเกณฑ์การเลือกคุณลักษณะให้พอดี ท้ายด้วยชุดของคุณสมบัติที่เหมาะสมที่สุดสำหรับตัวอย่างข้อมูลนี้โดยเฉพาะ แต่ให้ประสิทธิภาพการวางนัยทั่วไปที่ไม่ดี ดังนั้นการไม่เลือกคุณลักษณะและใช้การทำให้เป็นปกติจะทำให้ประสิทธิภาพการคาดการณ์ดีขึ้น

ฉันมักจะใช้ถุง (รูปแบบคณะกรรมการของรูปแบบการฝึกอบรมในตัวอย่าง bootstraped จากชุดการฝึกอบรม) กับแบบจำลองสันเขาถดถอยซึ่งมักจะช่วยปรับปรุงประสิทธิภาพการทำงานและเป็นแบบจำลองเชิงเส้นคุณสามารถรวมพวกเขาเป็นรูปแบบเชิงเส้นเดียว ดังนั้นจึงไม่มีประสิทธิภาพในการทำงาน


d-1dพื้นที่มิติ? เช่นถ้าคุณมี 3 คะแนนในช่องว่างแบบ 2 มิติโดยมีสองสิ่งคือของชั้นที่ 1 และอีกอันหนึ่งของชั้นที่ 2 ทั้งหมดนอนเรียงกันเป็นแถวโดยที่จุดของชั้นที่ 2 อยู่ในระหว่างอีกสองคน บรรทัด (ไฮเปอร์เพลน 1 มิติ)
tdc

โดยทั่วไปจะถือว่าคะแนนอยู่ใน "ตำแหน่งทั่วไป" ดังนั้น (เช่น) พวกเขาไม่ได้นอนเป็นเส้นตรงในกรณีนี้ในพื้นที่ 2 มิติคุณสามารถแยก 3 คะแนนใด ๆ หากคะแนนทั้งหมดอยู่ในแนวเส้นตรงจริง ๆ แล้วพวกเขาอาศัยอยู่ในพื้นที่ย่อย 1-d ที่ฝังอยู่ในพื้นที่ 2-d
Dikran Marsupial

บนวิกิพีเดียมีข้อความว่า "เนื่องจากวิธีการเฉลี่ยหลายตัวทำนายมันไม่มีประโยชน์สำหรับการปรับปรุงตัวแบบเชิงเส้น" แม้ว่าฉันไม่แน่ใจว่าทำไมสิ่งนี้ถึงควรเป็นจริง
tdc

ฉันไม่เห็นสาเหตุที่ควรเป็นจริงเช่นกัน ฉันสงสัยว่าปัญหาที่ตัวแบบเชิงเส้นแบบถุงสามารถถูกแทนด้วยตัวแบบเชิงเส้นเดียวได้อย่างแม่นยำอย่างไรก็ตามปัญหาคือการประมาณค่าพารามิเตอร์ของแบบจำลองเดียวไม่ใช่รูปแบบของแบบจำลอง ฉันพบว่าการใส่ถุงเป็นการปรับปรุงลักษณะทั่วไป แต่โดยทั่วไปแล้วจะมีขนาดเล็กเว้นแต่คุณจะมีคุณสมบัติมากมายกว่าการสังเกต (เพื่อให้การประเมินรูปแบบไม่เสถียรและการเปลี่ยนแปลงเล็กน้อยของข้อมูลทำให้เกิดการเปลี่ยนแปลงขนาดใหญ่ในตัวแบบ)
Dikran Marsupial

บางทีคุณควรอัปเดตหน้า Wikipedia! คุณฟังดูมีความรู้ในเรื่องนี้ ...
tdc

6

สันถดถอยเป็นชื่อแนะนำเป็นวิธีการถดถอยมากกว่าการจำแนก สมมุติว่าคุณใช้เกณฑ์เพื่อเปลี่ยนเป็นลักษณนาม ไม่ว่าในกรณีใดคุณกำลังเรียนรู้ลักษณนามเชิงเส้นที่กำหนดโดยไฮเปอร์เพลน เหตุผลก็คือการทำงานเป็นเพราะงานในมือเป็นหลักแยกเป็นเส้นตรง - นั่นคือไฮเปอร์เพลนที่เรียบง่ายเป็นสิ่งที่จำเป็นในการแยกชั้นเรียน พารามิเตอร์ "ridge" อนุญาตให้ทำงานในกรณีที่ไม่สามารถแยกได้เป็นเส้นตรงอย่างสมบูรณ์หรือมีปัญหาซึ่งเป็นอันดับบกพร่อง (ในกรณีนี้การเพิ่มประสิทธิภาพจะลดลง)

ในกรณีนี้ไม่มีเหตุผลว่าทำไมตัวแยกประเภทอื่นไม่ควรทำงานได้ดีเช่นกันโดยสมมติว่ามีการใช้งานอย่างถูกต้อง ตัวอย่างเช่น SVM ค้นหา "การแยกไฮเปอร์เพลนที่ดีที่สุด" (เช่นไฮเปอร์เพลนที่เพิ่มระยะห่างระหว่างขอบหรือคลาสให้มากที่สุด) Cพารามิเตอร์ของ SVM คือการควบคุมความจุพารามิเตอร์คล้ายคลึงกับพารามิเตอร์สันเขาซึ่งช่วยให้การ misclassifications บางคน (ผิดปกติ) สมมติว่ากระบวนการเลือกพารามิเตอร์ดำเนินไปอย่างขยันขันแข็งฉันคาดว่าทั้งสองวิธีจะให้ผลลัพธ์ที่เหมือนกันเกือบทุกชุดข้อมูล


2
ฉันจำได้ว่าการอ่านมันสามารถแสดงให้เห็นว่าการจำแนกไบนารี LS-SVM นั้นเทียบเท่ากับ Ridge Regression บนฉลาก -1,1 สูตรของพวกเขาเหมือนกัน
Firebug

คิดว่าคุณอาจจะมีสิทธิ์ในที่หนึ่ง
TDC
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.