ปัญหาการจำแนกข้อความมักจะมีมิติค่อนข้างสูง (มีคุณสมบัติหลายอย่าง) และปัญหามิติสูงมีแนวโน้มที่จะแยกได้เป็นเส้นตรง (ในขณะที่คุณสามารถแยก d + 1 จุดใด ๆ ในพื้นที่ d-มิติด้วยตัวจําแนกเชิงเส้น มีป้ายกำกับ) ตัวแยกประเภทแบบเชิงเส้นไม่ว่าจะเป็นการถดถอยของสันหรือ SVM ที่มีเคอร์เนลเชิงเส้นมีแนวโน้มที่จะทำได้ดี ในทั้งสองกรณีพารามิเตอร์สันหรือ C สำหรับ SVM (ตามที่กล่าวถึง +1) ควบคุมความซับซ้อนของตัวจําแนกและช่วยหลีกเลี่ยงการปรับตัวมากเกินไปโดยการแยกรูปแบบของแต่ละคลาสด้วยขอบขนาดใหญ่ (เช่นพื้นผิวการตัดสินใจผ่านลง ตรงกลางของช่องว่างระหว่างสองคะแนน) อย่างไรก็ตามเพื่อให้ได้ประสิทธิภาพที่ดีพารามิเตอร์ ridge / normalization จำเป็นต้องได้รับการปรับแต่งอย่างเหมาะสม
อย่างไรก็ตามเหตุผลที่การถดถอยของสันเขาทำงานได้ดีก็คือวิธีการที่ไม่เป็นเชิงเส้นนั้นมีพลังมากเกินไปและยากที่จะหลีกเลี่ยงการปรับให้แน่นเกินไป อาจมีตัวจําแนกประเภทไม่ใช่เชิงเส้นที่ให้ประสิทธิภาพการทํางานทั่วไปที่ดีกว่าตัวแบบเชิงเส้นที่ดีที่สุด แต่มันยากเกินไปที่จะประมาณค่าพารามิเตอร์เหล่านั้นโดยใช้ตัวอย่างจํากัดของข้อมูลการฝึกอบรมที่เรามี ในทางปฏิบัติแบบจำลองที่ง่ายขึ้นปัญหาที่น้อยกว่าที่เรามีในการประมาณค่าพารามิเตอร์ดังนั้นจึงมีแนวโน้มที่จะปรับตัวได้น้อยกว่าดังนั้นเราจึงได้ผลลัพธ์ที่ดีกว่าในการปฏิบัติ
ปัญหาอื่นคือการเลือกคุณสมบัติการถดถอยของสันเขาหลีกเลี่ยงการปรับให้เหมาะสมโดยการปรับน้ำหนักให้เป็นปกติและทำให้การเลือกรุ่นตรงไปตรงมาเพราะคุณเพียงแค่เลือกค่าของพารามิเตอร์การถดถอยเดียว หากคุณพยายามหลีกเลี่ยงการปรับให้แน่นเกินไปโดยเลือกชุดคุณสมบัติที่เหมาะสมที่สุดการเลือกรุ่นจะยากเนื่องจากมีระดับความเป็นอิสระ (เรียงลำดับ) สำหรับแต่ละคุณลักษณะซึ่งทำให้คุณสามารถปรับเกณฑ์การเลือกคุณลักษณะให้พอดี ท้ายด้วยชุดของคุณสมบัติที่เหมาะสมที่สุดสำหรับตัวอย่างข้อมูลนี้โดยเฉพาะ แต่ให้ประสิทธิภาพการวางนัยทั่วไปที่ไม่ดี ดังนั้นการไม่เลือกคุณลักษณะและใช้การทำให้เป็นปกติจะทำให้ประสิทธิภาพการคาดการณ์ดีขึ้น
ฉันมักจะใช้ถุง (รูปแบบคณะกรรมการของรูปแบบการฝึกอบรมในตัวอย่าง bootstraped จากชุดการฝึกอบรม) กับแบบจำลองสันเขาถดถอยซึ่งมักจะช่วยปรับปรุงประสิทธิภาพการทำงานและเป็นแบบจำลองเชิงเส้นคุณสามารถรวมพวกเขาเป็นรูปแบบเชิงเส้นเดียว ดังนั้นจึงไม่มีประสิทธิภาพในการทำงาน