เหตุใดจึงเปลี่ยนข้อมูลเป็นพื้นที่คุณลักษณะมิติสูงซึ่งคลาสใดที่แยกกันเป็นเส้นตรงนำไปสู่การ overfitting?


10

ฉันอ่านในหนังสือของฉัน (การจำแนกรูปแบบทางสถิติโดย Webb และ Wiley) ในส่วนเกี่ยวกับ SVM และข้อมูลที่ไม่สามารถแบ่งแยกได้แบบเส้นตรง:

ในปัญหาที่เกิดขึ้นจริงในโลกแห่งความเป็นจริงหลายอย่างจะไม่มีขอบเขตเชิงเส้นคั่นระหว่างชั้นเรียนและปัญหาของการค้นหาไฮเปอร์เพลนแบบแยกที่ดีที่สุดนั้นไร้ความหมาย แม้ว่าเราจะต้องใช้เวกเตอร์ฟีเจอร์ที่ซับซ้อนเพื่อแปลงข้อมูลให้เป็นพื้นที่คุณลักษณะมิติสูงซึ่งคลาสแยกกันเป็นเส้นตรงซึ่งจะนำไปสู่การปรับข้อมูลให้เหมาะสมมากเกินไป .Φ(x)

เหตุใดจึงเปลี่ยนข้อมูลเป็นพื้นที่คุณลักษณะมิติสูงซึ่งคลาสใดที่แยกกันเป็นเส้นตรงนำไปสู่การ overfitting และความสามารถในการวางหลักเกณฑ์ทั่วไปไม่ดี?

คำตอบ:


8

@ เพื่อนมีโพสต์ที่ดีเกี่ยวกับเรื่องนี้ แต่โดยทั่วไปแล้วหากคุณเปลี่ยนเป็นพื้นที่คุณลักษณะมิติสูงและฝึกอบรมจากที่นั่นอัลกอริทึมการเรียนรู้คือ 'บังคับ' ให้คำนึงถึงคุณลักษณะพื้นที่ที่สูงขึ้นแม้ว่าพวกเขาอาจไม่มีอะไรเลย จะทำอย่างไรกับข้อมูลต้นฉบับและไม่มีคุณภาพการทำนาย

ซึ่งหมายความว่าคุณจะไม่สามารถวางกฎการเรียนรู้อย่างถูกต้องเมื่อฝึกอบรม

ยกตัวอย่างง่ายๆ: สมมติว่าคุณต้องการทำนายน้ำหนักจากส่วนสูง คุณมีข้อมูลทั้งหมดนี้สอดคล้องกับน้ำหนักและส่วนสูงของผู้คน ให้เราบอกว่าโดยทั่วไปแล้วพวกเขาติดตามความสัมพันธ์เชิงเส้น นั่นคือคุณสามารถอธิบายน้ำหนัก (W) และส่วนสูง (H) เป็น:

W=ม.H-

ที่คือความชันของสมการเชิงเส้นของคุณและคือจุดตัดแกน y หรือในกรณีนี้จุดตัดแกน Wม.

ให้เราบอกว่าคุณเป็นนักชีววิทยาที่มีประสบการณ์และคุณรู้ว่าความสัมพันธ์นั้นเป็นเส้นตรง ข้อมูลของคุณดูเหมือนพล็อตกระจายที่มีแนวโน้มสูงขึ้น หากคุณเก็บข้อมูลไว้ในพื้นที่สองมิติคุณจะพอดีกับเส้นผ่านมัน อาจไม่ได้คะแนนทั้งหมดแต่ก็โอเค - คุณรู้ว่าความสัมพันธ์นั้นเป็นเส้นตรงและคุณต้องการการประมาณที่ดีอยู่ดี

ตอนนี้สมมติว่าคุณนำข้อมูล 2 มิตินี้และแปลงเป็นพื้นที่มิติที่สูงขึ้น ดังนั้นแทนที่จะเพียงคุณยังเพิ่ม 5 มิติมากขึ้น , , ,และ7}HH2H3H4H5H2+H7

ตอนนี้คุณไปและค้นหา co-efficients ของพหุนามเพื่อให้พอดีกับข้อมูลนี้ นั่นคือคุณต้องการค้นหา co-efficientsสำหรับพหุนามนี้ว่า 'เหมาะสมที่สุด' กับข้อมูล:ผม

W=1H+2H2+3H3+4H4+5H5+6H2+H7

ถ้าคุณทำอย่างนั้นคุณจะได้รับสายอะไร คุณจะได้หนึ่งที่ดูเหมือนล็อตที่ถูกต้องของ @friend คุณมีข้อมูลมากเกินไปเนื่องจากคุณ 'บังคับ' อัลกอริทึมการเรียนรู้ของคุณให้คำนึงถึงพหุนามคำสั่งที่สูงขึ้นซึ่งไม่เกี่ยวข้องกับสิ่งใด การพูดทางชีวภาพน้ำหนักขึ้นอยู่กับความสูงเป็นเส้นตรง มันไม่ได้ขึ้นอยู่กับหรือไร้สาระการสั่งซื้อที่สูงขึ้นH2+H7

นี่คือสาเหตุที่ถ้าคุณแปลงข้อมูลเป็นมิติคำสั่งซื้อที่สูงขึ้นแบบสุ่มสี่สุ่มห้าคุณมีความเสี่ยงที่จะเกิดการโอเวอร์โหลดที่ไม่ดีนัก


6

สมมติว่าเรากำลังพยายามหาฟังก์ชั่นที่ใกล้เคียงกับชุดของจุด 2 มิติบนที่ราบโดยใช้การถดถอยเชิงเส้น (ซึ่งโดยทั่วไปแล้วสิ่งที่ SVM ทำ) ที่ 3 ภาพด้านล่างกากบาทสีแดงเป็นการสังเกต (ข้อมูลการฝึกอบรม) และเส้นสีน้ำเงิน 3 เส้นแทนสมการที่มีระดับพหุนามต่างกันสำหรับการถดถอย

ป้อนคำอธิบายรูปภาพที่นี่

ภาพแรกสร้างโดยสมการเชิงเส้น อย่างที่คุณเห็นมันสะท้อนถึงจุดที่ค่อนข้างแย่ สิ่งนี้เรียกว่าunderfittingเนื่องจากเราให้อัลกอริทึมการเรียนรู้ "ปริญญาอิสระ" น้อยเกินไป (พหุนามที่มีระดับน้อยเกินไป) ภาพที่สองดีกว่ามาก - เราใช้พหุนามของดีกรีที่สองและมันก็ค่อนข้างดี อย่างไรก็ตามหากเราเพิ่ม "ระดับอิสระ" ต่อไปเราจะได้ภาพที่ 3 เส้นสีฟ้าที่มันผ่านมาทางขวา แต่คุณเชื่อไหมว่าเส้นนี้อธิบายการพึ่งพาได้จริงหรือ? ฉันไม่คิดอย่างนั้น ใช่ในข้อผิดพลาดการเรียนรู้ชุดฝึกอบรม (ระยะห่างระหว่างไม้กางเขนและเส้น) มีขนาดเล็กมาก แต่ถ้าเราเพิ่มการสังเกตอีกครั้งหนึ่ง (พูดจากข้อมูลจริง) ข้อผิดพลาดส่วนใหญ่อาจจะใหญ่กว่าถ้าเราใช้สมการจากวินาที ภาพ. เอฟเฟกต์นี้เรียกว่าการ overfittingxxx2x3. ในระยะสั้นคุณแบ่งข้อมูลของคุณเป็น 10 ส่วนรับ 9 ส่วนสำหรับการฝึกอบรมและ 1 สำหรับการตรวจสอบ หากเกิดข้อผิดพลาดในชุดการตรวจสอบความถูกต้องสูงกว่าในชุดรถไฟแสดงว่าคุณได้รับเกินพอดี อัลกอริทึมการเรียนรู้ของเครื่องส่วนใหญ่ใช้พารามิเตอร์บางตัว (เช่นพารามิเตอร์ของเมล็ดใน SVM) ที่ช่วยให้สามารถเอาชนะการ overfitting ได้ นอกจากนี้คำหลักที่ได้รับความนิยมอย่างหนึ่งที่นี่ก็คือการทำให้เป็นปกติ - การปรับเปลี่ยนอัลกอริทึมที่ส่งผลโดยตรงต่อกระบวนการปรับให้เหมาะสมโดยแท้จริงแล้วมันบอกว่า

BTW ฉันไม่แน่ใจว่า DSP เป็นเว็บไซต์ที่เหมาะสมสำหรับคำถามประเภทนี้คุณอาจสนใจที่จะเยี่ยมชมCrossValidatedเช่นกัน


นี่คือ - ขโมย - ยืมมาจากวิดีโอบรรยายของ Andrew Ng เกี่ยวกับการเรียนรู้ของ Machine เว้นแต่ว่าคุณหมออึ้ง ในกรณีนี้คุณกำลังมองหานักศึกษาปริญญาเอกสำหรับห้องปฏิบัติการของคุณหรือไม่? (การบรรยายสามารถพบได้ใน coursera.com สำหรับผู้ที่คุณสนใจ)
CyberMen

@CyberMen: มันถูกขโมยมาจาก images.google.com :) แต่ใช่สัญกรณ์นั้นคล้ายกับของ Ng และฉันขอแนะนำหลักสูตรของเขา (และเอกสารอื่น ๆ ) สำหรับการแนะนำการเรียนรู้ของเครื่อง
แฟน

ฉันคิดว่า DSP เป็นสถานที่ที่เหมาะสมสำหรับคำถามประเภทนี้อย่างน้อยในไซต์ SE อื่น ๆ
Gigili

2

คุณอ่านเพิ่มเติมหรือไม่

ในตอนท้ายของ 6.3.10 ส่วน:

"อย่างไรก็ตามมักจะมีพารามิเตอร์ของเคอร์เนลที่ต้องตั้งค่าและตัวเลือกที่ไม่ดีสามารถนำไปสู่การวางนัยทั่วไปที่ไม่ดีได้ตัวเลือกของเคอร์เนลที่ดีที่สุดสำหรับปัญหาที่ระบุไม่ได้รับการแก้ไขและได้รับเมล็ดพิเศษสำหรับปัญหาเฉพาะ "

ซึ่งนำเราไปสู่หัวข้อ 6.3.3:

" เมล็ดที่ยอมรับได้จะต้องแสดงให้เห็นว่าเป็นผลิตภัณฑ์ภายในในพื้นที่คุณลักษณะซึ่งหมายความว่าพวกเขาจะต้องเป็นไปตามเงื่อนไขของเมอร์เซอร์"

เคอร์เนลตามพื้นที่ที่ค่อนข้างยากของตัวเองคุณสามารถมีข้อมูลขนาดใหญ่ที่ในส่วนต่าง ๆ ควรใช้พารามิเตอร์ที่แตกต่างกันเช่นการปรับให้เรียบ แต่ไม่ทราบว่าเมื่อใด ดังนั้นสิ่งนี้ค่อนข้างยากที่จะพูดคุย


ฉันกำลังอ่าน "4.2.5 Support vector machines" ตามที่ฉันพูดฉันไม่ทราบว่าคุณกำลังพูดถึงส่วนที่ 6 เนื่องจากย่อหน้าหลังจากสิ่งที่ฉันพูดถึงในคำถามไม่มีอะไรเกี่ยวกับเรื่องนี้ฉันคิดว่าฉันถามที่นี่ดีกว่า
Gigili

ขออภัยฉันผสมกับการจดจำรูปแบบทางสถิติโดย Webb ซึ่งฉันกำลังดูอยู่ในขณะนี้และที่มีบทเดียวกัน
sigrlami
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.