เราสามารถใช้ MLE เพื่อประเมินน้ำหนักโครงข่ายประสาทเทียมได้หรือไม่

23

ฉันเพิ่งเริ่มศึกษาเกี่ยวกับสถิติและแบบจำลองต่างๆ ปัจจุบันความเข้าใจของฉันคือเราใช้ MLE เพื่อประเมินพารามิเตอร์ที่ดีที่สุดสำหรับแบบจำลอง อย่างไรก็ตามเมื่อฉันพยายามเข้าใจว่าเครือข่ายประสาททำงานอย่างไรดูเหมือนว่าพวกเขามักจะใช้วิธีอื่นในการประมาณค่าพารามิเตอร์แทน ทำไมเราไม่ใช้ MLE หรือเป็นไปได้ที่จะใช้ MLE เลย?

maximum-likelihood neural-networks

— ยอดหินของภูเขา
แหล่งที่มา

16

MLE ประมาณการของเทียมน้ำหนักโครงข่ายประสาทเทียม (ANN) แน่นอนเป็นไปได้ ; แน่นอนมันเป็นเรื่องปกติอย่างสิ้นเชิง สำหรับปัญหาการจำแนกประเภทฟังก์ชั่นวัตถุประสงค์มาตรฐานคือการข้ามเอนโทรปีซึ่งเหมือนกับความน่าจะเป็นบันทึกเชิงลบของแบบจำลองทวินาม สำหรับปัญหาการถดถอยข้อผิดพลาดสแควร์ที่เหลือถูกนำมาใช้ซึ่งสอดคล้องกับ MLE ของการถดถอย OLS

แต่มีปัญหาบางอย่างที่สมมติว่าคุณสมบัติที่ดีของ MLEs ที่ได้จากสถิติแบบดั้งเดิมนั้นมีไว้สำหรับ MLEs ของโครงข่ายประสาทเทียม

มีปัญหาทั่วไปเกี่ยวกับการประมาณค่า ANN: มีวิธีแก้ปัญหาสมมาตรมากมายสำหรับแม้แต่ ANN แบบชั้นเดียว การย้อนกลับสัญญาณของตุ้มน้ำหนักสำหรับเลเยอร์ที่ซ่อนอยู่และการย้อนกลับสัญญาณของพารามิเตอร์การเปิดใช้งานเลเยอร์ที่ซ่อนอยู่นั้นมีความเป็นไปได้ที่เท่ากัน นอกจากนี้คุณสามารถเปลี่ยนแปลงโหนดที่ซ่อนอยู่และการเรียงสับเปลี่ยนเหล่านี้ก็มีโอกาสเหมือนกัน นี่คือผลสืบเนื่องตามที่คุณจะต้องยอมรับว่าคุณจะให้ขึ้นตัว อย่างไรก็ตามหากความสามารถในการระบุตัวตนไม่สำคัญคุณสามารถยอมรับได้ว่าโซลูชันทางเลือกเหล่านี้เป็นเพียงการสะท้อนและ / หรือการเปลี่ยนลำดับซึ่งกันและกัน

สิ่งนี้ตรงกันข้ามกับประเพณีดั้งเดิมของ MLE ในทางสถิติเช่นการถดถอย OLS: ปัญหา OLS นั้นนูนและนูนอย่างเคร่งครัดเมื่อเมทริกซ์การออกแบบมีระดับเต็ม Strong convexity บอกเป็นนัยว่ามี minimizer ตัวเดียวที่ไม่ซ้ำใคร
ANNs มีแนวโน้มที่จะทำให้ข้อมูลมากเกินไปเมื่อใช้โซลูชันที่ไม่มีข้อ จำกัด น้ำหนักจะมีแนวโน้มที่จะวิ่งออกไปจากแหล่งกำเนิดเพื่อค่าขนาดใหญ่ที่ไม่น่าจะสรุปได้ดีหรือทำนายข้อมูลใหม่ที่มีความแม่นยำมาก การกำหนดน้ำหนักที่ลดลงหรือวิธีการทำให้เป็นปกติอื่น ๆ มีผลต่อการลดน้ำหนักโดยประมาณเป็นศูนย์ สิ่งนี้ไม่จำเป็นต้องแก้ไขปัญหาการกำหนดไม่ได้จาก (1) แต่สามารถปรับปรุงการวางนัยทั่วไปของเครือข่าย
ฟังก์ชั่นการสูญเสียไม่ใช่แบบ nonconvex และการปรับให้เหมาะสมสามารถค้นหาโซลูชันที่ดีที่สุดในพื้นที่ซึ่งไม่เหมาะสมที่สุดในโลก หรือวิธีแก้ปัญหาเหล่านี้อาจเป็นจุดอานม้า ผลการศึกษาในบทความนี้พบว่าวิธีการประมาณค่าที่ทันสมัยหลีกเลี่ยงปัญหานี้
ในการตั้งค่าทางสถิติแบบคลาสสิกวิธีการลงโทษที่ถูกต้องเช่นตาข่ายยืดหรือทำให้เป็นมาตรฐานสามารถทำให้เกิดปัญหาการจัดอันดับนูน (เช่นที่ไม่นูน) ความจริงนี้ไม่ขยายไปถึงการตั้งค่าเครือข่ายประสาทเนื่องจากปัญหาการเปลี่ยนแปลงใน (1) แม้ว่าคุณจะ จำกัด บรรทัดฐานของพารามิเตอร์ของคุณ แต่การอนุญาตให้น้ำหนักหรือสัญญาณย้อนกลับแบบสมมาตรจะไม่เปลี่ยนบรรทัดฐานของพารามิเตอร์เวกเตอร์ และจะไม่เปลี่ยนโอกาส ดังนั้นการสูญเสียจะยังคงเหมือนเดิมสำหรับโมเดลที่ดัดหรือสะท้อนกลับและโมเดลยังไม่ได้ระบุ $L^1$ $L^2$

— Sycorax พูดว่า Reinstate Monica
แหล่งที่มา

2

ฉันขอแตกต่างกับสิ่งที่คุณพูด minima ท้องถิ่นที่แตกต่างกันที่เกิดจากสมมาตรล้วนมีคุณภาพเหมือนกันดังนั้นคุณจึงไม่ต้องกังวลกับเรื่องนี้เลย สิ่งที่คุณอาจต้องการพูดคือ ANNs ไม่มีฟังก์ชั่นการสูญเสียนูนซึ่งทำให้การเพิ่มประสิทธิภาพมีส่วนร่วมมากขึ้นและไม่รับประกันว่าการค้นหาที่เหมาะสมที่สุดในโลก อย่างไรก็ตามมีหลักฐานบางอย่างที่เมื่อเร็ว ๆ นี้ว่า ANNs ไม่ได้มีปัญหาในท้องถิ่นน้อยมาก แต่ค่อนข้างจะเป็นประเด็นอานม้า ดูเช่นarxiv.org/abs/1412.6544

— bayerj

11

ในปัญหาการจำแนกประเภทการเพิ่มความน่าจะเป็นเป็นวิธีที่พบได้บ่อยที่สุดในการฝึกอบรมโครงข่ายประสาทเทียม

ในทางปฏิบัติเรามักจะลดความน่าจะเป็นบันทึกเชิงลบ (MLE ที่เทียบเท่า) ข้อ จำกัด เพียงข้อเดียวในการใช้บันทึกความน่าจะเป็นเชิงลบคือการมีเลเยอร์เอาท์พุทที่สามารถตีความได้ว่าเป็นการแจกแจงความน่าจะเป็น โดยทั่วไปจะใช้เลเยอร์การส่งออก softmax โปรดทราบว่าในชุมชนเครือข่ายประสาทบางครั้งความน่าจะเป็นบันทึกเชิงลบบางครั้งเรียกว่า cross-entropy สามารถเพิ่มข้อกำหนดการทำให้เป็นมาตรฐานได้ (และบางครั้งสามารถตีความได้ว่าเป็นการแจกแจงก่อนหน้าของพารามิเตอร์ในกรณีนั้นเรากำลังมองหา posteriori ( MAP ) สูงสุด)

— AdeB
แหล่งที่มา