"ทำไมเราไม่เรียนรู้พารามิเตอร์ไฮเปอร์?"
มันเป็นคำถามที่ยอดเยี่ยม! ฉันจะพยายามให้คำตอบทั่วไปเพิ่มเติม TL; DRคำตอบก็คือแน่นอนคุณสามารถเรียนรู้ hyperparameters เพียงแค่ไม่ได้มาจากข้อมูลเดียวกัน อ่านต่อเพื่อรับการตอบกลับที่ละเอียดกว่าเล็กน้อย
hyperparameterมักจะสอดคล้องกับการตั้งค่าขั้นตอนวิธีการเรียนรู้มากกว่าหนึ่งพารามิเตอร์ ยกตัวอย่างเช่นในบริบทของการเรียนรู้อย่างลึกซึ้งนี่คือตัวอย่างที่แตกต่างจากบางสิ่งบางอย่างเช่นจำนวนของเซลล์ประสาทในชั้นหนึ่ง ( พารามิเตอร์ที่มากเกินไป) และน้ำหนักของขอบที่เฉพาะเจาะจง (พารามิเตอร์ปกติที่เรียนรู้ได้)
ทำไมมีความแตกต่างตั้งแต่แรก? กรณีทั่วไปสำหรับการทำพารามิเตอร์hyperparameterก็คือว่ามันเป็นเพียงการไม่เหมาะสมที่จะเรียนรู้ว่าพารามิเตอร์จากชุดการฝึกอบรม ตัวอย่างเช่นเนื่องจากง่ายต่อการลดข้อผิดพลาดในการฝึกอบรมโดยการเพิ่มเซลล์ประสาทมากขึ้นทำให้จำนวนเซลล์ในเลเยอร์พารามิเตอร์ปกติจะสนับสนุนเครือข่ายขนาดใหญ่มากเสมอซึ่งเป็นสิ่งที่เรารู้สำหรับความจริงไม่ต้องการเสมอ (เพราะ อิง)
สำหรับคำถามของคุณไม่ใช่ว่าเราไม่ได้เรียนรู้พารามิเตอร์ไฮเปอร์เลย นอกเหนือจากความท้าทายด้านการคำนวณเป็นเวลาหนึ่งนาทีเป็นไปได้มากที่จะได้เรียนรู้คุณค่าที่ดีสำหรับพารามิเตอร์หลายมิติและยังมีกรณีที่จำเป็นสำหรับประสิทธิภาพที่ดี การอภิปรายทั้งหมดในวรรคแรกเป็นการแนะนำโดยนิยามคุณไม่สามารถใช้ข้อมูลเดียวกันสำหรับงานนี้
การใช้ข้อมูลแยกอีกชุดหนึ่ง (เช่นสร้างส่วนแยกออกสามส่วน: ชุดฝึกอบรมชุดตรวจสอบความถูกต้องและชุดทดสอบสิ่งที่คุณสามารถทำได้ในทางทฤษฎีคือขั้นตอนการปรับให้เหมาะสมแบบซ้อนต่อไปนี้: ในวงรอบนอก ค่าสำหรับhyperparametersที่ลดการสูญเสียการตรวจสอบและในด้านห่วงคุณพยายามที่จะหาค่าสำหรับปกติพารามิเตอร์ที่ลดการสูญเสียการฝึกอบรม
นี่เป็นไปได้ในทางทฤษฎี แต่มีราคาแพงมากการคำนวณ: ทุกขั้นตอนของวงนอกต้องแก้ (จนเสร็จสมบูรณ์หรือที่ไหนสักแห่งใกล้กับ) วงในซึ่งมักจะคำนวณหนัก - สิ่งที่ทำให้เกิดความยุ่งยากมากขึ้นคือปัญหาด้านนอกไม่ใช่เรื่องง่ายสำหรับหนึ่งพื้นที่ค้นหามีขนาดใหญ่มาก
มีวิธีการมากมายที่จะเอาชนะสิ่งนี้ได้โดยการตั้งค่าด้านบนให้ง่ายขึ้น (การค้นหากริด, การค้นหาแบบสุ่มหรือการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ตามรุ่น) แต่การอธิบายสิ่งเหล่านี้ดีเกินขอบเขตคำถามของคุณ ในขณะที่บทความที่คุณอ้างถึงยังแสดงให้เห็นถึงความจริงที่ว่านี่เป็นกระบวนการที่มีราคาแพงมักจะหมายความว่านักวิจัยเพียงแค่ข้ามมันไปด้วยกันหรือลองการตั้งค่าน้อยมากด้วยตนเองในที่สุด สำหรับคำถามดั้งเดิมของคุณฉันขอยืนยันว่า - ในขณะที่เรียบง่ายและถูกประดิษฐ์ - นี่คือรูปแบบของ "การเรียนรู้"