ในการเรียนรู้ของเครื่องโมเดลมีพารามิเตอร์และพารามิเตอร์ไฮเปอร์จะมีลักษณะดังนี้M
Y≈ MH( Φ | D )
โดยที่คือพารามิเตอร์และHคือพารามิเตอร์มากเกินไป Dคือข้อมูลการฝึกอบรมและYคือข้อมูลเอาต์พุต (เลเบลคลาสในกรณีของภารกิจการจัดหมวดหมู่)ΦHDY
วัตถุประสงค์ในระหว่างการฝึกคือการหาค่าประมาณของพารามิเตอร์Φที่เพิ่มประสิทธิภาพบางฟังก์ชั่นการสูญเสียLเราได้ระบุไว้ เนื่องจากโมเดลMและฟังก์ชันการสูญเสียLอ้างอิงจากHดังนั้นพารามิเตอร์ที่ตามมาΦจึงขึ้นอยู่กับพารามิเตอร์หลายมิติ Hด้วยΦ^LMLHΦH
พารามิเตอร์ไฮเปอร์พารามิเตอร์ไม่ได้ 'เรียนรู้' ในระหว่างการฝึกอบรม แต่ไม่ได้หมายความว่าคุณค่าของมันไม่เปลี่ยนรูป โดยปกติพารามิเตอร์ไฮเปอร์ที่มีการแก้ไขและเราคิดว่าเพียงแค่รูปแบบMแทน{H}} ในที่นี้พารามิเตอร์ไฮเปอร์สามารถพิจารณาได้ว่าเป็นพารามิเตอร์ล่วงหน้าHMMH
แหล่งที่มาของความสับสนที่เกิดจากการใช้งานของและการปรับเปลี่ยนของ Hyper-พารามิเตอร์Hระหว่างการฝึกอบรมประจำนอกเหนือไปอย่างเห็นได้ชัดพารามิเตอร์Φ อาจมีแรงจูงใจหลายประการในการปรับเปลี่ยนHในระหว่างการฝึก ตัวอย่างจะเปลี่ยนอัตราการเรียนรู้ในระหว่างการฝึกอบรมเพื่อปรับปรุงความเร็วและ / หรือความเสถียรของรูทีนการเพิ่มประสิทธิภาพMHHΦ^H
จุดสำคัญของความแตกต่างก็คือว่าผลการทำนายฉลากพูด, จะขึ้นอยู่กับพารามิเตอร์แบบΦและไม่มากเกินไปพารามิเตอร์HYp r e dΦH
ความแตกต่างมีข้อแม้และดังนั้นจึงเป็นเส้นที่เบลอ ลองพิจารณาตัวอย่างของการทำคลัสเตอร์โดยเฉพาะ Gaussian Mixture Modeling (GMM) พารามิเตอร์ที่กำหนดไว้ที่นี่เป็นที่ˉ μมีการตั้งค่าของNหมายถึงคลัสเตอร์และˉ σมีการตั้งค่าของNมาตรฐานการเบี่ยงเบนสำหรับNเมล็ดเสียนΦ = { μ¯, σ¯}μ¯ยังไม่มีข้อความσ¯ยังไม่มีข้อความยังไม่มีข้อความ
คุณอาจจำพารามิเตอร์ไฮเปอร์ได้ที่นี่ มันคือจำนวนของกลุ่มNดังนั้นH = { N } โดยปกติแล้วการตรวจสอบของคลัสเตอร์ที่ใช้ในการตรวจสอบN aPriori ใช้เล็ก ๆ ย่อยตัวอย่างของข้อมูลที่ดี แต่ผมยังสามารถปรับเปลี่ยนขั้นตอนวิธีการเรียนรู้ของฉันของเกาส์ผสมรุ่นการปรับเปลี่ยนจำนวนของเมล็ดNระหว่างการฝึกอบรมขึ้นอยู่กับเกณฑ์บางอย่าง ในสถานการณ์สมมตินี้ไฮเปอร์พารามิเตอร์Nกลายเป็นส่วนหนึ่งของการตั้งค่าของพารามิเตอร์Φ = { ˉ μ , ˉ σ , N }ยังไม่มีข้อความH ={N}ยังไม่มีข้อความDยังไม่มีข้อความNΦ={μ¯,σ¯,N}
แต่มันควรจะชี้ให้เห็นผลว่าหรือคาดการณ์ค่าสำหรับจุดข้อมูลในข้อมูลDจะขึ้นอยู่กับจีเอ็มเอ็ม( ˉ μ , ˉ σ )และไม่N นั่นคือแต่ละNเมล็ดจะส่งผลเสียนค่าความน่าจะเป็นบางอย่างที่จะงขึ้นอยู่กับระยะทางของdจากตนμและของตัวเองσ พารามิเตอร์ ' N ' ไม่เกี่ยวข้องอย่างชัดเจนที่นี่ดังนั้นจึงไม่ใช่พารามิเตอร์ของโมเดลจริงๆdDGMM(μ¯,σ¯)NNddμσN
ML