ความแตกต่างระหว่างพารามิเตอร์โมเดลและพารามิเตอร์โมเดลคืออะไร


28

ฉันได้พบว่าข้อตกลงดังกล่าวเป็นรูปแบบhyperparameterและรูปแบบพารามิเตอร์ที่ได้รับการใช้สลับกันบนเว็บโดยไม่ต้องชี้แจงก่อน ฉันคิดว่ามันไม่ถูกต้องและต้องการคำอธิบาย พิจารณารูปแบบการเรียนรู้ของเครื่องเครื่องมือแยกประเภทหรือตัวจำแนกภาพที่ใช้ SVM / NN / NB

อะไรคือhyperparametersและพารามิเตอร์ของรูปแบบ?
โปรดยกตัวอย่างของคุณ


3
Andrew Ng จะอธิบายความแตกต่างระหว่างพารามิเตอร์และพารามิเตอร์หลายมิติ coursera.org/learn/neural-networks-deep-learning/lecture/TBvb5/…
Divyanshu Shekhar

คำตอบ:


27

พารามิเตอร์และพารามิเตอร์มักใช้แทนกันได้ แต่มีความแตกต่างระหว่างพวกเขา คุณเรียกสิ่งที่เรียกว่า 'ไฮเปอร์พารามิเตอร์' หากไม่สามารถเรียนรู้ได้ภายในตัวประมาณ อย่างไรก็ตาม 'พารามิเตอร์' เป็นคำทั่วไปมากขึ้น เมื่อคุณพูดว่า 'ส่งพารามิเตอร์ไปยังโมเดล' โดยทั่วไปหมายถึงการรวมกันของพารามิเตอร์หลายมิติพร้อมกับพารามิเตอร์อื่น ๆ ที่ไม่เกี่ยวข้องโดยตรงกับเครื่องมือประมาณค่าของคุณ แต่จำเป็นสำหรับโมเดลของคุณ

ตัวอย่างเช่นสมมติว่าคุณกำลังสร้างตัวจําแนก SVM ใน sklearn:

from sklearn import svm
X = [[0, 0], [1, 1]]
y = [0, 1]
clf = svm.SVC(C =0.01, kernel ='rbf', random_state=33)
clf.fit(X, y) 

ในโค้ดข้างต้นเป็นตัวอย่างของ SVM เป็นประมาณการของคุณสำหรับรูปแบบของคุณที่ hyperparameters ในกรณีนี้มีและC kernelแต่รูปแบบของคุณมีพารามิเตอร์อื่นซึ่งไม่ได้เป็น hyperparameter random_stateและนั่นคือ


คำตอบนี้หมายถึงrandom_stateเป็นพารามิเตอร์ ฉันคิดว่านี่เป็นสิ่งที่ทำให้เข้าใจผิดเพราะ (ดูคำตอบอื่น ๆ ); พารามิเตอร์ที่จะเรียนรู้จากรุ่นขณะ hyperparameter ถูกระบุโดยเรา ; random_state=33เช่น แต่random_stateก็ไม่ได้เป็นไฮเปอร์พารามิเตอร์อย่างใดอย่างหนึ่งเพราะไม่มีค่าที่ดีที่สุดสำหรับrandom_state; ดูการสนทนาของ Jason Brownlee ที่นี่
The Red Pea

21

นอกจากคำตอบข้างต้นแล้ว

พารามิเตอร์แบบจำลองคือคุณสมบัติของข้อมูลการฝึกอบรมที่เรียนรู้ระหว่างการฝึกอบรมโดยตัวจําแนกหรือตัวจําลอง ml อื่น ๆ ตัวอย่างเช่นในกรณีของงาน NLP บางอย่าง: ความถี่ของคำ, ความยาวของประโยค, การกระจายคำนามหรือคำกริยาต่อประโยค, จำนวนของอักขระเฉพาะ n-gg ต่อคำ, ความหลากหลายของคำศัพท์ ฯลฯพารามิเตอร์แบบจำลองแตกต่างกันสำหรับการทดสอบแต่ละครั้งและขึ้นอยู่กับประเภทของ ข้อมูลและงานในมือ

ในทางกลับกันพารามิเตอร์ไฮเปอร์โมเดลเป็นเรื่องปกติสำหรับโมเดลที่คล้ายกันและไม่สามารถเรียนรู้ได้ในระหว่างการฝึกอบรม แต่มีการตั้งค่าไว้ล่วงหน้า ชุดไฮเปอร์พารามิเตอร์ทั่วไปสำหรับ NN รวมถึงจำนวนและขนาดของเลเยอร์ที่ซ่อนอยู่รูปแบบการกำหนดน้ำหนักเริ่มต้นอัตราการเรียนรู้และการลดลง


7

พารามิเตอร์ไฮเปอร์คือสิ่งที่เราจัดหาให้กับโมเดลตัวอย่างเช่น: จำนวนของโหนดที่ซ่อนอยู่และเลเยอร์, ​​คุณลักษณะอินพุต, อัตราการเรียนรู้, ฟังก์ชั่นการเปิดใช้งาน ฯลฯ ใน Neural Network, ในขณะที่พารามิเตอร์คือสิ่งที่จะเรียนรู้โดยเครื่อง .


5

ในการเรียนรู้ของเครื่องโมเดลมีพารามิเตอร์และพารามิเตอร์ไฮเปอร์จะมีลักษณะดังนี้M

YMH(Φ|D)

โดยที่คือพารามิเตอร์และHคือพารามิเตอร์มากเกินไป Dคือข้อมูลการฝึกอบรมและYคือข้อมูลเอาต์พุต (เลเบลคลาสในกรณีของภารกิจการจัดหมวดหมู่)ΦHDY

วัตถุประสงค์ในระหว่างการฝึกคือการหาค่าประมาณของพารามิเตอร์Φที่เพิ่มประสิทธิภาพบางฟังก์ชั่นการสูญเสียLเราได้ระบุไว้ เนื่องจากโมเดลMและฟังก์ชันการสูญเสียLอ้างอิงจากHดังนั้นพารามิเตอร์ที่ตามมาΦจึงขึ้นอยู่กับพารามิเตอร์หลายมิติ Hด้วยΦ^LMLHΦH

พารามิเตอร์ไฮเปอร์พารามิเตอร์ไม่ได้ 'เรียนรู้' ในระหว่างการฝึกอบรม แต่ไม่ได้หมายความว่าคุณค่าของมันไม่เปลี่ยนรูป โดยปกติพารามิเตอร์ไฮเปอร์ที่มีการแก้ไขและเราคิดว่าเพียงแค่รูปแบบMแทน{H}} ในที่นี้พารามิเตอร์ไฮเปอร์สามารถพิจารณาได้ว่าเป็นพารามิเตอร์ล่วงหน้าHMMH

แหล่งที่มาของความสับสนที่เกิดจากการใช้งานของและการปรับเปลี่ยนของ Hyper-พารามิเตอร์Hระหว่างการฝึกอบรมประจำนอกเหนือไปอย่างเห็นได้ชัดพารามิเตอร์Φ อาจมีแรงจูงใจหลายประการในการปรับเปลี่ยนHในระหว่างการฝึก ตัวอย่างจะเปลี่ยนอัตราการเรียนรู้ในระหว่างการฝึกอบรมเพื่อปรับปรุงความเร็วและ / หรือความเสถียรของรูทีนการเพิ่มประสิทธิภาพMHHΦ^H

จุดสำคัญของความแตกต่างก็คือว่าผลการทำนายฉลากพูด, จะขึ้นอยู่กับพารามิเตอร์แบบΦและไม่มากเกินไปพารามิเตอร์HYpredΦH

ความแตกต่างมีข้อแม้และดังนั้นจึงเป็นเส้นที่เบลอ ลองพิจารณาตัวอย่างของการทำคลัสเตอร์โดยเฉพาะ Gaussian Mixture Modeling (GMM) พารามิเตอร์ที่กำหนดไว้ที่นี่เป็นที่ˉ μมีการตั้งค่าของNหมายถึงคลัสเตอร์และˉ σมีการตั้งค่าของNมาตรฐานการเบี่ยงเบนสำหรับNเมล็ดเสียนΦ={μ¯,σ¯}μ¯Nσ¯NN

คุณอาจจำพารามิเตอร์ไฮเปอร์ได้ที่นี่ มันคือจำนวนของกลุ่มNดังนั้นH = { N } โดยปกติแล้วการตรวจสอบของคลัสเตอร์ที่ใช้ในการตรวจสอบN aPriori ใช้เล็ก ๆ ย่อยตัวอย่างของข้อมูลที่ดี แต่ผมยังสามารถปรับเปลี่ยนขั้นตอนวิธีการเรียนรู้ของฉันของเกาส์ผสมรุ่นการปรับเปลี่ยนจำนวนของเมล็ดNระหว่างการฝึกอบรมขึ้นอยู่กับเกณฑ์บางอย่าง ในสถานการณ์สมมตินี้ไฮเปอร์พารามิเตอร์Nกลายเป็นส่วนหนึ่งของการตั้งค่าของพารามิเตอร์Φ = { ˉ μ , ˉ σ , N }NH={N}NDNNΦ={μ¯,σ¯,N}

แต่มันควรจะชี้ให้เห็นผลว่าหรือคาดการณ์ค่าสำหรับจุดข้อมูลในข้อมูลDจะขึ้นอยู่กับจีเอ็มเอ็ม( ˉ μ , ˉ σ )และไม่N นั่นคือแต่ละNเมล็ดจะส่งผลเสียนค่าความน่าจะเป็นบางอย่างที่จะขึ้นอยู่กับระยะทางของdจากตนμและของตัวเองσ พารามิเตอร์ ' N ' ไม่เกี่ยวข้องอย่างชัดเจนที่นี่ดังนั้นจึงไม่ใช่พารามิเตอร์ของโมเดลจริงๆdDGMM(μ¯,σ¯)NNddμσN

ML


3

ในคำที่ง่าย

พารามิเตอร์โมเดลเป็นสิ่งที่โมเดลเรียนรู้ด้วยตนเอง ตัวอย่างเช่น 1) น้ำหนักหรือค่าสัมประสิทธิ์ของตัวแปรอิสระในตัวแบบการถดถอยเชิงเส้น 2) น้ำหนักหรือค่าสัมประสิทธิ์ของตัวแปรอิสระ SVM 3) แบ่งคะแนนในแผนผังการตัดสินใจ

พารามิเตอร์ไฮเปอร์โมเดลใช้เพื่อปรับแต่งประสิทธิภาพของโมเดล ตัวอย่างเช่น 1) เคอร์เนลและหย่อนใน SVM 2) ค่า K ใน KNN 3) ความลึกของต้นไม้ในต้นไม้การตัดสินใจ


พวกเขาไม่จำเป็นต้องทำอะไรกับการปรับโมเดลให้เหมาะสม Hyperparams เป็นเพียงพารามิเตอร์ของกระบวนการสร้างแบบจำลอง
Sean Owen

0

พารามิเตอร์โมเดลถูกประเมินจากข้อมูลโดยอัตโนมัติและพารามิเตอร์ไฮเปอร์โมเดลถูกตั้งค่าด้วยตนเองและใช้ในกระบวนการเพื่อช่วยประมาณการพารามิเตอร์โมเดล

พารามิเตอร์ไฮเปอร์โมเดลมักถูกอ้างถึงเป็นพารามิเตอร์เนื่องจากเป็นส่วนหนึ่งของการเรียนรู้ของเครื่องที่ต้องตั้งค่าด้วยตนเองและปรับแต่ง

โดยทั่วไปแล้วพารามิเตอร์คือสิ่งที่ "model" ใช้ในการคาดการณ์เป็นต้นตัวอย่างเช่นสัมประสิทธิ์น้ำหนักในตัวแบบถดถอยเชิงเส้น Hyperparameters คือสิ่งที่ช่วยในกระบวนการเรียนรู้ ตัวอย่างเช่นจำนวนของกลุ่มใน K-Means ปัจจัยการหดตัวในการถดถอยของสัน พวกเขาจะไม่ปรากฏในส่วนการทำนายขั้นสุดท้าย แต่พวกเขามีอิทธิพลอย่างมากต่อการที่พารามิเตอร์จะเป็นอย่างไรหลังจากขั้นตอนการเรียนรู้

อ้างอิง: https://machinelearningmastery.com/difference-between-a-parameter-and-a-hyperparameter/

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.