มีอะไรในชื่อ: พารามิเตอร์


19

ดังนั้นในการกระจายปกติเรามีสองพารามิเตอร์: ค่าเฉลี่ยและความแปรปรวน 2 ในการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่องในทันทีทันใดจะมีพารามิเตอร์หลายพารามิเตอร์ในข้อกำหนดการทำให้เป็นปกติของฟังก์ชันข้อผิดพลาดσ 2 λμσ2λ

พารามิเตอร์ไฮเปอร์พารามิเตอร์คืออะไร ทำไมพวกเขาถึงตั้งชื่อเช่นนี้? และพวกเขาแตกต่างจากพารามิเตอร์ทั่วไปอย่างไร


3
โดยส่วนตัวฉันคิดว่ามันเป็นการระบาดของผู้คนที่มีจำนวนมากเกินไป ไฮเปอร์นี่ไฮเปอร์นั่น ไฮเปอร์สเฟียร์ - มันคือทรงกลม, d @ manit, หยุดรับไฮเปอร์ดังนั้นเนื่องจากขนาดเกินกว่า 3 มิติ - พารามิเตอร์, d @ mnit, หยุดรับไฮเปอร์เพราะคุณมีหลายอัน, และคุณคิดว่าคุณจำเป็นต้อง บ่งบอกถึงลำดับชั้นหรือบางสิ่งบางอย่าง ในกรณีใด ๆ หากคุณมีปัญหาในการปรับให้เหมาะสมให้ชัดเจนว่าพารามิเตอร์ใดบ้างที่ถูกปรับให้เหมาะสมและข้อ จำกัด ใด ๆ (หากเป็นการเพิ่มประสิทธิภาพหลายระดับ ฉันหวังว่าฉันจะไม่ได้รับความคิดเห็นนี้มากเกินไป
Mark L. Stone

2
ฉันมักจะใช้ "hypersphere" เพื่อหมายถึง "co-Dimension หนึ่งทรงกลม" ดังนั้นอย่างน้อยในวิชาคณิตศาสตร์ดูเหมือนว่าจะหมายถึงบางสิ่งบางอย่าง หรืออย่างน้อยเมื่อฉันพูดถึงคณิตศาสตร์ ฉันจะใจเย็นตอนนี้
Matthew Drury

คำตอบ:


18

พารามิเตอร์คำศัพท์ค่อนข้างคลุมเครือ ฉันจะใช้มันเพื่ออ้างถึงพารามิเตอร์ที่อยู่ในลำดับชั้นที่สูงกว่าพารามิเตอร์อื่น ๆ สำหรับตัวอย่างพิจารณาตัวแบบการถดถอยที่มีความแปรปรวนที่รู้จัก (1 ในกรณีนี้)

yN(Xβ,I)

และก่อนหน้านี้เกี่ยวกับพารามิเตอร์เช่น

βN(0,λI)

นี่กำหนดกระจายของและกำหนดกระจายสินค้าสำหรับปีเมื่อฉันต้องการอ้างถึงฉันอาจเรียกมันว่าพารามิเตอร์และเมื่อฉันต้องการอ้างถึงฉันอาจเรียกมันว่า hyperparameterบีตาบีตาY บีตาλλββyβλ

การตั้งชื่อจะซับซ้อนมากขึ้นเมื่อพารามิเตอร์แสดงในหลาย ๆ ระดับหรือเมื่อมีระดับแบบลำดับขั้นมากกว่า (และคุณไม่ต้องการใช้คำว่า เป็นการดีที่สุดถ้าผู้เขียนระบุสิ่งที่มีความหมายเมื่อพวกเขาใช้คำว่าพารามิเตอร์หรือพารามิเตอร์สำหรับเรื่องนั้น


นี่เป็นคำอธิบายที่ดี ตอนนี้ฉันคิดว่ามันเป็น 'องค์ประกอบของฟังก์ชั่น - ish' ในการแปลสิ่งที่คุณใส่ในสัญลักษณ์จะถูกแจกจ่ายโดยปกติด้วยค่าเฉลี่ยแต่จะกลับมาโดยปกติแล้วจะกระจายตามปกติ ขอบคุณX β b e t ayXβbeta
cgo

10

พารามิเตอร์หลายมิติเป็นเพียงพารามิเตอร์ที่ส่งผลกระทบต่อพารามิเตอร์อื่น ๆ ทั้งหมดหรือบางส่วน พวกเขาไม่ได้แก้ปัญหาการปรับให้เหมาะสมที่คุณเผชิญโดยตรง แต่ควรปรับพารามิเตอร์ที่สามารถแก้ไขปัญหาได้โดยตรง (ดังนั้นจึงเป็นไฮเปอร์เพราะพวกเขาไม่ได้เป็นส่วนหนึ่งของปัญหาการเพิ่มประสิทธิภาพ แต่เป็น "addons") สำหรับสิ่งที่ฉันเห็น แต่ฉันไม่มีการอ้างอิงความสัมพันธ์นี้เป็นแบบทิศทางเดียว (พารามิเตอร์ไฮเปอร์พารามิเตอร์ไม่สามารถได้รับอิทธิพลจากพารามิเตอร์ที่มีผลต่อดังนั้นจึงไฮเปอร์ ) พวกเขามักจะแนะนำใน normalization หรือโครงร่างการเพิ่มประสิทธิภาพเมตา

ตัวอย่างเช่นพารามิเตอร์ของคุณสามารถส่งผลกระทบต่อและเพื่อปรับค่าใช้จ่ายในการทำให้เป็นมาตรฐานได้อย่างอิสระ(แต่และไม่มีผลต่อ ) ดังนั้นเป็น hyperparameter สำหรับและ\หากคุณมีพารามิเตอร์เพิ่มเติมมีอิทธิพลต่อมันจะเป็นพารามิเตอร์สำหรับและ hyperhyperparameter สำหรับและ (แต่ฉันไม่เคยเห็นNomenclatura นี้ แต่ฉันไม่รู้สึกว่ามันผิด ถ้าฉันเห็นมัน)μ σ μ σ λ λ μ σ τ λ λ μ σλμσμσλλμστλλμσ

ฉันพบแนวคิดไฮเปอร์พารามิเตอร์ที่มีประโยชน์มากสำหรับการตรวจสอบข้ามเพราะมันเตือนให้คุณทราบถึงลำดับชั้นของพารามิเตอร์ขณะเดียวกันก็เตือนคุณว่าหากคุณยังแก้ไขพารามิเตอร์ (ไฮเปอร์ -) คุณยังคงตรวจสอบข้ามและไม่ทำให้เป็นแนวทั่วไป ระมัดระวังเกี่ยวกับข้อสรุปของคุณ (เพื่อหลีกเลี่ยงการคิดแบบวงกลม)


7

คำอธิบายอื่น ๆ ค่อนข้างคลุมเครือ นี่คือคำอธิบายที่เป็นรูปธรรมมากขึ้นที่ควรชี้แจง

Hyperparametersพารามิเตอร์ของแบบจำลองเท่านั้น , ไม่ได้ของกระบวนการทางกายภาพที่มีการสร้างแบบจำลอง คุณแนะนำให้พวกเขา "เทียม" เพื่อให้รูปแบบของคุณ "งาน" ในที่ที่มีข้อมูล จำกัดและ / หรือการคำนวณเวลา จำกัด หากคุณมีพลังไม่ จำกัด ในการวัดหรือคำนวณอะไรพารามิเตอร์หลายมิติจะไม่มีอยู่ในแบบจำลองของคุณอีกต่อไปเนื่องจากมันจะไม่อธิบายลักษณะทางกายภาพของระบบจริง

ในทางกลับกันพารามิเตอร์ทั่วไปคือพารามิเตอร์ที่อธิบายระบบทางกายภาพและไม่เพียงสร้างแบบจำลองสิ่งประดิษฐ์


6

มันไม่ได้เป็นคำนิยามที่กำหนดล่วงหน้าดังนั้นฉันจะไปข้างหน้าและให้คำจำกัดความอื่นที่น่าจะสอดคล้องกับการใช้งานทั่วไป

พารามิเตอร์ไฮเปอร์พารามิเตอร์คือปริมาณที่ประมาณในอัลกอริทึมการเรียนรู้ของเครื่องที่ไม่ได้มีส่วนร่วมในรูปแบบการทำงานของฟังก์ชั่นการทำนายขั้นสุดท้าย

ขอยกตัวอย่างด้วยการถดถอยสันเขา ในการถดถอยของสันเขาเราแก้ปัญหาการหาค่าเหมาะที่สุดต่อไปนี้:

β(λ)=argminβ((yXβ)t(yXβ)+λβtβ)
β=argminλ(yXβ(λ))t(yXβ(λ))

ในปัญหาแรกคือข้อมูลการฝึกอบรมและในสองเป็นชุดข้อมูลที่ถูกพักไว้ รูปแบบการทำงานขั้นสุดท้ายของแบบจำลองซึ่งฉันเรียกว่าเหนือฟังก์ชันคาดการณ์คือX,yX,y

f(X)=Xβ

ซึ่งไม่ปรากฏขึ้น สิ่งนี้ทำให้เป็นพารามิเตอร์เวกเตอร์และเป็นพารามิเตอร์ไฮเปอร์บีตาλλβλ


3

ชี้เป็นได้อย่างแม่นยำโดย @jaradniemi หนึ่งใช้ระยะhyperparameterมาจากลำดับชั้นหรือหลายการสร้างแบบจำลองที่คุณมีน้ำตกของแบบจำลองทางสถิติหนึ่งที่สร้างขึ้นโอเวอร์ / อันเดอร์คนอื่น ๆ โดยใช้งบน่าจะมักจะมีเงื่อนไข

แต่คำศัพท์เดียวกันนี้เกิดขึ้นในบริบทอื่นที่มีความหมายต่างกันเช่นกัน ยกตัวอย่างเช่นฉันเคยเห็นคำว่าhyperparameterถูกนำมาใช้เพื่ออ้างถึงพารามิเตอร์ของการจำลอง (ความยาววิ่งจำนวนการจำลองแบบอิสระจำนวนอนุภาคที่มีปฏิสัมพันธ์ในการจำลองแต่ละครั้งเป็นต้น) ของแบบจำลองสุ่มซึ่งไม่ได้เป็นผลมาจากหลายระดับ การสร้างแบบจำลอง


1
FWIW ฉันมักจะอ้างถึงระยะเวลาในการวิ่งจำนวนอนุภาคที่มีปฏิสัมพันธ์ ฯลฯ เป็นพารามิเตอร์การปรับแต่ง
jaradniemi

ฉันเห็นด้วย. สำหรับฉันมันฟังดูเป็นทางเลือกที่เพียงพอมากกว่าพารามิเตอร์ อย่างไรก็ตามสำหรับคนอื่น ๆ ในด้านความรู้อื่น ๆ มันก็ฟังดูสมเหตุสมผลพอสมควร
Marcelo Ventura
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.