คำถามติดแท็ก hyperparameter

พารามิเตอร์ที่ไม่เคร่งครัดสำหรับโมเดลทางสถิติ (หรือกระบวนการสร้างข้อมูล) แต่เป็นพารามิเตอร์สำหรับวิธีการทางสถิติ อาจเป็นพารามิเตอร์สำหรับ: กลุ่มของการแจกแจงก่อนหน้าการทำให้เรียบการลงโทษในวิธีการทำให้เป็นมาตรฐานหรืออัลกอริทึมการปรับให้เหมาะสม

1
การเลือกขนาดของมินิบัสที่เหมาะสมสำหรับการไล่ระดับสีแบบสุ่ม (SGD)
มีวรรณกรรมใดบ้างที่ตรวจสอบการเลือกขนาดของมินิบัสเมื่อทำการโคตรลาดลงแบบสุ่ม? จากประสบการณ์ของฉันดูเหมือนว่าจะเป็นทางเลือกเชิงประจักษ์ซึ่งมักพบผ่านการตรวจสอบข้ามหรือการใช้กฎง่ายๆ เป็นความคิดที่ดีหรือไม่ที่จะเพิ่มขนาดมินิบัสช้าลงเนื่องจากข้อผิดพลาดในการตรวจสอบความถูกต้องลดลง? สิ่งนี้จะมีผลกระทบอะไรกับข้อผิดพลาดการวางนัยทั่วไป? ฉันดีกว่าถ้าใช้มินิบัสขนาดเล็กมากและอัปเดตโมเดลของฉันนับแสนครั้งหรือไม่ ฉันจะดีกว่าด้วยจำนวนที่สมดุลระหว่างที่เล็กมากและแบตช์หรือไม่? ฉันควรปรับขนาดของรถมินิบัสตามขนาดของชุดข้อมูลหรือจำนวนคุณลักษณะที่คาดหวังภายในชุดข้อมูลหรือไม่ เห็นได้ชัดว่าฉันมีคำถามมากมายเกี่ยวกับการใช้แผนการเรียนรู้ของมินิบัส น่าเสียดายที่เอกสารส่วนใหญ่ที่ฉันอ่านไม่ได้ระบุวิธีการที่พวกเขาเลือกพารามิเตอร์นี้ ฉันเคยประสบความสำเร็จจากนักเขียนเช่น Yann LeCun โดยเฉพาะจาก Tricks of the Trade คอลเลกชันของเอกสาร อย่างไรก็ตามฉันยังไม่เห็นคำถามเหล่านี้ตอบอย่างเต็มที่ ไม่มีใครมีคำแนะนำสำหรับเอกสารหรือคำแนะนำเกี่ยวกับเกณฑ์ที่ฉันสามารถใช้เพื่อกำหนดขนาดรถมินิบัสที่ดีเมื่อพยายามเรียนรู้คุณสมบัติ

1
ความหนาแน่นสูงเกินไปสำหรับโมเดล Gamma-Poisson แบบลำดับชั้น
ในรูปแบบลำดับชั้นของข้อมูลที่ มันดูเหมือนจะเป็นเรื่องปกติในทางปฏิบัติเพื่อเลือกค่า (ว่าค่าเฉลี่ยและความแปรปรวนของการแจกแจงแกมมาประมาณตรงกับค่าเฉลี่ยและความแปรปรวนของข้อมูล (เช่น Clayton และ Kaldor, 1987 "Empirical Bayes Estimates ของความเสี่ยงสัมพัทธ์ตามมาตรฐานอายุสำหรับการทำแผนที่โรค" Biometrics ) เห็นได้ชัดว่านี่เป็นเพียงโซลูชันเฉพาะกิจแต่เนื่องจากมันจะเกินความเชื่อมั่นของนักวิจัยในพารามิเตอร์yyyy∼Poisson(λ)y∼Poisson(λ)y \sim \textrm{Poisson}(\lambda) λ∼Gamma(α,β)λ∼Gamma(α,β)\lambda \sim \textrm{Gamma}(\alpha, \beta)α,β)α,β)\alpha, \beta)yyy(α,β)(α,β)(\alpha, \beta)และความผันผวนเล็กน้อยในข้อมูลที่รับรู้อาจมีผลต่อความหนาแน่นของแกมม่าแม้ว่ากระบวนการสร้างข้อมูลพื้นฐานจะยังคงเหมือนเดิม นอกจากนี้ในการวิเคราะห์ข้อมูลแบบเบย์ (2nd Ed) Gelman เขียนว่าวิธีนี้คือ " เลอะเทอะ ;" ในหนังสือและบทความนี้ (เริ่มต้นที่ 3232) เขาแนะนำว่าควรเลือกความหนาแน่น hyperpriorในแบบที่คล้ายกับตัวอย่างเนื้องอกหนู (เริ่มต้นที่ 130)p(α,β)p(α,β)p(\alpha, \beta) แม้ว่าจะเป็นที่ชัดเจนว่ายอมรับได้ตราบใดที่มันสร้างความหนาแน่นของหลังที่ จำกัด แต่ฉันไม่พบตัวอย่างของความหนาแน่น hyperprior ที่นักวิจัยได้ใช้สำหรับปัญหานี้ในอดีต ฉันจะซาบซึ้งอย่างยิ่งถ้ามีคนชี้ให้ฉันไปที่หนังสือหรือบทความที่ใช้ความหนาแน่นสูงเกินไปเพื่อประเมินแบบจำลอง Poisson-Gamma เป็นการดีที่ฉันสนใจในที่ค่อนข้างแบนและจะถูกครอบงำโดยข้อมูลในตัวอย่างเนื้องอกหนูหรือการอภิปรายเปรียบเทียบข้อกำหนดทางเลือกหลายประการและการแลกเปลี่ยนที่เกี่ยวข้องกับแต่ละp(α,β)p(α,β)p(\alpha, \beta)p(α,β)p(α,β)p(\alpha, \beta)

4
ทำไมเราไม่เรียนรู้พารามิเตอร์ไฮเปอร์?
ฉันใช้กระดาษที่ได้รับความนิยมอย่างมากเรื่อง "การอธิบายและการฝ่าฝืนตัวอย่างที่เป็นที่นิยม " และในกระดาษมันฝึกฟังก์ชั่นวัตถุประสงค์เชิงรุก J '' (θ) = αJ (θ) + (1 - α) J '(θ) มันถือว่าαเป็นพารามิเตอร์ αสามารถ 0.1, 0.2, 0.3 และอื่น ๆ โดยไม่คำนึงถึงเอกสารเฉพาะนี้ฉันสงสัยว่าทำไมเราไม่รวมαไว้ในพารามิเตอร์ของเราและเรียนรู้αที่ดีที่สุด ข้อเสียที่จะทำคืออะไร? มันเป็นเพราะการใส่มากเกินไป? ถ้าเป็นเช่นนั้นเพราะเหตุใดการเรียนรู้พารามิเตอร์อีก 1 รายการจึงทำให้มีจำนวนข้อมูลมากเกินไป?

1
ความสัมพันธ์ระหว่างอัตราการเรียนรู้และจำนวนเลเยอร์ที่ซ่อนอยู่?
มีกฎของหัวแม่มือระหว่างความลึกของเครือข่ายประสาทและอัตราการเรียนรู้หรือไม่? ฉันสังเกตเห็นว่ายิ่งเครือข่ายลึกเท่าไรอัตราการเรียนรู้ก็จะยิ่งต่ำลงเท่านั้น หากถูกต้องทำไมถึงเป็นเช่นนั้น

2
การตรวจสอบความถูกต้องข้ามแบบซ้อน - แตกต่างจากการเลือกรุ่นผ่าน kfold CV ในชุดฝึกอบรมอย่างไร
ฉันมักจะเห็นคนพูดเกี่ยวกับการตรวจสอบ 5x2 ข้ามเป็นกรณีพิเศษของการตรวจสอบข้ามซ้อนกัน ฉันถือว่าตัวเลขแรก (ที่นี่: 5) หมายถึงจำนวนเท่าในวงด้านในและหมายเลขที่สอง (ที่นี่: 2) หมายถึงจำนวนเท่าในวงด้านนอก? ดังนั้นวิธีนี้แตกต่างจากการเลือกรูปแบบและการประเมินผลแบบ "ดั้งเดิม" อย่างไร โดย "ดั้งเดิม" ฉันหมายถึง แบ่งชุดข้อมูลออกเป็นการฝึกอบรมแยกต่างหาก (เช่น 80%) และชุดทดสอบ ใช้การตรวจสอบความถูกต้องไขว้ของ k-fold (เช่น k = 10) สำหรับการปรับจูนพารามิเตอร์และการเลือกแบบจำลองในชุดฝึกอบรม ประเมินประสิทธิภาพการวางนัยทั่วไปของรุ่นที่เลือกโดยใช้ชุดการทดสอบ ไม่ใช่ 5x2 เหมือนกันทุกประการยกเว้นชุดทดสอบและชุดฝึกอบรมที่มีขนาดเท่ากันถ้า k = 2 หรือไม่

1
ในการถดถอยเชิงเส้นเหตุใดการทำให้เป็นมาตรฐานจึงลงโทษค่าพารามิเตอร์ด้วย
ขณะนี้การเรียนรู้การถดถอยสันเขาและฉันสับสนเล็กน้อยเกี่ยวกับการลงโทษของแบบจำลองที่ซับซ้อนมากขึ้น (หรือคำจำกัดความของแบบจำลองที่ซับซ้อนมากขึ้น) จากสิ่งที่ฉันเข้าใจความซับซ้อนของโมเดลไม่จำเป็นต้องสัมพันธ์กับลำดับพหุนาม ดังนั้น:2 + 3 + 4x2+ 5x3+ 6x42+3+4x2+5x3+6x4 2 + 3+ 4x^2 + 5x^3 + 6x^4 เป็นรูปแบบที่ซับซ้อนกว่า: 5x55x5 5x^5 และฉันรู้ว่าจุดของการทำให้เป็นมาตรฐานคือการทำให้ความซับซ้อนของโมเดลต่ำดังนั้นตัวอย่างเช่นเรามีพหุนามลำดับที่ 5 ฉ( x ; w ) =W0+W1x +W2x2+W3x3+W4x4+W5x5f(x;w)=w0+w1x+w2x2+w3x3+w4x4+w5x5 f(x; w) = w_0 + w_1x + w_2x^2 + w_3x^3 + w_4x^4 + w_5x^5 พารามิเตอร์เพิ่มเติมที่เป็น 0 จะดีกว่า แต่สิ่งที่ฉันไม่เข้าใจคือถ้าเป็นพหุนามคำสั่งเดียวกันทำไมค่าพารามิเตอร์ที่ต่ำกว่าจึงถูกลงโทษน้อยกว่า ดังนั้นจะ: 2 …

1
เหตุใดข้อมูลเกี่ยวกับข้อมูลการตรวจสอบจึงรั่วไหลหากฉันประเมินประสิทธิภาพของแบบจำลองกับข้อมูลการตรวจสอบความถูกต้องเมื่อทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์
ในการเรียนรู้อย่างลึกซึ้งกับFrançois Chollet กับ Python มันบอกว่า: ดังนั้นการปรับการกำหนดค่าของโมเดลตามประสิทธิภาพของชุดการตรวจสอบความถูกต้องสามารถส่งผลให้ overfitting เป็นชุดการตรวจสอบได้อย่างรวดเร็วแม้ว่าโมเดลของคุณจะไม่ได้รับการฝึกฝนโดยตรง ศูนย์กลางของปรากฏการณ์นี้คือแนวคิดของการรั่วไหลของข้อมูล ทุกครั้งที่คุณปรับแต่ง hyperparameter ของรูปแบบของคุณขึ้นอยู่กับประสิทธิภาพของแบบจำลองในชุดการตรวจสอบ, ข้อมูลบางอย่างเกี่ยวกับการรั่วไหลของข้อมูลการตรวจสอบลงในรูปแบบ หากคุณทำสิ่งนี้เพียงครั้งเดียวสำหรับหนึ่งพารามิเตอร์ข้อมูลที่น้อยมากจะรั่วไหลและชุดการตรวจสอบของคุณจะยังคงเชื่อถือได้ในการประเมินรูปแบบ แต่ถ้าคุณทำซ้ำหลาย ๆ ครั้ง - ทำการทดสอบหนึ่งครั้งประเมินผลชุดการตรวจสอบความถูกต้องและแก้ไขแบบจำลองของคุณจากนั้นคุณก็จะรั่วไหลข้อมูลจำนวนมากเกี่ยวกับการตรวจสอบความถูกต้องที่ตั้งไว้ในแบบจำลอง เหตุใดข้อมูลเกี่ยวกับข้อมูลการตรวจสอบจึงรั่วไหลหากฉันประเมินประสิทธิภาพของแบบจำลองกับข้อมูลการตรวจสอบความถูกต้องเมื่อทำการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.