คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ

8
ทำไมนิวตันถึงไม่ใช้วิธีการอย่างกว้างขวางในการเรียนรู้ของเครื่อง?
นี่คือสิ่งที่ทำให้ฉันหยุดอยู่พักหนึ่งและฉันไม่พบคำตอบที่น่าพอใจทางออนไลน์ดังนั้นที่นี่จะไป: หลังจากตรวจสอบชุดของการบรรยายเกี่ยวกับการเพิ่มประสิทธิภาพของนูนวิธีการของนิวตันดูเหมือนจะเป็นอัลกอริธึมที่เหนือกว่าการไล่ระดับสีเพื่อค้นหาทางออกที่ดีที่สุดทั่วโลกเพราะวิธีการของนิวตันสามารถรับประกันการแก้ปัญหาได้ ไกลน้อยกว่าขั้นตอน ทำไมอัลกอริธึมการเพิ่มประสิทธิภาพอันดับสองเช่นวิธีของนิวตันไม่ได้ใช้กันอย่างแพร่หลายเช่นเดียวกับการไล่ระดับสีแบบสุ่มในปัญหาการเรียนรู้ของเครื่อง?

3
การไล่ระดับสีแบบแบทช์กับการไล่ระดับสีแบบสุ่ม
สมมติว่าเรามีชุดการฝึกอบรมสำหรับม. นอกจากนี้สมมติว่าเราใช้อัลกอริทึมการเรียนรู้แบบมีผู้สอนในชุดฝึกอบรม สมมติฐานจะแสดงเป็นn} เราต้องการที่จะหาพารามิเตอร์ที่ลด "ระยะทาง" ระหว่างและ{(i)}) ให้(x(i),y(i))(x(i),y(i))(x_{(i)}, y_{(i)})i=1,…,mi=1,…,mi = 1, \dots, mhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nhθ(x(i))=θ0+θ1x(i)1+⋯+θnx(i)nh_{\theta}(x_{(i)}) = \theta_0+\theta_{1}x_{(i)1} + \cdots +\theta_{n}x_{(i)n}θθ\mathbf{\theta}y(i)y(i)y_{(i)}hθ(x(i))hθ(x(i))h_{\theta}(x_{(i)})J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(θ)=12∑i=1m(y(i)−hθ(x(i))2J(\theta) = \frac{1}{2} \sum_{i=1}^{m} (y_{(i)}-h_{\theta}(x_{(i)})^{2} จากนั้นเราก็ต้องการที่จะหาที่ช่วยลดtheta) ในการไล่ระดับสีเราทำการเตรียมพารามิเตอร์แต่ละตัวและทำการอัพเดทต่อไปนี้:θθ\thetaJ(θ)J(θ)J(\theta)θj:=θj−α∂∂θjJ(θ)θj:=θj−α∂∂θjJ(θ)\theta_j := \theta_j-\alpha \frac{\partial}{\partial \theta_{j}} J(\theta) อะไรคือความแตกต่างที่สำคัญระหว่างการไล่ระดับสีแบบแบทช์และการไล่ระดับสีแบบสุ่มแบบสุ่ม ทั้งคู่ใช้กฎการอัพเดทข้างต้น แต่สิ่งหนึ่งดีกว่าอันอื่นหรือไม่

6
เป็นไปได้ไหมที่จะฝึกโครงข่ายใยประสาทเทียมโดยไม่ต้องทำ backpropagation
หนังสือและแบบฝึกหัดเกี่ยวกับโครงข่ายประสาทหลายเล่มใช้เวลากับอัลกอริธึม backpropagation เป็นหลักซึ่งเป็นเครื่องมือในการคำนวณการไล่ระดับสี สมมติว่าเรากำลังสร้างแบบจำลองที่มีพารามิเตอร์ / น้ำหนักประมาณ ~ 10K เป็นไปได้ไหมที่จะใช้การเพิ่มประสิทธิภาพโดยใช้อัลกอริธึมการเพิ่มประสิทธิภาพไล่ระดับสีฟรี? ฉันคิดว่าการคำนวณการไล่ระดับตัวเลขจะช้าเกินไป แต่วิธีการอื่น ๆ เช่น Nelder-Mead, Simulated Annealing หรือ Algorithm ทางพันธุกรรม? อัลกอริธึมทั้งหมดจะได้รับผลกระทบจากมินิมาท้องถิ่นทำไมจึงต้องหมกมุ่นกับการไล่ระดับสี

2
ฟังก์ชันเปิดใช้งาน tanh เทียบกับฟังก์ชันเปิดใช้งาน sigmoid
ฟังก์ชั่นเปิดใช้งาน tanh คือ: tanh(x)=2⋅σ(2x)−1tanh(x)=2⋅σ(2x)−1tanh \left( x \right) = 2 \cdot \sigma \left( 2 x \right) - 1 ที่ไหน , ฟังก์ชั่น sigmoid ที่ถูกกำหนดให้เป็น:x}σ(x)σ(x)\sigma(x) σ(x)=ex1+exσ(x)=ex1+ex\sigma(x) = \frac{e^x}{1 + e^x} คำถาม: มันมีความสำคัญระหว่างการใช้ฟังก์ชั่นการเปิดใช้งานทั้งสอง (tanh vs. sigma) หรือไม่? ฟังก์ชั่นไหนดีกว่ากัน

7
เหตุใดจึงต้องปรับความน่าจะเป็นบันทึกสูงสุดให้เหมาะสมแทนความน่าจะเป็น
ในงานการเรียนรู้เครื่องมากที่สุดที่คุณสามารถกำหนดบางส่วนน่าจะเป็นซึ่งควรจะขยายเราจริงจะเพิ่มประสิทธิภาพการบันทึกความน่าจะเป็นบันทึกหน้าแทนน่าจะเป็นสำหรับบางพารามิเตอร์θ เช่นในการฝึกความเป็นไปได้สูงสุดมักจะเป็นโอกาสในการบันทึก เมื่อทำเช่นนี้ด้วยวิธีการไล่ระดับสีบางสิ่งนี้เกี่ยวข้องกับปัจจัย:พีppเข้าสู่ระบบพีlog⁡p\log pθθ\theta ∂เข้าสู่ระบบพี∂θ= 1พี⋅ ∂พี∂θ∂log⁡p∂θ=1p⋅∂p∂θ \frac{\partial \log p}{\partial \theta} = \frac{1}{p} \cdot \frac{\partial p}{\partial \theta} ดูที่นี่หรือที่นี่สำหรับตัวอย่างบางส่วน แน่นอนว่าการเพิ่มประสิทธิภาพนั้นเทียบเท่า แต่การไล่ระดับจะแตกต่างกันดังนั้นวิธีการไล่ระดับสีใด ๆ จะทำงานแตกต่างกัน (โดยเฉพาะวิธีการไล่ระดับสีแบบสุ่ม stochastic) มีเหตุผลใดที่เข้าสู่ระบบพีlog⁡p\log pลาดทำงานดีกว่าพีppลาด?

7
การปรับให้เหมาะสมเมื่อฟังก์ชันต้นทุนช้าเพื่อประเมิน
การไล่ระดับสีแบบลาดลงและวิธีอื่น ๆ มีประโยชน์สำหรับการค้นหาค่าต่ำสุดท้องถิ่นในฟังก์ชันต้นทุน พวกเขาสามารถมีประสิทธิภาพเมื่อฟังก์ชันต้นทุนสามารถประเมินได้อย่างรวดเร็วในแต่ละจุดไม่ว่าจะเป็นตัวเลขหรือเชิงวิเคราะห์ ฉันมีสิ่งที่ดูเหมือนจะเป็นสถานการณ์ที่ผิดปกติ การประเมินฟังก์ชั่นค่าใช้จ่ายของฉันแต่ละครั้งมีราคาแพง ฉันกำลังพยายามค้นหาชุดของพารามิเตอร์ที่ย่อเล็กสุดพื้นผิว 3 มิติกับพื้นผิวจริงพื้นดิน เมื่อใดก็ตามที่ฉันเปลี่ยนพารามิเตอร์ฉันต้องเรียกใช้อัลกอริทึมกับกลุ่มตัวอย่างทั้งหมดเพื่อวัดผลของมัน ในการคำนวณการไล่ระดับสีฉันต้องเปลี่ยนพารามิเตอร์ทั้ง 15 อย่างอิสระซึ่งหมายความว่าฉันต้องสร้างพื้นผิวทั้งหมดใหม่และเปรียบเทียบกับวิธีการสุ่มตัวอย่างกลุ่มตัวอย่างหลายครั้งเกินไปต่อการไล่ระดับสี ฉันได้พัฒนาวิธีการที่จะหลีกเลี่ยงปัญหานี้และขณะนี้กำลังประเมินอยู่ แต่ฉันประหลาดใจที่ฉันไม่ได้พบมากในวรรณกรรมเกี่ยวกับการประเมินฟังก์ชั่นราคาแพง นี่ทำให้ฉันสงสัยว่าฉันกำลังทำให้ปัญหาหนักขึ้นกว่าที่เป็นอยู่หรือไม่และอาจมีวิธีที่ดีกว่าที่มีอยู่แล้ว ดังนั้นคำถามของฉันจึงเป็นแบบนี้: ไม่มีใครรู้วิธีการเพิ่มประสิทธิภาพฟังก์ชั่นค่าใช้จ่ายนูนหรือไม่เมื่อการประเมินผลช้า? หรือฉันกำลังทำอะไรโง่ ๆ ในตอนแรกโดยทำขั้นตอนวิธีใหม่และเปรียบเทียบกับกลุ่มตัวอย่างหลาย ๆ ครั้ง?

5
อะไรคือคำอธิบายที่เข้าใจง่ายว่า PCA เปลี่ยนจากปัญหาเชิงเรขาคณิต (ด้วยระยะทาง) เป็นปัญหาพีชคณิตเชิงเส้น (กับ eigenvectors) อย่างไร
ฉันได้อ่านมากเกี่ยวกับ PCA รวมทั้งบทเรียนต่างๆและคำถาม (เช่นนี้ , คนนี้ , คนนี้และคนนี้ ) ปัญหาทางเรขาคณิตที่ PCA พยายามปรับให้เหมาะสมนั้นชัดเจนสำหรับฉัน: PCA พยายามค้นหาส่วนประกอบหลักแรกด้วยการลดข้อผิดพลาดการสร้างใหม่ (การฉายภาพ) ซึ่งลดความแปรปรวนของข้อมูลที่คาดการณ์ไว้พร้อมกัน เมื่อฉันอ่านครั้งแรกฉันก็นึกถึงบางสิ่งอย่างเช่นการถดถอยเชิงเส้น บางทีคุณสามารถแก้มันโดยใช้การไล่ระดับสีถ้าจำเป็น อย่างไรก็ตามแล้วใจของฉันก็ปลิวไปเมื่อฉันอ่านว่าปัญหาการหาค่าเหมาะที่สุดนั้นได้รับการแก้ไขโดยใช้พีชคณิตเชิงเส้นและหาค่าลักษณะเฉพาะและค่าลักษณะเฉพาะ ฉันไม่เข้าใจว่าการใช้พีชคณิตเชิงเส้นนี้เข้ามาในการเล่นได้อย่างไร ดังนั้นคำถามของฉันคือ PCA สามารถเปลี่ยนจากปัญหาการหาค่าเหมาะที่สุดเชิงเรขาคณิตเป็นปัญหาพีชคณิตเชิงเส้นได้อย่างไร ใครสามารถให้คำอธิบายง่ายๆ ฉันไม่ได้มองหาคำตอบเช่นนี้ที่กล่าวว่า "เมื่อคุณแก้ปัญหาทางคณิตศาสตร์ของ PCA มันจะเทียบเท่ากับการหาค่าลักษณะเฉพาะและ eigenvectors ของเมทริกซ์ความแปรปรวนร่วม" โปรดอธิบายว่าเหตุใด eigenvector จึงกลายเป็นองค์ประกอบหลักและทำไมค่าลักษณะเฉพาะออกมาเป็นความแปรปรวนของข้อมูลที่ฉายลงบนพวกเขา ฉันเป็นวิศวกรซอฟต์แวร์ไม่ใช่นักคณิตศาสตร์เลย หมายเหตุ: รูปด้านบนนี้ถูกถ่ายและแก้ไขจากบทช่วยสอน PCAนี้

4
อะไรคือความแตกต่างระหว่างการไล่ระดับสีแบบโมเมนตัมที่มีโมเมนตัมและการไล่ระดับสีแบบเร่งรัดของ Nesterov
ดังนั้นการไล่ระดับสีตามโมเมนตัมจึงทำงานดังนี้: v=self.momentum∗m−lr∗gv=self.momentum∗m−lr∗gv=self.momentum*m-lr*g โดยที่คือการปรับปรุงน้ำหนักก่อนหน้านี้และคือการไล่ระดับสีในปัจจุบันที่เกี่ยวกับพารามิเตอร์ ,คืออัตราการเรียนรู้และเป็นค่าคงที่กรัมพีลิตรR s อีลิตรฉ มo มอีn T U เมตรmmmgggppplrlrlrself.momentumself.momentumself.momentum pnew=p+v=p+self.momentum∗m−lr∗gpnew=p+v=p+self.momentum∗m−lr∗gp_{new} = p + v = p + self.momentum * m - lr * g และโคตรลาดชันของ Nesterov ที่เร่งได้ดังนี้ pnew=p+self.momentum∗v−lr∗gpnew=p+self.momentum∗v−lr∗gp_{new} = p + self.momentum * v - lr * g ซึ่งเทียบเท่ากับ: pnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gpnew=p+self.momentum∗(self.momentum∗m−lr∗g)−lr∗gp_{new} = p + self.momentum * (self.momentum * m …

1
ทำความเข้าใจกับ“ ค่าต่ำสุดในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับค่าระดับโลก”
ในการโพสต์บล็อกล่าสุดโดย Rong Ge ได้มีการกล่าวว่า: เป็นที่เชื่อกันว่าสำหรับปัญหาต่าง ๆ รวมถึงการเรียนรู้อวนลึกสุดขั้นต่ำในท้องถิ่นเกือบทั้งหมดมีค่าฟังก์ชั่นที่คล้ายกันมากกับระดับโลกที่เหมาะสม ความเชื่อนี้มาจากไหน

1
วิธีการอาดัมของโคตรลาดลงแบบสุ่มทำงานอย่างไร
ฉันคุ้นเคยกับอัลกอริธึมการไล่ระดับสีพื้นฐานสำหรับการฝึกอบรมโครงข่ายประสาท ฉันได้อ่านกระดาษเสนออดัม: ADAM: เป็นวิธีการในการเพิ่มประสิทธิภาพ ในขณะที่ฉันมีความเข้าใจอย่างแน่นอน(อย่างน้อย) กระดาษดูเหมือนจะอยู่ในระดับสูงเกินไปสำหรับฉันโดยรวม ตัวอย่างเช่นฟังก์ชั่นต้นทุนมักจะเป็นผลรวมของฟังก์ชั่นที่แตกต่างกันจำนวนมากดังนั้นจึงต้องทำการคำนวณจำนวนมากเพื่อปรับค่าให้เหมาะสม การไล่ระดับสีแบบสุ่มสุ่ม - เท่าที่ฉันเข้าใจหัวข้อ - คำนวณการเพิ่มประสิทธิภาพสำหรับเซตย่อยของฟังก์ชันเหล่านี้เท่านั้น สำหรับผมแล้วมันก็ไม่มีความชัดเจนว่าอดัมไม่นี้และทำไมผลในลดลงข้อผิดพลาดการฝึกอบรมสำหรับทั้งของJ ( θ )J( θ )J(θ)J(\theta)J(θ)J(θ)J(\theta) ฉันคิดว่าอดัมอัปเดตการไล่ระดับสีโดยคำนึงถึงการไล่ระดับสีก่อนหน้า พวกเขาเรียกมันว่าการใช้โมเมนตัม โมเมนตัมนี้คืออะไร? ตามอัลกอริทึมในหน้าสองในกระดาษมันเป็นค่าเฉลี่ยเคลื่อนที่บางอย่างเช่นค่าประมาณของช่วงเวลาที่หนึ่งและสองของการไล่ระดับสี "ปกติ" หรือไม่? ในทางปฏิบัติฉันจะสงสัยว่าอดัมสามารถใช้ขนาดขั้นตอนที่มีประสิทธิภาพมากขึ้นในการลดการไล่ระดับสีดังนั้นข้อผิดพลาดในการฝึกอบรมเมื่อใช้ร่วมกับการประมาณแบบสุ่ม ดังนั้นเวกเตอร์การอัพเดทที่ได้ผลลัพธ์ควร "กระโดด" รอบ ๆ ในมิติเชิงพื้นที่มากกว่าที่จะอธิบายถึงเส้นโค้งบางอย่างเช่นอัลกอริธึมการไล่ระดับสีปกติ บางคนสามารถแยกแยะว่าอดัมทำงานอย่างไร? โดยเฉพาะอย่างยิ่งวิธีการที่มันมาบรรจบกันโดยเฉพาะว่าทำไมวิธีการของอดัมทำงานและสิ่งที่เป็นประโยชน์คืออะไร?

1
โครงข่ายประสาทเทียม: โมเมนตัมการเปลี่ยนแปลงน้ำหนักและการลดน้ำหนัก
โมเมนตัมใช้เพื่อลดความผันผวนของการเปลี่ยนแปลงน้ำหนักในการวนซ้ำตามลำดับ:αα\alpha ที่E(W)เป็นฟังก์ชั่นข้อผิดพลาดW- เวกเตอร์ของน้ำหนักที่η- การเรียนรู้อัตราΔ โอห์มผม( t + 1 ) = - η∂E∂Wผม+ อัลฟ่าΔ โอห์มผม( T ) ,Δωi(t+1)=−η∂E∂wi+αΔωi(t),\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t),E( w )E(w)E({\bf w})Ww{\bf w}ηη\eta การลดน้ำหนักลงโทษการเปลี่ยนแปลงน้ำหนัก:λλ\lambda Δωi(t+1)=−η∂E∂wi−ληωiΔωi(t+1)=−η∂E∂wi−ληωi\Delta\omega_i(t+1) =- \eta\frac{\partial E}{\partial w_i} - \lambda\eta\omega_i คำถามคือถ้ามันเหมาะสมที่จะรวมทั้งเทคนิคในระหว่างการเผยแพร่กลับและสิ่งที่มันจะมีผล? Δωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωiΔωi(t+1)=−η∂E∂wi+αΔωi(t)−ληωi\Delta\omega_i(t+1) = - \eta\frac{\partial E}{\partial w_i} + \alpha \Delta \omega_i(t) - …

5
การเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ใช้งานได้: การสุ่มเทียบกับการค้นหากริด
ขณะนี้ฉันกำลังผ่านการค้นหาแบบสุ่ม ของ Bengio และ Bergsta สำหรับการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป[1]ซึ่งผู้เขียนอ้างว่าการค้นหาแบบสุ่มนั้นมีประสิทธิภาพมากกว่าการค้นหาแบบตารางเพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันโดยประมาณ คำถามของฉันคือ: คนที่นี่เห็นด้วยกับการเรียกร้องนั้นหรือไม่? ในงานของฉันฉันใช้การค้นหากริดเป็นส่วนใหญ่เนื่องจากการขาดเครื่องมือที่พร้อมใช้งานเพื่อทำการค้นหาแบบสุ่มได้อย่างง่ายดาย ประสบการณ์ของผู้ใช้ที่ใช้กริดกับการค้นหาแบบสุ่มคืออะไร

1
ทำไม Glmer ไม่ได้รับโอกาสสูงสุด (ตรวจสอบโดยใช้การเพิ่มประสิทธิภาพทั่วไปเพิ่มเติม)
ตัวเลขที่ได้จากMLE s ของGLMMนั้นยากและในทางปฏิบัติฉันรู้ว่าเราไม่ควรใช้การเพิ่มประสิทธิภาพกำลังดุร้าย (เช่นใช้optimในวิธีที่ง่าย) แต่เพื่อจุดประสงค์ทางการศึกษาของฉันฉันต้องการลองเพื่อให้แน่ใจว่าฉันเข้าใจโมเดลอย่างถูกต้อง (ดูรหัสด้านล่าง) ฉันพบว่าฉันได้รับผลลัพธ์ที่ไม่สอดคล้องกันglmer()เสมอ โดยเฉพาะอย่างยิ่งแม้ว่าฉันจะใช้ MLEs glmerเป็นค่าเริ่มต้นตามฟังก์ชั่นความน่าจะเป็นที่ฉันเขียน ( negloglik) พวกเขาไม่ใช่ MLEs ( opt1$valueเล็กกว่าopt2) ฉันคิดว่าสองเหตุผลที่เป็นไปได้คือ: negloglik เขียนได้ไม่ดีเพื่อให้มีข้อผิดพลาดทางตัวเลขมากเกินไปและ ข้อมูลจำเพาะรุ่นไม่ถูกต้อง สำหรับสเปคโมเดลรุ่นที่ต้องการคือ: L=∏i=1n(∫∞−∞f(yi|N,a,b,ri)g(ri|s)dri)L=∏i=1n(∫−∞∞f(yi|N,a,b,ri)g(ri|s)dri)\begin{equation} L=\prod_{i=1}^{n} \left(\int_{-\infty}^{\infty}f(y_i|N,a,b,r_{i})g(r_{i}|s)dr_{i}\right) \end{equation} โดยที่คือทวินามทวินามและเป็นไฟล์ PDF ปกติ ฉันพยายามที่จะประเมิน,และsโดยเฉพาะอย่างยิ่งฉันต้องการทราบว่าสเปคโมเดลผิดหรือไม่สเปคที่ถูกต้องคืออะไรfffgggaaabbbsss p <- function(x,a,b) exp(a+b*x)/(1+exp(a+b*x)) a <- -4 # fixed effect (intercept) b <- 1 # fixed effect (slope) s <- 1.5 …

3
เปรียบเทียบ SVM และการถดถอยโลจิสติก
ใครช่วยกรุณาเล่าให้ฉันฟังหน่อยว่าจะเลือก SVM หรือ LR ได้ไหม? ฉันต้องการที่จะเข้าใจสัญชาตญาณเบื้องหลังสิ่งที่แตกต่างระหว่างเกณฑ์การปรับให้เหมาะสมของการเรียนรู้ไฮเปอร์เพลนของทั้งสองโดยมีจุดมุ่งหมายที่เกี่ยวข้องดังนี้: SVM: พยายามเพิ่มระยะห่างระหว่างเวกเตอร์สนับสนุนที่ใกล้ที่สุด LR: เพิ่มความน่าจะเป็นระดับหลังให้มากที่สุด ลองพิจารณาพื้นที่ของคุณสมบัติเชิงเส้นสำหรับทั้ง SVM และ LR ความแตกต่างบางประการที่ฉันรู้แล้ว: SVM นั้นถูกกำหนดไว้แล้ว (แต่เราสามารถใช้แบบจำลอง Platts สำหรับคะแนนความน่าจะเป็น) ในขณะที่ LR นั้นน่าจะเป็น สำหรับพื้นที่เคอร์เนล SVM นั้นเร็วกว่า (จัดเก็บเพียงสนับสนุนเวกเตอร์)

5
คุณสามารถ overfit โดยการฝึกอบรมอัลกอริทึมการเรียนรู้โดยใช้ CV / Bootstrap ได้หรือไม่?
คำถามนี้อาจเปิดกว้างเกินไปที่จะได้รับคำตอบที่ชัดเจน แต่หวังว่าจะไม่ อัลกอริทึมการเรียนรู้ของเครื่องเช่น SVM, GBM, Random Forest เป็นต้นโดยทั่วไปจะมีพารามิเตอร์อิสระบางอย่างที่นอกเหนือจากกฎของคำแนะนำนิ้วหัวแม่มือจำเป็นต้องปรับจูนให้กับแต่ละชุดข้อมูล โดยทั่วไปจะทำด้วยเทคนิคการสุ่มตัวอย่างใหม่ (bootstrap, CV ฯลฯ ) เพื่อให้พอดีกับชุดของพารามิเตอร์ที่ให้ข้อผิดพลาดในการวางนัยทั่วไปที่ดีที่สุด คำถามของฉันคือคุณไปไกลเกินไปไหม ผู้คนพูดคุยเกี่ยวกับการค้นหากริดตามที่กล่าวมา แต่ทำไมไม่เพียงแค่คิดว่านี่เป็นปัญหาการปรับให้เหมาะสมแล้วเจาะลึกไปที่ชุดของพารามิเตอร์ที่ดีที่สุด ฉันถามเกี่ยวกับกลไกบางอย่างของคำถามนี้แต่ก็ไม่ได้รับความสนใจมากนัก อาจเป็นคำถามที่ถามไม่ดี แต่บางทีคำถามนั้นแสดงถึงแนวทางที่ไม่ดีที่คนทั่วไปไม่ทำ สิ่งที่รบกวนจิตใจฉันคือขาดระเบียบ ฉันอาจค้นหาด้วยการสุ่มตัวอย่างอีกครั้งว่าจำนวนต้นไม้ที่ดีที่สุดที่จะเติบโตใน GBM สำหรับชุดข้อมูลนี้คือ 647 กับความลึกของการโต้ตอบที่ 4 แต่ฉันแน่ใจได้อย่างไรว่านี่จะเป็นจริงของข้อมูลใหม่ (สมมติว่าประชากรใหม่ เหมือนกับชุดฝึกอบรม) หรือไม่ ไม่มีค่าที่สมเหตุสมผลในการ 'ลดขนาด' เป็น (หรือถ้าคุณต้องการไม่มีข้อมูลก่อนหน้านี้) การสุ่มตัวอย่างใหม่ดูเหมือนว่าดีที่สุดที่เราสามารถทำได้ ฉันแค่ไม่ได้ยินคำพูดใด ๆ เกี่ยวกับเรื่องนี้ดังนั้นมันทำให้ฉันสงสัยว่ามีบางสิ่งที่ฉันขาดหายไป เห็นได้ชัดว่ามีค่าใช้จ่ายในการคำนวณจำนวนมากที่เกี่ยวข้องกับการทำซ้ำหลาย ๆ ครั้งเพื่อบีบพลังการคาดเดาสุดท้ายออกจากแบบจำลองดังนั้นชัดเจนว่านี่คือสิ่งที่คุณจะทำถ้าคุณมีเวลา / ไม่เต็มใจที่จะทำการปรับให้เหมาะสม ของการปรับปรุงประสิทธิภาพนั้นมีค่า

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.