คำถามติดแท็ก hyperparameter

พารามิเตอร์ที่ไม่เคร่งครัดสำหรับโมเดลทางสถิติ (หรือกระบวนการสร้างข้อมูล) แต่เป็นพารามิเตอร์สำหรับวิธีการทางสถิติ อาจเป็นพารามิเตอร์สำหรับ: กลุ่มของการแจกแจงก่อนหน้าการทำให้เรียบการลงโทษในวิธีการทำให้เป็นมาตรฐานหรืออัลกอริทึมการปรับให้เหมาะสม

3
ตัวอย่าง: การถดถอย LASSO โดยใช้ glmnet สำหรับผลลัพธ์ไบนารี
ฉันเริ่มตะลุยกับการใช้งานglmnetกับการถดถอยแบบ LASSOซึ่งผลลัพธ์ของความสนใจของฉันนั้นเป็นแบบขั้วคู่ ฉันได้สร้างกรอบข้อมูลจำลองขนาดเล็กด้านล่าง: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p <- c(0.86, 0.45, 0.99, 0.84, 0.85, 0.67, 0.91, 0.29, 0.88) m_edu <- c(0, 1, 1, 2, 2, 3, 2, 0, 1) p_edu <- c(0, …
77 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

5
การเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์พารามิเตอร์ที่ใช้งานได้: การสุ่มเทียบกับการค้นหากริด
ขณะนี้ฉันกำลังผ่านการค้นหาแบบสุ่ม ของ Bengio และ Bergsta สำหรับการเพิ่มประสิทธิภาพพารามิเตอร์มากเกินไป[1]ซึ่งผู้เขียนอ้างว่าการค้นหาแบบสุ่มนั้นมีประสิทธิภาพมากกว่าการค้นหาแบบตารางเพื่อให้ได้ประสิทธิภาพที่เท่าเทียมกันโดยประมาณ คำถามของฉันคือ: คนที่นี่เห็นด้วยกับการเรียกร้องนั้นหรือไม่? ในงานของฉันฉันใช้การค้นหากริดเป็นส่วนใหญ่เนื่องจากการขาดเครื่องมือที่พร้อมใช้งานเพื่อทำการค้นหาแบบสุ่มได้อย่างง่ายดาย ประสบการณ์ของผู้ใช้ที่ใช้กริดกับการค้นหาแบบสุ่มคืออะไร

3
แนวทางในการเลือกพารามิเตอร์ในการเรียนรู้ลึก
ฉันกำลังมองหากระดาษที่สามารถช่วยในการให้แนวทางเกี่ยวกับวิธีการเลือกไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมลึกเช่นตัวเข้ารหัสอัตโนมัติแบบเรียงซ้อนหรือเครือข่ายที่เชื่ออย่างลึกซึ้ง มีพารามิเตอร์หลายตัวและฉันสับสนมากเกี่ยวกับวิธีเลือกพวกเขา การใช้การตรวจสอบข้ามไม่ได้เป็นตัวเลือกเนื่องจากการฝึกอบรมใช้เวลานานมาก!

3
อะไรคือสาเหตุที่เครื่องมือเพิ่มประสิทธิภาพของ Adam ได้รับการพิจารณาว่ามีความแข็งแกร่งต่อมูลค่าของพารามิเตอร์ที่มากเกินไป
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่เรื่องการเรียนรู้ลึกโดย Bengio, Goodfellow และ Courville: โดยทั่วไปอาดัมได้รับการยกย่องว่าค่อนข้างแข็งแกร่งต่อการเลือกพารามิเตอร์มากเกินไปแม้ว่าบางครั้งอัตราการเรียนรู้จะต้องเปลี่ยนจากค่าเริ่มต้นที่แนะนำ ถ้านี่เป็นเรื่องจริงมันเป็นเรื่องใหญ่เพราะการค้นหาพารามิเตอร์แบบไฮเปอร์สามารถมีความสำคัญจริงๆ (ในประสบการณ์ของฉันอย่างน้อย) ในประสิทธิภาพทางสถิติของระบบการเรียนรู้ลึก ดังนั้นคำถามของฉันคือทำไม Adam Robust ถึงพารามิเตอร์ที่สำคัญเช่นนั้น? พิเศษและหรือไม่β1β1\beta_1β2β2\beta_2 ฉันอ่านกระดาษของอดัมแล้วและมันก็ไม่ได้ให้คำอธิบายใด ๆ ว่าทำไมมันถึงใช้ได้กับพารามิเตอร์เหล่านั้นหรือทำไมมันถึงมีประสิทธิภาพ พวกเขาแสดงให้เห็นถึงเหตุผลอื่นหรือไม่? นอกจากนี้เมื่อฉันอ่านกระดาษดูเหมือนว่าจำนวนของพารามิเตอร์ไฮเปอร์ที่พวกเขาพยายามทำที่เล็กมากสำหรับเพียง 2 และสำหรับเท่านั้น 3. นี่เป็นการศึกษาเชิงประจักษ์ได้อย่างไรถ้ามันทำงานกับ 2x3 พารามิเตอร์มากเกินไป ?β1β1\beta_1β2β2\beta_2

2
การตีความตามธรรมชาติสำหรับพารามิเตอร์ LDA
ใครสามารถอธิบายการตีความตามธรรมชาติของพารามิเตอร์ LDA ได้บ้าง? ALPHAและBETAเป็นพารามิเตอร์ของการแจกแจง Dirichlet สำหรับหัวข้อ (ต่อเอกสาร) และ (ต่อหัวข้อ) การแจกแจงคำตามลำดับ อย่างไรก็ตามบางคนสามารถอธิบายความหมายของการเลือกค่าที่มากขึ้นของพารามิเตอร์เหล่านี้กับค่าที่น้อยลงได้อย่างไร นั่นหมายถึงการใส่ความเชื่อก่อนหน้านี้ในแง่ของหัวข้อที่กระจัดกระจายในเอกสารและการยกเว้นร่วมกันของหัวข้อในแง่ของคำ? คำถามนี้เกี่ยวกับการจัดสรร Dirichlet ที่แฝงอยู่ แต่ความคิดเห็นโดย BGReene ด้านล่างนี้หมายถึงการวิเคราะห์การจำแนกเชิงเส้นซึ่งทำให้สับสนก็คือ LDA ย่อ

4
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบไขว้นั้นแย่แค่ไหน?
ฉันรู้ว่าการดำเนินการปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์นอกการตรวจสอบข้ามสามารถนำไปสู่การประเมินความถูกต้องภายนอกที่มีความลำเอียงสูงเนื่องจากชุดข้อมูลที่คุณใช้ในการวัดประสิทธิภาพนั้นเป็นชุดเดียวกับที่คุณใช้ปรับคุณสมบัติ สิ่งที่ฉันสงสัยคือปัญหานี้แย่ขนาดไหน ฉันสามารถเข้าใจได้ว่ามันจะไม่ดีจริง ๆ สำหรับการเลือกคุณลักษณะเนื่องจากสิ่งนี้จะให้คุณปรับพารามิเตอร์จำนวนมาก แต่ถ้าคุณใช้บางอย่างเช่น LASSO (ซึ่งมีเพียงพารามิเตอร์เดียว, ความแข็งแกร่งของการทำให้เป็นปกติ) หรือฟอเรสต์แบบสุ่มโดยไม่มีการเลือกคุณสมบัติ (ซึ่งสามารถมีพารามิเตอร์ไม่กี่ตัว ในสถานการณ์เหล่านี้คุณคาดหวังว่าข้อผิดพลาดในการฝึกอบรมของคุณจะเป็นไปในแง่ดีเพียงใด ฉันขอขอบคุณข้อมูลใด ๆ เกี่ยวกับเรื่องนี้ - กรณีศึกษา, เอกสาร, ข้อมูลเล็ก ๆ น้อย ๆ ฯลฯ ขอบคุณ! แก้ไข:เพื่อชี้แจงฉันไม่ได้พูดเกี่ยวกับการประเมินประสิทธิภาพของแบบจำลองในข้อมูลการฝึกอบรม (กล่าวคือไม่ได้ใช้การตรวจสอบความถูกต้องทั้งหมด) โดย "การปรับค่าพารามิเตอร์หลายพารามิเตอร์นอกการตรวจสอบข้าม" ฉันหมายถึงการใช้การตรวจสอบข้ามเพื่อประเมินประสิทธิภาพของแต่ละรุ่นเท่านั้น แต่ไม่รวมลูปการตรวจสอบความถูกต้องภายนอกที่สองเพื่อแก้ไขสำหรับการกำหนดค่าภายในกระบวนการ overfitting ในระหว่างขั้นตอนการฝึกอบรม) ดูเช่นคำตอบที่นี่

5
มีอะไรในชื่อ: พารามิเตอร์
ดังนั้นในการกระจายปกติเรามีสองพารามิเตอร์: ค่าเฉลี่ยและความแปรปรวน 2 ในการจดจำรูปแบบหนังสือและการเรียนรู้ของเครื่องในทันทีทันใดจะมีพารามิเตอร์หลายพารามิเตอร์ในข้อกำหนดการทำให้เป็นปกติของฟังก์ชันข้อผิดพลาดσ 2 λμμ\muσ2σ2\sigma^2λλ\lambda พารามิเตอร์ไฮเปอร์พารามิเตอร์คืออะไร ทำไมพวกเขาถึงตั้งชื่อเช่นนี้? และพวกเขาแตกต่างจากพารามิเตอร์ทั่วไปอย่างไร

6
การปรับพารามิเตอร์ไฮเปอร์พารามิเตอร์ในตัวอย่างของชุดข้อมูลเป็นแนวคิดที่ไม่ดีหรือไม่?
ฉันมีชุดข้อมูลของตัวอย่าง 140000 ตัวอย่างและคุณลักษณะ 30 อย่างที่ฉันกำลังฝึกอบรมตัวแยกประเภทหลายตัวสำหรับการจำแนกเลขฐานสอง (SVM, การถดถอยโลจิสติก, การสุ่มป่า ฯลฯ ) ในหลายกรณีการปรับพารามิเตอร์แบบหลายมิติบนชุดข้อมูลทั้งหมดโดยใช้การค้นหาแบบกริดหรือแบบสุ่มนั้นใช้เวลานานเกินไป ฉันเริ่มใช้เทคนิคต่อไปนี้ ตัวอย่างชุดย่อยของฉัน ใช้เศษส่วนที่ได้รับเพื่อปรับพารามิเตอร์หลายมิติบน ใช้พารามิเตอร์ที่ได้รับเพื่อฝึกฝนโมเดลโดยใช้ชุดข้อมูลทั้งหมด เพื่อประเมินชุดของพารามิเตอร์แต่ละเกี่ยวกับการใช้ขั้นตอนที่สองผมsklearn's GridSearchCVกับพันธุ์ = 10 เพื่อประเมินรุ่นสุดท้ายที่ฉันจะสร้างในขั้นตอนที่สามผมใช้'ssklearn cross_val_predictในแง่นั้นฉันประเมินแบบจำลองของฉันที่ทิ้งข้อมูล 10% ของข้อมูลออกไปฉันทำการฝึกอบรมส่วนที่เหลือและวัดความแม่นยำในการทำนาย 10% หรือ 10 เท่าแล้วจึงเฉลี่ยคะแนน สิ่งที่ทำให้ฉันกังวลคือความแม่นยำในการทำนายที่ฉันได้รับจากการฝึกอบรมในชุดข้อมูลทั้งหมดของฉันใกล้เคียงกับการประเมินที่ฉันได้รับเมื่อทำการปรับพารามิเตอร์สำหรับชุดของพารามิเตอร์ที่ดีที่สุด (ชุดทดสอบแต่ละชุด ผลการตรวจสอบแบบพับข้าม) เกือบทุกครั้งที่ความแม่นยำที่cross_val_predictวัดได้โดยใช้ตัวอย่างการฝึกอบรมทั้งหมด (ชุดข้อมูลทั้งหมด) นั้นสูงกว่าการประเมินผลพารามิเตอร์ที่ดีที่สุดเล็กน้อย เพื่ออธิบายสิ่งนี้นี่คือการประเมินชุดของพารามิเตอร์ (ในชุดข้อมูลขนาดเล็กกว่าที่ฉันอธิบายไว้ข้างต้น แต่ผลเหมือนกัน) Best parameters set found on development set: {'kernel': 'rbf', 'C': 9, 'gamma': 0.1} Scores …

2
ข้อได้เปรียบของการเพิ่มประสิทธิภาพจับกลุ่มอนุภาคเหนือการปรับแต่งแบบเบย์สำหรับการปรับจูนพารามิเตอร์?
มีการวิจัยร่วมสมัยจำนวนมากเกี่ยวกับการเพิ่มประสิทธิภาพแบบเบส์ (1) สำหรับการปรับแต่งพารามิเตอร์ไฮเปอร์พารามิเตอร์ ML แรงจูงใจในการขับขี่ที่นี่คือจำเป็นต้องมีจุดข้อมูลจำนวนน้อยที่สุดเพื่อทำการเลือกอย่างชาญฉลาดเกี่ยวกับจุดที่คุ้มค่าที่จะลอง (การเรียกใช้ฟังก์ชันตามวัตถุประสงค์มีราคาแพง - ปัญหา SVM ขนาดใหญ่ที่ฉันทำงานอยู่อาจใช้เวลาระหว่างนาทีและชั่วโมงให้เสร็จสมบูรณ์ ในอีกทางหนึ่งOptunityคือการนำอนุภาคไปจับที่ที่อยู่สำหรับงานเดียวกัน ฉันไม่คุ้นเคยกับ PSO อย่างท่วมท้น แต่ดูเหมือนว่ามันจะต้องมีประสิทธิภาพน้อยกว่าในแง่ของการต้องใช้จำนวนจุดทดลองมากขึ้นดังนั้นการประเมินฟังก์ชันวัตถุประสงค์เพื่อประเมินพื้นผิวพารามิเตอร์ ฉันไม่มีรายละเอียดสำคัญที่ทำให้ PSO เป็นที่ต้องการของ BO ในบริบทการเรียนรู้ของเครื่องหรือไม่ หรือเป็นตัวเลือกระหว่างทั้งสองบริบทโดยเนื้อแท้เสมอสำหรับงานการปรับจูนพารามิเตอร์? (1) Shahriari et al, "นำมนุษย์ออกจากวง: การทบทวน Bayesian Optimizaiton"

3
วิธีรับพารามิเตอร์ไฮเปอร์ในการตรวจสอบข้ามซ้อน
ฉันได้อ่านโพสต์ต่อไปนี้สำหรับการตรวจสอบความถูกต้องไขว้แบบซ้อนกันและยังไม่แน่ใจ 100% ว่าฉันต้องทำอย่างไรกับการเลือกแบบจำลองที่มีการตรวจสอบความถูกต้องไขว้แบบซ้อน: การตรวจสอบความถูกต้องไขว้แบบซ้อนสำหรับการเลือกโมเดล การเลือกรุ่นและการตรวจสอบข้าม: วิธีการที่ถูกต้อง เพื่ออธิบายความสับสนให้ฉันลองเดินผ่านการเลือกรุ่นด้วยวิธีการตรวจสอบข้ามซ้อนขั้นตอน สร้างวง CV ด้านนอกด้วย K-Fold สิ่งนี้จะถูกใช้เพื่อประเมินประสิทธิภาพของพารามิเตอร์ไฮเปอร์ที่ "ชนะ" แต่ละ CV วงใน ใช้ GridSearchCV เพื่อสร้างวง CV ภายในที่ในแต่ละวงด้านใน GSCV จะผ่านชุดค่าผสมที่เป็นไปได้ทั้งหมดของพื้นที่พารามิเตอร์และมาพร้อมกับชุดพารามิเตอร์ที่ดีที่สุด หลังจาก GSCV พบพารามิเตอร์ที่ดีที่สุดในลูปด้านในมันจะถูกทดสอบด้วยชุดทดสอบในลูปด้านนอกเพื่อรับการประมาณค่าประสิทธิภาพ จากนั้นวงรอบนอกจะอัพเดทเป็นรอยพับถัดไปในขณะที่ชุดทดสอบและส่วนที่เหลือเป็นชุดฝึกซ้อมและ 1-3 ครั้ง พารามิเตอร์ "ที่ชนะ" ทั้งหมดที่เป็นไปได้คือจำนวนการพับที่กำหนดในลูปภายนอก ดังนั้นถ้าลูปด้านนอกเท่ากับ 5 เท่าคุณจะมีการประมาณประสิทธิภาพของอัลกอริทึมที่มีพารามิเตอร์ไฮเปอร์5 ชุดที่แตกต่างกันไม่ใช่ประสิทธิภาพของไฮเปอร์เซ็ตพารามิเตอร์หนึ่งชุด วิธีนี้แสดงให้เห็นในหน้าตัวอย่างของ SKLearn: http://scikit-learn.org/stable/auto_examples/model_selection/plot_nested_cross_validation_iris.html คำถาม: หลังจาก4.คุณจะทราบได้อย่างไรว่าพารามิเตอร์ไฮเปอร์ใดที่ทำงานได้ดีที่สุด? ฉันเข้าใจว่าคุณต้องการฝึกอัลกอริทึมของคุณ (เช่น Logistic Regression, Random Forest เป็นต้น) ด้วยชุดข้อมูล COMPLETE …

1
วิธีสร้างโมเดลสุดท้ายและปรับเกณฑ์ความน่าจะเป็นหลังจากการตรวจสอบข้ามแบบซ้อน
ประการแรกขอโทษสำหรับการโพสต์คำถามที่ได้รับการกล่าวถึงในที่มีความยาวที่นี่ , ที่นี่ , ที่นี่ , ที่นี่ , ที่นี่และสำหรับอุ่นหัวข้อเก่า ฉันรู้ว่า @DikranMarsupial เขียนเกี่ยวกับหัวข้อนี้ในโพสต์และบทความในวารสาร แต่ฉันยังสับสนและตัดสินจากจำนวนโพสต์ที่คล้ายกันที่นี่มันยังคงเป็นสิ่งที่ผู้อื่นพยายามเข้าใจ ฉันควรระบุว่าฉันได้รับความขัดแย้งในหัวข้อนี้ซึ่งเพิ่มความสับสนของฉัน คุณควรรู้ด้วยว่าตอนแรกฉันเป็นนักฟิสิกส์และไม่ใช่นักสถิติดังนั้นความเชี่ยวชาญด้านโดเมนของฉันที่นี่จึงค่อนข้าง จำกัด ฉันกำลังเขียนรายงานประจำวันที่ฉันต้องการใช้ CV ที่ซ้อนกันเพื่อประเมินประสิทธิภาพที่ฉันคาดหวังจากแบบจำลองสุดท้ายของฉัน ในโดเมนของฉันนี่เป็นครั้งแรก (เราแทบไม่เคยใช้เลยรูปแบบของ CV ที่มีประสิทธิภาพในสาขาของฉัน แต่อัดฉีดเอกสารด้วยผลลัพธ์จากการศึกษาโดยใช้อวนประสาทและต้นไม้ตัดสินใจเพิ่มขึ้น!) ดังนั้นมันสำคัญมากที่ฉันมีความเข้าใจอย่างละเอียดและชัดเจนเพื่อที่ฉันจะไม่พลาดและเผยแพร่ เป็นขั้นตอนที่ผิดพลาดในชุมชนของฉัน ขอบคุณ! ไปกับคำถาม ... ฉันจะสร้างรุ่นสุดท้ายได้อย่างไรหลังจากการตรวจสอบความถูกต้องข้ามแบบซ้อน ฉันกำลังฝึกอบรมโมเดล glmnet อย่างง่ายด้วยการทำให้เป็นมาตรฐาน L1 และ L2 มันรวดเร็วง่ายและตีความได้ ฉันทำการเปลี่ยนคุณลักษณะกึ่งกลางปรับขนาดและแปลงบ็อกซ์ค็อกซ์เพื่อให้เห็นว่าการกระจายคุณลักษณะนั้นมีค่าเฉลี่ยอยู่ที่มาตรฐานและเป็นแบบเกาส์เซียน ฉันทำขั้นตอนนี้ภายในการตรวจสอบข้ามเพื่อป้องกันการรั่วไหลของข้อมูล อย่างแท้จริงเพราะฮาร์ดแวร์ของฉันช้าอย่างไม่น่าเชื่อและฉันไม่สามารถเข้าถึงกล้ามเนื้อ CPU ได้มากขึ้นฉันจึงทำการเลือกคุณสมบัติตัวกรองที่รวดเร็วภายใน CV หลังจากการประมวลผลคุณลักษณะล่วงหน้า ฉันใช้การค้นหากริดแบบสุ่มเพื่อเลือกพารามิเตอร์อัลฟาและแลมบ์ดา ฉันเข้าใจว่าฉันไม่ควรCV loop เพื่อรับค่าประมาณนี้ ฉันเข้าใจว่าวง CV …

4
การเลือกฟีเจอร์และการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์จะต้องสั่งซื้อในขั้นตอนการเรียนรู้ของเครื่องอย่างไร?
วัตถุประสงค์ของฉันคือการจำแนกสัญญาณเซ็นเซอร์ แนวคิดของการแก้ปัญหาของฉันคือ: i) คุณสมบัติทางวิศวกรรมจากสัญญาณดิบ ii) การเลือกคุณสมบัติที่เกี่ยวข้องกับ ReliefF และวิธีการจัดกลุ่ม iii) ใช้ NN, Random Forest และ SVM อย่างไรก็ตามฉันติดอยู่ในภาวะที่กลืนไม่เข้าคายไม่ออก ใน ii) และ iii) มีพารามิเตอร์หลายตัวเช่น k-Neigbours ที่ใกล้ที่สุดสำหรับ ReliefF หรือความยาวหน้าต่างซึ่งสัญญาณเซ็นเซอร์จะถูกประเมินหรือจำนวนหน่วยที่ซ่อนอยู่ในแต่ละชั้นของ NN มี 3 ปัญหาที่ฉันเห็นที่นี่: 1) การปรับพารามิเตอร์การเลือกคุณสมบัติจะมีผลต่อประสิทธิภาพการแยกประเภท 2) การเพิ่มประสิทธิภาพของพารามิเตอร์ตัวจําแนก 3) การประเมินการรวมกันที่เป็นไปได้ของการกำหนดค่าแต่ละอย่างเป็นไปไม่ได้ ดังนั้นคำถามของฉันคือ: a) ฉันสามารถสร้างสมมติฐานที่ทำให้เข้าใจง่ายได้ง่ายพารามิเตอร์การเลือกคุณลักษณะการปรับค่า st สามารถแยกออกจากการปรับพารามิเตอร์ตัวแยกประเภทได้หรือไม่ b) มีวิธีแก้ไขอื่น ๆ ที่เป็นไปได้หรือไม่?

3
การปรับพารามิเตอร์ไฮเปอร์: การค้นหาแบบสุ่มกับการปรับให้เหมาะสมแบบเบย์
ดังนั้นเรารู้ว่าการค้นหาแบบสุ่มทำงานได้ดีกว่าการค้นหาแบบตาราง แต่วิธีการที่ใหม่กว่าคือการเพิ่มประสิทธิภาพแบบเบย์ (ใช้กระบวนการแบบเกาส์) ฉันค้นหาการเปรียบเทียบระหว่างทั้งสองและไม่พบอะไรเลย ฉันรู้ว่าที่ cs231n ของ Stanford พวกเขาพูดถึงการค้นหาแบบสุ่มเท่านั้น แต่เป็นไปได้ว่าพวกเขาต้องการทำให้สิ่งต่าง ๆ เรียบง่าย คำถามของฉันคือ: วิธีใดดีกว่าและถ้าคำตอบคือ "บางครั้งการค้นหาแบบสุ่มบางครั้ง Bayesian" เมื่อใดฉันจึงควรเลือกวิธีอื่นมากกว่า?

2
เกณฑ์การตัดสินใจเป็นพารามิเตอร์ในการถดถอยโลจิสติกหรือไม่
คลาสที่ถูกทำนายจากการถดถอยโลจิสติก (ไบนารี) ถูกกำหนดโดยใช้ขีด จำกัด บนความน่าจะเป็นสมาชิกคลาสที่สร้างโดยโมเดล ตามที่เข้าใจแล้วปกติแล้ว 0.5 จะถูกใช้เป็นค่าเริ่มต้น แต่การเปลี่ยนเกณฑ์จะเปลี่ยนการจำแนกประเภทที่คาดการณ์ไว้ สิ่งนี้หมายความว่าขีด จำกัด คือพารามิเตอร์มากเกินไปหรือไม่ หากเป็นเช่นนั้นเหตุใดจึงไม่สามารถค้นหากริดเกณฑ์ได้อย่างง่ายดายโดยใช้วิธีการของ scikit-Learn GridSearchCV(เช่นเดียวกับที่คุณทำกับพารามิเตอร์การทำให้เป็นมาตรฐานC)

1
การปรับพารามิเตอร์ Hyperparameter ในการถดถอยของกระบวนการแบบเกาส์เซียน
ฉันพยายามปรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ของอัลกอริทึมการถดถอยกระบวนการ Gaussian ที่ฉันได้ดำเนินการ ฉันเพียงต้องการเพิ่มความเป็นไปได้ที่จะได้รับจากสูตร โดยที่kคือเมทริกซ์ความแปรปรวนร่วมกับ องค์ประกอบK_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j) + a ^ {- 1 } \ delta_ {ij}โดยที่M = lIและa, bและlคือพารามิเตอร์หลายมิติlog(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll อนุพันธ์บางส่วนของพารามิเตอร์ความเป็นไปได้ของการบันทึก wrt โอกาสถูกกำหนดโดยlog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) ในฐานะที่เป็นรายการของKKKขึ้นอยู่กับพารามิเตอร์เพื่อทำสัญญาซื้อขายล่วงหน้าและผกผันของKKKKซึ่งหมายความว่าเมื่อใช้เครื่องมือเพิ่มประสิทธิภาพไล่ระดับสีการประเมินการไล่ระดับสี ณ จุดที่กำหนด (ค่าพารามิเตอร์) จะต้องมีการคำนวณค่าความแปรปรวนร่วมใหม่ของเมทริกซ์ความแปรปรวนร่วม ในใบสมัครของฉันมันเป็นไปไม่ได้เพราะการคำนวณเมทริกซ์ความแปรปรวนร่วมตั้งแต่เริ่มต้นและคำนวณผกผันในการทำซ้ำของการไล่ระดับสีทุกครั้งที่มีราคาแพงเกินไป คำถามของฉันคือสิ่งที่ตัวเลือกของฉันคือการหาการผสมผสานที่ดีของพารามิเตอร์ทั้งสามนี้ …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.