คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ

1
คำจำกัดความทางคณิตศาสตร์ / อัลกอริทึมสำหรับ overfitting
มีคำจำกัดความทางคณิตศาสตร์หรืออัลกอริธึมเกี่ยวกับการบรรจุมากเกินไปหรือไม่? คำจำกัดความที่มีให้บ่อยครั้งคือพล็อต 2-D แบบคลาสสิกของจุดที่มีเส้นที่ผ่านทุกจุดและเส้นโค้งการสูญเสียการตรวจสอบจะขึ้นไป แต่มีนิยามที่เข้มงวดทางคณิตศาสตร์หรือไม่?

3
เทคนิคการเพิ่มประสิทธิภาพทำแผนที่กับเทคนิคการสุ่มตัวอย่างหรือไม่?
จากอัลกอริธึมการสุ่มตัวอย่างทั่วไปเราสามารถหาอัลกอริธึมการเพิ่มประสิทธิภาพได้ แท้จริงเพื่อเพิ่มฟังก์ชั่นโดยพลก็พอเพียงที่จะวาดตัวอย่างจากกรัม~ จฉ/ T สำหรับพอขนาดเล็กตัวอย่างเหล่านี้จะตกอยู่ใกล้สูงสุดทั่วโลก (หรือสูงสุดในท้องถิ่นในการปฏิบัติ) ของฟังก์ชันฉf:x→f(x)f:x→f(x)f: \textbf{x} \rightarrow f(\textbf{x})ก.∼ eฉ/ Tก.~อีฉ/Tg \sim e^{f/T}TTTฉฉf โดย "การสุ่มตัวอย่าง" ฉันหมายถึงการวาดภาพตัวอย่างแบบหลอกเทียมจากการแจกแจงให้ฟังก์ชั่นบันทึกความเป็นไปได้ที่รู้จักกันถึงค่าคงที่ ตัวอย่างเช่นการสุ่มตัวอย่าง MCMC การสุ่ม Gibbs การสุ่มตัวอย่าง Beam เป็นต้นโดย "การปรับให้เหมาะสม" ฉันหมายถึงความพยายามในการค้นหาพารามิเตอร์ที่ทำให้ค่าของฟังก์ชั่นที่กำหนดนั้นมีค่าสูงสุด ย้อนกลับเป็นไปได้? จากการวิเคราะห์พฤติกรรมเพื่อหาค่าสูงสุดของฟังก์ชันหรือนิพจน์ combinatorial เราสามารถแยกขั้นตอนการสุ่มตัวอย่างที่มีประสิทธิภาพได้หรือไม่? เช่น HMC ดูเหมือนจะใช้ประโยชน์จากข้อมูลการไล่ระดับสี เราสามารถสร้างขั้นตอนการสุ่มตัวอย่างที่ใช้ประโยชน์จากการประมาณเหมือน BFGS ของ Hessian ได้หรือไม่? (แก้ไข: เห็นได้ชัดว่าใช่: http://papers.nips.cc/paper/4464-quasi-newton-methods-for-markov-chain-monte-carlo.pdf ) เราสามารถใช้ MCTS ในปัญหา combinatorial เราสามารถแปลได้ไหม เข้าสู่ขั้นตอนการสุ่มตัวอย่างหรือไม่ บริบท: ความยากลำบากในการสุ่มตัวอย่างมักจะว่าการกระจายความน่าจะเป็นส่วนใหญ่อยู่ในพื้นที่ขนาดเล็กมาก …

3
มีวิธีการเพิ่ม / ลดฟังก์ชั่นที่กำหนดเองใน R หรือไม่?
ฉันกำลังพยายามลดฟังก์ชั่นที่กำหนดเอง ควรยอมรับห้าพารามิเตอร์และชุดข้อมูลและทำการคำนวณทุกประเภทโดยสร้างตัวเลขเดียวเป็นเอาต์พุต ฉันต้องการค้นหาการรวมกันของพารามิเตอร์อินพุตห้าตัวซึ่งให้ผลลัพธ์ที่เล็กที่สุดของฟังก์ชันของฉัน
18 r  optimization 

2
มีการใช้วิธีการค้นหาสายในการเรียนรู้อย่างลึกซึ้งหรือไม่? ทำไมจะไม่ล่ะ?
บทเรียนออนไลน์มากมายพูดคุยเกี่ยวกับการไล่ระดับสีและเกือบทั้งหมดใช้ขนาดขั้นตอนคงที่ (อัตราการเรียนรู้ ) เหตุใดจึงไม่มีการใช้การค้นหาบรรทัด (เช่นการค้นหาบรรทัดย้อนรอยหรือการค้นหาเส้นตรง)αα\alpha

3
ขนาดของชุดงานมีผลต่อการรวมกันของ SGD และทำไม?
ฉันได้เห็นข้อสรุปที่คล้ายกันจากการพูดคุยหลายครั้งว่าเมื่อขนาดของรถมินิบัสเพิ่มขึ้นการบรรจบกันของ SGD จะยากขึ้น / แย่ลงตัวอย่างเช่นบทความนี้และคำตอบนี้ นอกจากนี้ฉันเคยได้ยินคนใช้เทคนิคเช่นอัตราการเรียนรู้ขนาดเล็กหรือขนาดชุดในระยะแรกเพื่อแก้ไขปัญหานี้ด้วยขนาดชุดใหญ่ อย่างไรก็ตามดูเหมือนว่าเคาน์เตอร์ - สัญชาตญาณขณะที่การสูญเสียเฉลี่ยของรถมินิบัสอาจจะคิดว่าเป็นการประมาณการสูญเสียข้อมูลที่คาดว่าจะกระจายข้อมูล ยิ่งขนาดแบทช์ยิ่งมีความแม่นยำมากขึ้นทำไมในทางปฏิบัติไม่เป็นเช่นนั้น?1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]1|X|∑x∈Xl(x,w)≈Ex∼pdata[l(x,w)]\frac{1}{|X|}\sum_{x\in X} l(x,w)\approx E_{x\sim p_{data}}[l(x,w)] นี่คือความคิด (อาจผิด) ของฉันที่พยายามอธิบาย พารามิเตอร์ของแบบจำลองขึ้นอยู่กับแต่ละอื่น ๆ เมื่อชุดมีขนาดใหญ่เกินไปมันจะส่งผลกระทบต่อพารามิเตอร์มากเกินไปในคราวเดียวมันยากสำหรับพารามิเตอร์ที่จะไปถึงการพึ่งพาที่มั่นคง? (เช่นปัญหากะกะแปรสภาพภายในที่กล่าวถึงในเอกสารการทำให้เป็นมาตรฐานชุด ) หรือเมื่อพารามิเตอร์เกือบทั้งหมดมีความรับผิดชอบในการวนซ้ำทุกครั้งพวกเขาจะมีแนวโน้มที่จะเรียนรู้รูปแบบที่ซ้ำซ้อนโดยนัยจึงลดความสามารถของตัวแบบ? (ฉันหมายถึงว่าสำหรับปัญหาการจำแนกเลขหลักบางรูปแบบควรมีความรับผิดชอบสำหรับจุดบางส่วนสำหรับขอบ แต่เมื่อสิ่งนี้เกิดขึ้นทุกรูปแบบพยายามที่จะรับผิดชอบรูปร่างทั้งหมด) หรือเป็นเพราะเมื่อขนาดของแบตช์ใกล้เคียงกับขนาดของชุดฝึกอบรมมินิบัสอาจไม่สามารถมองเห็นได้เหมือนไอดอลจากการกระจายข้อมูลอีกต่อไปเนื่องจากมีความน่าจะเป็นมากสำหรับมินิบัสที่สัมพันธ์กันหรือไม่ การปรับปรุง ตามที่ระบุไว้ในคำตอบของเบอนัวต์ซานเชซเหตุผลสำคัญอย่างหนึ่งคือมินิบัสขนาดใหญ่ต้องการการคำนวณที่มากขึ้นเพื่อทำให้การอัปเดตเสร็จสมบูรณ์หนึ่งครั้งและการวิเคราะห์ส่วนใหญ่ใช้จำนวนเงินที่แน่นอนของการฝึก อย่างไรก็ตามบทความนี้ (Wilson และ Martinez, 2003) แสดงให้เห็นว่าขนาดของชุดที่ใหญ่กว่านั้นยังคงเป็นข้อเสียเปรียบเล็กน้อย เป็นเช่นนั้นหรือไม่

2
ควรมีการสุ่มตัวอย่างตัวอย่างการฝึกอบรมสำหรับโครงข่ายประสาทการฝึกอบรมขนาดเล็กแบบสุ่มโดยไม่ต้องเปลี่ยนใหม่หรือไม่?
เรากำหนดยุคเมื่อผ่านตัวอย่างการฝึกอบรมที่มีทั้งหมดและขนาดมินิ - แบทช์เป็นจำนวนตัวอย่างที่เราเฉลี่ยเพื่อค้นหาการอัปเดตสำหรับน้ำหนัก / อคติที่จำเป็นในการไล่ระดับสี คำถามของฉันคือเราควรวาดโดยไม่เปลี่ยนจากชุดตัวอย่างการฝึกอบรมเพื่อสร้าง mini-batch แต่ละชุดภายในยุค ฉันรู้สึกว่าเราควรหลีกเลี่ยงการแทนที่เพื่อให้แน่ใจว่าเรา "ดึงตัวอย่างทั้งหมด" เพื่อตอบสนองความต้องการในตอนท้ายของยุค แต่มีปัญหาในการหาคำตอบที่ชัดเจนไม่ทางใดก็ทางหนึ่ง ฉันได้ลองใช้ Google และอ่าน Ch 1 ในเครือข่ายประสาทและการเรียนรู้เชิงลึกของ Nielsen แต่ไม่พบคำตอบที่ชัดเจน ในข้อความนั้น Nielsen ไม่ได้ระบุว่าการสุ่มตัวอย่างจะทำได้โดยไม่ต้องเปลี่ยน แต่ดูเหมือนจะบอกเป็นนัยว่า การฝึกอบรมอย่างเป็นทางการที่ชัดเจนในยุคนี้สามารถดูได้ที่นี่หากต้องการ - /stats//a/141265/131630 แก้ไข: คำถามนี้ดูเหมือนกับฉัน แต่มันก็ไม่ชัดเจนว่าจะใช้ความจริงที่ว่าความเป็นเส้นตรงของความคาดหวังไม่แยแสกับความเป็นอิสระกับสถานการณ์นี้ - ควรสุ่มตัวอย่างเกิดขึ้นโดยมีหรือไม่มีการเปลี่ยน

2
สามารถใช้การไล่ระดับสีแบบลาดเอียงกับฟังก์ชั่นที่ไม่นูนได้หรือไม่?
ฉันแค่เรียนรู้เกี่ยวกับการปรับให้เหมาะสมและมีปัญหาในการทำความเข้าใจความแตกต่างระหว่างการเพิ่มประสิทธิภาพของนูนและที่ไม่นูน จากความเข้าใจของฉันฟังก์ชั่นนูนคือหนึ่งที่ "ส่วนของเส้นตรงระหว่างจุดสองจุดใด ๆ บนกราฟของฟังก์ชันอยู่เหนือหรือบนกราฟ" ในกรณีนี้สามารถใช้อัลกอริทึมการไล่ระดับสีได้เนื่องจากมีค่าต่ำสุดเพียงครั้งเดียวและการไล่ระดับสีจะนำคุณไปสู่ระดับต่ำสุดเสมอ อย่างไรก็ตามสิ่งที่เกี่ยวกับฟังก์ชั่นในรูปนี้: ที่นี่ส่วนของเส้นสีน้ำเงินตัดผ่านฟังก์ชันสีแดง อย่างไรก็ตามฟังก์ชั่นยังคงมีค่าต่ำสุดเพียงครั้งเดียวดังนั้นการไล่ระดับสีแบบลาดชันจะยังคงนำคุณไปสู่ระดับต่ำสุดนี้ ดังนั้นคำถามของฉันคือ: 1) ฟังก์ชั่นในรูปนี้นูนหรือไม่นูน? 2) ถ้าไม่ใช่แบบนูนสามารถใช้วิธีการหาค่าเหมาะที่สุดแบบนูน (การไล่ระดับสี) ได้หรือไม่

4
ทำไมอนุพันธ์อันดับสองถึงมีประโยชน์ในการเพิ่มประสิทธิภาพของนูน?
ฉันเดาว่านี่เป็นคำถามพื้นฐานและเกี่ยวข้องกับทิศทางของการไล่ระดับสี แต่ฉันกำลังมองหาตัวอย่างที่วิธีการลำดับที่ 2 (เช่นBFGS ) มีประสิทธิภาพมากกว่าการไล่ระดับสีแบบง่าย

3
อัลกอริทึมการเพิ่มประสิทธิภาพใดที่ใช้ในฟังก์ชัน glm ใน R
หนึ่งสามารถทำการถดถอย logit ใน R โดยใช้รหัสดังกล่าว: > library(MASS) > data(menarche) > glm.out = glm(cbind(Menarche, Total-Menarche) ~ Age, + family=binomial(logit), data=menarche) > coefficients(glm.out) (Intercept) Age -21.226395 1.631968 ดูเหมือนว่าอัลกอริทึมการออปติไมซ์ได้แปรสภาพ - มีข้อมูลเกี่ยวกับจำนวนขั้นตอนของอัลกอริทึมการให้คะแนนฟิชเชอร์: Call: glm(formula = cbind(Menarche, Total - Menarche) ~ Age, family = binomial(logit), data = menarche) Deviance Residuals: Min 1Q Median 3Q Max …

1
Jenks Natural Breaks ใน Python: จะหาจำนวนการพักที่เหมาะสมได้อย่างไร
ฉันพบการใช้ PythonของอัลกอริทึมJenks Natural Breaksและฉันสามารถทำให้มันทำงานบนเครื่อง Windows 7 ของฉัน มันค่อนข้างเร็วและพบว่าตัวแบ่งในเวลาไม่กี่พิจารณาขนาดของ geodata ของฉัน ก่อนที่จะใช้อัลกอริทึมการจัดกลุ่มนี้สำหรับข้อมูลของฉันฉันใช้อัลกอริทึมsklearn.clustering.KMeans (ที่นี่) ปัญหาที่ฉันมีกับ KMeans คือการหาพารามิเตอร์ค่า K ที่เหมาะสม แต่ฉัน "แก้ไข" มันเปิดตัวอัลกอริทึมสำหรับค่า K ที่แตกต่างกันและการใช้sklearn.metrics.silhouette_score (ที่นี่)เพื่อค้นหาเคที่ดีที่สุด คำถามของฉันคือ: ถ้าฉันบอกอัลกอริธึมการแบ่งธรรมชาติเพื่อค้นหา 5 คลาส (นั่นคือ K) ฉันจะแน่ใจได้อย่างไรว่านี่เป็นจำนวนคลาสที่ตรงกับข้อมูลของฉันมากที่สุด ฉันจะตรวจสอบว่าฉันเลือกจำนวนการหยุดพักที่ดีที่สุดได้อย่างไร ขอบคุณ!

2
จะเกิดอะไรขึ้นที่นี่เมื่อฉันใช้การสูญเสียกำลังสองในการตั้งค่าการถดถอยโลจิสติก
ฉันกำลังพยายามใช้การสูญเสียกำลังสองเพื่อทำการจำแนกเลขฐานสองบนชุดข้อมูลของเล่น ฉันกำลังใช้mtcarsชุดข้อมูลใช้ไมล์ต่อแกลลอนและน้ำหนักเพื่อทำนายประเภทการส่ง เนื้อเรื่องด้านล่างแสดงข้อมูลประเภทการส่งข้อมูลสองชนิดในสีที่ต่างกันและขอบเขตการตัดสินใจที่สร้างขึ้นโดยฟังก์ชั่นการสูญเสียที่แตกต่างกัน การสูญเสียกำลังสองคือ ∑i(yi−pi)2∑i(yi−pi)2\sum_i (y_i-p_i)^2โดยที่yiyiy_iคือเลเยอร์ความจริงพื้นดิน (0 หรือ 1) และpipip_iคือความน่าจะเป็นที่คาดการณ์pi=Logit−1(βTxi)pi=Logit−1(βTxi)p_i=\text{Logit}^{-1}(\beta^Tx_i). กล่าวคือฉันแทนที่การสูญเสียโลจิสติกด้วยการสูญเสียกำลังสองในการตั้งค่าการจัดหมวดหมู่ส่วนอื่น ๆ เหมือนกัน สำหรับตัวอย่างของเล่นที่มีmtcarsข้อมูลในหลาย ๆ กรณีฉันได้แบบจำลอง "คล้ายกัน" กับการถดถอยโลจิสติก (ดูรูปต่อไปนี้โดยมีเมล็ดสุ่ม 0) แต่ในบางสิ่ง (ถ้าเราทำset.seed(1)) การสูญเสียกำลังสองดูเหมือนจะไม่ได้ผล เกิดอะไรขึ้นที่นี่ การเพิ่มประสิทธิภาพไม่ได้มาบรรจบกัน? การสูญเสียโลจิสติกส์นั้นง่ายกว่าเมื่อเทียบกับการสูญเสียกำลังสอง? ความช่วยเหลือใด ๆ ที่จะได้รับการชื่นชม รหัส d=mtcars[,c("am","mpg","wt")] plot(d$mpg,d$wt,col=factor(d$am)) lg_fit=glm(am~.,d, family = binomial()) abline(-lg_fit$coefficients[1]/lg_fit$coefficients[3], -lg_fit$coefficients[2]/lg_fit$coefficients[3]) grid() # sq loss lossSqOnBinary<-function(x,y,w){ p=plogis(x %*% w) return(sum((y-p)^2)) } # ---------------------------------------------------------------- …

2
ข้อผิดพลาดมาตรฐานที่เหลือแตกต่างระหว่างการเพิ่มประสิทธิภาพและ glm
ฉันพยายามที่จะทำซ้ำกับoptimผลลัพธ์จากการถดถอยเชิงเส้นอย่างง่ายที่พอดีกับglmหรือแม้แต่nlsฟังก์ชั่น R การประมาณพารามิเตอร์เหมือนกัน แต่การประมาณค่าความแปรปรวนที่เหลือและข้อผิดพลาดมาตรฐานของพารามิเตอร์อื่นจะไม่เหมือนกันโดยเฉพาะเมื่อขนาดตัวอย่างต่ำ ฉันคิดว่านี่เป็นความแตกต่างเนื่องจากวิธีการคำนวณข้อผิดพลาดมาตรฐานที่เหลือระหว่างความน่าจะเป็นสูงสุดและวิธีกำลังสองน้อยที่สุด (หารด้วย n หรือโดย n-k + 1 ดูการร้องในตัวอย่าง) ผมเข้าใจจากการอ่านของฉันบนเว็บที่เพิ่มประสิทธิภาพไม่ได้เป็นงานที่ง่าย แต่ผมสงสัยว่าถ้ามันจะเป็นไปได้ที่จะทำซ้ำในวิธีที่ง่ายประมาณการจากข้อผิดพลาดมาตรฐานในขณะที่ใช้glmoptim จำลองชุดข้อมูลขนาดเล็ก set.seed(1) n = 4 # very small sample size ! b0 <- 5 b1 <- 2 sigma <- 5 x <- runif(n, 1, 100) y = b0 + b1*x + rnorm(n, 0, sigma) ประเมินด้วยประสิทธิภาพ negLL …

1
ความหมายของคำเตือนการบรรจบกันใน Glmer
ฉันใช้glmerฟังก์ชันจากlme4แพ็คเกจใน R และฉันใช้bobyqaเครื่องมือเพิ่มประสิทธิภาพ (เช่นค่าเริ่มต้นในกรณีของฉัน) ฉันได้รับคำเตือนและฉันสงสัยว่ามันหมายถึงอะไร Warning message: In optwrap(optimizer, devfun, start, rho$lower, control = control, : convergence code 3 from bobyqa: bobyqa -- a trust region step failed to reduce q ฉันค้นหา "ขั้นตอนภูมิภาคที่เชื่อถือได้ล้มเหลวในการลด q" พบข้อมูลบางอย่างในแพ็คเกจ minqaซึ่งพูดว่า "Consult Powell สำหรับคำอธิบาย" ฉันทำ (คุณสามารถทำได้เช่นกันหากคุณต้องการ! ดูการอ้างอิงและลิงก์ไปยังพวกเขาด้านล่าง) แต่ฉันไม่เข้าใจ ที่จริงแล้วฉันไม่พบสิ่งใดเกี่ยวกับการลด q MJD Powell (2007) "การพัฒนา NEWUOA …

3
การเดิมพันที่ยิ่งใหญ่และชาญฉลาด
ฉันพยายามเขียนรหัสอัลกอริทึมเพื่อแนะนำการเดิมพันในเกม 1X2 (น้ำหนัก) โดยพื้นฐานแล้วแต่ละเกมมีชุดการแข่งขัน (ทีมเจ้าบ้าน vs ทีมเยือน): 1: เจ้าบ้านชนะ X: วาด 2: ทีมเยือนชนะ สำหรับการแข่งขันแต่ละครั้งและสัญลักษณ์ ( 1, Xและ2) ฉันจะกำหนดอัตราร้อยละที่แสดงถึงโอกาส / ความน่าจะเป็นสัญลักษณ์ว่าเป็นผลการแข่งขันที่ถูกต้อง นี่คืออาร์เรย์ที่แสดงถึงโครงสร้าง: $game = array ( 'match #1' => array // stdev = 0.0471 ( '1' => 0.3, // 30% home wins 'X' => 0.4, // 40% draw '2' => 0.3, …

2
ทำไมเราถึงสร้างความยุ่งยากให้กับการใช้คะแนนชาวประมงเมื่อเราใส่ GLM ให้พอดี
ฉันอยากรู้ว่าทำไมเราจัดการ GLMS ที่เหมาะสมราวกับว่าพวกเขามีปัญหาการเพิ่มประสิทธิภาพพิเศษ ที่พวกเขา? สำหรับฉันดูเหมือนว่าพวกเขาเป็นเพียงโอกาสสูงสุดและเราจะเขียนโอกาสแล้ว ... เราเพิ่มมันให้มากที่สุด! เหตุใดเราจึงใช้การให้คะแนนแบบฟิชเชอร์แทนแบบแผนการเพิ่มประสิทธิภาพที่ได้รับการพัฒนาในวรรณคดีคณิตศาสตร์ประยุกต์

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.