คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ

1
ทำไมตัวจําแนกแบบไร้เดียงสาเบย์จึงเหมาะสมที่สุดสําหรับการสูญเสีย 0-1
ตัวจําแนก Naive Bayes เป็นตัวจําแนกซึ่งกําหนดรายการให้กับคลาสCโดยใช้การเพิ่มหลังP ( C | x )สําหรับสมาชิกระดับสูงสุดและถือว่าคุณสมบัติของรายการนั้นเป็นอิสระxxxคCCP( C| x)P(C|x)P(C|x) การสูญเสีย 0-1 คือการสูญเสียซึ่งกำหนดให้การสูญเสียประเภทใด ๆ ของการจำแนก "1" และการสูญเสีย "0" ไปยังการจำแนกประเภทที่ถูกต้อง ฉันมักจะอ่าน (1) ว่าลักษณนาม "Naive Bayes" ดีที่สุดสำหรับการสูญเสีย 0-1 ทำไมเรื่องนี้ถึงเป็นจริง? (1) แหล่งที่เป็นแบบอย่างหนึ่งแหล่ง: ตัวจําแนกBayes และข้อผิดพลาด Bayes

1
ทำไมอัลกอริธึม“ Saddle-Free Newton” ที่ไม่ได้นำมาใช้ในทางปฏิบัติ?
เมื่อเร็ว ๆ นี้ฉันได้อ่านบทความโดย Yann Dauphin และคณะ การระบุและโจมตีปัญหาจุดอานในการเพิ่มประสิทธิภาพแบบ non-convex ในระดับสูงซึ่งพวกเขาแนะนำอัลกอริธึมที่น่าสนใจที่เรียกว่าSaddle-Free Newtonซึ่งดูเหมือนว่าจะเหมาะสำหรับการเพิ่มประสิทธิภาพเครือข่ายประสาทและไม่ควรติดอยู่ที่จุดอาน ชอบวิธีการสั่งซื้อครั้งแรกเช่นวานิลลา SGD กระดาษวันที่กลับไปในปี 2014 ดังนั้นจึงไม่มีอะไรใหม่ แต่ฉันไม่ได้เห็นมันถูกใช้ "ในป่า" ทำไมไม่ใช้วิธีนี้? การคำนวณแบบ Hessian เป็นข้อห้ามเกินไปสำหรับปัญหา / เครือข่ายขนาดจริงหรือไม่? มีการใช้โอเพ่นซอร์สของอัลกอริทึมนี้หรือไม่และอาจใช้กับกรอบการเรียนรู้ที่สำคัญบางส่วนได้หรือไม่? อัปเดต ก.พ. 2019:มีการติดตั้งใช้งานแล้ว: https://github.com/dave-fernandes/SaddleFreeOptimizer )

2
การเรียนรู้เชิงลึกมีประโยชน์สำหรับการเพิ่มประสิทธิภาพ combinatorial หรือไม่
มีกลุ่มวิจัยที่ทำงานเกี่ยวกับการใช้การเรียนรู้เชิงลึกสำหรับปัญหาการปรับให้เหมาะสมแบบ combinatorial หรือไม่?

3
ใครช่วยอธิบายอัลกอริธึมการเผยแพร่กลับได้ไหม [ซ้ำ]
คำถามนี้มีคำตอบอยู่ที่นี่แล้ว : อัลกอริทึม Backpropagation (2 คำตอบ) ปิดให้บริการใน4 เดือนที่ผ่านมา อัลกอริทึมการเผยแพร่กลับคืออะไรและทำงานอย่างไร


1
การปรับพารามิเตอร์ Hyperparameter ในการถดถอยของกระบวนการแบบเกาส์เซียน
ฉันพยายามปรับค่าพารามิเตอร์ไฮเปอร์พารามิเตอร์ของอัลกอริทึมการถดถอยกระบวนการ Gaussian ที่ฉันได้ดำเนินการ ฉันเพียงต้องการเพิ่มความเป็นไปได้ที่จะได้รับจากสูตร โดยที่kคือเมทริกซ์ความแปรปรวนร่วมกับ องค์ประกอบK_ {ij} = k (x_i, x_j) = b ^ {- 1} \ exp (- \ frac {1} {2} (x_i-x_j) ^ TM (x_i-x_j) + a ^ {- 1 } \ delta_ {ij}โดยที่M = lIและa, bและlคือพารามิเตอร์หลายมิติlog(y|X,θ)=−12yTK−1yy−12log(det(K))−n2log(2π)log⁡(y|X,θ)=−12yTKy−1y−12log⁡(det(K))−n2log⁡(2π)\log(\mathbf{y}|X,\mathbf{\theta})=-\frac{1}{2} \mathbf{y}^TK_y^{-1}\mathbf{y}-\frac{1}{2}\log(\det(K))-\frac{n}{2}\log(2\pi)KKKKij=k(xi,xj)=b−1exp(−12(xi−xj)TM(xi−xj))+a−1δijKij=k(xi,xj)=b−1exp⁡(−12(xi−xj)TM(xi−xj))+a−1δijK_{ij}=k(x_i,x_j)=b^{-1}\exp(-\frac{1}{2}(x_i-x_j)^TM(x_i-x_j))+a^{-1}\delta_{ij}M=lIM=lIM=lIa,ba,ba,blll อนุพันธ์บางส่วนของพารามิเตอร์ความเป็นไปได้ของการบันทึก wrt โอกาสถูกกำหนดโดยlog(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)log⁡(y|X,θ)dθ=12trace(K−1dKdθ)+12(ydKdθK−1dKdθy)\frac{\log(\mathbf{y}|X,\mathbf{\theta})}{d\theta}=\frac{1}{2}\mathrm{trace}(K^{-1}\frac{dK}{d\theta})+\frac{1}{2}(\mathbf{y}\frac{dK}{d\theta}K^{-1}\frac{dK}{d\theta}\mathbf{y}) ในฐานะที่เป็นรายการของKKKขึ้นอยู่กับพารามิเตอร์เพื่อทำสัญญาซื้อขายล่วงหน้าและผกผันของKKKKซึ่งหมายความว่าเมื่อใช้เครื่องมือเพิ่มประสิทธิภาพไล่ระดับสีการประเมินการไล่ระดับสี ณ จุดที่กำหนด (ค่าพารามิเตอร์) จะต้องมีการคำนวณค่าความแปรปรวนร่วมใหม่ของเมทริกซ์ความแปรปรวนร่วม ในใบสมัครของฉันมันเป็นไปไม่ได้เพราะการคำนวณเมทริกซ์ความแปรปรวนร่วมตั้งแต่เริ่มต้นและคำนวณผกผันในการทำซ้ำของการไล่ระดับสีทุกครั้งที่มีราคาแพงเกินไป คำถามของฉันคือสิ่งที่ตัวเลือกของฉันคือการหาการผสมผสานที่ดีของพารามิเตอร์ทั้งสามนี้ …

2
วิธีแก้ค่าเบี่ยงเบนสัมบูรณ์อย่างน้อยที่สุดด้วยวิธีซิมเพล็กซ์?
argminwL(w)=∑ni=1|yi−wTx|arg⁡minwL(w)=∑i=1n|yi−wTx| \underset{\textbf{w}}{\arg\min} L(w)=\sum_{i=1}^{n}|y_{i}-\textbf{w}^T\textbf{x}| min∑ni=1uimin∑i=1nui\min \sum_{i=1}^{n}u_{i} ui≥xTw−yii=1,…,nui≥xTw−yii=1,…,nu_i \geq \textbf{x}^T\textbf{w}- y_{i} \; i = 1,\ldots,n ui≥−(xTw−yi)i=1,…,nui≥−(xTw−yi)i=1,…,nu_i \geq -\left(\textbf{x}^T\textbf{w}-y_{i}\right) \; i = 1,\ldots,n แต่ฉันไม่มีความคิดที่จะแก้มันทีละขั้นตอนเพราะฉันเป็นมือใหม่ที่ LP คุณมีความคิดใด ๆ ขอบคุณล่วงหน้า! แก้ไข: นี่คือขั้นตอนล่าสุดที่ฉันได้มาถึงปัญหานี้ ฉันพยายามที่จะแก้ปัญหาตามหมายเหตุนี้: ขั้นตอนที่ 1: กำหนดเป็นรูปแบบมาตรฐาน minZ=∑ni=1uiminZ=∑i=1nui\min Z=\sum_{i=1}^{n}u_{i} xTw−ui+s1=yii=1,…,nxTw−ui+s1=yii=1,…,n \textbf{x}^T\textbf{w} -u_i+s_1=y_{i} \; i = 1,\ldots,n xTw+ui+s2=−yii=1,…,nxTw+ui+s2=−yii=1,…,n \textbf{x}^T\textbf{w} +u_i+s_2=-y_{i} \; i = 1,\ldots,n ภายใต้s1≥0;s2≥0;ui≥0 i=1,...,ns1≥0;s2≥0;ui≥0 i=1,...,ns_1 …

1
เครื่องมือเพิ่มประสิทธิภาพ lme4 เริ่มต้นต้องการการวนซ้ำจำนวนมากสำหรับข้อมูลมิติสูง
TL; DR: lme4การเพิ่มประสิทธิภาพที่ดูเหมือนจะเป็นเชิงเส้นในจำนวนของพารามิเตอร์แบบโดยค่าเริ่มต้นและเป็นวิธีที่ช้ากว่าเทียบเท่าglmรุ่นด้วยตัวแปรดัมมี่สำหรับกลุ่ม มีอะไรที่ฉันสามารถทำได้เพื่อเร่งความเร็วหรือไม่ ฉันพยายามจัดวางโมเดล logit แบบลำดับชั้นที่ค่อนข้างใหญ่ (ประมาณ 50k แถว, 100 คอลัมน์, 50 กลุ่ม) การปรับโมเดล logit ปกติให้เข้ากับข้อมูล (ด้วยตัวแปรดัมมี่สำหรับกลุ่ม) ทำงานได้ดี แต่โมเดลลำดับชั้นดูเหมือนจะติดขัด: ขั้นตอนการปรับให้เหมาะสมครั้งแรกจะเสร็จสมบูรณ์ดี แต่ครั้งที่สองผ่านการทำซ้ำจำนวนมาก . แก้ไข:ฉันสงสัยว่าปัญหาส่วนใหญ่คือฉันมีพารามิเตอร์มากมายเพราะเมื่อฉันพยายามตั้งค่าmaxfnที่ต่ำกว่าจะให้คำเตือน: Warning message: In commonArgs(par, fn, control, environment()) : maxfun < 10 * length(par)^2 is not recommended. อย่างไรก็ตามการประมาณพารามิเตอร์ไม่ได้เปลี่ยนแปลงตลอดเวลาของการปรับให้เหมาะสมดังนั้นฉันยังคงสับสนเกี่ยวกับสิ่งที่ต้องทำ เมื่อฉันพยายามตั้งค่าmaxfnในตัวควบคุมเครื่องมือเพิ่มประสิทธิภาพ (แม้จะมีคำเตือน) ดูเหมือนว่าจะหยุดทำงานหลังจากการปรับให้เหมาะสมเสร็จแล้ว นี่คือรหัสบางส่วนที่สร้างปัญหาให้กับข้อมูลสุ่ม: library(lme4) set.seed(1) SIZE <- 50000 …

2
แสดงความเท่าเทียมกันระหว่างบรรทัดฐานการถดถอยปกติและบรรทัดฐานการถดถอยแบบ จำกัด การใช้ KKT
ตามที่อ้างอิงเล่ม 1 , เล่ม 2และกระดาษ มีการกล่าวถึงว่ามีความเท่าเทียมกันระหว่างการถดถอยแบบปกติ (Ridge, LASSO และ Elastic Net) และสูตรข้อ จำกัด ฉันยังดูCross Validated 1และCross Validated 2แต่ฉันไม่สามารถเห็นคำตอบที่ชัดเจนแสดงให้เห็นว่าการเทียบเท่าหรือตรรกะ คำถามของฉันคือ จะแสดงความเท่าเทียมกันอย่างไรโดยใช้ Karush – Kuhn – Tucker (KKT) สูตรต่อไปนี้ใช้สำหรับการถดถอยแบบริดจ์ บันทึก คำถามนี้ไม่ใช่การบ้าน มันเป็นเพียงเพื่อเพิ่มความเข้าใจของฉันในหัวข้อนี้ UPDATE ฉันยังไม่มีความคิด

1
“ ความหลากหลาย” หมายถึงอะไร?
การใช้ "ความแปรปรวน" หมายถึงการเพิ่มประสิทธิภาพเสมอผ่านการอนุมานแบบผันแปรหรือไม่? ตัวอย่าง: "ตัวเข้ารหัสอัตโนมัติแบบแปรผัน" "วิธีเบย์แบบแปรผัน" "กลุ่มการเปลี่ยนรูปแบบแปรปรวน"

1
RMSProp และ Adam เทียบกับ SGD
ฉันกำลังทำการทดลองกับชุดตรวจสอบความถูกต้องของ EMNIST โดยใช้เครือข่ายที่มี RMSProp, อดัมและ SGD ฉันได้รับความแม่นยำ 87% กับ SGD (อัตราการเรียนรู้ 0.1) และ dropout (0.1 dropout prob) รวมถึงการทำให้เป็นมาตรฐาน L2 (การลงโทษ 1e-05) เมื่อทดสอบการกำหนดค่าที่แน่นอนเดียวกันกับ RMSProp และ Adam รวมถึงอัตราการเรียนรู้เริ่มต้น 0.001 ฉันได้รับความแม่นยำ 85% และเส้นโค้งการฝึกอบรมที่ราบรื่นน้อยลงอย่างเห็นได้ชัด ฉันไม่ทราบวิธีอธิบายพฤติกรรมนี้ อะไรเป็นสาเหตุของการขาดความเรียบในช่วงการฝึกอบรมและความแม่นยำที่ลดลงและอัตราความผิดพลาดที่สูงขึ้น

2
ใช้สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันเป็นเป้าหมายการเพิ่มประสิทธิภาพในการเรียนรู้ของเครื่อง
ในการเรียนรู้ของเครื่อง (สำหรับปัญหาการถดถอย) ฉันมักจะเห็นค่าเฉลี่ย - กำลังสอง - ข้อผิดพลาด (MSE) หรือค่าเฉลี่ย - ข้อผิดพลาด (แม่) ที่ใช้เป็นฟังก์ชันข้อผิดพลาดเพื่อลด (บวกกับข้อกำหนดการทำให้เป็นปกติ) ฉันสงสัยว่ามีสถานการณ์ที่การใช้สัมประสิทธิ์สหสัมพันธ์จะเหมาะสมกว่าหรือไม่ หากสถานการณ์ดังกล่าวมีอยู่แล้ว: ค่าสัมประสิทธิ์สหสัมพันธ์ภายใต้สถานการณ์ใดเป็นตัวชี้วัดที่ดีกว่าเมื่อเทียบกับ MSE / MAE ในสถานการณ์เหล่านี้ MSE / MAE ยังคงเป็นฟังก์ชั่นต้นทุนพร็อกซีที่ดีที่จะใช้หรือไม่? สัมประสิทธิ์สหสัมพันธ์เป็นไปได้สูงสุดหรือไม่ นี่เป็นฟังก์ชั่นวัตถุประสงค์ที่มั่นคงที่จะใช้หรือไม่? ฉันไม่พบกรณีที่มีการใช้สัมประสิทธิ์สหสัมพันธ์โดยตรงเป็นฟังก์ชันวัตถุประสงค์ในการปรับให้เหมาะสม ฉันจะขอบคุณถ้าคนสามารถชี้ให้ฉันข้อมูลในพื้นที่นี้

2
Binning ที่เหมาะสมที่สุดที่เกี่ยวข้องกับตัวแปรตอบกลับที่กำหนด
ฉันกำลังมองหาวิธีการ binning ที่ดีที่สุด (discretization) ของตัวแปรต่อเนื่องที่เกี่ยวข้องกับการตอบสนองที่กำหนด (เป้าหมาย) ตัวแปรไบนารีและมีจำนวนช่วงเวลาสูงสุดเป็นพารามิเตอร์ ตัวอย่าง: ฉันมีชุดการสังเกตของผู้ที่มี "ความสูง" (ต่อเนื่องเป็นตัวเลข) และ "has_back_pains" (ไบนารี) ตัวแปร ฉันต้องการแยกความสูงออกเป็น 3 ช่วง (กลุ่ม) อย่างน้อยที่สุดด้วยสัดส่วนที่แตกต่างกันของคนที่มีอาการปวดหลังดังนั้นอัลกอริทึมจึงเพิ่มความแตกต่างระหว่างกลุ่ม (ด้วยข้อ จำกัด ที่กำหนดเช่นแต่ละช่วงเวลามีการสังเกตอย่างน้อย x) ทางออกที่ชัดเจนสำหรับปัญหานี้คือใช้ต้นไม้ตัดสินใจ (โมเดลหนึ่งตัวแปรแบบง่าย) แต่ฉันไม่สามารถหาฟังก์ชั่นใด ๆ ใน R ที่จะมี "จำนวนสาขาสูงสุด" เป็นพารามิเตอร์ - พวกเขาทั้งหมดแบ่งตัวแปร เป็น 2 gropus (<= x และ> x) SAS miner มีพารามิเตอร์ "branch branch" แต่ฉันกำลังมองหาโซลูชันที่ไม่ใช่เชิงพาณิชย์ ตัวแปรบางตัวของฉันมีค่าเฉพาะไม่กี่ค่า (และสามารถถือว่าเป็นตัวแปรแบบแยก) …

1
การเชื่อมต่อระหว่างการทำให้เป็นมาตรฐานและวิธีการคูณตัวคูณ lagrange คืออะไร?
เพื่อป้องกันไม่ให้คน overfitting คนเพิ่มระยะ normalization (สัดส่วนกับผลรวมกำลังสองของพารามิเตอร์ของแบบจำลอง) ด้วยพารามิเตอร์ normalizationไปยังฟังก์ชันต้นทุนของการถดถอยเชิงเส้น พารามิเตอร์นี้เหมือนกับตัวคูณ lagrange หรือไม่? การทำให้เป็นมาตรฐานเป็นเช่นเดียวกับวิธีการของตัวคูณ lagrange หรือไม่? หรือวิธีการเหล่านี้เชื่อมต่อกันอย่างไร? λλλ\lambdaλλ\lambda

1
การทดสอบที่แน่นอนของฟิชเชอร์และการกระจาย hypergeometric
ฉันต้องการที่จะเข้าใจการทดสอบที่แม่นยำของฟิชเชอร์มากขึ้นดังนั้นฉันจึงคิดค้นตัวอย่างของเล่นต่อไปนี้โดยที่ f และ m สอดคล้องกับเพศชายและเพศหญิงและ n และ y สอดคล้องกับ "การบริโภคโซดา" เช่นนี้: > soda_gender f m n 0 5 y 5 0 เห็นได้ชัดว่านี่คือการทำให้เข้าใจง่ายมาก แต่ฉันไม่ต้องการให้บริบทเข้ามาขวางทาง ที่นี่ฉันเพิ่งสันนิษฐานว่าผู้ชายไม่ดื่มโซดาและหญิงดื่มโซดาและต้องการดูว่าวิธีการทางสถิติมาถึงข้อสรุปเดียวกัน เมื่อฉันทำการทดสอบฟิชเชอร์ที่แน่นอนใน R ฉันจะได้ผลลัพธ์ต่อไปนี้: > fisher.test(soda_gender) Fisher's Exact Test for Count Data data: soda_gender p-value = 0.007937 alternative hypothesis: true odds ratio is not equal to 1 …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.