คำถามติดแท็ก optimization

ใช้แท็กนี้สำหรับการใช้งานการเพิ่มประสิทธิภาพภายในสถิติ


1
ทำไม“ บ่วงบาศแบบผ่อนคลาย” จึงแตกต่างจากบ่วงมาตรฐาน?
หากเราเริ่มต้นด้วยชุดข้อมูลให้ใช้ Lasso กับมันและหาทางออกเราสามารถใช้ Lasso อีกครั้งกับชุดข้อมูลโดยที่คือชุดที่ไม่ใช่ ดัชนีเป็นศูนย์ของเพื่อรับโซลูชันซึ่งเรียกว่าโซลูชัน 'relax LASSO' (แก้ไขให้ฉันถ้าฉันผิด!) วิธีการแก้ปัญหาต้องเป็นไปตามเงื่อนไขKarush – Kuhn – Tucker (KKT)สำหรับแต่เนื่องจากรูปแบบของเงื่อนไข KKT สำหรับก็ไม่เป็นไปตามนี้หรือไม่ ถ้าเป็นเช่นนั้นการทำ LASSO ครั้งที่สองคืออะไร?( X, วาย)(X,Y)(X,Y)βLβL\beta^L( XS, วาย)(XS,Y)(X_S, Y)SSSβLβL\beta^LβR LβRL\beta^{RL}βLβL\beta^L( X, วาย)(X,Y)(X,Y)( XS, วาย)(XS,Y)(X_S, Y) คำถามนี้เป็นคำถามที่ตามมา: ข้อดีของการทำ "double lasso" หรือการแสดง lasso สองครั้ง?

1
ความน่าจะเป็นในการบันทึกใน GLM รับประกันการลู่เข้าสู่ maxima ทั่วโลกหรือไม่?
คำถามของฉันคือ: แบบจำลองเชิงเส้นทั่วไป (GLMs) รับประกันว่าจะรวมกันเป็นค่าสูงสุดทั่วโลกหรือไม่? ถ้าเป็นเช่นนั้นทำไม นอกจากนี้สิ่งที่มีข้อ จำกัด ในฟังก์ชั่นการเชื่อมโยงเพื่อประกันความนูน? ความเข้าใจของฉันเกี่ยวกับ GLMs คือพวกเขาเพิ่มฟังก์ชั่นความน่าจะเป็นแบบไม่เชิงเส้นอย่างมาก ดังนั้นฉันคิดว่ามี maxima ท้องถิ่นหลายชุดและพารามิเตอร์ที่คุณรวมเข้าด้วยกันนั้นขึ้นอยู่กับเงื่อนไขเริ่มต้นสำหรับอัลกอริธึมการปรับให้เหมาะสม อย่างไรก็ตามหลังจากทำการวิจัยบางอย่างฉันไม่ได้พบแหล่งเดียวซึ่งบ่งชี้ว่ามีหลายท้องถิ่นสูงสุด นอกจากนี้ฉันไม่คุ้นเคยกับเทคนิคการปรับให้เหมาะสม แต่ฉันรู้ว่าวิธี Newton-Raphson และอัลกอริทึม IRLS มีแนวโน้มที่จะสูงสุดในท้องถิ่น กรุณาอธิบายว่าเป็นไปได้ทั้งบนพื้นฐานที่ใช้งานง่ายและทางคณิตศาสตร์! แก้ไข: dksahuji ตอบคำถามเดิมของฉัน แต่ฉันต้องการเพิ่มคำถามติดตาม [ 2 ] ด้านบน ("มีข้อ จำกัด อะไรบ้างในฟังก์ชั่นลิงค์เพื่อประกันความนูน?")

2
วิธีการเลือกอัลกอริทึมการเพิ่มประสิทธิภาพที่เหมาะสม?
ฉันต้องการค้นหาฟังก์ชันขั้นต่ำ การอ่านเอกสารที่http://docs.scipy.org/doc/scipy/reference/optimize.htmlฉันเห็นว่ามีอัลกอริทึมหลายอย่างที่ทำสิ่งเดียวกันคือหาขั้นต่ำ ฉันจะรู้ได้อย่างไรว่าควรเลือกอันไหน อัลกอริทึมบางส่วนที่ระบุไว้ ย่อขนาดฟังก์ชั่นโดยใช้อัลกอริธึมลงเขา ย่อขนาดฟังก์ชันโดยใช้อัลกอริทึม BFGS ย่อเล็กสุดของฟังก์ชันด้วยอัลกอริทึมการไล่ระดับสีแบบคอนจูเกตแบบไม่เชิงเส้น ลดฟังก์ชั่น f โดยใช้วิธี Newton-CG ย่อขนาดฟังก์ชั่นโดยใช้วิธีของ Powell ที่แก้ไขแล้ว ฟังก์ชั่นของฉันคือเส้นตรง มีมิติประมาณ 232750 (นี่คือจำนวนการไล่ระดับสีที่แตกต่างกันที่ฉันต้องคำนวณในแต่ละครั้ง) ใช้เวลาประมาณ 2 นาทีในการคำนวณการไล่ระดับสีและค่าใช้จ่ายเพียงครั้งเดียวจึงไม่ถูก ฉันไม่คิดว่าฉันมีข้อ จำกัด มันกำหนดและต่อเนื่อง

2
เหตุใดการเพิ่มความคาดหวังจึงมีความสำคัญสำหรับโมเดลผสม
มีวรรณกรรมมากมายที่เน้นวิธีการเพิ่มความคาดหวังในโมเดลผสม (Mixture of Gaussian, Hidden Markov Model เป็นต้น) ทำไม EM ถึงมีความสำคัญ EM เป็นเพียงวิธีการทำเพิ่มประสิทธิภาพและไม่ได้ใช้กันอย่างแพร่หลายเป็นวิธีการไล่ระดับสีตาม (ลาดดีหรือวิธีการของนิวตัน / กึ่งนิวตัน) หรือการไล่ระดับสีอื่น ๆ ฟรีวิธีการพูดคุยกันที่นี่ นอกจากนี้ EM ยังมีปัญหาขั้นต่ำในท้องถิ่น เป็นเพราะกระบวนการนี้ใช้งานง่ายและสามารถเปลี่ยนเป็นรหัสได้อย่างง่ายดาย? หรือเหตุผลอื่น ๆ

1
โคตรการไล่ระดับสีแบบสุ่มสามารถประหยัดเวลาได้อย่างไรเมื่อเปรียบเทียบกับการไล่ระดับสีแบบมาตรฐาน
Standard Gradient Descent จะคำนวณการไล่ระดับสีสำหรับชุดข้อมูลการฝึกอบรมทั้งหมด for i in range(nb_epochs): params_grad = evaluate_gradient(loss_function, data, params) params = params - learning_rate * params_grad สำหรับจำนวน epoch ที่กำหนดไว้ล่วงหน้าเราจะคำนวณเวกเตอร์ไล่ระดับ weights_grad ของฟังก์ชันการสูญเสียสำหรับชุดข้อมูลทั้งหมด wrt พารามิเตอร์เวกเตอร์พารามิเตอร์ของเรา ความแตกต่างของการไล่ระดับสีแบบสุ่มสุ่มทำการปรับปรุงพารามิเตอร์สำหรับแต่ละตัวอย่างการฝึกอบรม x (i) และเลเบล y (i) for i in range(nb_epochs): np.random.shuffle(data) for example in data: params_grad = evaluate_gradient(loss_function, example, params) params = params …

1
ชี้แจงเกี่ยวกับกฎ Perceptron เทียบกับการไล่สีไล่ระดับและการไล่สีแบบไล่ระดับ Stochastic
ฉันทดลองใช้งาน Perceptron ต่างกันเล็กน้อยและต้องการตรวจสอบให้แน่ใจว่าฉันเข้าใจ "การทำซ้ำ" อย่างถูกต้องหรือไม่ กฎ perceptron ดั้งเดิมของ Rosenblatt เท่าที่ฉันเข้าใจในอัลกอริทึม Perceptron แบบคลาสสิกของ Rosenblatt น้ำหนักถูกปรับปรุงพร้อมกันหลังจากทุกตัวอย่างการฝึกอบรมผ่าน Δw(t+1)=Δw(t)+η(target−actual)xiΔw(t+1)=Δw(t)+η(target−actual)xi\Delta{w}^{(t+1)} = \Delta{w}^{(t)} + \eta(target - actual)x_i ที่etaetaetaคือกฎการเรียนรู้ที่นี่ และเป้าหมายและที่เกิดขึ้นจริงมีทั้งเกณฑ์ (-1 หรือ 1) ฉันใช้มันเป็น 1 ซ้ำ = 1 ผ่านตัวอย่างการฝึกอบรม แต่เวกเตอร์น้ำหนักถูกปรับปรุงหลังจากแต่ละตัวอย่างการฝึกอบรม และฉันคำนวณค่า "จริง" เป็น sign(wwTxx)=sign(w0+w1x1+...+wdxd)sign(wwTxx)=sign(w0+w1x1+...+wdxd) sign ({\pmb{w}^T\pmb{x}}) = sign( w_0 + w_1 x_1 + ... + w_d x_d) …

2
การประเมิน ARIMA ด้วยมือ
ฉันพยายามที่จะเข้าใจวิธีการประมาณค่าพารามิเตอร์ในการสร้างแบบจำลอง ARIMA / Box Jenkins (BJ) น่าเสียดายที่ไม่มีหนังสือเล่มใดที่ฉันได้พบอธิบายขั้นตอนการประมาณค่าเช่นขั้นตอนการประมาณความน่าจะเป็นบันทึกโดยละเอียด ฉันพบเว็บไซต์ / สื่อการสอนที่มีประโยชน์มาก ต่อไปนี้เป็นสมการจากแหล่งอ้างอิงข้างต้น L L ( θ ) = - n2เข้าสู่ระบบ( 2 π) - n2เข้าสู่ระบบ( σ2) - ∑t = 1nอี2เสื้อ2 σ2LL(θ)=-n2เข้าสู่ระบบ⁡(2π)-n2เข้าสู่ระบบ⁡(σ2)-Σเสื้อ=1nอีเสื้อ22σ2 LL(\theta)=-\frac{n}{2}\log(2\pi) - \frac{n}{2}\log(\sigma^2) - \sum\limits_{t=1}^n\frac{e_t^2}{2\sigma^2} ฉันต้องการเรียนรู้การประมาณค่า ARIMA / BJ ด้วยการทำเอง ดังนั้นฉันจึงใช้เพื่อเขียนโค้ดเพื่อประมาณค่า ARMA ด้วยมือ ด้านล่างนี้คือสิ่งที่ผมทำในR ,RRRRRR ฉันจำลอง ARMA (1,1) เขียนสมการข้างต้นเป็นฟังก์ชัน ใช้ข้อมูลจำลองและฟังก์ชันเพิ่มประสิทธิภาพเพื่อประมาณค่าพารามิเตอร์ AR …

1
CNN หลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร
ฉันอ่านมากเกี่ยวกับเครือข่ายประสาทการสนทนาและสงสัยว่าพวกเขาจะหลีกเลี่ยงปัญหาการไล่ระดับสีที่หายไปได้อย่างไร ฉันรู้ว่าเครือข่ายที่มีความเชื่อลึกนั้นมีกองเข้ารหัสอัตโนมัติระดับเดียวหรือเครือข่ายตื้น ๆ ที่ผ่านการฝึกอบรมล่วงหน้าและสามารถหลีกเลี่ยงปัญหานี้ได้ แต่ฉันไม่รู้ว่ามันจะหลีกเลี่ยงได้อย่างไรใน CNNs ตามที่Wikipedia : แม้จะมีปัญหาการไล่ระดับสีที่หายไป แต่พลังการประมวลผลที่เหนือกว่าของ GPU ทำให้การเผยแพร่กลับเป็นไปได้อย่างง่ายดายสำหรับเครือข่ายประสาทที่มีการป้อนลึกแบบหลายชั้น ฉันไม่เข้าใจว่าทำไมการประมวลผล GPU จะลบปัญหานี้หรือไม่

1
ทำไมฉันไม่สามารถจับคู่เอาต์พุต glmer (family = binomial) กับการใช้งานอัลกอริทึม Gauss-Newton ด้วยตนเองได้?
ฉันต้องการจับคู่ผลลัพธ์ของ lmer (ดูดีขึ้นจริง ๆ ) กับตัวอย่างของเล่นทวินาม ฉันอ่านบทความสั้น ๆ และเชื่อว่าฉันเข้าใจว่าเกิดอะไรขึ้น แต่เห็นได้ชัดว่าฉันทำไม่ได้ หลังจากติดขัดฉันได้แก้ไข "ความจริง" ในแง่ของเอฟเฟกต์แบบสุ่มและไปหลังจากประเมินค่าของผลกระทบคงที่เพียงอย่างเดียว ฉันรวมรหัสนี้ไว้ด้านล่าง หากต้องการดูว่าถูกต้องคุณสามารถแสดงความคิดเห็น+ Z %*% b.kและมันจะตรงกับผลลัพธ์ของ glm ปกติ ฉันหวังว่าจะยืมพลังสมองบางส่วนเพื่อหาสาเหตุที่ฉันไม่สามารถจับคู่ผลลัพธ์ของ lmer เมื่อรวมเอฟเฟกต์แบบสุ่ม # Setup - hard coding simple data set df <- data.frame(x1 = rep(c(1:5), 3), subject = sort(rep(c(1:3), 5))) df$subject <- factor(df$subject) # True coefficient values beta <- …

1
เหตุใด ReLU เดียวจึงไม่สามารถเรียนรู้ ReLU ได้
จากการติดตามเครือข่ายประสาทของฉันไม่สามารถเรียนรู้ระยะทางแบบยุคลิดฉันได้ง่ายขึ้นและพยายามฝึกฝน ReLU เดี่ยว (ด้วยน้ำหนักสุ่ม) ไปยัง ReLU เดียว นี่คือเครือข่ายที่ง่ายที่สุดที่มีอยู่และยังครึ่งหนึ่งของเวลาที่มันไม่มาบรรจบกัน หากการเดาเริ่มต้นอยู่ในทิศทางเดียวกับเป้าหมายมันจะเรียนรู้ได้อย่างรวดเร็วและแปลงเป็นน้ำหนักที่ถูกต้อง 1: หากการเดาเริ่มต้นคือ "ถอยหลัง" มันจะติดอยู่ที่น้ำหนักเป็นศูนย์และไม่ผ่านไปยังพื้นที่ที่มีการสูญเสียต่ำกว่า: ฉันไม่เข้าใจว่าทำไม โคตรลาดชันไม่ควรทำตามโค้งการสูญเสียไปสู่มินิมาระดับโลกอย่างง่ายดายหรือไม่? รหัสตัวอย่าง: from tensorflow.keras.models import Sequential from tensorflow.keras.layers import Dense, ReLU from tensorflow import keras import numpy as np import matplotlib.pyplot as plt batch = 1000 def tests(): while True: test = np.random.randn(batch) # Generate ReLU …

1
ทำไมจึงเป็นสิ่งสำคัญที่จะรวมคำแก้ไขอคติสำหรับเครื่องมือเพิ่มประสิทธิภาพของอดัมสำหรับการเรียนรู้ลึก
ฉันกำลังอ่านเกี่ยวกับเครื่องมือเพิ่มประสิทธิภาพของอดัมเพื่อการเรียนรู้ที่ลึกและได้พบประโยคต่อไปนี้ในหนังสือเรียนใหม่Deep Learningโดย Begnio, Goodfellow และ Courtville: อดัมรวมการแก้ไขอคติกับการประมาณการช่วงเวลาที่สั่งซื้อครั้งแรก (คำว่าโมเมนตัม) และช่วงเวลาอันดับที่สอง (ไม่ระบุตัวตน) เพื่ออธิบายการเริ่มต้นที่จุดเริ่มต้น ดูเหมือนว่าเหตุผลหลักที่จะรวมถึงข้อตกลงการแก้ไขอคติเหล่านี้คือที่ใดก็เอาอคติของการเริ่มต้นของและ0mt=0mt=0m_t = 0vt=0vt=0v_t = 0 ฉันไม่แน่ใจ 100% ว่านั่นหมายถึงอะไร แต่ดูเหมือนว่าสำหรับฉันว่ามันอาจหมายความว่าช่วงเวลาที่ 1 และ 2 เริ่มต้นที่ศูนย์และเริ่มต้นที่ศูนย์อย่างใดอย่างหนึ่งแทนค่าที่ใกล้เคียงกับศูนย์ในทางที่ไม่ยุติธรรม ? แม้ว่าฉันจะชอบที่จะรู้ว่าสิ่งที่หมายถึงบิตที่แม่นยำมากขึ้นและวิธีการที่ทำลายการเรียนรู้ โดยเฉพาะอย่างยิ่งข้อดีของการเพิ่มประสิทธิภาพให้เกิดประโยชน์ในแง่ของการเพิ่มประสิทธิภาพ un-biasing คืออะไร? สิ่งนี้จะช่วยฝึกอบรมรูปแบบการเรียนรู้ลึกได้อย่างไร นอกจากนี้มันหมายความว่าอย่างไรเมื่อไม่มีอคติ ฉันคุ้นเคยกับความเบี่ยงเบนมาตรฐานที่เป็นกลาง แต่มันไม่ชัดเจนสำหรับฉันในความหมายนี้ในบริบทนี้ การแก้ไขอคตินั้นเป็นเรื่องใหญ่จริง ๆ หรือว่ามีบางสิ่งที่ overhyped ในกระดาษเพิ่มประสิทธิภาพของอดัม? แค่มีคนรู้ว่าฉันพยายามอย่างหนักที่จะเข้าใจกระดาษต้นฉบับ แต่ฉันได้อ่านและอ่านกระดาษต้นฉบับน้อยมาก ฉันคิดว่าคำถามเหล่านี้บางคำถามอาจตอบได้ แต่ฉันไม่สามารถแยกคำตอบได้

3
ความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสี
ในการตั้งค่าทั่วไปของอัลกอริทึมเชื้อสายลาดเรามีที่x nเป็นจุดปัจจุบันηคือขนาดขั้นตอนและกรัมR d ฉันอีn T x nมีการไล่ระดับสีที่ประเมินx n xn + 1= xn- η∗ กรัมr a dฉันe n Txnxn+1=xn−η∗gradientxnx_{n+1} = x_{n} - \eta * gradient_{x_n}xnxnx_nηη\etaก.r a dฉันe n Txngradientxngradient_{x_n}xnxnx_n ฉันได้เห็นในขั้นตอนวิธีการบางคนใช้การไล่ระดับสีปกติแทนการไล่ระดับสี ฉันต้องการที่จะรู้ว่าอะไรคือความแตกต่างในการใช้การไล่ระดับสีปกติและการไล่ระดับสีอย่างง่าย

4
การเลือกฟีเจอร์และการเพิ่มประสิทธิภาพพารามิเตอร์ไฮเปอร์จะต้องสั่งซื้อในขั้นตอนการเรียนรู้ของเครื่องอย่างไร?
วัตถุประสงค์ของฉันคือการจำแนกสัญญาณเซ็นเซอร์ แนวคิดของการแก้ปัญหาของฉันคือ: i) คุณสมบัติทางวิศวกรรมจากสัญญาณดิบ ii) การเลือกคุณสมบัติที่เกี่ยวข้องกับ ReliefF และวิธีการจัดกลุ่ม iii) ใช้ NN, Random Forest และ SVM อย่างไรก็ตามฉันติดอยู่ในภาวะที่กลืนไม่เข้าคายไม่ออก ใน ii) และ iii) มีพารามิเตอร์หลายตัวเช่น k-Neigbours ที่ใกล้ที่สุดสำหรับ ReliefF หรือความยาวหน้าต่างซึ่งสัญญาณเซ็นเซอร์จะถูกประเมินหรือจำนวนหน่วยที่ซ่อนอยู่ในแต่ละชั้นของ NN มี 3 ปัญหาที่ฉันเห็นที่นี่: 1) การปรับพารามิเตอร์การเลือกคุณสมบัติจะมีผลต่อประสิทธิภาพการแยกประเภท 2) การเพิ่มประสิทธิภาพของพารามิเตอร์ตัวจําแนก 3) การประเมินการรวมกันที่เป็นไปได้ของการกำหนดค่าแต่ละอย่างเป็นไปไม่ได้ ดังนั้นคำถามของฉันคือ: a) ฉันสามารถสร้างสมมติฐานที่ทำให้เข้าใจง่ายได้ง่ายพารามิเตอร์การเลือกคุณลักษณะการปรับค่า st สามารถแยกออกจากการปรับพารามิเตอร์ตัวแยกประเภทได้หรือไม่ b) มีวิธีแก้ไขอื่น ๆ ที่เป็นไปได้หรือไม่?

1
L-BFGS ทำงานอย่างไร
วัตถุประสงค์ของกระดาษคือการปรับพารามิเตอร์บางอย่างโดยการเพิ่มโอกาสในการบันทึกปกติ จากนั้นพวกเขาคำนวณอนุพันธ์ย่อยบางส่วน จากนั้นผู้เขียนบอกว่าพวกเขาปรับสมการให้เหมาะสมโดยใช้ L-BFGS ซึ่งเป็นขั้นตอนมาตรฐานกึ่งนิวตันเพื่อปรับฟังก์ชั่นที่ราบรื่นของตัวแปรจำนวนมาก (ไม่มีรายละเอียดเพิ่มเติม) มันทำงานยังไง?

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.