คำถามติดแท็ก convex

6
เหตุใดจึงต้องศึกษาการปรับให้เหมาะสมของนูนสำหรับการเรียนรู้เชิงทฤษฎี?
ฉันกำลังทำงานเกี่ยวกับการเรียนรู้ของเครื่องจักรเชิงทฤษฎี - ในการเรียนรู้การถ่ายโอนเพื่อเจาะจง - สำหรับปริญญาเอก ด้วยความอยากรู้ทำไมฉันต้องเรียนหลักสูตรการเพิ่มประสิทธิภาพแบบนูน? สิ่งที่ได้จากการเพิ่มประสิทธิภาพของนูนฉันสามารถใช้ในการวิจัยของฉันในการเรียนรู้เครื่องทฤษฎี?

6
สำหรับปัญหานูนการไล่ระดับสีใน Stochastic Gradient Descent (SGD) ชี้ไปที่ค่าที่สูงที่สุดในโลกเสมอหรือไม่?
ด้วยฟังก์ชั่นค่าใช้จ่ายนูนโดยใช้ SGD เพื่อเพิ่มประสิทธิภาพเราจะมีการไล่ระดับสี (เวกเตอร์) ณ จุดหนึ่งระหว่างกระบวนการปรับให้เหมาะสม คำถามของฉันคือเมื่อให้จุดบนนูนการไล่ระดับสีจะชี้ไปที่ทิศทางที่ฟังก์ชันเพิ่มขึ้น / ลดลงเร็วที่สุดหรือการไล่ระดับสีชี้ไปที่จุดที่เหมาะสมที่สุดหรือมากที่สุดของฟังก์ชันต้นทุนหรือไม่ อดีตเป็นแนวคิดในท้องถิ่นหลังเป็นแนวคิดระดับโลก ในที่สุดก็สามารถมารวมกันเป็นมูลค่าสุดยอดของฟังก์ชั่นค่าใช้จ่าย ฉันสงสัยเกี่ยวกับความแตกต่างระหว่างทิศทางของการไล่ระดับสีที่กำหนดจุดโดยพลการบนนูนและทิศทางที่ชี้ไปที่ค่าสุดขั้วทั่วโลก ทิศทางของการไล่ระดับสีควรเป็นทิศทางที่ฟังก์ชั่นเพิ่ม / ลดเร็วที่สุดในจุดนั้นใช่ไหม

1
ทำไมฟังก์ชั่นต้นทุนของโครงข่ายประสาทเทียมจึงไม่นูน?
มีเธรดที่คล้ายกันที่นี่ ( ฟังก์ชั่นต้นทุนของเครือข่ายประสาทเทียมไม่ใช่แบบนูน? ) แต่ฉันไม่สามารถเข้าใจประเด็นในคำตอบที่นั่นและเหตุผลของฉันในการถามอีกครั้งโดยหวังว่าสิ่งนี้จะชี้แจงปัญหาบางอย่าง: ถ้าฉันใช้ผลรวมของฟังก์ชั่นค่าใช้จ่ายผลต่างยกกำลังสองในที่สุดฉันก็ปรับรูปแบบโดยที่คือค่าฉลากจริงในระหว่างการฝึก เฟสและเป็นค่าป้ายกำกับที่คาดการณ์ไว้ เนื่องจากนี่เป็นรูปสี่เหลี่ยมจัตุรัสจึงควรเป็นฟังก์ชันต้นทุนนูน แล้วอะไรคือสิ่งที่ทำให้นูนใน NN ไม่ได้? Y YΣNi=1(yi−yi^)2Σi=1N(yi−yi^)2 \Sigma_{i=1}^{N}(y_i - \hat{y_i})^2yyyy^y^\hat{y}

3
จะมีคำตอบที่ดีที่สุดในท้องถิ่นหลายอย่างเมื่อเราแก้ปัญหาการถดถอยเชิงเส้นหรือไม่?
ฉันอ่านข้อความนี้ในการสอบจริง / เท็จหนึ่งครั้ง: เราสามารถหาวิธีแก้ปัญหาที่เหมาะสมในท้องถิ่นได้หลายอย่างหากเราแก้ปัญหาการถดถอยเชิงเส้นโดยการลดผลรวมของข้อผิดพลาดกำลังสองโดยใช้การไล่ระดับสี วิธีแก้ปัญหา: เท็จ คำถามของฉันคือส่วนใดของคำถามนี้ผิด ทำไมข้อความนี้ถึงเป็นเท็จ?

3
การเพิ่มประสิทธิภาพ PCA นูนหรือไม่
ฟังก์ชั่นวัตถุประสงค์ของการวิเคราะห์องค์ประกอบหลัก (PCA) จะลดการผิดพลาดในการฟื้นฟูใน L2 บรรทัดฐาน (ดูหัวข้อ 2.12 นี่อีกมุมมองหนึ่งพยายามที่จะเพิ่มความแปรปรวนในการฉายนอกจากนี้เรายังมีการโพสต์ที่ยอดเยี่ยมที่นี่:.. เป็นฟังก์ชันวัตถุประสงค์ของ PCA อะไร ? ) คำถามของฉันคือการเพิ่มประสิทธิภาพ PCA นูนหรือไม่ (ฉันพบการสนทนาที่นี่แต่หวังว่าใครบางคนสามารถให้หลักฐานที่ดีเกี่ยวกับ CV)

4
วิธีการใช้วิธีกำลังสองน้อยที่สุด (IRLS) ที่ได้รับผลตอบแทนซ้ำกับโมเดล LASSO อย่างไร
ฉันมีโปรแกรมถดถอยโลจิสติกโดยใช้อัลกอริทึม IRLS ฉันต้องการใช้การลงโทษ LASSOเพื่อเลือกคุณสมบัติที่ถูกต้องโดยอัตโนมัติ ในการวนซ้ำแต่ละครั้งจะมีการแก้ไขดังต่อไปนี้: (XTWX)δβ^=XT(y−p)(XTWX)δβ^=XT(y−p)\mathbf{\left(X^TWX\right) \delta\hat\beta=X^T\left(y-p\right)} ให้เป็นจำนวนจริงที่ไม่ลบ ฉันไม่ได้ทำการลงโทษดักตามที่แนะนำในองค์ประกอบของ การเรียนรู้ทางสถิติ เหมือนกันสำหรับสัมประสิทธิ์เป็นศูนย์อยู่แล้ว มิฉะนั้นฉันจะลบคำหนึ่งออกจากด้านขวา:λλ\lambda XT(y−p)−λ×sign(β^)XT(y−p)−λ×sign(β^)\mathbf{X^T\left(y-p\right)-\lambda\times \mathrm{sign}\left(\hat\beta\right)} อย่างไรก็ตามฉันไม่แน่ใจเกี่ยวกับการปรับเปลี่ยนอัลกอริทึม IRLS มันเป็นวิธีที่ถูกต้องหรือไม่ แก้ไข: แม้ว่าฉันไม่มั่นใจเกี่ยวกับเรื่องนี้ แต่นี่เป็นหนึ่งในวิธีแก้ปัญหาที่ฉันได้รับในที่สุด สิ่งที่น่าสนใจคือโซลูชันนี้สอดคล้องกับสิ่งที่ฉันเข้าใจเกี่ยวกับ LASSO ในขณะนี้ แน่นอนว่ามีสองขั้นตอนในการทำซ้ำแต่ละครั้งแทนที่จะเป็นเพียงขั้นตอนเดียว: ขั้นตอนแรกเหมือนกับเมื่อก่อน: เราทำการวนซ้ำของอัลกอริทึม (ราวกับว่าในสูตรสำหรับการไล่ระดับสีด้านบน)λ=0λ=0\lambda=0 ขั้นตอนที่สองคือขั้นตอนใหม่: เราใช้ซอฟต์ในแต่ละองค์ประกอบ (ยกเว้น componentซึ่งสอดคล้องกับการสกัดกั้น) ของ vectorได้รับในขั้นตอนแรก นี้เรียกว่าซ้ำอ่อน Thresholding อัลกอริทึมβ0β0\beta_0ββ\beta ∀i≥1,βi←sign(βi)×max(0,|βi|−λ)∀i≥1,βi←sign(βi)×max(0,|βi|−λ)\forall i \geq 1, \beta_{i}\leftarrow\mathrm{sign}\left(\beta_{i}\right)\times\max\left(0,\,\left|\beta_{i}\right|-\lambda\right)
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.