คำถามติดแท็ก loss-functions

ฟังก์ชั่นที่ใช้ในการหาปริมาณความแตกต่างระหว่างข้อมูลที่สังเกตได้กับค่าที่ทำนายไว้ การย่อขนาดฟังก์ชั่นการสูญเสียเป็นวิธีการประมาณค่าพารามิเตอร์ของแบบจำลอง

1
การย่อยสลายความแปรปรวนแบบอคติ
ในส่วนที่ 3.2 ของการจดจำรูปแบบของอธิการและการเรียนรู้ของเครื่องจักรเขากล่าวถึงการสลายตัวของความแปรปรวนแบบอคติโดยระบุว่าสำหรับฟังก์ชันการสูญเสียกำลังสองการสูญเสียที่คาดหวังสามารถแยกย่อยเป็นระยะอคติกำลังสอง (ซึ่งอธิบายว่า รุ่น), คำแปรปรวน (ซึ่งอธิบายการแพร่กระจายของการทำนายรอบค่าเฉลี่ย) และคำที่มีเสียงรบกวน (ซึ่งให้เสียงที่แท้จริงของข้อมูล) สามารถทำการไบอัส - แปรปรวนการสลายตัวด้วยฟังก์ชั่นการสูญเสียอื่น ๆ นอกเหนือจากการสูญเสียกำลังสอง? สำหรับชุดข้อมูลโมเดลที่กำหนดมีมากกว่าหนึ่งโมเดลที่มีการสูญเสียที่คาดว่าจะต่ำกว่าทุกโมเดลและถ้าเป็นเช่นนั้นนั่นหมายความว่าอาจมีการผสมผสานระหว่างอคติและความแปรปรวนต่างกัน หากแบบจำลองเกี่ยวข้องกับการทำให้เป็นมาตรฐานจะมีความสัมพันธ์ทางคณิตศาสตร์ระหว่างอคติความแปรปรวนและสัมประสิทธิ์การทำให้เป็นมาตรฐานหรือไม่?λλ\lambda คุณจะคำนวณอคติได้อย่างไรถ้าคุณไม่รู้รูปแบบที่แท้จริง? มีสถานการณ์ที่เหมาะสมหรือไม่ที่จะลดอคติหรือความแปรปรวนมากกว่าการสูญเสียที่คาดหวังไว้ (ผลรวมของความเอนเอียงและความแปรปรวนกำลังสอง)

1
ทำไมตัวจําแนกแบบไร้เดียงสาเบย์จึงเหมาะสมที่สุดสําหรับการสูญเสีย 0-1
ตัวจําแนก Naive Bayes เป็นตัวจําแนกซึ่งกําหนดรายการให้กับคลาสCโดยใช้การเพิ่มหลังP ( C | x )สําหรับสมาชิกระดับสูงสุดและถือว่าคุณสมบัติของรายการนั้นเป็นอิสระxxxคCCP( C| x)P(C|x)P(C|x) การสูญเสีย 0-1 คือการสูญเสียซึ่งกำหนดให้การสูญเสียประเภทใด ๆ ของการจำแนก "1" และการสูญเสีย "0" ไปยังการจำแนกประเภทที่ถูกต้อง ฉันมักจะอ่าน (1) ว่าลักษณนาม "Naive Bayes" ดีที่สุดสำหรับการสูญเสีย 0-1 ทำไมเรื่องนี้ถึงเป็นจริง? (1) แหล่งที่เป็นแบบอย่างหนึ่งแหล่ง: ตัวจําแนกBayes และข้อผิดพลาด Bayes

2
ทำไมฟังก์ชั่นการสูญเสีย 0-1 จึงเป็นเรื่องยาก?
ในหนังสือการเรียนรู้ลึกของเอียนกู๊ดเฟลโลว์มันเขียนไว้ว่า บางครั้งฟังก์ชั่นการสูญเสียที่เราสนใจ (พูดว่าการจำแนกผิดพลาด) ไม่ใช่สิ่งที่สามารถเพิ่มประสิทธิภาพได้อย่างมีประสิทธิภาพ ตัวอย่างเช่นการลดการสูญเสียที่คาดไว้ 0-1 ให้น้อยที่สุดนั้นเป็นไปไม่ได้ ในสถานการณ์เช่นนี้มักจะปรับฟังก์ชันการสูญเสียตัวแทนให้เหมาะสมซึ่งทำหน้าที่เป็นพร็อกซี แต่มีข้อดี เหตุใดการสูญเสีย 0-1 จึงเป็นเรื่องยากหรืออธิบายได้อย่างไรในมิติข้อมูลเข้า

2
นิยามที่แตกต่างกันของฟังก์ชั่นการสูญเสียเอนโทรปี
ฉันเริ่มเรียนรู้เกี่ยวกับเครือข่ายประสาทด้วยการสอนเกี่ยวกับโครงข่ายประสาทเทียมและคำแนะนำ dot com โดยเฉพาะอย่างยิ่งในบทที่ 3มีส่วนที่เกี่ยวกับฟังก์ชั่นเอนโทรปีของการข้ามและกำหนดการสูญเสียเอนโทรปีของครอสเป็น: C=−1n∑x∑j(yjlnaLj+(1−yj)ln(1−aLj))C=−1n∑x∑j(yjln⁡ajL+(1−yj)ln⁡(1−ajL))C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j)) อย่างไรก็ตามการอ่านการแนะนำ Tensorflowการสูญเสียเอนโทรปีถูกกำหนดเป็น: C=−1n∑x∑j(yjlnaLj)C=−1n∑x∑j(yjln⁡ajL)C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j) (เมื่อใช้สัญลักษณ์เดียวกันกับด้านบน) จากนั้นค้นหาไปรอบ ๆ เพื่อค้นหาว่าเกิดอะไรขึ้นฉันพบบันทึกอีกชุดหนึ่ง: ( https://cs231n.github.io/linear-classify/#softmax-classifier ) ซึ่งใช้คำจำกัดความที่แตกต่างกันโดยสิ้นเชิงของการสูญเสียเอนโทรปีของการข้าม เวลาสำหรับตัวจําแนก softmax แทนเครือข่ายประสาท บางคนสามารถอธิบายให้ฉันฟังได้ว่าเกิดอะไรขึ้นที่นี่ ทำไมถึงมีข้อแตกต่าง btw สิ่งที่ผู้คนกำหนดการสูญเสียข้ามเอนโทรปีเป็น? มีเพียงหลักการบางอย่างที่ครอบคลุมอยู่หรือไม่

1
ไล่ระดับสีสำหรับฟังก์ชั่นการสูญเสียโลจิสติก
ฉันจะถามคำถามที่เกี่ยวข้องกับคนนี้ ฉันพบตัวอย่างของการเขียนฟังก์ชันการสูญเสียที่กำหนดเองสำหรับ xgboost ที่นี่ : loglossobj <- function(preds, dtrain) { # dtrain is the internal format of the training data # We extract the labels from the training data labels <- getinfo(dtrain, "label") # We compute the 1st and 2nd gradient, as grad and hess preds <- 1/(1 + exp(-preds)) …

5
ฟังก์ชั่นการสูญเสียใดที่ฉันควรใช้สำหรับการตรวจจับแบบไบนารีในการตรวจจับใบหน้า / ไม่ใบหน้าใน CNN
ฉันต้องการใช้การเรียนรู้ลึกในการฝึกอบรมการตรวจจับใบหน้าไบนารี / ไม่ใช่ใบหน้าสิ่งที่สูญเสียฉันควรใช้ผมคิดว่ามันเป็นSigmoidCrossEntropyLossหรือบานพับการสูญเสีย ใช่แล้ว แต่ฉันสงสัยด้วยว่าฉันควรใช้ softmax แต่มีเพียงสองคลาสเท่านั้น?

1
ประมาณอันดับที่สองของฟังก์ชั่นการสูญเสีย (หนังสือการเรียนรู้ลึก, 7.33)
ในหนังสือ Goodfellow (ปี 2559) เกี่ยวกับการเรียนรู้อย่างลึกซึ้งเขาได้พูดคุยเกี่ยวกับความเท่าเทียมกันของการหยุดการเข้าสู่ช่วงปกติของ L2 ( https://www.deeplearningbook.org/contents/regularization.htmlหน้า 247) การประมาณกำลังสองของฟังก์ชันต้นทุนถูกกำหนดโดย:jjj J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)J^(θ)=J(w∗)+12(w−w∗)TH(w−w∗)\hat{J}(\theta)=J(w^*)+\frac{1}{2}(w-w^*)^TH(w-w^*) โดยที่คือเมทริกซ์ของ Hessian (Eq. 7.33) สิ่งนี้หายไปในระยะกลางหรือไม่ การขยายตัวของเทย์เลอร์ควรเป็น: HHHf(w+ϵ)=f(w)+f′(w)⋅ϵ+12f′′(w)⋅ϵ2f(w+ϵ)=f(w)+f′(w)⋅ϵ+12f″(w)⋅ϵ2f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2

3
ฟังก์ชั่นการสูญเสียใดควรใช้เพื่อให้ได้ลักษณนามไบนารีที่มีความแม่นยำสูงหรือสูง
ฉันกำลังพยายามสร้างตัวตรวจจับวัตถุที่เกิดขึ้นน้อยมาก (ในภาพ) วางแผนที่จะใช้ตัวแยกประเภทไบนารี CNN ที่ใช้ในหน้าต่างแบบเลื่อน / ปรับขนาด ฉันได้สร้างชุดการฝึกอบรมและการทดสอบเชิงลบ 1: 1 ที่สมดุล (เป็นสิ่งที่ถูกต้องหรือไม่ที่จะทำในกรณีเช่นนี้ btw?) และตัวจําแนกทำดีในชุดทดสอบในแง่ของความถูกต้อง ตอนนี้ฉันต้องการควบคุมการจำ / ความแม่นยำของตัวจําแนกของฉันดังนั้นตัวอย่างเช่นมันจะไม่ติดฉลากผิดที่เกิดขึ้นในชั้นเรียนส่วนใหญ่มากเกินไป วิธีแก้ปัญหาที่ชัดเจน (สำหรับฉัน) คือการใช้การสูญเสียแบบโลจิสติกส์เดียวกันซึ่งตอนนี้ใช้ แต่ข้อผิดพลาดน้ำหนักประเภท I และ Type II แตกต่างกันโดยการคูณการสูญเสียในหนึ่งในสองกรณีในค่าคงที่บางอย่างซึ่งสามารถปรับได้ ถูกต้องหรือไม่ ป.ล. ในความคิดที่สองนี่เทียบเท่ากับการยกน้ำหนักตัวอย่างการฝึกอบรมมากกว่าตัวอย่างอื่น เพียงแค่เพิ่มคลาสที่มากกว่าหนึ่งชั้นจะทำให้ฉันคิดว่าเหมือนกัน

1
ฟังก์ชั่นการสูญเสีย Scikit Binomial Deviance
นี่คือฟังก์ชั่นการสูญเสียส่วนเบี่ยงเบนทวินามของ GradientBoosting def __call__(self, y, pred, sample_weight=None): """Compute the deviance (= 2 * negative log-likelihood). """ # logaddexp(0, v) == log(1.0 + exp(v)) pred = pred.ravel() if sample_weight is None: return -2.0 * np.mean((y * pred) - np.logaddexp(0.0, pred)) else: return (-2.0 / sample_weight.sum() * np.sum(sample_weight * ((y * pred) …

2
ฟังก์ชันการสูญเสียเปอร์เซ็นไทล์
วิธีแก้ไขปัญหา: minmE[|m−X|]minmE[|m−X|] \min_{m} \; E[|m-X|] เป็นที่รู้จักกันดีว่าเป็นค่ามัธยฐานของXXXแต่ฟังก์ชั่นการสูญเสียมีลักษณะอย่างไรสำหรับเปอร์เซ็นไทล์อื่น ๆ เช่นเปอร์เซ็นไทล์ที่ 25 ของ X เป็นวิธีแก้: minmE[L(m,X)]minmE[L(m,X)] \min_{m} \; E[ L(m,X) ] LคืออะไรLLLในกรณีนี้

3
MAP เป็นวิธีการแก้ปัญหา
ฉันเจอสไลด์เหล่านี้ (สไลด์ # 16 & # 17) ในหนึ่งในหลักสูตรออนไลน์ ผู้สอนพยายามอธิบายถึงวิธีการประมาณค่าสูงสุดหลัง (MAP) เป็นวิธีการแก้ปัญหาL(θ)=I[θ≠θ∗]L(θ)=I[θ≠θ∗]L(\theta) = \mathcal{I}[\theta \ne \theta^{*}]โดยที่θ∗θ∗\theta^{*}เป็นพารามิเตอร์จริง ใครช่วยกรุณาอธิบายวิธีการดังต่อไปนี้? แก้ไข: เพิ่มสไลด์ในกรณีที่ลิงก์เสีย

1
ฉันควรใช้ฟังก์ชันการสูญเสียใดเพื่อให้คะแนนโมเดล seq2seq RNN
ฉันกำลังทำงานผ่านกระดาษCho 2014ซึ่งนำเสนอสถาปัตยกรรมตัวเข้ารหัส - ถอดรหัสสำหรับการสร้างแบบจำลอง seq2seq ในกระดาษพวกเขาดูเหมือนจะใช้ความน่าจะเป็นของผลลัพธ์ที่ได้รับอินพุต (หรือเป็นลบบันทึกการเกิดโอกาส) เป็นฟังก์ชั่นการสูญเสียสำหรับอินพุตของความยาวMและเอาท์พุทyของความยาวN :xxxMMMyyyNNN P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y1,…,yN|x1,…,xM)=P(y1|x1,…,xm)P(y2|y1,x1,…,xm)…P(yN|y1,…,yN−1,x1,…,xm)P(y_1, …, y_N | x_1, …, x_M) = P(y_1 | x_1, …, x_m) P(y_2 | y_1, x_1, …, x_m) \dots P(y_N | y_1, …, y_N-1, x_1, …, x_m) อย่างไรก็ตามฉันคิดว่าฉันพบปัญหาหลายประการกับการใช้ฟังก์ชันนี้เป็นฟังก์ชันการสูญเสีย: ดูเหมือนว่าจะถือว่าครูบังคับให้ใช้ในระหว่างการฝึกอบรม (เช่นแทนที่จะใช้ตัวถอดรหัสสำหรับตำแหน่งในการป้อนข้อมูลในการทำซ้ำครั้งถัดไปจะใช้โทเค็นที่รู้จัก มันจะไม่ลงโทษลำดับยาว ๆ เนื่องจากความน่าจะเป็นคือจากถึงNของเอาต์พุตหากตัวถอดรหัสสร้างลำดับที่ยาวกว่าทุกอย่างหลังจากNแรกจะไม่รวมการสูญเสีย111NNNNNN หากโมเดลทำนายโทเค็น End-of-String ก่อนหน้านี้ฟังก์ชั่นการสูญเสียยังต้องการขั้นตอน - ซึ่งหมายความว่าเรากำลังสร้างเอาต์พุตตาม "นานา" ที่ไม่ได้รับการฝึกฝนของโมเดล …

1
ตัวประมาณที่ลดผลรวมถ่วงน้ำหนักของอคติกำลังสองและความแปรปรวนเข้ากับทฤษฎีการตัดสินใจได้อย่างไร
ตกลง - ข้อความต้นฉบับของฉันไม่สามารถตอบสนองได้ ขอผมใส่คำถามที่ต่างออกไป ฉันจะเริ่มต้นด้วยการอธิบายความเข้าใจของฉันเกี่ยวกับการประเมินจากมุมมองทางทฤษฎีการตัดสินใจ ฉันไม่มีการฝึกฝนอย่างเป็นทางการและจะไม่ทำให้ฉันประหลาดใจถ้าความคิดของฉันมีข้อบกพร่อง สมมติว่าเรามีบางฟังก์ชั่นการสูญเสีย(x)) การสูญเสียที่คาดหวังคือความเสี่ยง (บ่อยครั้ง):L(θ,θ^(x))L(θ,θ^(x))L(\theta,\hat\theta(x)) R(θ,θ^(x))=∫L(θ,θ^(x))L(θ,θ^(x))dx,R(θ,θ^(x))=∫L(θ,θ^(x))L(θ,θ^(x))dx,R(\theta,\hat\theta(x))=\int L(\theta,\hat\theta(x))\mathcal{L}(\theta,\hat\theta(x))dx, โดยที่คือความเป็นไปได้; และความเสี่ยงของ Bayes คือความเสี่ยงที่พบบ่อย:L(θ,θ^(x))L(θ,θ^(x))\mathcal{L}(\theta,\hat\theta(x)) r(θ,θ^(x))=∫∫R(θ,θ^(x))π(θ)dxdθ,r(θ,θ^(x))=∫∫R(θ,θ^(x))π(θ)dxdθ,r(\theta,\hat\theta(x))=\int\int R(\theta,\hat\theta(x))\pi (\theta)dxd\theta, โดยที่เป็นของเราก่อนหน้าπ(θ)π(θ)\pi (\theta) โดยทั่วไปแล้วเราพบที่ย่อและสิ่งนี้ได้ผลดี; ยิ่งกว่านั้นทฤษฎีบทของ Fubini ก็นำมาใช้และเราสามารถกลับลำดับการรวมเพื่อให้ใด ๆที่ย่อเป็นอิสระจากคนอื่นทั้งหมด วิธีนี้หลักการความน่าจะเป็นไม่ได้ถูกละเมิดและเราสามารถรู้สึกดีเกี่ยวกับการเป็นแบบเบย์เป็นต้นθ^(x)θ^(x)\hat\theta(x)rrrθ^(x)θ^(x)\hat\theta(x)rrr ตัวอย่างเช่นเนื่องจากการสูญเสียข้อผิดพลาดกำลังสองที่คุ้นเคยความเสี่ยงของเราที่พบบ่อยคือความคลาดเคลื่อนกำลังสองเฉลี่ยหรือผลรวม ความเอนเอียงและความแปรปรวนและความเสี่ยงของเบย์คือผลรวมที่คาดหวังของความอคติกำลังสองและความแปรปรวนตามที่เราคาดไว้ก่อนหน้านั่นคือการสูญเสียด้านหลังL(θ,θ^(x))=(θ−θ^(x))2,L(θ,θ^(x))=(θ−θ^(x))2,L(\theta,\hat\theta(x))=(\theta- \hat\theta(x))^2, นี่ดูเหมือนจะสมเหตุสมผลสำหรับฉัน (แม้ว่าฉันอาจจะผิดมาก); แต่ไม่ว่าในกรณีใดสิ่งต่าง ๆ ทำให้ฉันรู้สึกไม่ถึงวัตถุประสงค์อื่น ๆ ตัวอย่างเช่นสมมติว่าแทนที่จะลดผลรวมของอคติและความแปรปรวนที่ถ่วงน้ำหนักเท่า ๆ กันฉันต้องการลดผลรวมน้ำหนักที่ไม่เท่ากันนั่นคือฉันต้องการที่ย่อเล็กสุด:θ^(x)θ^(x)\hat\theta(x) (E[θ^(x)]−θ)2+kE[(θ^(x)−E[θ^(x)])2],(E[θ^(x)]−θ)2+kE[(θ^(x)−E[θ^(x)])2],(\mathbb{E}[\hat\theta(x)]-\theta)^2+k\mathbb{E}[(\hat\theta(x)-\mathbb{E}[\hat\theta(x)])^2], โดยที่คือค่าคงที่จริงที่เป็นบวก (นอกเหนือจาก 1)kkk ฉันมักจะอ้างถึงผลรวมเช่นนี้เป็น "ฟังก์ชันวัตถุประสงค์" แม้ว่ามันอาจเป็นไปได้ว่าฉันกำลังใช้คำนั้นอย่างไม่ถูกต้อง คำถามของฉันไม่เกี่ยวกับวิธีค้นหาวิธีแก้ปัญหา - การค้นหาที่ลดฟังก์ชันวัตถุประสงค์นี้ให้ทำได้เป็นตัวเลข - แต่คำถามของฉันคือสองเท่า:θ^(x)θ^(x)\hat\theta(x) …

1
คำอธิบายที่ใช้งานง่ายของ logloss
ในการแข่งขันหลายต่อรองคะแนนอยู่บนพื้นฐานของ "logloss" เรื่องนี้เกี่ยวข้องกับข้อผิดพลาดการจัดหมวดหมู่ นี่คือคำตอบทางเทคนิคแต่ฉันกำลังมองหาคำตอบที่ใช้งานง่าย ฉันชอบคำตอบสำหรับคำถามนี้เกี่ยวกับระยะทาง Mahalanobis แต่ PCA ไม่ใช่ logloss ฉันสามารถใช้ค่าที่ซอฟต์แวร์การจำแนกประเภทออกมา แต่ฉันไม่เข้าใจจริงๆ ทำไมเราใช้มันแทนที่จะเป็นอัตราบวก / ลบจริง / เท็จ? คุณช่วยฉันได้ไหมเพื่อที่ฉันจะสามารถอธิบายเรื่องนี้กับคุณยายหรือมือใหม่ในสนามได้? ฉันชอบและเห็นด้วยกับคำพูด: คุณไม่เข้าใจอะไรจริงๆเว้นแต่คุณจะสามารถอธิบายให้คุณยายของคุณได้ - อัลเบิร์ตไอน์สไตน์ ฉันพยายามตอบคำถามนี้ด้วยตัวเองก่อนโพสต์ที่นี่ ลิงก์ที่ฉันไม่พบว่าใช้งานง่ายหรือมีประโยชน์จริงๆ ได้แก่ : http://www.r-bloggers.com/making-sense-of-logarithmic-loss/ https://www.quora.com/What-is-an-intuitive-explanation-for-the-log-loss-function https://lingpipe-blog.com/2010/11/02/evaluating-with-probabilistic-truth-log-loss-vs-0-1-loss/ https://www.kaggle.com/wiki/LogarithmicLoss เหล่านี้เป็นข้อมูลและถูกต้อง มีไว้สำหรับผู้ชมด้านเทคนิค พวกเขาไม่ได้วาดภาพอย่างง่ายหรือให้ตัวอย่างที่ง่ายและเข้าถึงได้ พวกเขาไม่ได้เขียนถึงคุณยายของฉัน

4
การฝึกอบรมเครือข่ายประสาทเพื่อการถดถอยจะทำนายค่าเฉลี่ยเสมอ
ฉันกำลังฝึกอบรมเครือข่ายประสาทเทียมแบบง่ายสำหรับการถดถอยซึ่งงานนี้จะทำนายตำแหน่ง (x, y) ของกล่องในภาพเช่น: เอาต์พุตของเครือข่ายมีสองโหนดหนึ่งรายการสำหรับ x และอีกหนึ่งสำหรับ y ส่วนที่เหลือของเครือข่ายเป็นเครือข่ายประสาทเทียมมาตรฐาน การสูญเสียเป็นค่าเฉลี่ยความคลาดเคลื่อนกำลังสองระหว่างตำแหน่งที่ทำนายของกล่องและตำแหน่งจริงของพื้นดิน ฉันกำลังฝึกอบรมเกี่ยวกับ 10,000 ภาพเหล่านี้และการตรวจสอบในปี 2000 ปัญหาที่ฉันมีคือแม้ว่าหลังจากการฝึกอบรมที่สำคัญแล้วการสูญเสียไม่ลดลงจริงๆ หลังจากสังเกตเอาท์พุทของเครือข่ายฉันสังเกตว่าเครือข่ายมีแนวโน้มที่จะส่งออกค่าใกล้ศูนย์สำหรับทั้งสองเอาท์พุทโหนด ดังนั้นการทำนายตำแหน่งของกล่องจึงเป็นจุดศูนย์กลางของภาพเสมอ มีการเบี่ยงเบนบางอย่างในการคาดการณ์ แต่มักจะอยู่ที่ประมาณศูนย์ ด้านล่างแสดงให้เห็นถึงการสูญเสีย: ฉันใช้งานสิ่งนี้ได้หลายครั้งมากกว่าที่แสดงในกราฟนี้และการสูญเสียยังไม่ลดลง น่าสนใจที่นี่การสูญเสียเพิ่มขึ้น ณ จุดหนึ่ง ดังนั้นดูเหมือนว่าเครือข่ายจะทำนายค่าเฉลี่ยของข้อมูลการฝึกอบรมมากกว่าการเรียนรู้ที่เหมาะสม ความคิดเห็นใด ๆ เกี่ยวกับสาเหตุที่อาจเป็นเช่นนี้ ฉันใช้อดัมเป็นเครื่องมือเพิ่มประสิทธิภาพด้วยอัตราการเรียนรู้เริ่มต้นที่ 0.01 และการเปิดใช้งานใหม่ หากคุณมีความสนใจในบางรหัสของฉัน (Keras) มันเป็นด้านล่าง: # Create the model model = Sequential() model.add(Convolution2D(32, 5, 5, border_mode='same', subsample=(2, 2), activation='relu', input_shape=(3, image_width, …

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.