ขณะที่ฉันเขียนความคิดเห็นคำถามนี้ดูเหมือนจะกว้างเกินไปสำหรับฉัน แต่ฉันจะพยายามตอบคำถาม เพื่อกำหนดขอบเขตฉันจะเริ่มต้นด้วยคณิตศาสตร์เล็กน้อยซึ่งรองรับ ML ส่วนใหญ่แล้วจึงมุ่งเน้นผลลัพธ์ล่าสุดของ DL
การแลกเปลี่ยนอคติแปรปรวนถูกอ้างถึงในหนังสือหลักสูตร MOOCs บล็อกทวีตเป็นต้นใน ML ดังนั้นเราจึงไม่สามารถเริ่มต้นได้โดยไม่พูดถึง:
E[(Y−f^(X))2|X=x0]=σ2ϵ+(Ef^(x0)−f(x0))2+E[(f^(x0)−Ef^(x0))2]=Irreducible error + Bias2 + Variance
พิสูจน์ได้ที่นี่: https://web.stanford.edu/~hastie/ElemStatLearn/
Gauss-มาร์คอฟทฤษฎีบท (ใช่ถดถอยเชิงเส้นจะยังคงเป็นส่วนสำคัญของเครื่องการเรียนรู้ไม่ว่าสิ่ง: การจัดการกับมัน) ชี้แจงว่าเมื่อรูปแบบเชิงเส้นเป็นความจริงและข้อสมมติฐานบางอย่างเกี่ยวกับระยะข้อผิดพลาดที่ถูกต้อง OLS มีขั้นต่ำ หมายถึงข้อผิดพลาดกำลังสอง (ซึ่งในนิพจน์ด้านบนเป็นเพียง ) เฉพาะในตัวประมาณค่าแบบเส้นตรงที่ไม่เอนเอียงของตัวแบบเชิงเส้น ดังนั้นอาจมีตัวประมาณค่าเชิงเส้นที่มีอคติ (หรือตัวประมาณค่าแบบไม่เชิงเส้น) ซึ่งมีความคลาดเคลื่อนกำลังสองเฉลี่ยที่ดีกว่าและทำให้เกิดข้อผิดพลาดในการทำนายที่ดีกว่า OLS และนี่เป็นการปูทางไปสู่อาร์เซนอลการทำให้เป็นมาตรฐาน (การถดถอยสัน, LASSO, การลดน้ำหนัก ฯลฯ ) ซึ่งเป็นภาระของ ML มีการพิสูจน์หลักฐานที่นี่ (และในหนังสืออื่น ๆ อีกนับไม่ถ้วน):
Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467
อาจจะมากกว่าที่เกี่ยวข้องกับการระเบิดของกูแนวทางตามที่ระบุไว้โดยคาร์ลอ Cinelli ในความคิดเห็นและความสนุกสนานแน่นอนมากขึ้นในการเรียนรู้เกี่ยวกับการเป็นทฤษฎีบทเจมส์สไตน์ พิจารณาอิสระแปรปรวนเหมือนกัน แต่ไม่ได้หมายความว่าตัวแปรสุ่มแบบเกาส์เดียวกันn
Xi|μi∼N(θi,σ2),i=1,…,n
ในคำอื่น ๆ ที่เรามีส่วนประกอบ Gaussian สุ่มเวกเตอร์2I) เรามีหนึ่งตัวอย่างจากและเราต้องการที่จะประเมินtheta} MLE (และยัง UMVUE) ประมาณการจะเห็นได้ชัด{x} พิจารณาตัวประมาณ James-Steinn−X∼N(θ,σ2I)xXθθ^MLE=x
θ^JS=(1−(n−2)σ2||x||2)x
เห็นได้ชัดว่าถ้า ,ย่อขนาด MLE ไปทางศูนย์ เจมส์-Stein ทฤษฎีบทระบุว่าสำหรับ ,อย่างเคร่งครัดครอบงำคือมันมี MSE ต่ำtheta} Pheraps อย่างน่าประหลาดใจแม้ว่าเราจะย่อตัวลงไปถึงค่าคงที่ ,ยังคงครอบงำ{} ตั้งแต่(n−2)σ2≤||x||2θ^JS n≥4θ^JS θ^MLE∀ θc≠0θ^JSθ^MLEXiมีความเป็นอิสระดูเหมือนว่าแปลกเมื่อพยายามที่จะประมาณความสูงของบุคคลที่ไม่เกี่ยวข้องสามคนรวมถึงตัวอย่างจากจำนวนแอปเปิ้ลที่ผลิตในสเปนอาจปรับปรุงประมาณการโดยเฉลี่ยของเรา จุดสำคัญที่นี่คือ "โดยเฉลี่ย": ความคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการประมาณค่าพร้อมกันของส่วนประกอบทั้งหมดของเวกเตอร์พารามิเตอร์มีขนาดเล็กลง แต่ข้อผิดพลาดกำลังสองสำหรับองค์ประกอบหนึ่งหรือมากกว่านั้นอาจมีขนาดใหญ่กว่าและแน่นอนเมื่อ คุณมีข้อสังเกต "สุดขั้ว"
การค้นพบว่า MLE ซึ่งเป็นตัวประเมิน "ดีที่สุด" สำหรับกรณีการประเมินแบบหลายตัวแปรถูกลดหย่อนสำหรับการประเมินหลายตัวแปรนั้นค่อนข้างน่าตกใจในเวลานั้นและนำไปสู่ความสนใจอย่างมากในการหดตัว เราสามารถสังเกตเห็นความคล้ายคลึงกันบางอย่างกับโมเดลผสมและแนวคิดของ "ความแข็งแกร่งในการยืม": มีการเชื่อมโยงบางอย่างตามที่กล่าวไว้ที่นี่
มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?
อ้างอิง: เจมส์ดับเบิลยูสไตน์, ซีประมาณค่ากับการสูญเสียกำลังสอง การประชุมทางวิชาการของ Berkeley ครั้งที่สี่ที่มีต่อสถิติและความน่าจะเป็นทางคณิตศาสตร์เล่มที่ 1: การมีส่วนร่วมในทฤษฎีสถิติ, 361 - 379, สำนักพิมพ์มหาวิทยาลัยแห่งแคลิฟอร์เนีย, Berkeley, Calif., 1961
การวิเคราะห์องค์ประกอบหลักคือกุญแจสำคัญในหัวข้อที่สำคัญของการลดขนาดและมันขึ้นอยู่กับการแยกแยะมูลค่าเอกพจน์ : สำหรับแต่ละเมทริกซ์จริง (แม้ว่าทฤษฎีบทจะสรุปได้ง่ายกับเมทริกซ์ที่ซับซ้อน)N×pX
X=UDVT
ที่ขนาดเป็นมุมฉากเป็นเมทริกซ์ทแยงมุมกับองค์ประกอบในแนวทแยงไม่ติดลบและขนาดเป็นอีกครั้งมุมฉาก สำหรับการพิสูจน์และอัลกอริธึมเกี่ยวกับวิธีการคำนวณดู: Golub, G. และ Van Loan, C. (1983), การคำนวณเมทริกซ์ , สำนักพิมพ์มหาวิทยาลัยจอห์นฮอปกิ้นส์, บัลติมอร์UN×pDp×pUp×p
ทฤษฎีบทเมอร์เซอร์เป็นหินก่อตั้งสำหรับจำนวนมากของวิธีการที่แตกต่างกัน ML: เส้นโค้งบางจานสนับสนุนเครื่องเวกเตอร์ประมาณการ Kriging ของกระบวนการสุ่มแบบเกาส์ ฯลฯ โดยทั่วไปเป็นหนึ่งในสองทฤษฎีที่อยู่เบื้องหลังที่เรียกว่าเคล็ดลับเคอร์เนล ปล่อยเป็นฟังก์ชันหรือเคอร์เนลต่อเนื่องแบบสมมาตร ถ้าเป็น semidefinite ที่เป็นบวกจากนั้นจะยอมรับพื้นฐานของออร์โธปกติของ eigenfunctions ที่สอดคล้องกับค่าลักษณะเฉพาะที่ไม่เป็นลบ:K(x,y):[a,b]×[a,b]→RK
K(x,y)=∑i=1∞γiϕi(x)ϕi(y)
ความสำคัญของทฤษฎีบทนี้ ML ทฤษฎีเบิกความโดยจำนวนการอ้างอิงที่จะได้รับในตำราที่มีชื่อเสียงเช่นตัวอย่างเช่นรัสมุสและวิลเลียมส์กับข้อความในกระบวนการเสียน
การอ้างอิง: เจเมอร์เซอร์, ฟังก์ชั่นประเภทบวกและลบ, และการเชื่อมต่อกับทฤษฎีของสมการอินทิกรัล ปรัชญาการทำธุรกรรมของราชสมาคมแห่งลอนดอน ชุด A, เอกสารที่มีลักษณะทางคณิตศาสตร์หรือทางกายภาพ, 209: 415-446, 1909
นอกจากนี้ยังมีการนำเสนอที่ง่ายขึ้นใน Konrad Jörgens ตัวดำเนินการอินทิกรัลเชิงเส้น Pitman, Boston, 1982
ทฤษฎีบทอื่น ๆ ซึ่งร่วมกับทฤษฎีบทเมอร์เซอร์, ออกวางรากฐานทางทฤษฎีของเคล็ดลับเคอร์เนลเป็นทฤษฎีบท representer สมมติว่าคุณมีพื้นที่ตัวอย่างและสมมาตรบวก semidefinite เคอร์เนล{R} ให้ _K เป็น RKHS ที่เกี่ยวข้องกับด้วย สุดท้ายให้เป็นตัวอย่างการฝึกอบรม ทฤษฎีบทบอกว่าในบรรดาทุกฟังก์ชั่นซึ่งทุกคนยอมรับการเป็นตัวแทนที่ไม่มีที่สิ้นสุดในแง่ของ eigenfunctionsXK:X×X→RHKKS={xi,yi}ni=1f∈HKKเนื่องจากทฤษฎีบทของเมอร์เซอร์สิ่งที่ลดความเสี่ยงให้เป็นปกติจะมีการแทนค่า จำกัด ในพื้นฐานที่เกิดขึ้นจากเคอร์เนลที่ประเมินที่จุดฝึกอบรมเช่นn
minf∈HK∑i=1nL(yi,f(xi))+λ||f||2HK=min{cj}∞1∑i=1nL(yi,∑j∞cjϕj(xi))+λ∑j∞c2jγj=∑i=1nαiK(x,xi)
(ทฤษฎีบทคือความเท่าเทียมกันครั้งสุดท้าย) ข้อมูลอ้างอิง: Wahba, G. 1990, Spline Models สำหรับ Observational Data , SIAM, Philadelphia
ทฤษฎีบทประมาณสากลได้รับการอ้างแล้วโดยผู้ใช้โทเบียส Windisch และมีมากน้อยที่เกี่ยวข้องกับการเรียนรู้เครื่องกว่าก็คือการวิเคราะห์การทำงานแม้ว่าจะไม่อาจดูเหมือนเพื่อให้ได้อย่างรวดเร็วก่อน ปัญหาคือทฤษฎีบทเพียงบอกว่าเครือข่ายดังกล่าวมีอยู่ แต่:
- มันไม่ได้ให้ความสัมพันธ์ใด ๆ ระหว่างขนาดของเลเยอร์ที่ซ่อนอยู่และการวัดความซับซ้อนของฟังก์ชันเป้าหมายเช่นการเปลี่ยนแปลงทั้งหมด ถ้าและจำเป็นสำหรับการแก้ไขข้อผิดพลาดคงที่แบบทวีคูณด้วยดังนั้นเลเยอร์ประสาทเดี่ยวที่ซ่อนอยู่ เครือข่ายจะไร้ประโยชน์Nf(x)f(x)=sin(ωx):[0,2π]→[−1,1]Nϵω
- มันไม่ได้บอกว่าถ้าเครือข่ายเป็นlearnable กล่าวอีกนัยหนึ่งคือสมมติว่าและเรารู้ว่าขนาด NN จะประมาณด้วยค่าเผื่อที่จำเป็นใน hypercube จากนั้นโดยใช้ชุดการฝึกอบรมขนาด และขั้นตอนการเรียนรู้เช่นตัวอย่างการสนับสนุนเรามีการรับประกันว่าการเพิ่มเราสามารถกู้คืนหรือไม่?F(x)fϵNfMMF
- ในที่สุดและที่เลวร้ายยิ่งของพวกเขาทั้งหมดมันไม่ได้พูดอะไรเกี่ยวกับข้อผิดพลาดการทำนายของเครือข่ายประสาท สิ่งที่เราสนใจจริงๆคือค่าประมาณของข้อผิดพลาดในการทำนายอย่างน้อยค่าเฉลี่ยของชุดฝึกอบรมขนาดทั้งหมด ทฤษฎีบทไม่ได้ช่วยในเรื่องนี้M
จุดปวดที่เล็กลงกับทฤษฎีบทของ Hornik ในเวอร์ชันนี้คือมันไม่ได้รองรับฟังก์ชั่นการเปิดใช้งาน ReLU อย่างไรก็ตามบาร์ตเลตได้พิสูจน์รุ่นที่ขยายเพิ่มเติมซึ่งครอบคลุมถึงช่องว่างนี้
จนถึงตอนนี้ฉันเดาว่าทุกทฤษฎีที่ฉันถือว่าเป็นที่รู้จักกันดีสำหรับใครก็ตาม ดังนั้นถึงเวลาสำหรับสิ่งที่สนุกแล้ว :-) เรามาดูทฤษฎีการเรียนรู้ลึก :
สมมติฐาน:
- เครือข่ายประสาทลึก (สำหรับการแก้ไข ,เป็นฟังก์ชั่นที่เชื่อมโยงปัจจัยการผลิตของเครือข่ายประสาทที่มีเอาท์พุท) และการสูญเสียกูมีทั้งผลบวกของการบวก ฟังก์ชั่นที่เป็นเนื้อเดียวกันในระดับเดียวกันΦ(X,W)WΦW(X)Θ(W)
- ฟังก์ชั่นการสูญเสียนูนและเมื่ออนุพันธ์ในในขนาดกะทัดรัดชุดL(Y,Φ(X,W)XS
แล้ว:
- ท้องถิ่นขั้นต่ำสำหรับเช่นนั้นเครือข่ายย่อยของมีศูนย์น้ำหนักเป็นศูนย์ขั้นต่ำทั่วโลก ( ทฤษฎีบท 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
- เหนือขนาดเครือข่ายที่สำคัญสืบเชื้อสายท้องถิ่นจะมาบรรจบกันเป็นขั้นต่ำทั่วโลกจากการเริ่มต้นใด ๆ ( ทฤษฎีบท 2 )
สิ่งนี้น่าสนใจมาก: CNNs ทำเฉพาะเลเยอร์ convolutional, ReLU, max-pooling, ReLU ที่เชื่อมต่ออย่างเต็มที่และ linear layer เป็นฟังก์ชั่นที่เป็นเนื้อเดียวกันในขณะที่ถ้าเรารวมฟังก์ชั่นการเปิดใช้ sigmoid นี่ไม่เป็นความจริงอีกต่อไป ประสิทธิภาพการทำงานในบางแอปพลิเคชันของ ReLU + การรวมกำไรสูงสุดเทียบกับ sigmoids มีอะไรมากกว่าที่ทฤษฎีเท่านั้นถือถ้ายังเป็นบวกเป็นเนื้อเดียวกันในของการศึกษาระดับปริญญาเดียวกับ\ตอนนี้ความจริงก็คือความสนุกที่ หรือทำให้เป็นมาตรฐานแม้ว่าจะเป็นเนื้อเดียวกันในทางบวก แต่ไม่มีระดับ (ระดับของΘWΦl1l2ΦΦในกรณีของ CNN ที่กล่าวถึงก่อนหน้าจะเพิ่มขึ้นตามจำนวนเลเยอร์) แต่วิธีการทำให้เป็นมาตรฐานที่ทันสมัยมากขึ้นเช่นการทำแบทช์ให้เป็นมาตรฐานและพา ธ - สิงคโปร์จะสอดคล้องกับฟังก์ชั่นการทำให้เป็นเนื้อเดียวกันในเชิงบวกในระดับเดียวกับและการออกกลางคันในขณะที่ไม่เหมาะสมกับเฟรมเวิร์กนี้ สิ่งนี้อาจอธิบายได้ว่าทำไมเพื่อให้ได้ความแม่นยำสูงด้วย CNNs การทำให้เป็นและไม่เพียงพอ แต่เราจำเป็นต้องใช้ทุกชนิดเช่นการดรอปเอาท์และการทำให้เป็นชุดปกติ! เพื่อความรู้ที่ดีที่สุดของฉันนี่เป็นสิ่งที่ใกล้เคียงที่สุดที่จะอธิบายถึงประสิทธิภาพของการทำให้เป็นกลุ่มตามปกติซึ่งเป็นสิ่งที่คลุมเครือมากอย่างที่อัลราฮิมิพูดอย่างถูกต้องในการพูดของเขาΦl1l2
สังเกตอีกว่าบางคนให้อยู่บนพื้นฐานของทฤษฏีที่ 1ก็คือว่ามันสามารถอธิบายได้ว่าทำไมการทำงาน Relu ดีแม้จะมีปัญหาของเซลล์ที่ตายแล้ว ตามปรีชานี้ความจริงที่ว่าในระหว่างการฝึกอบรมเซลล์ประสาท ReLU บางคน "ตาย" (ไปที่การเปิดใช้งานเป็นศูนย์และไม่เคยกู้คืนจากที่เนื่องจากตั้งแต่การไล่ระดับสีของ ReLU เป็นศูนย์) คือ "คุณลักษณะไม่ใช่ข้อผิดพลาด "เพราะถ้าเรามาถึงขั้นต่ำแล้วเครือข่ายย่อยเต็มก็ตายไปเราก็จะมาถึงจุดต่ำสุดของโลก (ภายใต้สมมติฐานของทฤษฎีบทที่ 1x<0) ฉันอาจจะหายไปบางอย่าง แต่ฉันคิดว่าการตีความนี้ลึกซึ้ง ก่อนอื่นเลยระหว่างการฝึกอบรม ReLUs สามารถ "ตาย" ได้ดีก่อนที่เราจะไปถึงขั้นต่ำสุดของท้องถิ่น ประการที่สองก็จะต้องมีการพิสูจน์ให้เห็นว่าเมื่อหน่วย Relu "ตาย" พวกเขามักจะทำมันมากกว่า subnetwork เต็ม: กรณีเดียวที่นี้เป็นจริงนิด ๆ คือเมื่อคุณมีเพียงหนึ่งชั้นที่ซ่อนอยู่ซึ่งในกรณีของหลักสูตรในแต่ละเซลล์เดียว เครือข่ายย่อย แต่โดยทั่วไปฉันจะระมัดระวังในการเห็น "เซลล์ประสาทที่ตายแล้ว" เป็นสิ่งที่ดี
อ้างอิง:
B. Haeffele และ R. Vidal, การเพิ่มประสิทธิภาพระดับโลกในการฝึกอบรมโครงข่ายประสาทเทียม , ในการประชุม IEEE ด้านการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ, 2017
B. Haeffele และ R. Vidal การมองโลกในแง่ดีที่สุดในการแยกตัวประกอบเทนเซอร์การเรียนรู้ที่ลึกซึ้งและอื่น ๆ , arXiv, abs / 1506.07540, 2015
การจำแนกภาพจำเป็นต้องมีการเรียนรู้ที่ไม่เปลี่ยนแปลง (หรืออย่างน้อยก็มีความอ่อนไหวอย่างอ่อนไหวมาก) กับการเปลี่ยนแปลงต่าง ๆ เช่นตำแหน่งที่ตั้งท่าทางมุมมองแสงการแสดงออก ฯลฯ ซึ่งโดยทั่วไปจะปรากฏในภาพธรรมชาติ แต่ไม่มีข้อมูล สำหรับงานการจำแนกประเภท สิ่งเดียวกันสำหรับการรู้จำเสียงพูด: การเปลี่ยนแปลงระดับเสียงระดับเสียงจังหวะสำเนียง ฯลฯ ไม่ควรนำไปสู่การเปลี่ยนแปลงในการจำแนกประเภทของคำ การดำเนินงานเช่น convolution, max pooling, pooling เฉลี่ย ฯลฯ ที่ใช้ใน CNNs นั้นมีเป้าหมายนี้อย่างแน่นอนดังนั้นเราคาดหวังว่ามันจะทำงานได้ดีสำหรับแอพพลิเคชันเหล่านี้ แต่เรามีทฤษฎีบทให้การสนับสนุนสัญชาตญาณนี้หรือไม่? มีทฤษฎีบทความแปรปรวนการแปลในแนวตั้งซึ่งแม้จะมีชื่อไม่ได้เกี่ยวข้องกับการแปลในแนวตั้ง แต่โดยทั่วไปแล้วผลลัพธ์ที่บอกว่าคุณลักษณะที่เรียนรู้ในเลเยอร์ต่อไปจะมีค่าคงที่มากขึ้นเรื่อย ๆ เมื่อจำนวนเลเยอร์เพิ่มขึ้น สิ่งนี้ตรงกันข้ามกับทฤษฎีบทการแปรผันของการแปลในแนวนอนที่มีอายุมากกว่าซึ่งถือเป็นเครือข่ายที่กระจัดกระจาย แต่ไม่ใช่สำหรับซีเอ็นเอ็น ทฤษฎีบทนี้เป็นเทคนิคอย่างมากอย่างไรก็ตาม:
- สมมติว่า (ภาพอินพุตของคุณ) เป็นรูปสี่เหลี่ยมจตุรัสf
- ถือว่าการเดินทางตัวกรองของคุณกับผู้ประกอบการแปลซึ่งแผนที่ภาพที่นำเข้าเพื่อสำเนาแปลของตัวเองฉ เคอร์เนล convolution ที่เรียนรู้ (ตัวกรอง) เป็นไปตามสมมติฐานนี้TtfTtf
- สมมติว่าตัวกรองทั้งหมดความไม่เป็นเชิงเส้นและการรวมกำไรในเครือข่ายของคุณเป็นไปตามเงื่อนไขที่เรียกว่าอ่อนแอซึ่งโดยทั่วไปจะเป็นเงื่อนไขที่อ่อนแอและขอบเขตขอบเขต เงื่อนไขเหล่านี้ได้รับความพึงพอใจจากเคอร์เนล convolution ที่เรียนรู้ (ตราบใดที่การดำเนินการฟื้นฟูบางอย่างดำเนินการในแต่ละเลเยอร์), ReLU, sigmoid, tanh, etc, nonlinearities และการรวมกำไรโดยเฉลี่ย แต่ไม่รวมกำไรสูงสุด ดังนั้นจึงครอบคลุมสถาปัตยกรรม CNN โลกแห่งความเป็นจริงบางส่วน (ไม่ใช่ทั้งหมด)
- สมมติว่าในที่สุดแต่ละชั้นมีปัจจัยการรวมกล่าวคือการรวมกำไรถูกนำไปใช้ในแต่ละชั้นและทิ้งข้อมูลได้อย่างมีประสิทธิภาพ เงื่อนไขก็เพียงพอแล้วสำหรับทฤษฎีบทที่อ่อนกว่าnSn>1Sn≥1
บ่งบอกถึงความมีการส่งออกของชั้นของซีเอ็นเอ็นเมื่อเข้าเป็นฉจากนั้นในที่สุด:Φn(f)nf
limn→∞|||Φn(Tff)−Φn(f)|||=0
(แถบสามแถบไม่ใช่ข้อผิดพลาด) ซึ่งโดยทั่วไปหมายความว่าแต่ละชั้นเรียนรู้คุณลักษณะที่ไม่เปลี่ยนแปลงมากขึ้นเรื่อย ๆ และในเครือข่ายที่ลึกล้ำเรามีสถาปัตยกรรมที่ไม่เปลี่ยนแปลงอย่างสมบูรณ์ เนื่องจากซีเอ็นเอ็นมีจำนวนเลเยอร์ที่ จำกัด พวกเขาจึงไม่สามารถแปลค่าได้อย่างสมบูรณ์แบบซึ่งเป็นสิ่งที่ผู้ปฏิบัติงานเป็นที่รู้จักกันดี
อ้างอิง: T. Wiatowski และเอช Bolcskei, ทฤษฎีทางคณิตศาสตร์ของ Deep Convolutional โครงข่ายประสาทสารคดีสกัด , arXiv:
เพื่อสรุปขอบเขตจำนวนมากสำหรับข้อผิดพลาดทั่วไปของ Deep Neural Network บนมิติของ Vapnik-Chervonkensis หรือความซับซ้อนของ Rademacher เติบโตขึ้นกับจำนวนของพารามิเตอร์ (บางคนถึงชี้แจงแทน) ซึ่งหมายความว่าพวกเขาไม่สามารถอธิบายได้ว่าทำไม DNN ทำงานได้ดี ในทางปฏิบัติแม้ว่าจำนวนพารามิเตอร์จะมากกว่าจำนวนตัวอย่างการฝึกอบรม ตามความเป็นจริงทฤษฎี VC ไม่ได้มีประโยชน์มากในการเรียนรู้ลึก
ในทางกลับกันผลลัพธ์บางอย่างจากปีที่แล้วได้รวมข้อผิดพลาดทั่วไปของตัวจําแนก DNN ที่มีปริมาณซึ่งไม่ขึ้นกับความลึกและขนาดของโครงข่ายประสาทเทียม แต่ขึ้นอยู่กับโครงสร้างของชุดฝึกอบรมและพื้นที่อินพุตเท่านั้น ภายใต้สมมติฐานทางเทคนิคบางอย่างเกี่ยวกับกระบวนการเรียนรู้และในชุดฝึกอบรมและพื้นที่ป้อนข้อมูล แต่ด้วยสมมติฐานน้อยมากเกี่ยวกับ DNN (โดยเฉพาะอย่างยิ่ง CNNs ได้รับการคุ้มครองอย่างสมบูรณ์) แล้วด้วยความน่าจะเป็นอย่างน้อยเรามี1−δ
GE≤2log2NyNγm−−−−−−−−−−√+2log(1/δ)m−−−−−−−−−√
ที่อยู่:
- GEเป็นข้อผิดพลาดทั่วไปซึ่งหมายถึงความแตกต่างระหว่างการสูญเสียที่คาดหวัง (การสูญเสียเฉลี่ยของตัวจําแนกประเภทที่เรียนรู้ในจุดทดสอบที่เป็นไปได้ทั้งหมด) และการสูญเสียเชิงประจักษ์ (แค่ชุดฝึกอบรมที่ดี
- Nyคือจำนวนชั้นเรียน
- mคือขนาดของชุดการฝึกอบรม
- Nγเป็นหมายเลขที่ครอบคลุมของข้อมูลปริมาณที่เกี่ยวข้องกับโครงสร้างของพื้นที่อินพุตและแยกน้อยที่สุดระหว่างจุดต่าง ๆ ของชั้นเรียนในชุดฝึกอบรม อ้างอิง:
J. Sokolic, R. Giryes, G. Sapiro, และ M. Rodrigues ข้อผิดพลาดทั่วไปของลักษณนามคงที่ ใน AISTATS 2017