ทฤษฎีหลักในการเรียนรู้ของเครื่อง (Deep) คืออะไร


45

เมื่อไม่นานมานี้ Al Rahimi ได้พูดคุยที่เร้าใจมากใน NIPS 2017 เมื่อเปรียบเทียบการเรียนรู้ของเครื่องกับ Alchemy หนึ่งในข้ออ้างของเขาคือเราต้องกลับไปสู่การพัฒนาเชิงทฤษฎีเพื่อให้ทฤษฎีบทง่าย ๆ พิสูจน์ผลลัพธ์พื้นฐาน

เมื่อเขาบอกว่าฉันเริ่มมองหาทฤษฎีบทหลักของ ML แต่ไม่สามารถหาการอ้างอิงที่ดีที่เข้าใจถึงผลลัพธ์หลักได้ ดังนั้นนี่คือคำถามของฉัน: อะไรคือทฤษฎีบททางคณิตศาสตร์หลักปัจจุบัน (ทฤษฎี) ใน ML / DL และพวกเขาพิสูจน์อะไร ฉันเดาว่างานของ Vapnik จะไปที่ไหนสักแห่งที่นี่ ปัญหาพิเศษที่เปิดกว้างทางทฤษฎีคืออะไร


3
@Tim Theadนี้มีรูปแบบเป็นอย่างมากด้วยstats.stackexchange.com/questions/2379/… ("ปัญหาใหญ่ในสถิติคืออะไร")
whuber

2
มันค่อนข้างกว้าง อย่างน้อยที่สุดคุณสามารถระบุชุดย่อยของการเรียนรู้ของเครื่องได้หรือไม่ หากเรา จำกัด การเรียนรู้อย่างลึกซึ้งหรืออย่างน้อยก็เพื่อการเรียนรู้แบบมีผู้สอนหนึ่งคนอาจลองตอบคำถาม แต่ถ้าคุณยืนยันบางอย่างเช่น "Mathematics of Machine Learning" คำตอบจะใช้เวลานานในการเขียน
DeltaIV

3
ในแง่ของแอนะล็อกของ @ whuber ตัวอย่างฉันอยากจะบอกว่าสิ่งนี้ควรเปิดอยู่ในฐานะ CW โดยเฉพาะอย่างยิ่งถ้าสิ่งนี้สามารถ จำกัด เฉพาะเซตย่อยของ ML เช่นการเรียนรู้ภายใต้การดูแลตามคำขอ DeltaV
gung - Reinstate Monica

3
@DeltaIV โปรดทราบว่า "Deep" อยู่ในชื่อ
อะมีบาพูดว่า Reinstate Monica

4
ทำความเข้าใจเกี่ยวกับคำถามนี้เป็นหัวข้อของชุดล่าสุดของการบรรยายเป็นเจ้าภาพโดยเดวิด Donoho นี้: ดูstats385.github.io
user795305

คำตอบ:


43

ขณะที่ฉันเขียนความคิดเห็นคำถามนี้ดูเหมือนจะกว้างเกินไปสำหรับฉัน แต่ฉันจะพยายามตอบคำถาม เพื่อกำหนดขอบเขตฉันจะเริ่มต้นด้วยคณิตศาสตร์เล็กน้อยซึ่งรองรับ ML ส่วนใหญ่แล้วจึงมุ่งเน้นผลลัพธ์ล่าสุดของ DL


การแลกเปลี่ยนอคติแปรปรวนถูกอ้างถึงในหนังสือหลักสูตร MOOCs บล็อกทวีตเป็นต้นใน ML ดังนั้นเราจึงไม่สามารถเริ่มต้นได้โดยไม่พูดถึง:

E[(Yf^(X))2|X=x0]=σϵ2+(Ef^(x0)f(x0))2+E[(f^(x0)Ef^(x0))2]=Irreducible error + Bias2 + Variance

พิสูจน์ได้ที่นี่: https://web.stanford.edu/~hastie/ElemStatLearn/


Gauss-มาร์คอฟทฤษฎีบท (ใช่ถดถอยเชิงเส้นจะยังคงเป็นส่วนสำคัญของเครื่องการเรียนรู้ไม่ว่าสิ่ง: การจัดการกับมัน) ชี้แจงว่าเมื่อรูปแบบเชิงเส้นเป็นความจริงและข้อสมมติฐานบางอย่างเกี่ยวกับระยะข้อผิดพลาดที่ถูกต้อง OLS มีขั้นต่ำ หมายถึงข้อผิดพลาดกำลังสอง (ซึ่งในนิพจน์ด้านบนเป็นเพียง ) เฉพาะในตัวประมาณค่าแบบเส้นตรงที่ไม่เอนเอียงของตัวแบบเชิงเส้น ดังนั้นอาจมีตัวประมาณค่าเชิงเส้นที่มีอคติ (หรือตัวประมาณค่าแบบไม่เชิงเส้น) ซึ่งมีความคลาดเคลื่อนกำลังสองเฉลี่ยที่ดีกว่าและทำให้เกิดข้อผิดพลาดในการทำนายที่ดีกว่า OLS และนี่เป็นการปูทางไปสู่อาร์เซนอลการทำให้เป็นมาตรฐาน (การถดถอยสัน, LASSO, การลดน้ำหนัก ฯลฯ ) ซึ่งเป็นภาระของ ML มีการพิสูจน์หลักฐานที่นี่ (และในหนังสืออื่น ๆ อีกนับไม่ถ้วน): Bias2 + Variancehttps://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

อาจจะมากกว่าที่เกี่ยวข้องกับการระเบิดของกูแนวทางตามที่ระบุไว้โดยคาร์ลอ Cinelli ในความคิดเห็นและความสนุกสนานแน่นอนมากขึ้นในการเรียนรู้เกี่ยวกับการเป็นทฤษฎีบทเจมส์สไตน์ พิจารณาอิสระแปรปรวนเหมือนกัน แต่ไม่ได้หมายความว่าตัวแปรสุ่มแบบเกาส์เดียวกันn

Xi|μiN(θi,σ2),i=1,,n

ในคำอื่น ๆ ที่เรามีส่วนประกอบ Gaussian สุ่มเวกเตอร์2I) เรามีหนึ่งตัวอย่างจากและเราต้องการที่จะประเมินtheta} MLE (และยัง UMVUE) ประมาณการจะเห็นได้ชัด{x} พิจารณาตัวประมาณ James-SteinnXN(θ,σ2I)xXθθ^MLE=x

θ^JS=(1(n2)σ2||x||2)x

เห็นได้ชัดว่าถ้า ,ย่อขนาด MLE ไปทางศูนย์ เจมส์-Stein ทฤษฎีบทระบุว่าสำหรับ ,อย่างเคร่งครัดครอบงำคือมันมี MSE ต่ำtheta} Pheraps อย่างน่าประหลาดใจแม้ว่าเราจะย่อตัวลงไปถึงค่าคงที่ ,ยังคงครอบงำ{} ตั้งแต่(n2)σ2||x||2θ^JS n4θ^JS θ^MLE θc0θ^JSθ^MLEXiมีความเป็นอิสระดูเหมือนว่าแปลกเมื่อพยายามที่จะประมาณความสูงของบุคคลที่ไม่เกี่ยวข้องสามคนรวมถึงตัวอย่างจากจำนวนแอปเปิ้ลที่ผลิตในสเปนอาจปรับปรุงประมาณการโดยเฉลี่ยของเรา จุดสำคัญที่นี่คือ "โดยเฉลี่ย": ความคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการประมาณค่าพร้อมกันของส่วนประกอบทั้งหมดของเวกเตอร์พารามิเตอร์มีขนาดเล็กลง แต่ข้อผิดพลาดกำลังสองสำหรับองค์ประกอบหนึ่งหรือมากกว่านั้นอาจมีขนาดใหญ่กว่าและแน่นอนเมื่อ คุณมีข้อสังเกต "สุดขั้ว"

การค้นพบว่า MLE ซึ่งเป็นตัวประเมิน "ดีที่สุด" สำหรับกรณีการประเมินแบบหลายตัวแปรถูกลดหย่อนสำหรับการประเมินหลายตัวแปรนั้นค่อนข้างน่าตกใจในเวลานั้นและนำไปสู่ความสนใจอย่างมากในการหดตัว เราสามารถสังเกตเห็นความคล้ายคลึงกันบางอย่างกับโมเดลผสมและแนวคิดของ "ความแข็งแกร่งในการยืม": มีการเชื่อมโยงบางอย่างตามที่กล่าวไว้ที่นี่

มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?

อ้างอิง: เจมส์ดับเบิลยูสไตน์, ซีประมาณค่ากับการสูญเสียกำลังสอง การประชุมทางวิชาการของ Berkeley ครั้งที่สี่ที่มีต่อสถิติและความน่าจะเป็นทางคณิตศาสตร์เล่มที่ 1: การมีส่วนร่วมในทฤษฎีสถิติ, 361 - 379, สำนักพิมพ์มหาวิทยาลัยแห่งแคลิฟอร์เนีย, Berkeley, Calif., 1961


การวิเคราะห์องค์ประกอบหลักคือกุญแจสำคัญในหัวข้อที่สำคัญของการลดขนาดและมันขึ้นอยู่กับการแยกแยะมูลค่าเอกพจน์ : สำหรับแต่ละเมทริกซ์จริง (แม้ว่าทฤษฎีบทจะสรุปได้ง่ายกับเมทริกซ์ที่ซับซ้อน)N×pX

X=UDVT

ที่ขนาดเป็นมุมฉากเป็นเมทริกซ์ทแยงมุมกับองค์ประกอบในแนวทแยงไม่ติดลบและขนาดเป็นอีกครั้งมุมฉาก สำหรับการพิสูจน์และอัลกอริธึมเกี่ยวกับวิธีการคำนวณดู: Golub, G. และ Van Loan, C. (1983), การคำนวณเมทริกซ์ , สำนักพิมพ์มหาวิทยาลัยจอห์นฮอปกิ้นส์, บัลติมอร์UN×pDp×pUp×p


ทฤษฎีบทเมอร์เซอร์เป็นหินก่อตั้งสำหรับจำนวนมากของวิธีการที่แตกต่างกัน ML: เส้นโค้งบางจานสนับสนุนเครื่องเวกเตอร์ประมาณการ Kriging ของกระบวนการสุ่มแบบเกาส์ ฯลฯ โดยทั่วไปเป็นหนึ่งในสองทฤษฎีที่อยู่เบื้องหลังที่เรียกว่าเคล็ดลับเคอร์เนล ปล่อยเป็นฟังก์ชันหรือเคอร์เนลต่อเนื่องแบบสมมาตร ถ้าเป็น semidefinite ที่เป็นบวกจากนั้นจะยอมรับพื้นฐานของออร์โธปกติของ eigenfunctions ที่สอดคล้องกับค่าลักษณะเฉพาะที่ไม่เป็นลบ:K(x,y):[a,b]×[a,b]RK

K(x,y)=i=1γiϕi(x)ϕi(y)

ความสำคัญของทฤษฎีบทนี้ ML ทฤษฎีเบิกความโดยจำนวนการอ้างอิงที่จะได้รับในตำราที่มีชื่อเสียงเช่นตัวอย่างเช่นรัสมุสและวิลเลียมส์กับข้อความในกระบวนการเสียน

การอ้างอิง: เจเมอร์เซอร์, ฟังก์ชั่นประเภทบวกและลบ, และการเชื่อมต่อกับทฤษฎีของสมการอินทิกรัล ปรัชญาการทำธุรกรรมของราชสมาคมแห่งลอนดอน ชุด A, เอกสารที่มีลักษณะทางคณิตศาสตร์หรือทางกายภาพ, 209: 415-446, 1909

นอกจากนี้ยังมีการนำเสนอที่ง่ายขึ้นใน Konrad Jörgens ตัวดำเนินการอินทิกรัลเชิงเส้น Pitman, Boston, 1982


ทฤษฎีบทอื่น ๆ ซึ่งร่วมกับทฤษฎีบทเมอร์เซอร์, ออกวางรากฐานทางทฤษฎีของเคล็ดลับเคอร์เนลเป็นทฤษฎีบท representer สมมติว่าคุณมีพื้นที่ตัวอย่างและสมมาตรบวก semidefinite เคอร์เนล{R} ให้ _K เป็น RKHS ที่เกี่ยวข้องกับด้วย สุดท้ายให้เป็นตัวอย่างการฝึกอบรม ทฤษฎีบทบอกว่าในบรรดาทุกฟังก์ชั่นซึ่งทุกคนยอมรับการเป็นตัวแทนที่ไม่มีที่สิ้นสุดในแง่ของ eigenfunctionsXK:X×XRHKKS={xi,yi}i=1nfHKKเนื่องจากทฤษฎีบทของเมอร์เซอร์สิ่งที่ลดความเสี่ยงให้เป็นปกติจะมีการแทนค่า จำกัด ในพื้นฐานที่เกิดขึ้นจากเคอร์เนลที่ประเมินที่จุดฝึกอบรมเช่นn

minfHKi=1nL(yi,f(xi))+λ||f||HK2=min{cj}1i=1nL(yi,jcjϕj(xi))+λjcj2γj=i=1nαiK(x,xi)

(ทฤษฎีบทคือความเท่าเทียมกันครั้งสุดท้าย) ข้อมูลอ้างอิง: Wahba, G. 1990, Spline Models สำหรับ Observational Data , SIAM, Philadelphia


ทฤษฎีบทประมาณสากลได้รับการอ้างแล้วโดยผู้ใช้โทเบียส Windisch และมีมากน้อยที่เกี่ยวข้องกับการเรียนรู้เครื่องกว่าก็คือการวิเคราะห์การทำงานแม้ว่าจะไม่อาจดูเหมือนเพื่อให้ได้อย่างรวดเร็วก่อน ปัญหาคือทฤษฎีบทเพียงบอกว่าเครือข่ายดังกล่าวมีอยู่ แต่:

  • มันไม่ได้ให้ความสัมพันธ์ใด ๆ ระหว่างขนาดของเลเยอร์ที่ซ่อนอยู่และการวัดความซับซ้อนของฟังก์ชันเป้าหมายเช่นการเปลี่ยนแปลงทั้งหมด ถ้าและจำเป็นสำหรับการแก้ไขข้อผิดพลาดคงที่แบบทวีคูณด้วยดังนั้นเลเยอร์ประสาทเดี่ยวที่ซ่อนอยู่ เครือข่ายจะไร้ประโยชน์Nf(x)f(x)=sin(ωx):[0,2π][1,1]Nϵω
  • มันไม่ได้บอกว่าถ้าเครือข่ายเป็นlearnable กล่าวอีกนัยหนึ่งคือสมมติว่าและเรารู้ว่าขนาด NN จะประมาณด้วยค่าเผื่อที่จำเป็นใน hypercube จากนั้นโดยใช้ชุดการฝึกอบรมขนาด และขั้นตอนการเรียนรู้เช่นตัวอย่างการสนับสนุนเรามีการรับประกันว่าการเพิ่มเราสามารถกู้คืนหรือไม่?F(x)fϵNfMMF
  • ในที่สุดและที่เลวร้ายยิ่งของพวกเขาทั้งหมดมันไม่ได้พูดอะไรเกี่ยวกับข้อผิดพลาดการทำนายของเครือข่ายประสาท สิ่งที่เราสนใจจริงๆคือค่าประมาณของข้อผิดพลาดในการทำนายอย่างน้อยค่าเฉลี่ยของชุดฝึกอบรมขนาดทั้งหมด ทฤษฎีบทไม่ได้ช่วยในเรื่องนี้M

จุดปวดที่เล็กลงกับทฤษฎีบทของ Hornik ในเวอร์ชันนี้คือมันไม่ได้รองรับฟังก์ชั่นการเปิดใช้งาน ReLU อย่างไรก็ตามบาร์ตเลตได้พิสูจน์รุ่นที่ขยายเพิ่มเติมซึ่งครอบคลุมถึงช่องว่างนี้


จนถึงตอนนี้ฉันเดาว่าทุกทฤษฎีที่ฉันถือว่าเป็นที่รู้จักกันดีสำหรับใครก็ตาม ดังนั้นถึงเวลาสำหรับสิ่งที่สนุกแล้ว :-) เรามาดูทฤษฎีการเรียนรู้ลึก :

สมมติฐาน:

  • เครือข่ายประสาทลึก (สำหรับการแก้ไข ,เป็นฟังก์ชั่นที่เชื่อมโยงปัจจัยการผลิตของเครือข่ายประสาทที่มีเอาท์พุท) และการสูญเสียกูมีทั้งผลบวกของการบวก ฟังก์ชั่นที่เป็นเนื้อเดียวกันในระดับเดียวกันΦ(X,W)WΦW(X)Θ(W)
  • ฟังก์ชั่นการสูญเสียนูนและเมื่ออนุพันธ์ในในขนาดกะทัดรัดชุดL(Y,Φ(X,W)XS

แล้ว:

  • ท้องถิ่นขั้นต่ำสำหรับเช่นนั้นเครือข่ายย่อยของมีศูนย์น้ำหนักเป็นศูนย์ขั้นต่ำทั่วโลก ( ทฤษฎีบท 1 )L(Y,Φ(X,W))+λΘ(W)Φ(X,W)
  • เหนือขนาดเครือข่ายที่สำคัญสืบเชื้อสายท้องถิ่นจะมาบรรจบกันเป็นขั้นต่ำทั่วโลกจากการเริ่มต้นใด ๆ ( ทฤษฎีบท 2 )

สิ่งนี้น่าสนใจมาก: CNNs ทำเฉพาะเลเยอร์ convolutional, ReLU, max-pooling, ReLU ที่เชื่อมต่ออย่างเต็มที่และ linear layer เป็นฟังก์ชั่นที่เป็นเนื้อเดียวกันในขณะที่ถ้าเรารวมฟังก์ชั่นการเปิดใช้ sigmoid นี่ไม่เป็นความจริงอีกต่อไป ประสิทธิภาพการทำงานในบางแอปพลิเคชันของ ReLU + การรวมกำไรสูงสุดเทียบกับ sigmoids มีอะไรมากกว่าที่ทฤษฎีเท่านั้นถือถ้ายังเป็นบวกเป็นเนื้อเดียวกันในของการศึกษาระดับปริญญาเดียวกับ\ตอนนี้ความจริงก็คือความสนุกที่ หรือทำให้เป็นมาตรฐานแม้ว่าจะเป็นเนื้อเดียวกันในทางบวก แต่ไม่มีระดับ (ระดับของΘWΦl1l2ΦΦในกรณีของ CNN ที่กล่าวถึงก่อนหน้าจะเพิ่มขึ้นตามจำนวนเลเยอร์) แต่วิธีการทำให้เป็นมาตรฐานที่ทันสมัยมากขึ้นเช่นการทำแบทช์ให้เป็นมาตรฐานและพา ธ - สิงคโปร์จะสอดคล้องกับฟังก์ชั่นการทำให้เป็นเนื้อเดียวกันในเชิงบวกในระดับเดียวกับและการออกกลางคันในขณะที่ไม่เหมาะสมกับเฟรมเวิร์กนี้ สิ่งนี้อาจอธิบายได้ว่าทำไมเพื่อให้ได้ความแม่นยำสูงด้วย CNNs การทำให้เป็นและไม่เพียงพอ แต่เราจำเป็นต้องใช้ทุกชนิดเช่นการดรอปเอาท์และการทำให้เป็นชุดปกติ! เพื่อความรู้ที่ดีที่สุดของฉันนี่เป็นสิ่งที่ใกล้เคียงที่สุดที่จะอธิบายถึงประสิทธิภาพของการทำให้เป็นกลุ่มตามปกติซึ่งเป็นสิ่งที่คลุมเครือมากอย่างที่อัลราฮิมิพูดอย่างถูกต้องในการพูดของเขาΦl1l2

สังเกตอีกว่าบางคนให้อยู่บนพื้นฐานของทฤษฏีที่ 1ก็คือว่ามันสามารถอธิบายได้ว่าทำไมการทำงาน Relu ดีแม้จะมีปัญหาของเซลล์ที่ตายแล้ว ตามปรีชานี้ความจริงที่ว่าในระหว่างการฝึกอบรมเซลล์ประสาท ReLU บางคน "ตาย" (ไปที่การเปิดใช้งานเป็นศูนย์และไม่เคยกู้คืนจากที่เนื่องจากตั้งแต่การไล่ระดับสีของ ReLU เป็นศูนย์) คือ "คุณลักษณะไม่ใช่ข้อผิดพลาด "เพราะถ้าเรามาถึงขั้นต่ำแล้วเครือข่ายย่อยเต็มก็ตายไปเราก็จะมาถึงจุดต่ำสุดของโลก (ภายใต้สมมติฐานของทฤษฎีบทที่ 1x<0) ฉันอาจจะหายไปบางอย่าง แต่ฉันคิดว่าการตีความนี้ลึกซึ้ง ก่อนอื่นเลยระหว่างการฝึกอบรม ReLUs สามารถ "ตาย" ได้ดีก่อนที่เราจะไปถึงขั้นต่ำสุดของท้องถิ่น ประการที่สองก็จะต้องมีการพิสูจน์ให้เห็นว่าเมื่อหน่วย Relu "ตาย" พวกเขามักจะทำมันมากกว่า subnetwork เต็ม: กรณีเดียวที่นี้เป็นจริงนิด ๆ คือเมื่อคุณมีเพียงหนึ่งชั้นที่ซ่อนอยู่ซึ่งในกรณีของหลักสูตรในแต่ละเซลล์เดียว เครือข่ายย่อย แต่โดยทั่วไปฉันจะระมัดระวังในการเห็น "เซลล์ประสาทที่ตายแล้ว" เป็นสิ่งที่ดี

อ้างอิง:

B. Haeffele และ R. Vidal, การเพิ่มประสิทธิภาพระดับโลกในการฝึกอบรมโครงข่ายประสาทเทียม , ในการประชุม IEEE ด้านการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ, 2017

B. Haeffele และ R. Vidal การมองโลกในแง่ดีที่สุดในการแยกตัวประกอบเทนเซอร์การเรียนรู้ที่ลึกซึ้งและอื่น ๆ , arXiv, abs / 1506.07540, 2015


การจำแนกภาพจำเป็นต้องมีการเรียนรู้ที่ไม่เปลี่ยนแปลง (หรืออย่างน้อยก็มีความอ่อนไหวอย่างอ่อนไหวมาก) กับการเปลี่ยนแปลงต่าง ๆ เช่นตำแหน่งที่ตั้งท่าทางมุมมองแสงการแสดงออก ฯลฯ ซึ่งโดยทั่วไปจะปรากฏในภาพธรรมชาติ แต่ไม่มีข้อมูล สำหรับงานการจำแนกประเภท สิ่งเดียวกันสำหรับการรู้จำเสียงพูด: การเปลี่ยนแปลงระดับเสียงระดับเสียงจังหวะสำเนียง ฯลฯ ไม่ควรนำไปสู่การเปลี่ยนแปลงในการจำแนกประเภทของคำ การดำเนินงานเช่น convolution, max pooling, pooling เฉลี่ย ฯลฯ ที่ใช้ใน CNNs นั้นมีเป้าหมายนี้อย่างแน่นอนดังนั้นเราคาดหวังว่ามันจะทำงานได้ดีสำหรับแอพพลิเคชันเหล่านี้ แต่เรามีทฤษฎีบทให้การสนับสนุนสัญชาตญาณนี้หรือไม่? มีทฤษฎีบทความแปรปรวนการแปลในแนวตั้งซึ่งแม้จะมีชื่อไม่ได้เกี่ยวข้องกับการแปลในแนวตั้ง แต่โดยทั่วไปแล้วผลลัพธ์ที่บอกว่าคุณลักษณะที่เรียนรู้ในเลเยอร์ต่อไปจะมีค่าคงที่มากขึ้นเรื่อย ๆ เมื่อจำนวนเลเยอร์เพิ่มขึ้น สิ่งนี้ตรงกันข้ามกับทฤษฎีบทการแปรผันของการแปลในแนวนอนที่มีอายุมากกว่าซึ่งถือเป็นเครือข่ายที่กระจัดกระจาย แต่ไม่ใช่สำหรับซีเอ็นเอ็น ทฤษฎีบทนี้เป็นเทคนิคอย่างมากอย่างไรก็ตาม:

  • สมมติว่า (ภาพอินพุตของคุณ) เป็นรูปสี่เหลี่ยมจตุรัสf
  • ถือว่าการเดินทางตัวกรองของคุณกับผู้ประกอบการแปลซึ่งแผนที่ภาพที่นำเข้าเพื่อสำเนาแปลของตัวเองฉ เคอร์เนล convolution ที่เรียนรู้ (ตัวกรอง) เป็นไปตามสมมติฐานนี้TtfTtf
  • สมมติว่าตัวกรองทั้งหมดความไม่เป็นเชิงเส้นและการรวมกำไรในเครือข่ายของคุณเป็นไปตามเงื่อนไขที่เรียกว่าอ่อนแอซึ่งโดยทั่วไปจะเป็นเงื่อนไขที่อ่อนแอและขอบเขตขอบเขต เงื่อนไขเหล่านี้ได้รับความพึงพอใจจากเคอร์เนล convolution ที่เรียนรู้ (ตราบใดที่การดำเนินการฟื้นฟูบางอย่างดำเนินการในแต่ละเลเยอร์), ReLU, sigmoid, tanh, etc, nonlinearities และการรวมกำไรโดยเฉลี่ย แต่ไม่รวมกำไรสูงสุด ดังนั้นจึงครอบคลุมสถาปัตยกรรม CNN โลกแห่งความเป็นจริงบางส่วน (ไม่ใช่ทั้งหมด)
  • สมมติว่าในที่สุดแต่ละชั้นมีปัจจัยการรวมกล่าวคือการรวมกำไรถูกนำไปใช้ในแต่ละชั้นและทิ้งข้อมูลได้อย่างมีประสิทธิภาพ เงื่อนไขก็เพียงพอแล้วสำหรับทฤษฎีบทที่อ่อนกว่าnSn>1Sn1

บ่งบอกถึงความมีการส่งออกของชั้นของซีเอ็นเอ็นเมื่อเข้าเป็นฉจากนั้นในที่สุด:Φn(f)nf

limn|||Φn(Tff)Φn(f)|||=0

(แถบสามแถบไม่ใช่ข้อผิดพลาด) ซึ่งโดยทั่วไปหมายความว่าแต่ละชั้นเรียนรู้คุณลักษณะที่ไม่เปลี่ยนแปลงมากขึ้นเรื่อย ๆ และในเครือข่ายที่ลึกล้ำเรามีสถาปัตยกรรมที่ไม่เปลี่ยนแปลงอย่างสมบูรณ์ เนื่องจากซีเอ็นเอ็นมีจำนวนเลเยอร์ที่ จำกัด พวกเขาจึงไม่สามารถแปลค่าได้อย่างสมบูรณ์แบบซึ่งเป็นสิ่งที่ผู้ปฏิบัติงานเป็นที่รู้จักกันดี

อ้างอิง: T. Wiatowski และเอช Bolcskei, ทฤษฎีทางคณิตศาสตร์ของ Deep Convolutional โครงข่ายประสาทสารคดีสกัด , arXiv:


เพื่อสรุปขอบเขตจำนวนมากสำหรับข้อผิดพลาดทั่วไปของ Deep Neural Network บนมิติของ Vapnik-Chervonkensis หรือความซับซ้อนของ Rademacher เติบโตขึ้นกับจำนวนของพารามิเตอร์ (บางคนถึงชี้แจงแทน) ซึ่งหมายความว่าพวกเขาไม่สามารถอธิบายได้ว่าทำไม DNN ทำงานได้ดี ในทางปฏิบัติแม้ว่าจำนวนพารามิเตอร์จะมากกว่าจำนวนตัวอย่างการฝึกอบรม ตามความเป็นจริงทฤษฎี VC ไม่ได้มีประโยชน์มากในการเรียนรู้ลึก

ในทางกลับกันผลลัพธ์บางอย่างจากปีที่แล้วได้รวมข้อผิดพลาดทั่วไปของตัวจําแนก DNN ที่มีปริมาณซึ่งไม่ขึ้นกับความลึกและขนาดของโครงข่ายประสาทเทียม แต่ขึ้นอยู่กับโครงสร้างของชุดฝึกอบรมและพื้นที่อินพุตเท่านั้น ภายใต้สมมติฐานทางเทคนิคบางอย่างเกี่ยวกับกระบวนการเรียนรู้และในชุดฝึกอบรมและพื้นที่ป้อนข้อมูล แต่ด้วยสมมติฐานน้อยมากเกี่ยวกับ DNN (โดยเฉพาะอย่างยิ่ง CNNs ได้รับการคุ้มครองอย่างสมบูรณ์) แล้วด้วยความน่าจะเป็นอย่างน้อยเรามี1δ

GE2log2NyNγm+2log(1/δ)m

ที่อยู่:

  • GEเป็นข้อผิดพลาดทั่วไปซึ่งหมายถึงความแตกต่างระหว่างการสูญเสียที่คาดหวัง (การสูญเสียเฉลี่ยของตัวจําแนกประเภทที่เรียนรู้ในจุดทดสอบที่เป็นไปได้ทั้งหมด) และการสูญเสียเชิงประจักษ์ (แค่ชุดฝึกอบรมที่ดี
  • Nyคือจำนวนชั้นเรียน
  • mคือขนาดของชุดการฝึกอบรม
  • Nγเป็นหมายเลขที่ครอบคลุมของข้อมูลปริมาณที่เกี่ยวข้องกับโครงสร้างของพื้นที่อินพุตและแยกน้อยที่สุดระหว่างจุดต่าง ๆ ของชั้นเรียนในชุดฝึกอบรม อ้างอิง:

J. Sokolic, R. Giryes, G. Sapiro, และ M. Rodrigues ข้อผิดพลาดทั่วไปของลักษณนามคงที่ ใน AISTATS 2017


2
+1 คำตอบที่ดีส่วนสุดท้ายคือสิ่งที่น่าสนใจมาก ในส่วนแรกทฤษฎีบทของเมอร์เซอร์ดูเหมือนว่าแผนกบริการที่คุณได้กล่าวไว้ข้างต้น
อะมีบาพูดว่า Reinstate Monica

1
@ amoeba คุณพูดถูก แต่ 1) ไม่ใช่ผู้อ่านทุกคนที่เก่งคณิตศาสตร์เหมือนคุณพวกเขาจะจำได้ทันทีถึงความคล้ายคลึงระหว่าง SVD, Karhunen- Loeve ส่วนขยายและทฤษฎีบทของ Mercer นอกจากนี้ 2) ทฤษฎีบทอื่นจากการวิเคราะห์เชิงหน้าที่ซึ่ง "พลัง" เคอร์เนลเคล็ดลับและที่ฉันเลือกที่จะไม่รวมก็ยากที่จะอธิบายกว่าทฤษฎีบทของเมอร์เซอร์และฉันได้หยุดเสาร์ :-) บางทีฉันจะเพิ่มในวันพรุ่งนี้!
DeltaIV

1
Gauss Markov ดูนอกสถานที่ไม่เคยเห็นใครสนใจเรื่อง BLUE ในชุมชน ML
Carlos Cinelli

2
ฉันยอมรับว่าตามกฎทั่วไปแล้วการอ้างอิงดั้งเดิม (โบราณ) มักมีสัญกรณ์ที่น่าเบื่อ ที่กล่าวว่ากระดาษของเมอร์เซอร์นั้นทันสมัยอย่างน่าประหลาดใจในด้านนั้นและฉันก็เพิ่มลงไปอย่างนั้นเพราะสิ่งนั้น :) (ฉันบอกว่า แต่เดิมคำตอบนี้ดีมากนี่เป็นเพียงความเห็นหลังจากการลงคะแนน)
usεr11852พูดว่า Reinstate Monic

2
ฉันชอบทฤษฎีบทของเมอร์เซอร์ที่นี่อย่าลบมัน และทำไมไม่มีลิงก์ทั้งสอง เพียงเพิ่มความชอบSee [here] for a modern expositionหรือกลับกันสำหรับกระดาษต้นฉบับ "
อะมีบาพูดว่า Reinstate Monica

11

ฉันคิดว่าทฤษฎีต่อไปนี้ที่คุณพาดพิงถึงนั้นถือว่าเป็นพื้นฐานที่ดีในการเรียนรู้ทางสถิติ

ทฤษฎีบท (Vapnik and Chervonenkis, 1971)ให้เป็นคลาสสมมุติฐานของฟังก์ชันจากโดเมนถึงและปล่อยให้ฟังก์ชันการสูญเสียเป็นการสูญเสีย จากนั้นต่อไปนี้เทียบเท่า:HX{0,1}01

  1. Hมีคุณสมบัติการลู่เข้าเหมือนกัน
  2. Hคือ PAC ที่เรียนรู้ได้
  3. Hมีมิติ VC ที่แน่นอน

พิสูจน์แล้วในเวอร์ชั่นเชิงปริมาณที่นี่:

VN Vapnik และ AY Chervonenkis: ในการรวมกันของความถี่สัมพันธ์ของเหตุการณ์กับความน่าจะเป็น ทฤษฎีความน่าจะเป็นและการประยุกต์ใช้, 16 (2): 264–280, 1971

เวอร์ชันของสูตรดังกล่าวข้างต้นพร้อมกับการแสดงออกที่ดีของผลลัพธ์อื่น ๆ จากทฤษฎีการเรียนรู้มีอยู่ที่นี่ :

Shalev-Shwartz, Shai และ Shai Ben-David การทำความเข้าใจการเรียนรู้ของเครื่อง: จากทฤษฎีไปจนถึงอัลกอริทึม สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2014


6

The Kernel Trick เป็นความคิดทั่วไปที่ใช้ในหลาย ๆ ที่และมาจากคณิตศาสตร์ที่เป็นนามธรรมมากมายเกี่ยวกับ Hilbert Spaces วิธีที่ทฤษฎีมากเกินไปสำหรับฉันที่จะพิมพ์ (คัดลอก ... ) ออกมาเป็นคำตอบที่นี่ แต่ถ้าคุณอ่านผ่านสิ่งนี้

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf


4

คนที่ฉันชอบคือความไม่เสมอภาคคราฟท์

ทฤษฎีบท:สำหรับวิธีการอธิบายใด ๆสำหรับตัวอักษรที่ จำกัด , ความยาวของรหัสคำต้องเป็นไปตามความไม่เท่าเทียม1CA={1,,m}LC(1),,LC(2)xA2LC(x)1

ความไม่เท่าเทียมกันนี้เกี่ยวข้องกับการบีบอัดด้วยความหนาแน่นของความน่าจะเป็น : เมื่อให้โค้ดความยาวของผลลัพธ์ที่แสดงด้วยรหัสนั้นคือความน่าจะเป็นบันทึกเชิงลบของแบบจำลองที่ระบุโดยรหัส

นอกจากนี้ไม่มีทฤษฎีอาหารกลางวันฟรีสำหรับการเรียนรู้ของเครื่องมีพี่น้องน้อยที่รู้จักกันดีในทฤษฎีการบีบอัดไฮเปอร์ซึ่งไม่สามารถบีบอัดลำดับทั้งหมดได้


4

ฉันจะไม่เรียกมันว่าทฤษฎีบทหลักแต่ฉันคิดว่าต่อไปนี้ (บางครั้งเรียกว่าทฤษฎีบทการประมาณแบบสากล) เป็นสิ่งที่น่าสนใจ (และอย่างน้อยก็สำหรับฉันที่น่าแปลกใจ) อย่างใดอย่างหนึ่งเพราะมันระบุถึงอำนาจโดยประมาณของเครือข่าย

ทฤษฎีบท: ให้เป็นฟังก์ชันที่ต่อเนื่องแบบไม่เพิ่มค่าและเพิ่มขึ้นอย่างต่อเนื่อง สำหรับฟังก์ชั่น continuos ใด ๆและมีจำนวนเต็มและพหุ perceptron หลายมีเลเยอร์ที่ซ่อนอยู่ซึ่งมี neurons ที่มีเป็นการกระตุ้น ฟังก์ชั่นเพื่อให้σf:[0,1]mRϵ>0NFNσ

|F(x)f(x)|ϵ
สำหรับทุกเมตรx[0,1]m

แน่นอนว่านี่เป็นคำแถลงเกี่ยวกับการดำรงอยู่ผลกระทบต่อผู้ปฏิบัติงานจึงน้อยมาก

หลักฐานสามารถพบได้ใน Hornik, ความสามารถในการประมาณค่าของเครือข่าย Feedforward Muitilayer, Neural Networks 4 (2), 1991,


5
ทฤษฎีนี้ค่อนข้างไม่น่าสนใจเนื่องจากไม่ได้ใช้กับโครงข่ายประสาท คลาสอื่น ๆ ของฟังก์ชั่นใช้คุณสมบัติการประมาณที่คล้ายกัน ดูตัวอย่างทฤษฎีบท Stone-Weierstrass ผลลัพธ์ที่น่าสนใจคือความมั่นคงของการถดถอยของโครงข่ายประสาทในกรอบทั่วไป นอกจากนี้จะต้องมีขอบเขตที่ทราบเกี่ยวกับข้อผิดพลาดของการทำให้เป็นบรรทัดฐานโดยทั่วไปในแง่ของความซับซ้อนของตาข่ายและขนาดของตัวอย่างการฝึกอบรม
Olivier

1
@ Olivier: ฉันเห็นด้วยทั้งหมด แต่ถึงแม้ว่าทฤษฎีบทนี้จะไม่ได้ทุ่มเทให้กับเครือข่ายประสาทเทียมเท่านั้น แต่ฉันก็ยังพบว่ามันเป็นข้อพิสูจน์ที่เข้มงวดและมีความหมายที่น่าสนใจ ตัวอย่างเช่นมันบอกว่าตราบใดที่คุณกำลังใช้ฟังก์ชั่นการเปิดใช้งานที่มีคุณสมบัติตามที่ระบุไว้ข้างต้นความสามารถในการประมาณค่าของเครือข่ายจะเท่ากัน (พูดโดยประมาณ) หรือมันบอกว่าเครือข่ายประสาทเทียมนั้นมีน้ำหนักมากเกินไปเพราะคุณสามารถเรียนรู้มากมายได้ด้วยเลเยอร์ที่ซ่อนอยู่หนึ่งชั้น
โทเบียส Windisch

1
ไม่ได้พูดอย่างนั้น มันก็แค่บอกว่ามีอยู่เครือข่ายประสาทด้วยชั้นซ่อนหนึ่งที่สามารถเป็นตัวแทนของแต่ก็ไม่ได้บอกอะไรเกี่ยวกับวิธีเติบโตกับยกตัวอย่างเช่นหรือตัวชี้วัดของความซับซ้อนของบาง (ตัวอย่างเช่นการเปลี่ยนแปลงทั้งหมด ) มันไม่ได้บอกคุณว่าคุณสามารถน้ำหนักของเครือข่ายของคุณได้รับข้อมูล คุณจะพบว่าในหลายกรณีที่น่าสนใจนั้นมีขนาดใหญ่กว่าแบบเอ็กซ์โปเนนเชียลสำหรับเครือข่ายเลเยอร์ที่ซ่อนอยู่หนึ่งเครือข่ายกว่าเครือข่ายหลายชั้น (ลึก) นี่คือเหตุผลที่ไม่มีใครใช้เครือข่ายเลเยอร์ที่ซ่อนอยู่หนึ่งเครือข่ายสำหรับ ImageNet หรือ Kaggle fNmflearnN
DeltaIV

@DeltaIV: มีการพิมพ์ผิดในประโยคสุดท้ายของความคิดเห็นก่อนหน้าของฉัน: คำว่า "เรียนรู้" ควรจะเป็น "โดยประมาณ" (มิฉะนั้นคำสั่งของฉันเกี่ยวกับ "overfitting" จะไม่มีเหตุผล) ขอบคุณสำหรับคำใบ้!
Tobias Windisch

ใช่ฉันตีความว่าในแง่ของ "การประมาณ" ประเด็นของฉันคือแม้ว่าคุณจะรู้ว่าในทางทฤษฎีสามารถประมาณฟังก์ชั่นใด ๆ (บน hypercube ที่มีขอบเขต) กับเลเยอร์ที่ซ่อนอยู่หนึ่ง NN ในทางปฏิบัติมันไร้ประโยชน์ในหลายกรณี อีกตัวอย่างหนึ่ง: กระบวนการแบบเกาส์ที่มีเคอร์เนลเอ็กซ์โปเนนเชียลกำลังสองมีคุณสมบัติการประมาณค่าแบบสากล แต่พวกมันไม่ได้กำจัดวิธีการถดถอยแบบอื่นทั้งหมดด้วยเช่นกันเนื่องจากความจริงที่ว่าสำหรับปัญหาบางอย่างจำนวนตัวอย่างที่จำเป็นต้องใช้
DeltaIV

2

โพสต์ที่ดีมุ่งเน้นไปที่คำถามนี้ (การเรียนรู้ลึกโดยเฉพาะมากกว่าทฤษฎีการเรียนรู้ของเครื่องทั่วไป) อยู่ที่นี่:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

มันให้บทสรุปที่สามารถเข้าถึงได้ของทฤษฎีที่เกิดขึ้นใหม่ที่สำคัญสำหรับความสามารถของเครือข่ายประสาทลึกที่จะพูดคุยเป็นอย่างดี

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.