ทฤษฎีหลักในการเรียนรู้ของเครื่อง (Deep) คืออะไร

45

เมื่อไม่นานมานี้ Al Rahimi ได้พูดคุยที่เร้าใจมากใน NIPS 2017 เมื่อเปรียบเทียบการเรียนรู้ของเครื่องกับ Alchemy หนึ่งในข้ออ้างของเขาคือเราต้องกลับไปสู่การพัฒนาเชิงทฤษฎีเพื่อให้ทฤษฎีบทง่าย ๆ พิสูจน์ผลลัพธ์พื้นฐาน

เมื่อเขาบอกว่าฉันเริ่มมองหาทฤษฎีบทหลักของ ML แต่ไม่สามารถหาการอ้างอิงที่ดีที่เข้าใจถึงผลลัพธ์หลักได้ ดังนั้นนี่คือคำถามของฉัน: อะไรคือทฤษฎีบททางคณิตศาสตร์หลักปัจจุบัน (ทฤษฎี) ใน ML / DL และพวกเขาพิสูจน์อะไร ฉันเดาว่างานของ Vapnik จะไปที่ไหนสักแห่งที่นี่ ปัญหาพิเศษที่เปิดกว้างทางทฤษฎีคืออะไร

machine-learning deep-learning theory

— statslearner
แหล่งที่มา

3

@Tim Theadนี้มีรูปแบบเป็นอย่างมากด้วยstats.stackexchange.com/questions/2379/… ("ปัญหาใหญ่ในสถิติคืออะไร")

— whuber

2

มันค่อนข้างกว้าง อย่างน้อยที่สุดคุณสามารถระบุชุดย่อยของการเรียนรู้ของเครื่องได้หรือไม่ หากเรา จำกัด การเรียนรู้อย่างลึกซึ้งหรืออย่างน้อยก็เพื่อการเรียนรู้แบบมีผู้สอนหนึ่งคนอาจลองตอบคำถาม แต่ถ้าคุณยืนยันบางอย่างเช่น "Mathematics of Machine Learning" คำตอบจะใช้เวลานานในการเขียน

— DeltaIV

3

ในแง่ของแอนะล็อกของ @ whuber ตัวอย่างฉันอยากจะบอกว่าสิ่งนี้ควรเปิดอยู่ในฐานะ CW โดยเฉพาะอย่างยิ่งถ้าสิ่งนี้สามารถ จำกัด เฉพาะเซตย่อยของ ML เช่นการเรียนรู้ภายใต้การดูแลตามคำขอ DeltaV

— gung - Reinstate Monica

3

@DeltaIV โปรดทราบว่า "Deep" อยู่ในชื่อ

— อะมีบาพูดว่า Reinstate Monica

4

ทำความเข้าใจเกี่ยวกับคำถามนี้เป็นหัวข้อของชุดล่าสุดของการบรรยายเป็นเจ้าภาพโดยเดวิด Donoho นี้: ดูstats385.github.io

— user795305

43

ขณะที่ฉันเขียนความคิดเห็นคำถามนี้ดูเหมือนจะกว้างเกินไปสำหรับฉัน แต่ฉันจะพยายามตอบคำถาม เพื่อกำหนดขอบเขตฉันจะเริ่มต้นด้วยคณิตศาสตร์เล็กน้อยซึ่งรองรับ ML ส่วนใหญ่แล้วจึงมุ่งเน้นผลลัพธ์ล่าสุดของ DL

การแลกเปลี่ยนอคติแปรปรวนถูกอ้างถึงในหนังสือหลักสูตร MOOCs บล็อกทวีตเป็นต้นใน ML ดังนั้นเราจึงไม่สามารถเริ่มต้นได้โดยไม่พูดถึง:

E [(Y - \hat{f} (X))^{2} | X = x_{0}] = σ_{ϵ}^{2} + {(E \hat{f} (x_{0}) - f (x_{0}))}^{2} + E [{(\hat{f} (x_{0}) - E \hat{f} (x_{0}))}^{2}] = {Irreducible error + Bias}^{2} + Variance

$\mathbb{E}[(Y-\hat{f}(X))^2|X=x_0]=\sigma_{\epsilon}^2+\left(\mathbb{E}\hat{f}(x_0)-f(x_0)\right)^2+\mathbb{E}\left[\left(\hat{f}(x_0)-\mathbb{E}\hat{f}(x_0)\right)^2\right]=\text{Irreducible error + Bias}^2 \text{ + Variance}$

พิสูจน์ได้ที่นี่: https://web.stanford.edu/~hastie/ElemStatLearn/

Gauss-มาร์คอฟทฤษฎีบท (ใช่ถดถอยเชิงเส้นจะยังคงเป็นส่วนสำคัญของเครื่องการเรียนรู้ไม่ว่าสิ่ง: การจัดการกับมัน) ชี้แจงว่าเมื่อรูปแบบเชิงเส้นเป็นความจริงและข้อสมมติฐานบางอย่างเกี่ยวกับระยะข้อผิดพลาดที่ถูกต้อง OLS มีขั้นต่ำ หมายถึงข้อผิดพลาดกำลังสอง (ซึ่งในนิพจน์ด้านบนเป็นเพียง ) เฉพาะในตัวประมาณค่าแบบเส้นตรงที่ไม่เอนเอียงของตัวแบบเชิงเส้น ดังนั้นอาจมีตัวประมาณค่าเชิงเส้นที่มีอคติ (หรือตัวประมาณค่าแบบไม่เชิงเส้น) ซึ่งมีความคลาดเคลื่อนกำลังสองเฉลี่ยที่ดีกว่าและทำให้เกิดข้อผิดพลาดในการทำนายที่ดีกว่า OLS และนี่เป็นการปูทางไปสู่อาร์เซนอลการทำให้เป็นมาตรฐาน (การถดถอยสัน, LASSO, การลดน้ำหนัก ฯลฯ ) ซึ่งเป็นภาระของ ML มีการพิสูจน์หลักฐานที่นี่ (และในหนังสืออื่น ๆ อีกนับไม่ถ้วน): $\text{Bias}^2 \text{ + Variance}$ https://www.amazon.com/Linear-Statistical-Models-James-Stapleton/dp/0470231467

อาจจะมากกว่าที่เกี่ยวข้องกับการระเบิดของกูแนวทางตามที่ระบุไว้โดยคาร์ลอ Cinelli ในความคิดเห็นและความสนุกสนานแน่นอนมากขึ้นในการเรียนรู้เกี่ยวกับการเป็นทฤษฎีบทเจมส์สไตน์ พิจารณาอิสระแปรปรวนเหมือนกัน แต่ไม่ได้หมายความว่าตัวแปรสุ่มแบบเกาส์เดียวกัน $n$

X_{i} | μ_{i} \sim N (θ_{i}, σ^{2}), i = 1, \dots, n

$X_i|\mu_i\sim \mathcal{N}(\theta_i,\sigma^2), \quad i=1,\dots,n$

ในคำอื่น ๆ ที่เรามีส่วนประกอบ Gaussian สุ่มเวกเตอร์2I) เรามีหนึ่งตัวอย่างจากและเราต้องการที่จะประเมินtheta} MLE (และยัง UMVUE) ประมาณการจะเห็นได้ชัด{x} พิจารณาตัวประมาณ James-Stein $n-$ $\mathbf{X}\sim \mathcal{N}(\boldsymbol{\theta},\sigma^2I)$ $\mathbf{x}$ $\mathbf{X}$ $\boldsymbol{\theta}$ $\hat{\boldsymbol{\theta}}_{MLE}=\mathbf{x}$

{\hat{θ}}_{J S} = (1 - \frac{(n - 2) σ^{2}}{| | x | |^{2}}) x

$\hat{\boldsymbol{\theta}}_{JS}= \left(1-\frac{(n-2)\sigma^2}{||\mathbf{x}||^2}\right)\mathbf{x}$

เห็นได้ชัดว่าถ้า ,ย่อขนาด MLE ไปทางศูนย์ เจมส์-Stein ทฤษฎีบทระบุว่าสำหรับ ,อย่างเคร่งครัดครอบงำคือมันมี MSE ต่ำtheta} Pheraps อย่างน่าประหลาดใจแม้ว่าเราจะย่อตัวลงไปถึงค่าคงที่ ,ยังคงครอบงำ{} ตั้งแต่ $(n-2)\sigma^2\leq||\mathbf{x}||^2$ $\hat{\boldsymbol{\theta}}_{JS}$ $n\geq4$ $\hat{\boldsymbol{\theta}}_{JS}$ $\hat{\boldsymbol{\theta}}_{MLE}$ $\forall \ \boldsymbol{\theta}$ $\boldsymbol{c}\neq \mathbf{0}$ $\hat{\boldsymbol{\theta}}_{JS}$ $\hat{\boldsymbol{\theta}}_{MLE}$ $X_i$ มีความเป็นอิสระดูเหมือนว่าแปลกเมื่อพยายามที่จะประมาณความสูงของบุคคลที่ไม่เกี่ยวข้องสามคนรวมถึงตัวอย่างจากจำนวนแอปเปิ้ลที่ผลิตในสเปนอาจปรับปรุงประมาณการโดยเฉลี่ยของเรา จุดสำคัญที่นี่คือ "โดยเฉลี่ย": ความคลาดเคลื่อนกำลังสองเฉลี่ยสำหรับการประมาณค่าพร้อมกันของส่วนประกอบทั้งหมดของเวกเตอร์พารามิเตอร์มีขนาดเล็กลง แต่ข้อผิดพลาดกำลังสองสำหรับองค์ประกอบหนึ่งหรือมากกว่านั้นอาจมีขนาดใหญ่กว่าและแน่นอนเมื่อ คุณมีข้อสังเกต "สุดขั้ว"

การค้นพบว่า MLE ซึ่งเป็นตัวประเมิน "ดีที่สุด" สำหรับกรณีการประเมินแบบหลายตัวแปรถูกลดหย่อนสำหรับการประเมินหลายตัวแปรนั้นค่อนข้างน่าตกใจในเวลานั้นและนำไปสู่ความสนใจอย่างมากในการหดตัว เราสามารถสังเกตเห็นความคล้ายคลึงกันบางอย่างกับโมเดลผสมและแนวคิดของ "ความแข็งแกร่งในการยืม": มีการเชื่อมโยงบางอย่างตามที่กล่าวไว้ที่นี่

มุมมองแบบรวมเกี่ยวกับการหดตัว: ความสัมพันธ์ (ถ้ามี) ระหว่างความขัดแย้งของสไตน์การถดถอยของสันเขาและผลกระทบแบบสุ่มในแบบผสมคืออะไร?

อ้างอิง: เจมส์ดับเบิลยูสไตน์, ซีประมาณค่ากับการสูญเสียกำลังสอง การประชุมทางวิชาการของ Berkeley ครั้งที่สี่ที่มีต่อสถิติและความน่าจะเป็นทางคณิตศาสตร์เล่มที่ 1: การมีส่วนร่วมในทฤษฎีสถิติ, 361 - 379, สำนักพิมพ์มหาวิทยาลัยแห่งแคลิฟอร์เนีย, Berkeley, Calif., 1961

การวิเคราะห์องค์ประกอบหลักคือกุญแจสำคัญในหัวข้อที่สำคัญของการลดขนาดและมันขึ้นอยู่กับการแยกแยะมูลค่าเอกพจน์ : สำหรับแต่ละเมทริกซ์จริง (แม้ว่าทฤษฎีบทจะสรุปได้ง่ายกับเมทริกซ์ที่ซับซ้อน) $N\times p$ $X$

X = U D V^{T}

$X=UDV^T$

ที่ขนาดเป็นมุมฉากเป็นเมทริกซ์ทแยงมุมกับองค์ประกอบในแนวทแยงไม่ติดลบและขนาดเป็นอีกครั้งมุมฉาก สำหรับการพิสูจน์และอัลกอริธึมเกี่ยวกับวิธีการคำนวณดู: Golub, G. และ Van Loan, C. (1983), การคำนวณเมทริกซ์ , สำนักพิมพ์มหาวิทยาลัยจอห์นฮอปกิ้นส์, บัลติมอร์ $U$ $N \times p$ $D$ $p \times p$ $U$ $p \times p$

ทฤษฎีบทเมอร์เซอร์เป็นหินก่อตั้งสำหรับจำนวนมากของวิธีการที่แตกต่างกัน ML: เส้นโค้งบางจานสนับสนุนเครื่องเวกเตอร์ประมาณการ Kriging ของกระบวนการสุ่มแบบเกาส์ ฯลฯ โดยทั่วไปเป็นหนึ่งในสองทฤษฎีที่อยู่เบื้องหลังที่เรียกว่าเคล็ดลับเคอร์เนล ปล่อยเป็นฟังก์ชันหรือเคอร์เนลต่อเนื่องแบบสมมาตร ถ้าเป็น semidefinite ที่เป็นบวกจากนั้นจะยอมรับพื้นฐานของออร์โธปกติของ eigenfunctions ที่สอดคล้องกับค่าลักษณะเฉพาะที่ไม่เป็นลบ: $K(x,y):[a,b]\times[a,b]\to\mathbb{R}$ $K$

K (x, y) = \sum_{i = 1}^{\infty} γ_{i} ϕ_{i} (x) ϕ_{i} (y)

$K(x,y)=\sum_{i=1}^\infty\gamma_i \phi_i(x)\phi_i(y)$

ความสำคัญของทฤษฎีบทนี้ ML ทฤษฎีเบิกความโดยจำนวนการอ้างอิงที่จะได้รับในตำราที่มีชื่อเสียงเช่นตัวอย่างเช่นรัสมุสและวิลเลียมส์กับข้อความในกระบวนการเสียน

การอ้างอิง: เจเมอร์เซอร์, ฟังก์ชั่นประเภทบวกและลบ, และการเชื่อมต่อกับทฤษฎีของสมการอินทิกรัล ปรัชญาการทำธุรกรรมของราชสมาคมแห่งลอนดอน ชุด A, เอกสารที่มีลักษณะทางคณิตศาสตร์หรือทางกายภาพ, 209: 415-446, 1909

นอกจากนี้ยังมีการนำเสนอที่ง่ายขึ้นใน Konrad Jörgens ตัวดำเนินการอินทิกรัลเชิงเส้น Pitman, Boston, 1982

ทฤษฎีบทอื่น ๆ ซึ่งร่วมกับทฤษฎีบทเมอร์เซอร์, ออกวางรากฐานทางทฤษฎีของเคล็ดลับเคอร์เนลเป็นทฤษฎีบท representer สมมติว่าคุณมีพื้นที่ตัวอย่างและสมมาตรบวก semidefinite เคอร์เนล{R} ให้ _K เป็น RKHS ที่เกี่ยวข้องกับด้วย สุดท้ายให้เป็นตัวอย่างการฝึกอบรม ทฤษฎีบทบอกว่าในบรรดาทุกฟังก์ชั่นซึ่งทุกคนยอมรับการเป็นตัวแทนที่ไม่มีที่สิ้นสุดในแง่ของ eigenfunctions $\mathcal{X}$ $K: \mathcal{X} \times \mathcal{X}\to \mathbb{R}$ $\mathcal{H}_K$ $K$ $S=\{\mathbb{x}_i,y_i\}_{i=1}^n$ $f\in \mathcal{H}_K$ $K$ เนื่องจากทฤษฎีบทของเมอร์เซอร์สิ่งที่ลดความเสี่ยงให้เป็นปกติจะมีการแทนค่า จำกัด ในพื้นฐานที่เกิดขึ้นจากเคอร์เนลที่ประเมินที่จุดฝึกอบรมเช่น $n$

min_{f \in H_{K}} \sum_{i = 1}^{n} L (y_{i}, f (x_{i})) + λ | | f | |_{H_{K}}^{2} = min_{{c_{j}}_{1}^{\infty}} \sum_{i = 1}^{n} L (y_{i}, \sum_{j}^{\infty} c_{j} ϕ_{j} (x_{i})) + λ \sum_{j}^{\infty} \frac{c_{j}^{2}}{γ_{j}} = \sum_{i = 1}^{n} α_{i} K (x, x_{i})

$\min_{f \in \mathcal{H}_K} \sum_{i=1}^n L(y_i,f(x_i))+\lambda||f||^2_{\mathcal{H}_K}=\min_{\{c_j\}_1^\infty} \sum_{i=1}^n L(y_i,\sum_j^\infty c_j\phi_j(x_i))+\lambda\sum_j^\infty \frac{c_j^2}{\gamma_j}=\sum_{i=1}^n\alpha_i K(x,x_i)$

(ทฤษฎีบทคือความเท่าเทียมกันครั้งสุดท้าย) ข้อมูลอ้างอิง: Wahba, G. 1990, Spline Models สำหรับ Observational Data , SIAM, Philadelphia

ทฤษฎีบทประมาณสากลได้รับการอ้างแล้วโดยผู้ใช้โทเบียส Windisch และมีมากน้อยที่เกี่ยวข้องกับการเรียนรู้เครื่องกว่าก็คือการวิเคราะห์การทำงานแม้ว่าจะไม่อาจดูเหมือนเพื่อให้ได้อย่างรวดเร็วก่อน ปัญหาคือทฤษฎีบทเพียงบอกว่าเครือข่ายดังกล่าวมีอยู่ แต่:

มันไม่ได้ให้ความสัมพันธ์ใด ๆ ระหว่างขนาดของเลเยอร์ที่ซ่อนอยู่และการวัดความซับซ้อนของฟังก์ชันเป้าหมายเช่นการเปลี่ยนแปลงทั้งหมด ถ้าและจำเป็นสำหรับการแก้ไขข้อผิดพลาดคงที่แบบทวีคูณด้วยดังนั้นเลเยอร์ประสาทเดี่ยวที่ซ่อนอยู่ เครือข่ายจะไร้ประโยชน์ $N$ $f(x)$ $f(x)=\sin(\omega x):[0,2\pi]\to[-1,1]$ $N$ $\epsilon$ $\omega$
มันไม่ได้บอกว่าถ้าเครือข่ายเป็นlearnable กล่าวอีกนัยหนึ่งคือสมมติว่าและเรารู้ว่าขนาด NN จะประมาณด้วยค่าเผื่อที่จำเป็นใน hypercube จากนั้นโดยใช้ชุดการฝึกอบรมขนาด และขั้นตอนการเรียนรู้เช่นตัวอย่างการสนับสนุนเรามีการรับประกันว่าการเพิ่มเราสามารถกู้คืนหรือไม่? $F(x)$ $f$ $\epsilon$ $N$ $f$ $M$ $M$ $F$
ในที่สุดและที่เลวร้ายยิ่งของพวกเขาทั้งหมดมันไม่ได้พูดอะไรเกี่ยวกับข้อผิดพลาดการทำนายของเครือข่ายประสาท สิ่งที่เราสนใจจริงๆคือค่าประมาณของข้อผิดพลาดในการทำนายอย่างน้อยค่าเฉลี่ยของชุดฝึกอบรมขนาดทั้งหมด ทฤษฎีบทไม่ได้ช่วยในเรื่องนี้ $M$

จุดปวดที่เล็กลงกับทฤษฎีบทของ Hornik ในเวอร์ชันนี้คือมันไม่ได้รองรับฟังก์ชั่นการเปิดใช้งาน ReLU อย่างไรก็ตามบาร์ตเลตได้พิสูจน์รุ่นที่ขยายเพิ่มเติมซึ่งครอบคลุมถึงช่องว่างนี้

จนถึงตอนนี้ฉันเดาว่าทุกทฤษฎีที่ฉันถือว่าเป็นที่รู้จักกันดีสำหรับใครก็ตาม ดังนั้นถึงเวลาสำหรับสิ่งที่สนุกแล้ว :-) เรามาดูทฤษฎีการเรียนรู้ลึก :

สมมติฐาน:

เครือข่ายประสาทลึก (สำหรับการแก้ไข ,เป็นฟังก์ชั่นที่เชื่อมโยงปัจจัยการผลิตของเครือข่ายประสาทที่มีเอาท์พุท) และการสูญเสียกูมีทั้งผลบวกของการบวก ฟังก์ชั่นที่เป็นเนื้อเดียวกันในระดับเดียวกัน $\Phi(X,W)$ $W$ $\Phi_W(X)$ $\Theta(W)$
ฟังก์ชั่นการสูญเสียนูนและเมื่ออนุพันธ์ในในขนาดกะทัดรัดชุด $L(Y,\Phi(X,W)$ $X$ $S$

แล้ว:

ท้องถิ่นขั้นต่ำสำหรับเช่นนั้นเครือข่ายย่อยของมีศูนย์น้ำหนักเป็นศูนย์ขั้นต่ำทั่วโลก ( ทฤษฎีบท 1 ) $L(Y,\Phi(X,W))+\lambda\Theta(W)$ $\Phi(X,W)$
เหนือขนาดเครือข่ายที่สำคัญสืบเชื้อสายท้องถิ่นจะมาบรรจบกันเป็นขั้นต่ำทั่วโลกจากการเริ่มต้นใด ๆ ( ทฤษฎีบท 2 )

สิ่งนี้น่าสนใจมาก: CNNs ทำเฉพาะเลเยอร์ convolutional, ReLU, max-pooling, ReLU ที่เชื่อมต่ออย่างเต็มที่และ linear layer เป็นฟังก์ชั่นที่เป็นเนื้อเดียวกันในขณะที่ถ้าเรารวมฟังก์ชั่นการเปิดใช้ sigmoid นี่ไม่เป็นความจริงอีกต่อไป ประสิทธิภาพการทำงานในบางแอปพลิเคชันของ ReLU + การรวมกำไรสูงสุดเทียบกับ sigmoids มีอะไรมากกว่าที่ทฤษฎีเท่านั้นถือถ้ายังเป็นบวกเป็นเนื้อเดียวกันในของการศึกษาระดับปริญญาเดียวกับ\ตอนนี้ความจริงก็คือความสนุกที่ หรือทำให้เป็นมาตรฐานแม้ว่าจะเป็นเนื้อเดียวกันในทางบวก แต่ไม่มีระดับ (ระดับของ $\Theta$ $W$ $\Phi$ $l_1$ $l_2$ $\Phi$ $\Phi$ ในกรณีของ CNN ที่กล่าวถึงก่อนหน้าจะเพิ่มขึ้นตามจำนวนเลเยอร์) แต่วิธีการทำให้เป็นมาตรฐานที่ทันสมัยมากขึ้นเช่นการทำแบทช์ให้เป็นมาตรฐานและพา ธ - สิงคโปร์จะสอดคล้องกับฟังก์ชั่นการทำให้เป็นเนื้อเดียวกันในเชิงบวกในระดับเดียวกับและการออกกลางคันในขณะที่ไม่เหมาะสมกับเฟรมเวิร์กนี้ สิ่งนี้อาจอธิบายได้ว่าทำไมเพื่อให้ได้ความแม่นยำสูงด้วย CNNs การทำให้เป็นและไม่เพียงพอ แต่เราจำเป็นต้องใช้ทุกชนิดเช่นการดรอปเอาท์และการทำให้เป็นชุดปกติ! เพื่อความรู้ที่ดีที่สุดของฉันนี่เป็นสิ่งที่ใกล้เคียงที่สุดที่จะอธิบายถึงประสิทธิภาพของการทำให้เป็นกลุ่มตามปกติซึ่งเป็นสิ่งที่คลุมเครือมากอย่างที่อัลราฮิมิพูดอย่างถูกต้องในการพูดของเขา $\Phi$ $l_1$ $l_2$

สังเกตอีกว่าบางคนให้อยู่บนพื้นฐานของทฤษฏีที่ 1ก็คือว่ามันสามารถอธิบายได้ว่าทำไมการทำงาน Relu ดีแม้จะมีปัญหาของเซลล์ที่ตายแล้ว ตามปรีชานี้ความจริงที่ว่าในระหว่างการฝึกอบรมเซลล์ประสาท ReLU บางคน "ตาย" (ไปที่การเปิดใช้งานเป็นศูนย์และไม่เคยกู้คืนจากที่เนื่องจากตั้งแต่การไล่ระดับสีของ ReLU เป็นศูนย์) คือ "คุณลักษณะไม่ใช่ข้อผิดพลาด "เพราะถ้าเรามาถึงขั้นต่ำแล้วเครือข่ายย่อยเต็มก็ตายไปเราก็จะมาถึงจุดต่ำสุดของโลก (ภายใต้สมมติฐานของทฤษฎีบทที่ 1 $x<0$ ) ฉันอาจจะหายไปบางอย่าง แต่ฉันคิดว่าการตีความนี้ลึกซึ้ง ก่อนอื่นเลยระหว่างการฝึกอบรม ReLUs สามารถ "ตาย" ได้ดีก่อนที่เราจะไปถึงขั้นต่ำสุดของท้องถิ่น ประการที่สองก็จะต้องมีการพิสูจน์ให้เห็นว่าเมื่อหน่วย Relu "ตาย" พวกเขามักจะทำมันมากกว่า subnetwork เต็ม: กรณีเดียวที่นี้เป็นจริงนิด ๆ คือเมื่อคุณมีเพียงหนึ่งชั้นที่ซ่อนอยู่ซึ่งในกรณีของหลักสูตรในแต่ละเซลล์เดียว เครือข่ายย่อย แต่โดยทั่วไปฉันจะระมัดระวังในการเห็น "เซลล์ประสาทที่ตายแล้ว" เป็นสิ่งที่ดี

อ้างอิง:

B. Haeffele และ R. Vidal, การเพิ่มประสิทธิภาพระดับโลกในการฝึกอบรมโครงข่ายประสาทเทียม , ในการประชุม IEEE ด้านการมองเห็นคอมพิวเตอร์และการจดจำรูปแบบ, 2017

B. Haeffele และ R. Vidal การมองโลกในแง่ดีที่สุดในการแยกตัวประกอบเทนเซอร์การเรียนรู้ที่ลึกซึ้งและอื่น ๆ , arXiv, abs / 1506.07540, 2015

การจำแนกภาพจำเป็นต้องมีการเรียนรู้ที่ไม่เปลี่ยนแปลง (หรืออย่างน้อยก็มีความอ่อนไหวอย่างอ่อนไหวมาก) กับการเปลี่ยนแปลงต่าง ๆ เช่นตำแหน่งที่ตั้งท่าทางมุมมองแสงการแสดงออก ฯลฯ ซึ่งโดยทั่วไปจะปรากฏในภาพธรรมชาติ แต่ไม่มีข้อมูล สำหรับงานการจำแนกประเภท สิ่งเดียวกันสำหรับการรู้จำเสียงพูด: การเปลี่ยนแปลงระดับเสียงระดับเสียงจังหวะสำเนียง ฯลฯ ไม่ควรนำไปสู่การเปลี่ยนแปลงในการจำแนกประเภทของคำ การดำเนินงานเช่น convolution, max pooling, pooling เฉลี่ย ฯลฯ ที่ใช้ใน CNNs นั้นมีเป้าหมายนี้อย่างแน่นอนดังนั้นเราคาดหวังว่ามันจะทำงานได้ดีสำหรับแอพพลิเคชันเหล่านี้ แต่เรามีทฤษฎีบทให้การสนับสนุนสัญชาตญาณนี้หรือไม่? มีทฤษฎีบทความแปรปรวนการแปลในแนวตั้งซึ่งแม้จะมีชื่อไม่ได้เกี่ยวข้องกับการแปลในแนวตั้ง แต่โดยทั่วไปแล้วผลลัพธ์ที่บอกว่าคุณลักษณะที่เรียนรู้ในเลเยอร์ต่อไปจะมีค่าคงที่มากขึ้นเรื่อย ๆ เมื่อจำนวนเลเยอร์เพิ่มขึ้น สิ่งนี้ตรงกันข้ามกับทฤษฎีบทการแปรผันของการแปลในแนวนอนที่มีอายุมากกว่าซึ่งถือเป็นเครือข่ายที่กระจัดกระจาย แต่ไม่ใช่สำหรับซีเอ็นเอ็น ทฤษฎีบทนี้เป็นเทคนิคอย่างมากอย่างไรก็ตาม:

สมมติว่า (ภาพอินพุตของคุณ) เป็นรูปสี่เหลี่ยมจตุรัส $f$
ถือว่าการเดินทางตัวกรองของคุณกับผู้ประกอบการแปลซึ่งแผนที่ภาพที่นำเข้าเพื่อสำเนาแปลของตัวเองฉ เคอร์เนล convolution ที่เรียนรู้ (ตัวกรอง) เป็นไปตามสมมติฐานนี้ $T_t$ $f$ $T_t f$
สมมติว่าตัวกรองทั้งหมดความไม่เป็นเชิงเส้นและการรวมกำไรในเครือข่ายของคุณเป็นไปตามเงื่อนไขที่เรียกว่าอ่อนแอซึ่งโดยทั่วไปจะเป็นเงื่อนไขที่อ่อนแอและขอบเขตขอบเขต เงื่อนไขเหล่านี้ได้รับความพึงพอใจจากเคอร์เนล convolution ที่เรียนรู้ (ตราบใดที่การดำเนินการฟื้นฟูบางอย่างดำเนินการในแต่ละเลเยอร์), ReLU, sigmoid, tanh, etc, nonlinearities และการรวมกำไรโดยเฉลี่ย แต่ไม่รวมกำไรสูงสุด ดังนั้นจึงครอบคลุมสถาปัตยกรรม CNN โลกแห่งความเป็นจริงบางส่วน (ไม่ใช่ทั้งหมด)
สมมติว่าในที่สุดแต่ละชั้นมีปัจจัยการรวมกล่าวคือการรวมกำไรถูกนำไปใช้ในแต่ละชั้นและทิ้งข้อมูลได้อย่างมีประสิทธิภาพ เงื่อนไขก็เพียงพอแล้วสำหรับทฤษฎีบทที่อ่อนกว่า $n$ $S_n> 1$ $S_n\geq 1$

บ่งบอกถึงความมีการส่งออกของชั้นของซีเอ็นเอ็นเมื่อเข้าเป็นฉจากนั้นในที่สุด: $\Phi^n(f)$ $n$ $f$

lim_{n \to \infty} | | | Φ^{n} (T_{f} f) - Φ^{n} (f) | | | = 0

$\lim_{n\to\infty}|||\Phi^n(T_f f)-\Phi^n(f)|||=0$

(แถบสามแถบไม่ใช่ข้อผิดพลาด) ซึ่งโดยทั่วไปหมายความว่าแต่ละชั้นเรียนรู้คุณลักษณะที่ไม่เปลี่ยนแปลงมากขึ้นเรื่อย ๆ และในเครือข่ายที่ลึกล้ำเรามีสถาปัตยกรรมที่ไม่เปลี่ยนแปลงอย่างสมบูรณ์ เนื่องจากซีเอ็นเอ็นมีจำนวนเลเยอร์ที่ จำกัด พวกเขาจึงไม่สามารถแปลค่าได้อย่างสมบูรณ์แบบซึ่งเป็นสิ่งที่ผู้ปฏิบัติงานเป็นที่รู้จักกันดี

อ้างอิง: T. Wiatowski และเอช Bolcskei, ทฤษฎีทางคณิตศาสตร์ของ Deep Convolutional โครงข่ายประสาทสารคดีสกัด , arXiv:

เพื่อสรุปขอบเขตจำนวนมากสำหรับข้อผิดพลาดทั่วไปของ Deep Neural Network บนมิติของ Vapnik-Chervonkensis หรือความซับซ้อนของ Rademacher เติบโตขึ้นกับจำนวนของพารามิเตอร์ (บางคนถึงชี้แจงแทน) ซึ่งหมายความว่าพวกเขาไม่สามารถอธิบายได้ว่าทำไม DNN ทำงานได้ดี ในทางปฏิบัติแม้ว่าจำนวนพารามิเตอร์จะมากกว่าจำนวนตัวอย่างการฝึกอบรม ตามความเป็นจริงทฤษฎี VC ไม่ได้มีประโยชน์มากในการเรียนรู้ลึก

ในทางกลับกันผลลัพธ์บางอย่างจากปีที่แล้วได้รวมข้อผิดพลาดทั่วไปของตัวจําแนก DNN ที่มีปริมาณซึ่งไม่ขึ้นกับความลึกและขนาดของโครงข่ายประสาทเทียม แต่ขึ้นอยู่กับโครงสร้างของชุดฝึกอบรมและพื้นที่อินพุตเท่านั้น ภายใต้สมมติฐานทางเทคนิคบางอย่างเกี่ยวกับกระบวนการเรียนรู้และในชุดฝึกอบรมและพื้นที่ป้อนข้อมูล แต่ด้วยสมมติฐานน้อยมากเกี่ยวกับ DNN (โดยเฉพาะอย่างยิ่ง CNNs ได้รับการคุ้มครองอย่างสมบูรณ์) แล้วด้วยความน่าจะเป็นอย่างน้อยเรามี $1-\delta$

GE \leq \sqrt{2 \log 2 N_{y} \frac{N_{γ}}{m}} + \sqrt{\frac{2 \log (1 / δ)}{m}}

$\text{GE} \leq \sqrt{2\log{2}N_y\frac{\mathcal{N_{\gamma}}}{m}}+\sqrt{\frac{2\log{(1/\delta)}}{m}}$

ที่อยู่:

$\text{GE}$ เป็นข้อผิดพลาดทั่วไปซึ่งหมายถึงความแตกต่างระหว่างการสูญเสียที่คาดหวัง (การสูญเสียเฉลี่ยของตัวจําแนกประเภทที่เรียนรู้ในจุดทดสอบที่เป็นไปได้ทั้งหมด) และการสูญเสียเชิงประจักษ์ (แค่ชุดฝึกอบรมที่ดี
$N_y$ คือจำนวนชั้นเรียน
$m$ คือขนาดของชุดการฝึกอบรม
$\mathcal{N_{\gamma}}$ เป็นหมายเลขที่ครอบคลุมของข้อมูลปริมาณที่เกี่ยวข้องกับโครงสร้างของพื้นที่อินพุตและแยกน้อยที่สุดระหว่างจุดต่าง ๆ ของชั้นเรียนในชุดฝึกอบรม อ้างอิง:

J. Sokolic, R. Giryes, G. Sapiro, และ M. Rodrigues ข้อผิดพลาดทั่วไปของลักษณนามคงที่ ใน AISTATS 2017

— revIV DeltaIV
แหล่งที่มา

2

+1 คำตอบที่ดีส่วนสุดท้ายคือสิ่งที่น่าสนใจมาก ในส่วนแรกทฤษฎีบทของเมอร์เซอร์ดูเหมือนว่าแผนกบริการที่คุณได้กล่าวไว้ข้างต้น

— อะมีบาพูดว่า Reinstate Monica

1

@ amoeba คุณพูดถูก แต่ 1) ไม่ใช่ผู้อ่านทุกคนที่เก่งคณิตศาสตร์เหมือนคุณพวกเขาจะจำได้ทันทีถึงความคล้ายคลึงระหว่าง SVD, Karhunen- Loeve ส่วนขยายและทฤษฎีบทของ Mercer นอกจากนี้ 2) ทฤษฎีบทอื่นจากการวิเคราะห์เชิงหน้าที่ซึ่ง "พลัง" เคอร์เนลเคล็ดลับและที่ฉันเลือกที่จะไม่รวมก็ยากที่จะอธิบายกว่าทฤษฎีบทของเมอร์เซอร์และฉันได้หยุดเสาร์ :-) บางทีฉันจะเพิ่มในวันพรุ่งนี้!

— DeltaIV

1

Gauss Markov ดูนอกสถานที่ไม่เคยเห็นใครสนใจเรื่อง BLUE ในชุมชน ML

— Carlos Cinelli

2

ฉันยอมรับว่าตามกฎทั่วไปแล้วการอ้างอิงดั้งเดิม (โบราณ) มักมีสัญกรณ์ที่น่าเบื่อ ที่กล่าวว่ากระดาษของเมอร์เซอร์นั้นทันสมัยอย่างน่าประหลาดใจในด้านนั้นและฉันก็เพิ่มลงไปอย่างนั้นเพราะสิ่งนั้น :) (ฉันบอกว่า แต่เดิมคำตอบนี้ดีมากนี่เป็นเพียงความเห็นหลังจากการลงคะแนน)

— usεr11852พูดว่า Reinstate Monic

2

ฉันชอบทฤษฎีบทของเมอร์เซอร์ที่นี่อย่าลบมัน และทำไมไม่มีลิงก์ทั้งสอง เพียงเพิ่มความชอบSee [here] for a modern expositionหรือกลับกันสำหรับกระดาษต้นฉบับ "

— อะมีบาพูดว่า Reinstate Monica

11

ฉันคิดว่าทฤษฎีต่อไปนี้ที่คุณพาดพิงถึงนั้นถือว่าเป็นพื้นฐานที่ดีในการเรียนรู้ทางสถิติ

ทฤษฎีบท (Vapnik and Chervonenkis, 1971)ให้เป็นคลาสสมมุติฐานของฟังก์ชันจากโดเมนถึงและปล่อยให้ฟังก์ชันการสูญเสียเป็นการสูญเสีย จากนั้นต่อไปนี้เทียบเท่า: $H$ $X$ $\{0, 1\}$ $0 − 1$

$H$ มีคุณสมบัติการลู่เข้าเหมือนกัน
$H$ คือ PAC ที่เรียนรู้ได้
$H$ มีมิติ VC ที่แน่นอน

พิสูจน์แล้วในเวอร์ชั่นเชิงปริมาณที่นี่:

VN Vapnik และ AY Chervonenkis: ในการรวมกันของความถี่สัมพันธ์ของเหตุการณ์กับความน่าจะเป็น ทฤษฎีความน่าจะเป็นและการประยุกต์ใช้, 16 (2): 264–280, 1971

เวอร์ชันของสูตรดังกล่าวข้างต้นพร้อมกับการแสดงออกที่ดีของผลลัพธ์อื่น ๆ จากทฤษฎีการเรียนรู้มีอยู่ที่นี่ :

Shalev-Shwartz, Shai และ Shai Ben-David การทำความเข้าใจการเรียนรู้ของเครื่อง: จากทฤษฎีไปจนถึงอัลกอริทึม สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์, 2014

— Machine epsilon
แหล่งที่มา

6

The Kernel Trick เป็นความคิดทั่วไปที่ใช้ในหลาย ๆ ที่และมาจากคณิตศาสตร์ที่เป็นนามธรรมมากมายเกี่ยวกับ Hilbert Spaces วิธีที่ทฤษฎีมากเกินไปสำหรับฉันที่จะพิมพ์ (คัดลอก ... ) ออกมาเป็นคำตอบที่นี่ แต่ถ้าคุณอ่านผ่านสิ่งนี้

http://www.stats.ox.ac.uk/~sejdinov/teaching/atml14/Theory_2014.pdf

— Taimur
แหล่งที่มา

4

คนที่ฉันชอบคือความไม่เสมอภาคคราฟท์

ทฤษฎีบท:สำหรับวิธีการอธิบายใด ๆสำหรับตัวอักษรที่ จำกัด , ความยาวของรหัสคำต้องเป็นไปตามความไม่เท่าเทียม1 $C$ $A = \{1,\dots, m\}$ $L_C(1), \dots, L_C(2)$ $\sum_{x \in A} 2 ^{-L_C(x)} \leq 1$

ความไม่เท่าเทียมกันนี้เกี่ยวข้องกับการบีบอัดด้วยความหนาแน่นของความน่าจะเป็น : เมื่อให้โค้ดความยาวของผลลัพธ์ที่แสดงด้วยรหัสนั้นคือความน่าจะเป็นบันทึกเชิงลบของแบบจำลองที่ระบุโดยรหัส

นอกจากนี้ไม่มีทฤษฎีอาหารกลางวันฟรีสำหรับการเรียนรู้ของเครื่องมีพี่น้องน้อยที่รู้จักกันดีในทฤษฎีการบีบอัดไฮเปอร์ซึ่งไม่สามารถบีบอัดลำดับทั้งหมดได้

— bayerj
แหล่งที่มา

4

ฉันจะไม่เรียกมันว่าทฤษฎีบทหลักแต่ฉันคิดว่าต่อไปนี้ (บางครั้งเรียกว่าทฤษฎีบทการประมาณแบบสากล) เป็นสิ่งที่น่าสนใจ (และอย่างน้อยก็สำหรับฉันที่น่าแปลกใจ) อย่างใดอย่างหนึ่งเพราะมันระบุถึงอำนาจโดยประมาณของเครือข่าย

ทฤษฎีบท: ให้เป็นฟังก์ชันที่ต่อเนื่องแบบไม่เพิ่มค่าและเพิ่มขึ้นอย่างต่อเนื่อง สำหรับฟังก์ชั่น continuos ใด ๆและมีจำนวนเต็มและพหุ perceptron หลายมีเลเยอร์ที่ซ่อนอยู่ซึ่งมี neurons ที่มีเป็นการกระตุ้น ฟังก์ชั่นเพื่อให้ $\sigma$ $f:[0,1]^m\to\mathbb{R}$ $\epsilon>0$ $N$ $F$ $N$ $\sigma$

| F (x) - f (x) | \leq ϵ

$|F(x)-f(x)|\le\epsilon$ สำหรับทุกเมตร

x \in [0, 1]^{m}

$x\in[0,1]^m$

แน่นอนว่านี่เป็นคำแถลงเกี่ยวกับการดำรงอยู่ผลกระทบต่อผู้ปฏิบัติงานจึงน้อยมาก

หลักฐานสามารถพบได้ใน Hornik, ความสามารถในการประมาณค่าของเครือข่าย Feedforward Muitilayer, Neural Networks 4 (2), 1991,

— Tobias Windisch
แหล่งที่มา

5

ทฤษฎีนี้ค่อนข้างไม่น่าสนใจเนื่องจากไม่ได้ใช้กับโครงข่ายประสาท คลาสอื่น ๆ ของฟังก์ชั่นใช้คุณสมบัติการประมาณที่คล้ายกัน ดูตัวอย่างทฤษฎีบท Stone-Weierstrass ผลลัพธ์ที่น่าสนใจคือความมั่นคงของการถดถอยของโครงข่ายประสาทในกรอบทั่วไป นอกจากนี้จะต้องมีขอบเขตที่ทราบเกี่ยวกับข้อผิดพลาดของการทำให้เป็นบรรทัดฐานโดยทั่วไปในแง่ของความซับซ้อนของตาข่ายและขนาดของตัวอย่างการฝึกอบรม

— Olivier

1

@ Olivier: ฉันเห็นด้วยทั้งหมด แต่ถึงแม้ว่าทฤษฎีบทนี้จะไม่ได้ทุ่มเทให้กับเครือข่ายประสาทเทียมเท่านั้น แต่ฉันก็ยังพบว่ามันเป็นข้อพิสูจน์ที่เข้มงวดและมีความหมายที่น่าสนใจ ตัวอย่างเช่นมันบอกว่าตราบใดที่คุณกำลังใช้ฟังก์ชั่นการเปิดใช้งานที่มีคุณสมบัติตามที่ระบุไว้ข้างต้นความสามารถในการประมาณค่าของเครือข่ายจะเท่ากัน (พูดโดยประมาณ) หรือมันบอกว่าเครือข่ายประสาทเทียมนั้นมีน้ำหนักมากเกินไปเพราะคุณสามารถเรียนรู้มากมายได้ด้วยเลเยอร์ที่ซ่อนอยู่หนึ่งชั้น

— โทเบียส Windisch

1

ไม่ได้พูดอย่างนั้น มันก็แค่บอกว่ามีอยู่เครือข่ายประสาทด้วยชั้นซ่อนหนึ่งที่สามารถเป็นตัวแทนของแต่ก็ไม่ได้บอกอะไรเกี่ยวกับวิธีเติบโตกับยกตัวอย่างเช่นหรือตัวชี้วัดของความซับซ้อนของบาง (ตัวอย่างเช่นการเปลี่ยนแปลงทั้งหมด ) มันไม่ได้บอกคุณว่าคุณสามารถน้ำหนักของเครือข่ายของคุณได้รับข้อมูล คุณจะพบว่าในหลายกรณีที่น่าสนใจนั้นมีขนาดใหญ่กว่าแบบเอ็กซ์โปเนนเชียลสำหรับเครือข่ายเลเยอร์ที่ซ่อนอยู่หนึ่งเครือข่ายกว่าเครือข่ายหลายชั้น (ลึก) นี่คือเหตุผลที่ไม่มีใครใช้เครือข่ายเลเยอร์ที่ซ่อนอยู่หนึ่งเครือข่ายสำหรับ ImageNet หรือ Kaggle

f

$f$

N

$N$

m

$m$

f

$f$

l e a r n

$learn$

N

$N$

— DeltaIV

@DeltaIV: มีการพิมพ์ผิดในประโยคสุดท้ายของความคิดเห็นก่อนหน้าของฉัน: คำว่า "เรียนรู้" ควรจะเป็น "โดยประมาณ" (มิฉะนั้นคำสั่งของฉันเกี่ยวกับ "overfitting" จะไม่มีเหตุผล) ขอบคุณสำหรับคำใบ้!

— Tobias Windisch

ใช่ฉันตีความว่าในแง่ของ "การประมาณ" ประเด็นของฉันคือแม้ว่าคุณจะรู้ว่าในทางทฤษฎีสามารถประมาณฟังก์ชั่นใด ๆ (บน hypercube ที่มีขอบเขต) กับเลเยอร์ที่ซ่อนอยู่หนึ่ง NN ในทางปฏิบัติมันไร้ประโยชน์ในหลายกรณี อีกตัวอย่างหนึ่ง: กระบวนการแบบเกาส์ที่มีเคอร์เนลเอ็กซ์โปเนนเชียลกำลังสองมีคุณสมบัติการประมาณค่าแบบสากล แต่พวกมันไม่ได้กำจัดวิธีการถดถอยแบบอื่นทั้งหมดด้วยเช่นกันเนื่องจากความจริงที่ว่าสำหรับปัญหาบางอย่างจำนวนตัวอย่างที่จำเป็นต้องใช้

— DeltaIV

2

โพสต์ที่ดีมุ่งเน้นไปที่คำถามนี้ (การเรียนรู้ลึกโดยเฉพาะมากกว่าทฤษฎีการเรียนรู้ของเครื่องทั่วไป) อยู่ที่นี่:

https://medium.com/mlreview/modern-theory-of-deep-learning-why-does-it-works-so-well-9ee1f7fb2808

มันให้บทสรุปที่สามารถเข้าถึงได้ของทฤษฎีที่เกิดขึ้นใหม่ที่สำคัญสำหรับความสามารถของเครือข่ายประสาทลึกที่จะพูดคุยเป็นอย่างดี

— Toby Collins
แหล่งที่มา