ทฤษฎีบทการประมาณแบบสากล - โครงข่ายประสาทเทียม


23

ฉันโพสต์สิ่งนี้ไว้ก่อนหน้านี้บน MSE แต่มีคนแนะนำว่าที่นี่อาจเป็นที่ที่ดีกว่าในการถาม

ยูนิเวอร์แซประมาณทฤษฎีบทกล่าวว่า "เครือข่ายฟีดไปข้างหน้าหลายมาตรฐานที่มีชั้นเดียวที่ซ่อนอยู่ซึ่งมีจำนวน จำกัด ของเซลล์ประสาทที่ซ่อนอยู่เป็น approximator สากลในหมู่ฟังก์ชั่นอย่างต่อเนื่องในส่วนย่อยกะทัดรัดของ Rn ภายใต้สมมติฐานที่ไม่รุนแรงในการเปิดใช้งานฟังก์ชั่น."

ฉันเข้าใจความหมายของสิ่งนี้ แต่เอกสารที่เกี่ยวข้องเกินระดับความเข้าใจทางคณิตศาสตร์ของฉันเกินกว่าที่จะเข้าใจว่าทำไมมันถึงเป็นจริงหรือเลเยอร์ที่ซ่อนอยู่นั้นใกล้เคียงกับฟังก์ชันที่ไม่ใช่เชิงเส้น

ดังนั้นในแง่ที่สูงกว่าแคลคูลัสพื้นฐานและพีชคณิตเชิงเส้นเล็กน้อยเครือข่ายฟีดไปข้างหน้ากับเลเยอร์ที่ซ่อนอยู่หนึ่งฟังก์ชันที่ไม่ใช่เชิงเส้นประมาณกันอย่างไร คำตอบไม่จำเป็นต้องเป็นรูปธรรมโดยสิ้นเชิง


ดูการเพิ่มประสิทธิภาพยังระดับโลกในการที่จะมีเทคนิคการไล่ระดับสีโคตรจะหา extrema ทั่วโลก
vzn

ผมพบว่าหลักฐานภาพโดยไมเคิลนีลเซ่นประโยชน์สวย
นาย Tsjolder

คำตอบ:


26

ผลลัพธ์ของ Cybenko นั้นค่อนข้างใช้งานง่ายเพราะฉันหวังว่าจะสื่อด้านล่าง; สิ่งที่ทำให้สิ่งต่าง ๆ ยุ่งยากมากขึ้นคือเขาตั้งเป้าหมายทั้งเพื่อความเป็นอยู่ทั่วไปและเลเยอร์ที่ซ่อนอยู่จำนวนน้อยที่สุด ผลของ Kolmogorov (เอ่ยถึงโดย vzn) ในความเป็นจริงประสบความสำเร็จในการรับประกันที่แข็งแกร่ง แต่ค่อนข้างน้อยที่เกี่ยวข้องกับการเรียนรู้ของเครื่อง (โดยเฉพาะอย่างยิ่งมันไม่ได้สร้างมาตรฐานโครงข่ายประสาทเทียม ผลลัพธ์ในทางกลับกันนี้น่ากลัวเนื่องจากบนพื้นผิวมันเป็นเพียง 3 หน้าที่บันทึกข้อ จำกัด บางอย่างและฟังก์ชั่นต่อเนื่อง แต่ในความเป็นจริงมันกำลังสร้างชุดของเศษส่วน ในขณะที่ผลลัพธ์ของ Cybenko นั้นผิดปกติและน่าสนใจมากเนื่องจากเทคนิคที่เขาใช้อย่างแม่นยำผลลัพธ์ของรสชาตินั้นถูกนำมาใช้อย่างกว้างขวางในการเรียนรู้ของเครื่อง (และฉันสามารถชี้คุณไปยังผู้อื่น)

นี่คือสรุประดับสูงว่าทำไมผลของ Cybenko ควรถือ

  • ฟังก์ชั่นต่อเนื่องในชุดกะทัดรัดสามารถประมาณได้ด้วยฟังก์ชั่นค่าคงที่ทีละชิ้น
  • ฟังก์ชั่นค่าคงที่แบบชิ้นเดียวสามารถแสดงเป็นตาข่ายประสาทได้ดังนี้ สำหรับแต่ละภูมิภาคที่ฟังก์ชันคงที่ให้ใช้ตาข่ายประสาทเป็นฟังก์ชันตัวบ่งชี้สำหรับภูมิภาคนั้น จากนั้นสร้างเลเยอร์สุดท้ายด้วยโหนดเดียวซึ่งการรวมกันของอินพุตเชิงเส้นคือผลรวมของตัวบ่งชี้ทั้งหมดโดยมีน้ำหนักเท่ากับค่าคงที่ของพื้นที่ที่สอดคล้องกันในฟังก์ชั่นค่าคงที่ทีละชิ้น

เกี่ยวกับประเด็นแรกข้างต้นสิ่งนี้สามารถนำมาใช้เป็นคำแถลงว่า "ฟังก์ชั่นต่อเนื่องของชุดคอมแพคนั้นต่อเนื่องสม่ำเสมอ" สิ่งนี้หมายความว่าคุณคือคุณสามารถใช้ฟังก์ชั่นต่อเนื่องมากกว่าและข้อผิดพลาดเป้าหมายจากนั้นคุณสามารถจัดตารางที่ scale (สิ้นสุด ด้วยความหยาบ subcubes) เพื่อให้ฟังก์ชั่นที่คงที่ในแต่ละ subcube อยู่ภายในของฟังก์ชั่นเป้าหมาย ϵ > 0 [ 0 , 1 ] d τ > 0 ( 1 / τ ) d ϵ[0,1]dϵ>0[0,1]dτ>0(1/τ)dϵ

ตอนนี้โครงข่ายใยประสาทไม่สามารถแสดงตัวบ่งชี้ได้อย่างแม่นยำ แต่คุณสามารถเข้าใกล้ได้มาก สมมติว่า "ฟังก์ชันการถ่ายโอน" เป็น sigmoid (ฟังก์ชั่นการถ่ายโอนเป็นฟังก์ชั่นต่อเนื่องที่คุณใช้กับการรวมกันเชิงเส้นของอินพุตเพื่อรับค่าของโหนดเครือข่ายประสาทเทียม) จากนั้นการทำให้ตุ้มน้ำหนักมีขนาดใหญ่มากคุณจะได้ผลลัพธ์ที่ใกล้เคียงกับ 0 หรือใกล้กับ 1 สิ่งนี้สอดคล้องกับการพัฒนาของ Cybenko: สังเกตเห็นว่าเขาต้องการฟังก์ชั่นที่เกี่ยวข้องเท่ากับ 0 หรือ 1 ในขีด จำกัด : ตามคำจำกัดความของการ จำกัด คุณจะได้สิ่งที่ฉันกำลังพูดอย่างแน่นอนซึ่งหมายความว่าคุณผลักสิ่งต่าง ๆ โดยพลการ

(ฉันไม่สนใจฟังก์ชั่นการถ่ายโอนในเลเยอร์สุดท้ายถ้ามันอยู่ที่นั้นและมันต่อเนื่องเราสามารถใส่การแมปอะไรกับโดยแทนที่น้ำหนักคงที่ด้วยบางสิ่งในภาพผกผันของค่าคงที่ตามการถ่ายโอน ฟังก์ชั่น.)[0,1]

โปรดสังเกตว่าข้างต้นอาจใช้เลเยอร์สองชั้น: พูด 2 เพื่อสร้างตัวบ่งชี้บนคิวบ์และจากนั้นเลเยอร์เอาต์พุตสุดท้าย Cybenko พยายามจุดทั่วไปสองจุด: จำนวนเลเยอร์ที่ซ่อนอยู่น้อยที่สุดและความยืดหยุ่นในการเลือกฟังก์ชั่นการถ่ายโอน ฉันได้อธิบายไปแล้วว่าเขาทำงานได้อย่างไรกับความยืดหยุ่นในฟังก์ชั่นการถ่ายโอน

เพื่อให้ได้จำนวนเลเยอร์ขั้นต่ำเขาจะหลีกเลี่ยงการก่อสร้างด้านบนและใช้การวิเคราะห์เชิงหน้าที่เพื่อพัฒนาความขัดแย้ง นี่คือภาพร่างของการโต้แย้ง

  • โหนดสุดท้ายคำนวณชุดค่าผสมเชิงเส้นขององค์ประกอบของเลเยอร์ด้านล่างและใช้ฟังก์ชันการถ่ายโอนกับมัน ชุดค่าผสมเชิงเส้นนี้เป็นการรวมกันแบบเส้นตรงของฟังก์ชันและด้วยเหตุนี้เองจึงเป็นฟังก์ชันตัวหนึ่งฟังก์ชันภายในฟังก์ชันย่อยบางส่วนของหน้าที่ถูกขยายโดยโหนดที่เป็นไปได้ในชั้นที่ซ่อนอยู่

  • ฟังก์ชั่น subspace นั้นเหมือนกับ subspace แบบ จำกัด ขอบเขตทั่วไปซึ่งมีความแตกต่างที่สำคัญว่ามันอาจไม่ใช่ชุดปิด นั่นเป็นเหตุผลที่ข้อโต้แย้งของ cybenko ทั้งหมดปิดตัวลงในพื้นที่ย่อยนั้น เราพยายามพิสูจน์ว่าการปิดนี้มีฟังก์ชั่นต่อเนื่องทั้งหมด นั่นจะหมายถึงว่าเราอยู่ใกล้กับฟังก์ชั่นต่อเนื่องทั้งหมดโดยพลการ

  • หากพื้นที่ฟังก์ชั่นนั้นง่าย (พื้นที่ฮิลแบร์ต) เราสามารถโต้แย้งได้ดังนี้ เลือกฟังก์ชั่นเป้าหมายต่อเนื่องบางอย่างที่ขัดแย้งกันไม่ควรอยู่ในพื้นที่ย่อยและฉายภาพลงบนส่วนเสริมมุมฉากของพื้นที่ย่อย ส่วนที่เหลือนี้จะต้องไม่ใช่ศูนย์ แต่เนื่องจากพื้นที่ย่อยของเราสามารถแสดงสิ่งต่าง ๆ เช่นก้อนเล็ก ๆ เหล่านั้นด้านบนเราจึงสามารถหาพื้นที่บางส่วนของส่วนที่เหลือนี้ให้พอดีกับคิวบ์เล็กน้อยที่มัน (ดังกล่าวข้างต้น) และย้ายเข้าใกล้ฟังก์ชั่นเป้าหมายของเรา นี่คือความขัดแย้งเนื่องจากการคาดคะเนเลือกองค์ประกอบน้อยที่สุด (หมายเหตุฉันออกจากที่นี่: การโต้แย้งของ Cybenko ไม่ได้สร้างลูกบาศก์เล็ก ๆ น้อย ๆ เขาจัดการเรื่องนี้โดยทั่วไปเช่นกันนี่คือที่ที่เขาใช้ทฤษฎีบทการเป็นตัวแทน Riesz และคุณสมบัติของฟังก์ชันถ่ายโอน (ถ้าฉันจำได้ อย่างถูกต้องมีแทรกบทแทรกสำหรับขั้นตอนนี้

  • เราไม่ได้อยู่ในพื้นที่ของฮิลแบร์ต แต่เราสามารถใช้ทฤษฎีบทของฮาห์น - บานาคเพื่อแทนที่ขั้นตอนการฉายภาพด้านบน (หมายเหตุการพิสูจน์ว่าฮาห์น - บานาคใช้หลักการที่เป็นทางเลือก)

ตอนนี้ฉันอยากจะพูดบางสิ่งเกี่ยวกับผลลัพธ์ของ Kolmogorov แม้ว่าผลลัพธ์นี้ไม่ต้องการพื้นหลังของ Cybenko แต่โดยส่วนตัวฉันคิดว่ามันน่ากลัวกว่ามาก

O(d2)

โอเคดังนั้นทั้งหมดนี้สิ่งนี้เป็นไปได้อย่างไร!

ϵ>0τ>0

[0,1][0,1]dO(d2)RdRO(d2)

โปรดทราบว่าผลลัพธ์ของ Cybenko เนื่องจากการใช้ฟังก์ชั่นการถ่ายโอนเพียงประเภทเดียวมีความเกี่ยวข้องกับการเรียนรู้ของเครื่องมากกว่า ทฤษฎีของประเภทนี้เป็นเรื่องธรรมดามากในการเรียนรู้ของเครื่อง (vzn แนะนำสิ่งนี้ในคำตอบของเขาอย่างไรก็ตามเขาอ้างถึงผลลัพธ์ของ Kolmogorov ซึ่งไม่สามารถใช้งานได้เนื่องจากฟังก์ชั่นการถ่ายโอนที่กำหนดเอง; ผู้เขียนคนอื่น) แต่สิ่งเหล่านั้นยังเกี่ยวข้องกับ fractals และฟังก์ชั่นถ่ายโอนอย่างน้อยสองฟังก์ชั่น)

ฉันมีสไลด์บางเรื่องในหัวข้อเหล่านี้ซึ่งฉันสามารถโพสต์ได้หากคุณสนใจ (หวังว่าจะน้อยกว่าเสียงดังกว่าด้านบนและมีรูปภาพ; ฉันคิดว่าการพิสูจน์ทั้งสองนั้นดีมาก (นอกจากนี้ฉันยังมีคำตอบอื่นที่นี่ในหัวข้อเหล่านี้ แต่ฉันเขียนก่อนที่ฉันจะได้ผลของ Kolmogorov grokked)


1
ABϕfA:ϕ(f)1gB:ϕ(g)>1
Sasho Nikolov

3
SfSLL(g)=0gSL(f)=fL(f)ในฐานะที่เป็นส่วนประกอบที่เกี่ยวกับการวัดที่ลงนามบางส่วน แต่สิ่งนี้เสร็จสิ้นการพิสูจน์เนื่องจากเงื่อนไขของ Cybenko ในฟังก์ชั่นการถ่ายโอน (ดำเนินการในความคิดเห็นถัดไป)
matus

3
@SashoNikolov เงื่อนไขของ Cybenko คือการที่ได้รับการลงนามใด ๆ ที่วัดไม่เป็นศูนย์มีฟังก์ชั่นเลียนแบบบางส่วนเพื่อให้การรวมฟังก์ชั่นการถ่ายโอนที่ประกอบด้วยฟังก์ชั่นเลียนแบบนั้นผ่านการวัดนั้นไม่เท่ากับศูนย์ จากนั้นเขาก็ต้องพิสูจน์บทแทรกที่ sigmoids ทั่วไป (ตามที่ฉันให้ไว้ข้างต้น: จำกัด ที่ 0 และ 1 ทางด้านซ้ายและขวา) พอดีกับบิล (ดำเนินการต่อในความคิดเห็นถัดไป)
matus

2
@SashoNikolov ข้างต้นฉันพูดว่า "plopping ก้อนตามส่วนที่เหลือ" สิ่งนี้จะทำให้งานของเราง่ายขึ้นเล็กน้อยเนื่องจากการวัดที่ลงนามแล้วนั้นไม่ได้เป็นศูนย์เลยเราก็จะหยิบชิ้นเล็ก ๆ ออกมาและทำเครื่องหมายที่นั่น ในกรณีของเขาเขาต้องทำงานนิดหน่อย แต่ในทำนองเดียวกันสิ่งนี้ทำให้เกิดการเคลื่อนไปรอบ ๆ sigmoid ด้วยฟังก์ชั่นเลียนแบบเพื่อให้พบว่ามีบางพื้นที่ที่ง่าย ; ในความหมายของฮิลแบร์ตเราลดความขัดแย้งที่เหลือ
matus

1
ว้าวนี่เป็นคำตอบที่ดีมาก โดยธรรมชาติฉันมีคำถามสองสามข้อถ้าคุณไม่รังเกียจที่จะตอบคำถามเหล่านั้น ผลลัพธ์ของ Cybenko (ตามที่คุณพูด) ดูเหมือนว่ามีประโยชน์มากที่สุดสำหรับแอปพลิเคชัน แต่ฉันได้รับความเสียหายเล็กน้อยเกี่ยวกับฟังก์ชั่นย่อยของฟังก์ชั่น เราจะฉายฟังก์ชันต่อเนื่องตามอำเภอใจบนส่วนประกอบย่อยมุมฉากของการรวมเชิงเส้นของโหนดที่เป็นไปได้ได้อย่างไร สำหรับเรื่องนั้นเราจะสร้างแนวความคิดเกี่ยวกับคำชมมุมฉากของพื้นที่ย่อยนั้นอย่างไร ฟังก์ชั่นที่ใกล้ชิดในอวกาศใกล้เคียงกันมากขึ้นหรือไม่? (ต่อ)
Matt Munson

3

มีผลลัพธ์ขั้นสูง, กุญแจสู่การเรียนรู้ของเครื่อง, เป็นที่รู้จักในชื่อทฤษฎีบทของ Kolmogorov [1]; ฉันไม่เคยเห็นภาพร่างที่เข้าใจง่ายว่าทำไมมันถึงได้ผล สิ่งนี้อาจเกี่ยวข้องกับวัฒนธรรมที่แตกต่างกัน ฝูงชนการเรียนรู้ที่ประยุกต์ใช้เกี่ยวกับทฤษฎีบทของ Kolmogorov ในฐานะทฤษฎีบทการดำรงอยู่ซึ่งบ่งชี้ว่า NNs อาจมีอยู่ดังนั้นอย่างน้อยโครงสร้างไม่ จำกัด มากเกินไป แต่ทฤษฎีนี้ไม่ได้รับประกันว่า NNs เหล่านี้จะพบได้ นักคณิตศาสตร์ไม่เกี่ยวข้องกับการประยุกต์ใช้ทฤษฎีบทระดับต่ำ

ทฤษฎีบทนี้ยังใช้ในอดีตเพื่อเรียกร้อง / ปกป้องความซับซ้อนโดยธรรมชาติของมัลติเลเยอร์ NNs เพื่อตอบโต้คำวิจารณ์จากPerceptrons (Minsky / Papert) ว่ามีฟังก์ชั่นพื้นฐาน [นั่นคือไม่เชิงเส้น] ที่พวกเขาไม่สามารถเรียนรู้

นักวิทยาศาสตร์คอมพิวเตอร์เชิงทฤษฎีไม่ชอบที่จะมองว่า NN เป็น"การประมาณค่า"เนื่องจากคำนั้นมีความหมายพิเศษ / แตกต่างกัน อาจจะมีการเปรียบเทียบคร่าวๆกับการประมาณค่าเชิงเส้นแบบทวนเข็มแต่อีกครั้งฉันไม่เห็นว่ามันถูกวาง

[1] Kolmogorov, AN (1957) ในการเป็นตัวแทนของฟังก์ชั่นต่อเนื่องของตัวแปรจำนวนมากโดยการทับซ้อนของฟังก์ชั่นต่อเนื่องของตัวแปรเดียวและนอกจากนี้ Doklady Akademii Nauk SSSR, 144, 679-681; การแปลสังคมคณิตศาสตร์อเมริกัน, 28, 55-59 [1963]

[2] 2.3 ความสามารถในการประมาณค่าของโครงข่ายประสาทเทียมไปข้างหน้าสำหรับฟังก์ชั่นต่อเนื่อง

[3] ทฤษฎีบทของ Kolmogorov และโครงข่ายประสาทหลายชั้น Kurkova



"ผลลัพธ์ขั้นสูง [... ] นี้ไม่ได้เห็นภาพร่างที่เข้าใจง่ายว่าทำไมจึงใช้งานได้" ภาพร่างดังกล่าวจะเป็นงานที่สำคัญสำหรับบางคนในฝูงชนคณิตศาสตร์ขั้นสูงหรือไม่? คนคณิตศาสตร์ขั้นสูงเข้าใจด้วยสัญชาตญาณว่าทำไมมันถึงได้ผล? ดูเหมือนว่าความเข้าใจที่เข้าใจง่ายของทฤษฎีบทนี้เป็นสิ่งที่ฝูงชนการเรียนรู้ประยุกต์ควรปรารถนาอย่างยิ่งหากพวกเขาจะต้องสร้างทอพอโลยีที่เหนือกว่าและอัลกอริทึมการเรียนรู้สำหรับ ANNs
Matt Munson

7
แก้ไขสำหรับไวยากรณ์การสะกดเครื่องหมายวรรคตอนและการใช้อักษรตัวพิมพ์ใหญ่
Jeffε
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.