ผลลัพธ์ของ Cybenko นั้นค่อนข้างใช้งานง่ายเพราะฉันหวังว่าจะสื่อด้านล่าง; สิ่งที่ทำให้สิ่งต่าง ๆ ยุ่งยากมากขึ้นคือเขาตั้งเป้าหมายทั้งเพื่อความเป็นอยู่ทั่วไปและเลเยอร์ที่ซ่อนอยู่จำนวนน้อยที่สุด ผลของ Kolmogorov (เอ่ยถึงโดย vzn) ในความเป็นจริงประสบความสำเร็จในการรับประกันที่แข็งแกร่ง แต่ค่อนข้างน้อยที่เกี่ยวข้องกับการเรียนรู้ของเครื่อง (โดยเฉพาะอย่างยิ่งมันไม่ได้สร้างมาตรฐานโครงข่ายประสาทเทียม ผลลัพธ์ในทางกลับกันนี้น่ากลัวเนื่องจากบนพื้นผิวมันเป็นเพียง 3 หน้าที่บันทึกข้อ จำกัด บางอย่างและฟังก์ชั่นต่อเนื่อง แต่ในความเป็นจริงมันกำลังสร้างชุดของเศษส่วน ในขณะที่ผลลัพธ์ของ Cybenko นั้นผิดปกติและน่าสนใจมากเนื่องจากเทคนิคที่เขาใช้อย่างแม่นยำผลลัพธ์ของรสชาตินั้นถูกนำมาใช้อย่างกว้างขวางในการเรียนรู้ของเครื่อง (และฉันสามารถชี้คุณไปยังผู้อื่น)
นี่คือสรุประดับสูงว่าทำไมผลของ Cybenko ควรถือ
- ฟังก์ชั่นต่อเนื่องในชุดกะทัดรัดสามารถประมาณได้ด้วยฟังก์ชั่นค่าคงที่ทีละชิ้น
- ฟังก์ชั่นค่าคงที่แบบชิ้นเดียวสามารถแสดงเป็นตาข่ายประสาทได้ดังนี้ สำหรับแต่ละภูมิภาคที่ฟังก์ชันคงที่ให้ใช้ตาข่ายประสาทเป็นฟังก์ชันตัวบ่งชี้สำหรับภูมิภาคนั้น จากนั้นสร้างเลเยอร์สุดท้ายด้วยโหนดเดียวซึ่งการรวมกันของอินพุตเชิงเส้นคือผลรวมของตัวบ่งชี้ทั้งหมดโดยมีน้ำหนักเท่ากับค่าคงที่ของพื้นที่ที่สอดคล้องกันในฟังก์ชั่นค่าคงที่ทีละชิ้น
เกี่ยวกับประเด็นแรกข้างต้นสิ่งนี้สามารถนำมาใช้เป็นคำแถลงว่า "ฟังก์ชั่นต่อเนื่องของชุดคอมแพคนั้นต่อเนื่องสม่ำเสมอ" สิ่งนี้หมายความว่าคุณคือคุณสามารถใช้ฟังก์ชั่นต่อเนื่องมากกว่าและข้อผิดพลาดเป้าหมายจากนั้นคุณสามารถจัดตารางที่ scale (สิ้นสุด ด้วยความหยาบ subcubes) เพื่อให้ฟังก์ชั่นที่คงที่ในแต่ละ subcube อยู่ภายในของฟังก์ชั่นเป้าหมาย ϵ > 0 [ 0 , 1 ] d τ > 0 ( 1 / τ ) d ϵ[ 0 , 1 ]dϵ > 0[ 0 , 1 ]dτ> 0( 1 / τ)dε
ตอนนี้โครงข่ายใยประสาทไม่สามารถแสดงตัวบ่งชี้ได้อย่างแม่นยำ แต่คุณสามารถเข้าใกล้ได้มาก สมมติว่า "ฟังก์ชันการถ่ายโอน" เป็น sigmoid (ฟังก์ชั่นการถ่ายโอนเป็นฟังก์ชั่นต่อเนื่องที่คุณใช้กับการรวมกันเชิงเส้นของอินพุตเพื่อรับค่าของโหนดเครือข่ายประสาทเทียม) จากนั้นการทำให้ตุ้มน้ำหนักมีขนาดใหญ่มากคุณจะได้ผลลัพธ์ที่ใกล้เคียงกับ 0 หรือใกล้กับ 1 สิ่งนี้สอดคล้องกับการพัฒนาของ Cybenko: สังเกตเห็นว่าเขาต้องการฟังก์ชั่นที่เกี่ยวข้องเท่ากับ 0 หรือ 1 ในขีด จำกัด : ตามคำจำกัดความของการ จำกัด คุณจะได้สิ่งที่ฉันกำลังพูดอย่างแน่นอนซึ่งหมายความว่าคุณผลักสิ่งต่าง ๆ โดยพลการ
(ฉันไม่สนใจฟังก์ชั่นการถ่ายโอนในเลเยอร์สุดท้ายถ้ามันอยู่ที่นั้นและมันต่อเนื่องเราสามารถใส่การแมปอะไรกับโดยแทนที่น้ำหนักคงที่ด้วยบางสิ่งในภาพผกผันของค่าคงที่ตามการถ่ายโอน ฟังก์ชั่น.)[ 0 , 1 ]
โปรดสังเกตว่าข้างต้นอาจใช้เลเยอร์สองชั้น: พูด 2 เพื่อสร้างตัวบ่งชี้บนคิวบ์และจากนั้นเลเยอร์เอาต์พุตสุดท้าย Cybenko พยายามจุดทั่วไปสองจุด: จำนวนเลเยอร์ที่ซ่อนอยู่น้อยที่สุดและความยืดหยุ่นในการเลือกฟังก์ชั่นการถ่ายโอน ฉันได้อธิบายไปแล้วว่าเขาทำงานได้อย่างไรกับความยืดหยุ่นในฟังก์ชั่นการถ่ายโอน
เพื่อให้ได้จำนวนเลเยอร์ขั้นต่ำเขาจะหลีกเลี่ยงการก่อสร้างด้านบนและใช้การวิเคราะห์เชิงหน้าที่เพื่อพัฒนาความขัดแย้ง นี่คือภาพร่างของการโต้แย้ง
โหนดสุดท้ายคำนวณชุดค่าผสมเชิงเส้นขององค์ประกอบของเลเยอร์ด้านล่างและใช้ฟังก์ชันการถ่ายโอนกับมัน ชุดค่าผสมเชิงเส้นนี้เป็นการรวมกันแบบเส้นตรงของฟังก์ชันและด้วยเหตุนี้เองจึงเป็นฟังก์ชันตัวหนึ่งฟังก์ชันภายในฟังก์ชันย่อยบางส่วนของหน้าที่ถูกขยายโดยโหนดที่เป็นไปได้ในชั้นที่ซ่อนอยู่
ฟังก์ชั่น subspace นั้นเหมือนกับ subspace แบบ จำกัด ขอบเขตทั่วไปซึ่งมีความแตกต่างที่สำคัญว่ามันอาจไม่ใช่ชุดปิด นั่นเป็นเหตุผลที่ข้อโต้แย้งของ cybenko ทั้งหมดปิดตัวลงในพื้นที่ย่อยนั้น เราพยายามพิสูจน์ว่าการปิดนี้มีฟังก์ชั่นต่อเนื่องทั้งหมด นั่นจะหมายถึงว่าเราอยู่ใกล้กับฟังก์ชั่นต่อเนื่องทั้งหมดโดยพลการ
หากพื้นที่ฟังก์ชั่นนั้นง่าย (พื้นที่ฮิลแบร์ต) เราสามารถโต้แย้งได้ดังนี้ เลือกฟังก์ชั่นเป้าหมายต่อเนื่องบางอย่างที่ขัดแย้งกันไม่ควรอยู่ในพื้นที่ย่อยและฉายภาพลงบนส่วนเสริมมุมฉากของพื้นที่ย่อย ส่วนที่เหลือนี้จะต้องไม่ใช่ศูนย์ แต่เนื่องจากพื้นที่ย่อยของเราสามารถแสดงสิ่งต่าง ๆ เช่นก้อนเล็ก ๆ เหล่านั้นด้านบนเราจึงสามารถหาพื้นที่บางส่วนของส่วนที่เหลือนี้ให้พอดีกับคิวบ์เล็กน้อยที่มัน (ดังกล่าวข้างต้น) และย้ายเข้าใกล้ฟังก์ชั่นเป้าหมายของเรา นี่คือความขัดแย้งเนื่องจากการคาดคะเนเลือกองค์ประกอบน้อยที่สุด (หมายเหตุฉันออกจากที่นี่: การโต้แย้งของ Cybenko ไม่ได้สร้างลูกบาศก์เล็ก ๆ น้อย ๆ เขาจัดการเรื่องนี้โดยทั่วไปเช่นกันนี่คือที่ที่เขาใช้ทฤษฎีบทการเป็นตัวแทน Riesz และคุณสมบัติของฟังก์ชันถ่ายโอน (ถ้าฉันจำได้ อย่างถูกต้องมีแทรกบทแทรกสำหรับขั้นตอนนี้
เราไม่ได้อยู่ในพื้นที่ของฮิลแบร์ต แต่เราสามารถใช้ทฤษฎีบทของฮาห์น - บานาคเพื่อแทนที่ขั้นตอนการฉายภาพด้านบน (หมายเหตุการพิสูจน์ว่าฮาห์น - บานาคใช้หลักการที่เป็นทางเลือก)
ตอนนี้ฉันอยากจะพูดบางสิ่งเกี่ยวกับผลลัพธ์ของ Kolmogorov แม้ว่าผลลัพธ์นี้ไม่ต้องการพื้นหลังของ Cybenko แต่โดยส่วนตัวฉันคิดว่ามันน่ากลัวกว่ามาก
O ( d2)
โอเคดังนั้นทั้งหมดนี้สิ่งนี้เป็นไปได้อย่างไร!
ϵ > 0τ> 0
[ 0 , 1 ][0,1]dO(d2)RdRO(d2)
โปรดทราบว่าผลลัพธ์ของ Cybenko เนื่องจากการใช้ฟังก์ชั่นการถ่ายโอนเพียงประเภทเดียวมีความเกี่ยวข้องกับการเรียนรู้ของเครื่องมากกว่า ทฤษฎีของประเภทนี้เป็นเรื่องธรรมดามากในการเรียนรู้ของเครื่อง (vzn แนะนำสิ่งนี้ในคำตอบของเขาอย่างไรก็ตามเขาอ้างถึงผลลัพธ์ของ Kolmogorov ซึ่งไม่สามารถใช้งานได้เนื่องจากฟังก์ชั่นการถ่ายโอนที่กำหนดเอง; ผู้เขียนคนอื่น) แต่สิ่งเหล่านั้นยังเกี่ยวข้องกับ fractals และฟังก์ชั่นถ่ายโอนอย่างน้อยสองฟังก์ชั่น)
ฉันมีสไลด์บางเรื่องในหัวข้อเหล่านี้ซึ่งฉันสามารถโพสต์ได้หากคุณสนใจ (หวังว่าจะน้อยกว่าเสียงดังกว่าด้านบนและมีรูปภาพ; ฉันคิดว่าการพิสูจน์ทั้งสองนั้นดีมาก (นอกจากนี้ฉันยังมีคำตอบอื่นที่นี่ในหัวข้อเหล่านี้ แต่ฉันเขียนก่อนที่ฉันจะได้ผลของ Kolmogorov grokked)