ทำไมการเรียนรู้แบบเจาะลึกถึงแม้จะมีมิติ VC ไม่ดีล่ะ


86

สูตรVapnik – Chervonenkis (VC) -สำหรับเครือข่ายประสาทเทียมมีตั้งแต่ถึงโดยมีในกรณีที่แย่ที่สุดโดยที่คือจำนวนขอบและคือจำนวนโหนด จำนวนตัวอย่างการฝึกอบรมที่จำเป็นต้องมีการรับรองที่แข็งแกร่งของการวางนัยทั่วไปเป็นเส้นตรงกับมิติ VCO(E)O(E2)O(E2V2)EV

ซึ่งหมายความว่าสำหรับเครือข่ายที่มีขอบเป็นพันล้านเช่นเดียวกับในกรณีของโมเดลการเรียนรู้ลึกที่ประสบความสำเร็จชุดข้อมูลการฝึกอบรมนั้นต้องการตัวอย่างการฝึกอบรมนับพันล้านตัวอย่างในกรณีที่ดีที่สุดเพื่อ quadrillions ในกรณีที่แย่ที่สุด ชุดฝึกอบรมที่ใหญ่ที่สุดในปัจจุบันมีตัวอย่างประมาณหนึ่งแสนล้านตัวอย่าง เนื่องจากมีข้อมูลการฝึกอบรมไม่เพียงพอจึงไม่น่าเป็นไปได้ที่รูปแบบการเรียนรู้เชิงลึกจะเป็นเรื่องทั่วไป แต่พวกเขากำลังเตรียมข้อมูลการฝึกอบรมมากเกินไป ซึ่งหมายความว่าโมเดลจะทำงานได้ไม่ดีกับข้อมูลที่ไม่เหมือนกันกับข้อมูลการฝึกอบรมซึ่งเป็นคุณสมบัติที่ไม่พึงประสงค์สำหรับการเรียนรู้ของเครื่อง

เนื่องจากการวิเคราะห์เชิงลึกของ VC ไม่สามารถให้การเรียนรู้ที่ลึกเกินจริงได้ การมีความแม่นยำสูงในชุดข้อมูลบางส่วนนั้นไม่ได้มีความหมายมากนัก มีบางสิ่งที่พิเศษเกี่ยวกับสถาปัตยกรรมการเรียนรู้ลึกที่ลดมิติ VC ลงอย่างมากหรือไม่?

หากคุณไม่คิดว่าการวิเคราะห์มิติ VC มีความเกี่ยวข้องโปรดแสดงหลักฐาน / คำอธิบายว่าการเรียนรู้อย่างลึกซึ้งนั้นเป็นเรื่องทั่วไปและไม่ได้ทำให้เกินกำลัง คือมันมีการเรียกคืนที่ดีและมีความแม่นยำหรือเพียงแค่การเรียกคืนที่ดี? การเรียกคืน 100% นั้นง่ายมากที่จะบรรลุเช่นเดียวกับความแม่นยำ 100% การเข้าใกล้ทั้ง 100% นั้นยากมาก

เป็นตัวอย่างที่ตรงกันข้ามนี่เป็นหลักฐานที่แสดงว่าการเรียนรู้ลึก overfitting ตัวแบบ overfit นั้นง่ายที่จะหลอกเพราะมันได้รวมเสียงรบกวนที่กำหนดไว้ ดูภาพต่อไปนี้สำหรับตัวอย่างการ overfitting

ตัวอย่างของ underfitting, fitting และ overfitting

นอกจากนี้โปรดดูคำตอบที่มีอันดับต่ำกว่าสำหรับคำถามนี้เพื่อทำความเข้าใจปัญหาของตัวแบบ overfit แม้จะมีความแม่นยำในข้อมูลการทดสอบ

บางคนตอบว่าการทำให้เป็นมาตรฐานช่วยแก้ปัญหามิติ VC ขนาดใหญ่ ดูคำถามนี้สำหรับการอภิปรายเพิ่มเติม


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
DW

7
ฉันไม่คิดคำถามว่าทำไม "ไฮเปอร์" ถึงดี คำตอบคือ "เพราะคน" ผู้คนให้ความสนใจในสิ่งต่าง ๆ เนื่องจากเหตุผลมากมายรวมถึงการตลาด
luk32

การเรียนรู้อย่างลึกซึ้งในทางปฏิบัติ อาจเป็นเรื่องที่มากเกินไป มันอาจไม่ยุติธรรมอย่างสมบูรณ์ มันอาจเป็นการเรียนรู้ความลับของจักรวาลจากเทพ eldritch แต่โฆษณาก็มาจากผู้ปฏิบัติงานที่สามารถเขียนโค้ดได้ 30 บรรทัดและสอนให้กล้องทำการสแกนลายเซ็นและจับคู่กับลายเซ็นที่เก็บไว้เพื่อตรวจสอบการทำธุรกรรมของธนาคาร หรือแท็กคนที่ไม่รู้จักในรูปภาพ ฯลฯ คุณอาจเคยได้ยินคำว่า "มันไม่ได้ดูถูกถ้ามันเป็นเรื่องจริง"? ก็ไม่ได้โฆษณาถ้ามันใช้งานได้ มีปัญหามากมายที่ใช้ไม่ได้และขัดต่อโฆษณายอดนิยมที่มากเกินไป แต่มันใช้งานได้ในชีวิตจริง
Stella Biderman

@StellaBiderman ความสะดวกในการใช้เครื่องมือรอบ ๆ เทคนิคการเรียนรู้ของเครื่องมาตรฐานเป็นสิ่งที่ดีและทั้งหมด แต่ความสนใจนั้นดูเหมือนจะเกี่ยวข้องกับความสามารถในการเรียนรู้ของ DNN ที่อาจแข่งขันกับความสามารถของมนุษย์ซึ่งดูเหมือนจะเกินความจริงเนื่องจากการวิเคราะห์ VC ของโมเดล มิติ VC ที่สูงเช่นนี้แสดงถึงโมเดลที่จะไม่พูดคุยและแทนที่จะจำชุดข้อมูลทำให้พวกเขาเปราะบางมาก เอกสารตัวอย่างของฝ่ายตรงข้ามทั้งหมดแสดงให้เห็นถึงจุดนี้
yters

@gerrit ฉันไม่แน่ใจว่าการแก้ไขนั้นมีประโยชน์ทั้งหมด ฉันพนันได้เลยว่าผู้คนจำนวนมากรู้ว่ามิติของ VC คืออะไรมากกว่าที่จะรู้ว่ามันคืออะไร
David Richerby

คำตอบ:


75

"ถ้าแผนที่และภูมิประเทศไม่เห็นด้วยจงวางใจภูมิประเทศ"

มันไม่เข้าใจจริง ๆ ว่าทำไมการเรียนรู้อย่างลึกซึ้งก็ใช้งานได้ดีเช่นกัน แต่แน่นอนว่าแนวคิดแบบเก่าจากทฤษฎีการเรียนรู้เช่นมิติ VC ดูเหมือนจะไม่เป็นประโยชน์มากนัก

มีการถกเถียงกันอย่างถึงพริกถึงขิงดูเช่น:

เกี่ยวกับปัญหาของตัวอย่างฝ่ายตรงข้ามพบปัญหาใน:

  • ซี Szegedy วชิรหลิวเจียวายพี Sermanet เอส Reed, D. Anguelov, D. Erhan โวลต์ Vanhoucke เอ Rabinovich, Going ลึกกับ convolutions

มันมีการพัฒนาต่อไปใน:

มีงานติดตามมากมาย


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
DW

เมื่อคุณพูดว่า "มีงานติดตามมากมาย" คุณอ้างถึงเอกสารล่าสุดของปี 2014? เอกสารสองฉบับแรกที่คุณพูดถึงค่อนข้างล่าสุด คุณช่วยอัพเดตเอกสารที่คุณอ้างถึงได้ไหม
VF1

2
แรง +1 สำหรับ "หากแผนที่และภูมิประเทศไม่เห็นด้วยจงวางใจภูมิประเทศ" แบบจำลองนั้นใช้งานได้ดีมากในทางปฏิบัติโดยไม่คำนึงว่าจะบอกว่าควรจะใช้คณิตศาสตร์หรือไม่ จากมุมมองทางวิทยาศาสตร์สิ่งนี้เกิดขึ้นตลอดเวลาและหากมีสิ่งใดที่ทำให้ปัญหาน่าสนใจยิ่งขึ้น ไม่มีใครอ่านงานของ Razborov และ Rudich เกี่ยวกับ Natural Proofs และไปได้ "ดีฉันเดาว่า P vs NP ไม่ใช่คำถามที่น่าสนใจเลย" พวกเขาไปแล้วคิดว่าอาจเป็นไปได้ที่จะใช้เรขาคณิตเชิงพีชคณิตเพื่อทำทฤษฎีความซับซ้อน จากมุมมองของวิทยาศาสตร์ปัญหาที่อยู่เหนือความเข้าใจของเรานั้นดีขึ้นไม่แย่ลง
Stella Biderman

65

"ได้รับการไร้ความสามารถของการเรียนรู้ที่ลึกที่จะพูดคุยตามการวิเคราะห์มิติ VC [... ]"

ไม่นั่นไม่ใช่สิ่งที่การวิเคราะห์เชิงมิติของ VC บอกไว้ การวิเคราะห์เชิงมิติของ VC ให้เงื่อนไขที่เพียงพอภายใต้การรับรองทั่วไป แต่การสนทนาไม่จำเป็นต้องเป็นเช่นนั้น แม้ว่าคุณจะล้มเหลวในการปฏิบัติตามเงื่อนไขเหล่านั้นวิธีการ ML อาจยังคงสรุป

ใส่อีกวิธีหนึ่ง: การเรียนรู้อย่างลึกซึ้งยิ่งกว่าการวิเคราะห์เชิงมิติของ VC จะทำให้คุณคาดหวัง (ดีกว่าการวิเคราะห์ VC "การทำนาย") นั่นเป็นข้อบกพร่องของการวิเคราะห์เชิงมิติของ VC ไม่ใช่ข้อบกพร่องของการเรียนรู้อย่างลึกซึ้ง ไม่ได้หมายความว่าการเรียนรู้ที่ลึกซึ้งนั้นมีข้อบกพร่อง ค่อนข้างหมายความว่าเราไม่รู้ว่าทำไมการเรียนรู้ลึก - และการวิเคราะห์ VC ไม่สามารถให้ข้อมูลเชิงลึกที่เป็นประโยชน์ใด ๆ

มิติ VC สูงไม่ได้หมายความว่าการเรียนรู้อย่างลึกซึ้งสามารถถูกหลอกได้ มิติ VC สูงไม่รับประกันอะไรเลยว่ามันจะถูกหลอกในสถานการณ์จริงหรือไม่ มิติ VC ให้ขอบเขตกรณีเดียวที่เลวร้ายที่สุด: หากคุณปฏิบัติตามเงื่อนไขเหล่านี้สิ่งดี ๆ ก็เกิดขึ้น แต่ถ้าคุณไม่ปฏิบัติตามเงื่อนไขเหล่านี้เราไม่รู้ว่าจะเกิดอะไรขึ้น (อาจเป็นสิ่งที่ดีที่จะเกิดขึ้นต่อไปถ้า ธรรมชาติทำงานได้ดีกว่ากรณีที่เลวร้ายที่สุดที่เป็นไปได้การวิเคราะห์ VC ไม่ได้สัญญาว่าสิ่งที่ดีไม่สามารถ / จะไม่เกิดขึ้น)

อาจเป็นไปได้ว่ามิติ VC ของโมเดลพื้นที่มีขนาดใหญ่ (มีรูปแบบที่ซับซ้อนมากที่สุดเท่าที่จะเป็นไปได้) แต่ธรรมชาติอธิบายได้ด้วยรูปแบบที่เรียบง่ายและอัลกอริทึม ML เรียนรู้รูปแบบที่เรียบง่ายในธรรมชาติ - ในกรณีนี้มิติ VC จะสูง แต่ตัวแบบจะสรุป (สำหรับรูปแบบเฉพาะที่มีอยู่ในธรรมชาติ)

ที่กล่าวว่า ... มีหลักฐานเพิ่มขึ้นว่าการเรียนรู้อย่างลึกซึ้งสามารถถูกหลอกได้โดยตัวอย่างฝ่ายตรงข้าม แต่ระวังเรื่องห่วงโซ่การให้เหตุผลของคุณ ข้อสรุปที่คุณกำลังวาดไม่ได้ติดตามจากสถานที่ที่คุณเริ่มต้น


6
มิติ VC สูงหมายความว่าเป็นการยากที่จะพูดคุยทั่วไป (ในบางแง่มุมอย่างน้อยเมื่อจัดการกับการแจกแจงโดยพลการ) ข้อผิดพลาดทั่วไปที่ต่ำกว่าที่ถูกผูกไว้ว่าหมายความว่าสำหรับจำนวนของกลุ่มตัวอย่างขนาดเล็กเมื่อเทียบกับมิติ VC มีอยู่กระจายดังกล่าวว่าเมื่อเทียบกับมันขั้นตอนวิธีการใด ๆ จะพบข้อผิดพลาดการวางนัยทั่วไปสูง (มีความน่าจะเป็นสูง) Ω(dn)
Ariel

5
-1 สำหรับ "มิติ VC สูงไม่รับประกันอะไรเลย" สิ่งนี้ไม่เป็นความจริง: มิติข้อมูล VC สูงแสดงถึงความซับซ้อนของตัวอย่างที่ต่ำกว่าสำหรับการเรียนรู้ PAC คำตอบที่ดีควรจัดการกับการแจกแจงที่เลวร้ายที่สุดเทียบกับ "ชีวิตจริง"
Sasho Nikolov

1
@SashoNikolov จุดดี - ขอบคุณ! แก้ไข
DW

โพสต์นี้มีการตรวจสอบคุณภาพต่ำ เนื้อหาความยาวคะแนนและคุณภาพที่กำหนดนี่เป็นเรื่องไร้สาระชี้ที่นี่ แต่อาจต้องใช้เมตาเพราะมีบางอย่างผิดปกติ
Evil

23

คนอุตสาหกรรมไม่คำนึงถึงมิติ VC, นักเลง ...

ในบันทึกที่จริงจังยิ่งขึ้นถึงแม้ว่าแบบจำลอง PAC เป็นวิธีที่สง่างามในการคิดเกี่ยวกับการเรียนรู้ (ในความคิดของฉันอย่างน้อย) และมีความซับซ้อนเพียงพอที่จะทำให้เกิดแนวคิดและคำถามที่น่าสนใจ (เช่นมิติ VC และการเชื่อมต่อ มีน้อยมากที่จะทำกับสถานการณ์ในชีวิตจริง

โปรดจำไว้ว่าในรูปแบบ PAC คุณจำเป็นต้องจัดการกับการแจกแจงโดยพลการซึ่งหมายความว่าอัลกอริทึมของคุณควรจัดการกับการแจกแจงแบบผู้เป็นปฏิปักษ์ เมื่อพยายามที่จะเรียนรู้ปรากฏการณ์บางอย่างในโลกแห่งความเป็นจริงไม่มีใครให้ "ข้อมูลที่เป็นปฏิปักษ์" กับคุณเพื่อทำให้ผลลัพธ์ของคุณยุ่งเหยิงดังนั้นการกำหนดคลาสแนวคิดเป็น PAC ที่สามารถเรียนรู้ได้อาจรุนแรงเกินไป บางครั้งคุณสามารถเชื่อมโยงข้อผิดพลาดการวางนัยทั่วไปเป็นอิสระจากมิติ VC สำหรับคลาสการแจกแจงเฉพาะ นี่เป็นกรณีของขอบเขตมาร์จิ้นซึ่งจัดทำขึ้นอย่างเป็นอิสระจากมิติข้อมูล VC พวกเขาสามารถสัญญาว่าจะมีข้อผิดพลาดในการวางนัยทั่วไปน้อยถ้าคุณสามารถรับประกันกำไรขั้นต้นที่สูง (ซึ่งแน่นอนไม่สามารถเกิดขึ้นได้สำหรับการแจกแจงทั้งหมดเช่นใช้จุดปิดสองจุดบนระนาบที่มีแท็กตรงข้าม

ดังนั้นการวางโมเดล PAC และมิติ VC ไว้ข้างๆฉันคิดว่า hype นั้นมาจากข้อเท็จจริงที่ว่าพวกเขาดูเหมือนจะทำงานและประสบความสำเร็จในงานที่ไม่สามารถทำได้ก่อนหน้านี้ (หนึ่งในความสำเร็จล่าสุดที่นึกถึงคือ AlphaGo) ฉันรู้น้อยมากเกี่ยวกับอวนประสาทดังนั้นฉันหวังว่าคนที่มีประสบการณ์มากขึ้นจะขว้างเข้าไป แต่ความรู้ของฉันยังไม่มีหลักประกันที่ดี (แน่นอนไม่เหมือนใน PAC model) บางทีภายใต้สมมติฐานที่ถูกต้องเราสามารถพิสูจน์ความสำเร็จของอวนประสาทอย่างเป็นทางการ (ฉันคิดว่ามีงานเกี่ยวกับการรักษาทางการของอวนและ "การเรียนรู้ลึก" อย่างเป็นทางการดังนั้นฉันหวังว่าผู้คนที่มีความรู้มากขึ้น .


ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
DW

15

เมื่อไม่สามารถที่จะเรียนรู้ลึกเพื่อพูดคุย

ฉันไม่รู้ว่าคุณรับมาจากไหน สังเกตุเห็นได้ชัดว่าเป็นลักษณะทั่วไปคะแนน (เช่นความถูกต้อง) ในข้อมูลที่มองไม่เห็น

คำตอบที่ว่าทำไม CNNs ถูกนำมาใช้เป็นเรื่องง่าย: CNNs ทำงานได้ดีกว่าสิ่งอื่น ดูตัวอย่าง ImageNet 2012:

  • ซีเอ็นเอ็น: 15.315% (นั่นเป็นตัวอย่างแรกซีเอ็นเอ็นดีกว่าตอนนี้มากที่ข้อผิดพลาดประมาณ 4% 5 อันดับแรก)
  • สุดยอดไม่ใช่ CNN: 26.172% Top-5-error ( แหล่งที่มา - ขึ้นอยู่กับเทคนิคความรู้ของฉันที่ไม่ได้ใช้ CNNs ไม่ได้รับข้อผิดพลาด 25% จาก 5 อันดับสูงสุด)

สร้างลักษณนามที่ดีกว่าและผู้คนจะเปลี่ยนไป

UPDATE: ฉันจะให้รางวัลคำตอบกับทุกคนที่ให้หลักฐานที่ตีพิมพ์ว่าการเรียนรู้ด้วยเครื่องจักรโดยทั่วไปนั้นถูกหลอกได้ง่ายเช่นเดียวกับหลักฐานการเรียนรู้ลึก

กรณีนี้ไม่ได้. คุณสามารถสร้างตัวจําแนกซึ่งเป็นเรื่องง่ายมากในชุดข้อมูลที่เรียบง่าย มันเป็นไปไม่ได้ที่จะหลอกมัน (มันไม่สำคัญว่า "ง่าย" หมายถึงอะไร) แต่มันก็ไม่น่าสนใจ


3
ข้อผิดพลาดต่ำไม่ได้หมายความถึงการวางนัยทั่วไป มันเป็นเงื่อนไขที่จำเป็น แต่ไม่เพียงพอ
yters

3
@yters โปรดกำหนดหลักเกณฑ์ทั่วไปแล้ว
Martin Thoma

5
@yters ความคิดเห็นนี้ทำให้ฉันคิดว่าคุณยังไม่ได้อ่านมากเกี่ยวกับการเรียนรู้ของเครื่อง มาร์ตินกล่าวว่าความถูกต้องในข้อมูลที่มองไม่เห็น คุณกำลังพูดถึงความถูกต้องของข้อมูลการฝึกอบรม คุณถูกต้องเกี่ยวกับการวางนัยทั่วไป แต่โปรดตระหนักว่าทุกคนที่นี่เข้าใจเช่นกัน
Ken Williams

1
@yters ฉันค่อนข้างมั่นใจว่าเคน (และหลาย ๆ คนในเว็บไซต์นี้รวมถึงตัวเอง) รู้เรื่องนี้ อย่างไรก็ตามหากชุดการทดสอบของคุณไม่ได้เป็นตัวแทนของชุดข้อมูลของคุณคุณไม่สามารถสร้างคำสั่งใด ๆ เกี่ยวกับการวางนัยทั่วไปได้ แม้ว่ามันจะคุ้มค่าที่จะจำไว้ แต่ฉันไม่เห็นว่าสิ่งนี้จะช่วยคุณได้อย่างไรสำหรับคำถามนี้ คุณต้องสมมติ / ตรวจสอบให้แน่ใจว่าชุดทดสอบของคุณแสดงข้อมูลของคุณ ณ เวลาที่ผลิต ในความเป็นจริงเป็นเรื่องง่ายที่จะแสดงว่าคุณสามารถทำให้ตัวจําแนกโดยพลการไม่ดีถ้าตัวอย่างการฝึกอบรมไม่ได้เป็นตัวแทนของการกระจาย
Martin Thoma

2
เห็นได้ชัดว่า คุณไม่สามารถคาดหวังรูปแบบที่จะสรุปได้ดีถ้ามันผ่านการฝึกอบรมในการตรวจสอบความถูกต้องของข้อมูลที่ผิด คุณต้องการข้อมูลที่ดีกว่าไม่ใช่โมเดลที่ดีกว่า
Emre

9

คำตอบเดียวคือ "การทำให้เป็นมาตรฐาน" สูตรมิติ naive VC ไม่ได้ใช้จริงที่นี่เนื่องจากการทำให้เป็นมาตรฐานต้องการให้น้ำหนักไม่ทั่วไป มีเพียงสัดส่วนเล็ก ๆ น้อย ๆ เท่านั้นที่จะมีการสูญเสียที่ยอมรับได้หลังจากทำการทำให้เป็นปกติ มิติที่แท้จริงคือขนาดของคำสั่งที่น้อยกว่าดังนั้นผลลัพธ์โดยทั่วไปจึงสามารถเกิดขึ้นได้กับชุดการฝึกอบรมที่เรามี ผลลัพธ์ในชีวิตจริงแสดงให้เห็นว่าโดยทั่วไปแล้วการให้น้ำหนักมากเกินไปจะไม่เกิดขึ้น


2
ฉันเคยเห็นคำกล่าวอ้างซ้ำ ๆ ว่าผลลัพธ์ในชีวิตจริงแสดงให้เห็นการเรียนรู้อย่างลึกล้ำ ผลลัพธ์ที่แสดงถึงลักษณะทั่วไปคืออะไร สิ่งที่ฉันเห็นมาทั้งหมดคือ DL ได้รับอัตราความผิดพลาดต่ำในชุดข้อมูลบางชุดซึ่งไม่ได้อยู่ในตัวของมันเองนั่นหมายความว่า DL จะทำให้เป็นเรื่องธรรมดา
yters

3
มันแสดงให้เห็นผลลัพธ์ที่ดี ( "ดี" = ดีกว่าวิธีการอื่น ๆ ML) กับข้อมูลที่ว่ามันก็ไม่ได้รับการฝึกอบรม ฉันไม่แน่ใจว่าคุณต้องการวัดลักษณะทั่วไปได้อย่างไร
lvilnis

3

เราพูดถึงกระดาษ: การทำความเข้าใจการเรียนรู้อย่างลึกล้ำต้องใช้การทบทวนใหม่ ใน

การทบทวนใหม่ต้องมีการทบทวนแนวคิดเก่า: วิธีการทางกลศาสตร์เชิงสถิติและพฤติกรรมการเรียนรู้ที่ซับซ้อน Charles H. Martin และ Michael W. Mahoney

ดู: https://arxiv.org/pdf/1710.09553.pdf

โดยพื้นฐานแล้วเรายืนยันว่าขอบเขต VC นั้นหลวมเกินไปเพราะวิธีการพื้นฐานและวิธีการ จำกัด สถิติที่ใช้นั้นไม่สมจริง

วิธีการที่ดีกว่าอยู่ในสถิติกลศาสตร์ซึ่งพิจารณาชั้นของฟังก์ชั่นขึ้นอยู่กับข้อมูลใช้เวลา จำกัด อุณหพลศาสตร์ (ไม่เพียง แต่ จำกัด จำนวนมาก)

ยิ่งกว่านั้นเรายังชี้ให้เห็นว่าความไม่ต่อเนื่องตามธรรมชาติในความต้องการอย่างลึกซึ้งนำไปสู่การเปลี่ยนเฟสในช่วงการเรียนรู้ซึ่งเราเชื่อว่ามีการสังเกตในกระดาษ Google (ด้านบน)

สำหรับข้อ จำกัด โปรดดูหัวข้อ 4.2 ของเอกสารของเรา

"ชัดเจนถ้าเราแก้ไขขนาดตัวอย่าง m และปล่อยให้ [ขนาดของคลาสฟังก์ชั่น] N →∞, [หรือในทางกลับกันแก้ไข N ให้ m →∞] เราไม่ควรคาดหวังผลที่ไม่น่ารำคาญตั้งแต่ [ N] กำลังมีขนาดใหญ่ขึ้น แต่ขนาดตัวอย่างถูกแก้ไขดังนั้น [ในกลศาสตร์สถิติ] โดยทั่วไปจะพิจารณากรณีที่ m, N →∞เช่นนั้นα = m / N เป็นค่าคงที่ "

นั่นคือเราแทบจะไม่เพียงแค่เพิ่มข้อมูลเพิ่มเติม (m) เพื่อสุทธิลึก เราเพิ่มขนาดของเน็ต (N) เสมอเพราะเรารู้ว่าเราสามารถจับรายละเอียดคุณสมบัติ / ข้อมูลจากข้อมูลได้ ในทางปฏิบัติเราทำในสิ่งที่เราโต้แย้งในกระดาษ - จำกัด ขนาดใหญ่โดยใช้อัตราส่วน m / N คงที่ (ตรงข้ามกับการพูดว่าตรึง m และให้ N เพิ่มขึ้น)

ผลลัพธ์เหล่านี้เป็นที่รู้จักกันดีในกลไกทางสถิติของการเรียนรู้ การวิเคราะห์มีความซับซ้อนมากขึ้น แต่ผลลัพธ์นำไปสู่โครงสร้างที่สมบูรณ์ยิ่งขึ้นที่อธิบายปรากฏการณ์มากมายในการเรียนรู้อย่างลึกซึ้ง

ยิ่งไปกว่านั้นและโดยเฉพาะอย่างยิ่งเป็นที่รู้กันว่าขอบเขตจำนวนมากจากสถิติกลายเป็นเรื่องเล็กน้อยหรือไม่ใช้กับการแจกแจงความน่าจะเป็นแบบไม่เรียบหรือเมื่อตัวแปรใช้ค่าที่ไม่ต่อเนื่อง ด้วยโครงข่ายประสาทเทียมพฤติกรรมที่ไม่น่าสนใจเกิดขึ้นเนื่องจากความไม่ต่อเนื่อง (ในฟังก์ชั่นการกระตุ้น) นำไปสู่การเปลี่ยนเฟส (ซึ่งเกิดขึ้นในขีด จำกัด ทางอุณหพลศาสตร์)

กระดาษที่เราเขียนพยายามอธิบายความคิดสำคัญให้ผู้ชมวิทยาศาสตร์คอมพิวเตอร์

Vapnik เขารู้ตัวว่าทฤษฎีของเขาไม่สามารถใช้ได้กับเครือข่ายประสาทเทียม ... ย้อนกลับไปในปี 1994

"ส่วนขยายของ [มิติ VC] ไปยังเครือข่ายหลายชั้นเผชิญกับความยากลำบาก [หลาย] .. ขั้นตอนวิธีการเรียนรู้ที่มีอยู่ไม่สามารถดูได้ว่าเป็นการลดความเสี่ยงเชิงประจักษ์ในทุกฟังก์ชั่นที่เครือข่ายใช้ ... [เพราะ] น่าจะเป็น ... การค้นหาจะถูก จำกัด ในส่วนย่อยของฟังก์ชัน [เหล่านี้] ... ความจุของชุดนี้อาจต่ำกว่าความจุของชุดทั้งหมด ... [และ] อาจเปลี่ยนแปลงได้ตามจำนวนการสังเกต สิ่งนี้อาจต้องใช้ทฤษฎีที่พิจารณาความคิดของความจุที่ไม่คงที่ด้วยชุดย่อย 'ที่ใช้งาน' ของฟังก์ชั่น "
Vapnik, Levin และ LeCun 1994

http://yann.lecun.com/exdb/publis/pdf/vapnik-levin-lecun-94.pdf

แม้ว่าจะไม่ใช่เรื่องง่ายที่จะรักษาด้วยทฤษฎี VC แต่นี่ไม่ใช่ปัญหาสำหรับ stat mech .. และสิ่งที่พวกเขาอธิบายดูเหมือนคล้ายกับทฤษฎีภูมิพลังงานของการพับโปรตีน (ซึ่งจะเป็นหัวข้อของเอกสารในอนาคต)


ฟังดูน่าสนใจ แต่ฉันไม่แน่ใจว่าฉันจะทำตามการโต้แย้งของคุณ คุณสามารถอธิบายรายละเอียดของประโยคแรกได้หรือไม่ว่าวิธีการพื้นฐาน / ข้อ จำกัด ทางสถิตินั้นไม่สมจริงในลักษณะที่มีอยู่ในตัวเองซึ่งไม่ต้องการความเข้าใจกลไกทางสถิติหรือไม่? ข้อ จำกัด อะไรที่ทำให้ขอบเขตของ VC และทำไมพวกเขาถึงไม่สมจริง? บางทีคุณสามารถแก้ไขคำตอบเพื่อรวมข้อมูลนั้นได้?
DW

ฉันเพิ่มการอ้างอิงถึงงานต้นฉบับโดย Vapnik และ LeCun (1994) ที่กล่าวถึงปัญหานี้
Charles Martin

และเพิ่มการชี้แจงบางอย่าง
Charles Martin

1

ดูเหมือนจะไม่มีใครชี้ให้เห็นในคำตอบข้างต้นสูตร VC ที่ยกมานั้นมีไว้สำหรับเครือข่ายนิวรัล 1 ชั้นเท่านั้น ฉันเดาว่ามิติ VC เพิ่มขึ้นอย่างทวีคูณจริง ๆเมื่อจำนวนเลเยอร์ L เพิ่มขึ้น เหตุผลของฉันขึ้นอยู่กับการพิจารณาโครงข่ายใยประสาทลึกซึ่งฟังก์ชั่นการเปิดใช้งานถูกแทนที่ด้วยพหุนาม จากนั้นระดับของพหุนามประกอบด้วยส่วนประกอบจะเพิ่มขึ้นเป็นทวีคูณเมื่อเลเยอร์เพิ่มขึ้น

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.