เหตุใดมิติข้อมูล VC จึงมีความสำคัญ


12

Wikipediaบอกว่า:

มิติ VC คือความสำคัญของชุดแต้มที่ใหญ่ที่สุดที่อัลกอริทึมสามารถสลาย

ตัวอย่างเช่นลักษณนามเชิงเส้นมี cardinality n + 1 คำถามของฉันคือทำไมเราสนใจ ชุดข้อมูลส่วนใหญ่ที่คุณทำการจัดหมวดหมู่เชิงเส้นมีแนวโน้มที่จะมีขนาดใหญ่มากและมีจำนวนมากของคะแนน

คำตอบ:


4

มิติข้อมูล VC คืออะไร

ตามที่ระบุโดย @ CPerkins มิติ VC คือการวัดความซับซ้อนของแบบจำลอง นอกจากนี้ยังสามารถกำหนดได้โดยคำนึงถึงความสามารถในการทำลายดาต้าพอยน์อย่างที่คุณพูดถึงวิกิพีเดีย

ปัญหาพื้นฐาน

  • เราต้องการรูปแบบ (เช่นตัวจําแนกบางส่วน) ที่สรุปได้ดีกับข้อมูลที่มองไม่เห็น
  • เรา จำกัด จำนวนตัวอย่างข้อมูลเฉพาะ

ภาพต่อไปนี้ (นำมาจากที่นี่ ) แสดงให้เห็นว่าบางรุ่น (ถึง ) ของความซับซ้อนที่แตกต่างกัน (VC มิติ) นี่แสดงบนแกน x และเรียกชั่วโมงS1Skh

Bias-Variance Tradeoff

ภาพแสดงให้เห็นว่ามิติ VC ที่สูงกว่าช่วยลดความเสี่ยงจากการประจักษ์ (ข้อผิดพลาดที่แบบจำลองทำกับข้อมูลตัวอย่าง) แต่ยังแนะนำช่วงความเชื่อมั่นที่สูงขึ้น ช่วงเวลานี้สามารถเห็นได้ว่าเป็นความมั่นใจในความสามารถของแบบจำลองทั่วไป

มิติ VC ต่ำ (อคติสูง)

หากเราใช้แบบจำลองที่มีความซับซ้อนต่ำเราแนะนำข้อสันนิษฐาน (อคติ) บางอย่างเกี่ยวกับชุดข้อมูลเช่นเมื่อใช้ตัวจําแนกเชิงเส้นเราถือว่าข้อมูลสามารถอธิบายได้ด้วยตัวแบบเชิงเส้น หากไม่ใช่กรณีดังกล่าวปัญหาที่เราระบุไม่สามารถแก้ไขได้โดยตัวแบบเชิงเส้นตัวอย่างเช่นเนื่องจากปัญหานั้นเป็นลักษณะที่ไม่เชิงเส้น เราจะจบลงด้วยโมเดลที่มีประสิทธิภาพต่ำซึ่งจะไม่สามารถเรียนรู้โครงสร้างของข้อมูลได้ ดังนั้นเราควรพยายามหลีกเลี่ยงการแนะนำอคติที่แข็งแกร่ง

มิติ VC สูง (ช่วงความมั่นใจมากขึ้น)

ในอีกด้านหนึ่งของแกน x เราเห็นรูปแบบของความซับซ้อนที่สูงขึ้นซึ่งอาจเป็นความสามารถที่ดีซึ่งมันจะค่อนข้างจดจำข้อมูลแทนที่จะเรียนรู้ว่ามันเป็นโครงสร้างพื้นฐานทั่วไปเช่นโมเดล overfits หลังจากตระหนักถึงปัญหานี้ดูเหมือนว่าเราควรหลีกเลี่ยงโมเดลที่ซับซ้อน

สิ่งนี้อาจดูขัดแย้งเนื่องจากเราจะไม่แนะนำอคติเช่นมีมิติ VC ต่ำ แต่ควรมีมิติ VC ไม่สูง ปัญหานี้ได้หยั่งรากลึกในทฤษฎีการเรียนรู้ทางสถิติและเป็นที่รู้จักกันเป็นอคติความแปรปรวนถ่วงดุลอำนาจ สิ่งที่เราควรทำในสถานการณ์นี้คือซับซ้อนเท่าที่จำเป็นและง่ายที่สุดเท่าที่จะเป็นไปได้ดังนั้นเมื่อเปรียบเทียบสองรุ่นที่จบลงด้วยข้อผิดพลาดเชิงประจักษ์เดียวกันเราควรใช้สิ่งที่ซับซ้อนน้อยกว่า

ฉันหวังว่าฉันจะแสดงให้คุณเห็นว่ามีแนวคิดเบื้องหลังของ VC VC มากกว่า


1

VC มิติเป็นจำนวนบิตของข้อมูล (ตัวอย่าง) หนึ่งในความต้องการในการสั่งซื้อที่จะหาวัตถุที่เฉพาะเจาะจง (ฟังก์ชั่น) ในชุดของวัตถุ N(ฟังก์ชั่น)

VCมิติมาจากแนวคิดที่คล้ายคลึงกันในทฤษฎีข้อมูล ทฤษฎีข้อมูลเริ่มต้นจากการสังเกตของแชนนอนดังต่อไปนี้:

หากคุณมีวัตถุและอยู่ในหมู่วัตถุเหล่านี้คุณกำลังมองหาวัตถุเฉพาะ กี่บิตของข้อมูลที่คุณจะต้องไปหาวัตถุนี้ ? คุณสามารถแบ่งชุดของวัตถุออกเป็นสองครึ่งและถามว่า "วัตถุที่ฉันกำลังค้นหาอยู่ครึ่งหนึ่งอยู่ที่ไหน" . คุณได้รับ "ใช่" ถ้าอยู่ในครึ่งแรกหรือ "ไม่" ถ้าอยู่ในช่วงครึ่งหลัง ในคำอื่น ๆ ที่คุณได้รับ1 บิตของข้อมูล หลังจากนั้นคุณถามคำถามเดียวกันและแยกชุดของคุณอีกครั้งและอีกครั้งจนกว่าคุณจะพบวัตถุที่คุณต้องการในที่สุด คุณต้องการข้อมูลจำนวนเท่าใด ( ใช่ / ไม่ใช่คำตอบ) มันชัดเจนว่าNNlog2(N) บิตของข้อมูล - คล้ายกับปัญหาการค้นหาแบบไบนารีด้วยอาร์เรย์ที่เรียงลำดับ

Vapnik และ Chernovenkis ถามคำถามที่คล้ายกันในปัญหาการจดจำรูปแบบ สมมติว่าคุณมีชุดของฟังก์ชั่นเซนต์ป้อนข้อมูลให้แต่ละฟังก์ชั่นเอาท์พุทใช่หรือไม่ (ภายใต้การดูแลปัญหาการจัดหมวดหมู่ binary) และกลุ่มคนเหล่านี้ฟังก์ชั่นที่คุณกำลังมองหาฟังก์ชั่นที่เฉพาะเจาะจงที่ช่วยให้คุณได้ผลลัพธ์ที่ถูกต้องใช่ / ไม่ใช่สำหรับชุดข้อมูลที่ได้รับ\} คุณสามารถถามคำถาม: "ซึ่งฟังก์ชั่นไม่กลับไม่มีและฟังก์ชั่นที่ทำผลตอบแทนที่ใช่สำหรับให้NxND={(x1,y1),(x2,y2),...,(xl,yl)}xiจากชุดข้อมูลของคุณ เมื่อคุณรู้ว่าสิ่งที่เป็นคำตอบที่แท้จริงจากข้อมูลการฝึกอบรมที่คุณมีคุณสามารถโยนออกไปฟังก์ชั่นทั้งหมดที่ให้คำตอบไม่ถูกต้องสำหรับบางx_iคุณต้องการข้อมูลจำนวนเท่าใด หรือพูดอีกอย่าง: คุณต้องมีตัวอย่างการฝึกอบรมกี่อย่างที่จะลบฟังก์ชั่นที่ผิดเหล่านั้นออกไป . นี่เป็นข้อแตกต่างเล็กน้อยจากการสังเกตของแชนนอนในทฤษฎีข้อมูล คุณไม่ได้แบ่งชุดฟังก์ชั่นของคุณเป็นครึ่งหนึ่ง (อาจจะมีเพียงฟังก์ชันเดียวจากให้คำตอบที่ไม่ถูกต้องสำหรับบาง ) และบางทีชุดฟังก์ชั่นของคุณมีขนาดใหญ่มากและเพียงพอสำหรับคุณที่พบฟังก์ชันที่ - ปิดฟังก์ชั่นที่คุณต้องการและคุณต้องการให้แน่ใจว่าฟังก์ชั่นนี้เป็นxiNxiϵϵ - ปิดด้วยความน่าจะเป็น ( - เฟรมเวิร์กPAC ) จำนวนบิตของข้อมูล (จำนวนตัวอย่าง) ที่คุณต้องการคือ .1δ(ϵ,δ)log2N/δϵ

สมมติว่าขณะนี้ในชุดของฟังก์ชันไม่มีฟังก์ชันที่ไม่ยอมรับข้อผิดพลาด ก่อนหน้านี้มันก็เพียงพอสำหรับคุณที่จะหาฟังก์ชั่นที่เป็น -close กับความน่า1-จำนวนตัวอย่างที่คุณจะต้องเป็น2}Nϵ1δlog2N/δϵ2

โปรดทราบว่าผลลัพธ์ในทั้งสองกรณีเป็นสัดส่วนกับ - คล้ายกับปัญหาการค้นหาแบบไบนารีlog2N

ตอนนี้สมมติว่าคุณมีชุดที่ไม่มีที่สิ้นสุดของฟังก์ชั่นและในหมู่ฟังก์ชั่นที่คุณต้องการที่จะหาฟังก์ชั่นที่ -close กับฟังก์ชั่นที่ดีที่สุดกับความน่าจะเป็น1-สมมติว่า (เพื่อความเรียบง่ายของภาพประกอบ) ที่ฟังก์ชั่นเลียนแบบต่อเนื่อง (SVM) และคุณได้พบฟังก์ชั่นที่ - ใกล้กับฟังก์ชันที่ดีที่สุด หากคุณต้องการย้ายฟังก์ชั่นของคุณเล็กน้อยมันจะไม่เปลี่ยนผลลัพธ์ของการจัดหมวดหมู่คุณจะมีฟังก์ชั่นที่แตกต่างกันซึ่งจัดประเภทด้วยผลลัพธ์เดียวกันกับอันดับแรก คุณสามารถใช้ฟังก์ชั่นดังกล่าวทั้งหมดที่ให้ผลการจำแนกประเภทเดียวกัน (ข้อผิดพลาดการจำแนก) และนับเป็นฟังก์ชั่นเดียวเพราะพวกเขาจำแนกข้อมูลของคุณด้วยการสูญเสียที่แน่นอน (บรรทัดในภาพ)ϵ1δϵ

ป้อนคำอธิบายรูปภาพที่นี่

___________________ ทั้งสองบรรทัด (ฟังก์ชั่น) จะจำแนกคะแนนที่มีความสำเร็จแบบเดียวกัน ___________________

คุณต้องการตัวอย่างจำนวนเท่าใดเพื่อหาฟังก์ชันเฉพาะจากชุดชุดฟังก์ชัน (จำได้ว่าเราแบ่งหน้าที่ของเราเป็นชุดของฟังก์ชันที่แต่ละฟังก์ชันให้ผลการจำแนกประเภทเดียวกันสำหรับชุดคะแนนที่กำหนด) นี่คือสิ่งที่ขนาดบอก -ถูกแทนที่ด้วยเพราะคุณมีฟังก์ชั่นต่อเนื่องจำนวนอนันต์ที่แบ่งออกเป็นชุดของฟังก์ชันที่มีข้อผิดพลาดการจำแนกประเภทเดียวกันสำหรับจุดเฉพาะ จำนวนตัวอย่างที่คุณต้องการคือหากคุณมีฟังก์ชั่นที่จดจำได้อย่างสมบูรณ์แบบและVClog2NVCVClog(δ)ϵVClog(δ)ϵ2 หากคุณไม่มีฟังก์ชั่นที่สมบูรณ์แบบในชุดฟังก์ชั่นดั้งเดิมของคุณ

นั่นคือมิติจะช่วยให้คุณผูกไว้บน (ที่ไม่สามารถปรับปรุงให้ดีขึ้นครับ) สำหรับจำนวนของกลุ่มตัวอย่างที่คุณต้องการในการสั่งซื้อเพื่อให้บรรลุผิดพลาดเกี่ยวกับความน่าจะเป็น1-VCϵ1δ


0

มิติ VC คือการวัดความซับซ้อนของแบบจำลอง ตัวอย่างเช่นเมื่อกำหนดให้มิติข้อมูล VC Dvc กฎง่ายๆคือคุณควรมีจุดข้อมูล n = 10xDvc ซึ่งระบุความซับซ้อนของแบบจำลองของคุณ

คุณยังสามารถใช้มันเพื่อสร้างขอบเขตบนของข้อผิดพลาดในการทดสอบ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.