เหตุใดมิติข้อมูล VC จึงมีความสำคัญ

12

Wikipediaบอกว่า:

มิติ VC คือความสำคัญของชุดแต้มที่ใหญ่ที่สุดที่อัลกอริทึมสามารถสลาย

ตัวอย่างเช่นลักษณนามเชิงเส้นมี cardinality n + 1 คำถามของฉันคือทำไมเราสนใจ ชุดข้อมูลส่วนใหญ่ที่คุณทำการจัดหมวดหมู่เชิงเส้นมีแนวโน้มที่จะมีขนาดใหญ่มากและมีจำนวนมากของคะแนน

classification algorithms vc-dimension

— Undergradstudent
แหล่งที่มา

4

มิติข้อมูล VC คืออะไร

ตามที่ระบุโดย @ CPerkins มิติ VC คือการวัดความซับซ้อนของแบบจำลอง นอกจากนี้ยังสามารถกำหนดได้โดยคำนึงถึงความสามารถในการทำลายดาต้าพอยน์อย่างที่คุณพูดถึงวิกิพีเดีย

ปัญหาพื้นฐาน

เราต้องการรูปแบบ (เช่นตัวจําแนกบางส่วน) ที่สรุปได้ดีกับข้อมูลที่มองไม่เห็น
เรา จำกัด จำนวนตัวอย่างข้อมูลเฉพาะ

ภาพต่อไปนี้ (นำมาจากที่นี่ ) แสดงให้เห็นว่าบางรุ่น (ถึง ) ของความซับซ้อนที่แตกต่างกัน (VC มิติ) นี่แสดงบนแกน x และเรียกชั่วโมง $\mathcal{S_1}$ $\mathcal{S_k}$ $h$

ภาพแสดงให้เห็นว่ามิติ VC ที่สูงกว่าช่วยลดความเสี่ยงจากการประจักษ์ (ข้อผิดพลาดที่แบบจำลองทำกับข้อมูลตัวอย่าง) แต่ยังแนะนำช่วงความเชื่อมั่นที่สูงขึ้น ช่วงเวลานี้สามารถเห็นได้ว่าเป็นความมั่นใจในความสามารถของแบบจำลองทั่วไป

มิติ VC ต่ำ (อคติสูง)

หากเราใช้แบบจำลองที่มีความซับซ้อนต่ำเราแนะนำข้อสันนิษฐาน (อคติ) บางอย่างเกี่ยวกับชุดข้อมูลเช่นเมื่อใช้ตัวจําแนกเชิงเส้นเราถือว่าข้อมูลสามารถอธิบายได้ด้วยตัวแบบเชิงเส้น หากไม่ใช่กรณีดังกล่าวปัญหาที่เราระบุไม่สามารถแก้ไขได้โดยตัวแบบเชิงเส้นตัวอย่างเช่นเนื่องจากปัญหานั้นเป็นลักษณะที่ไม่เชิงเส้น เราจะจบลงด้วยโมเดลที่มีประสิทธิภาพต่ำซึ่งจะไม่สามารถเรียนรู้โครงสร้างของข้อมูลได้ ดังนั้นเราควรพยายามหลีกเลี่ยงการแนะนำอคติที่แข็งแกร่ง

มิติ VC สูง (ช่วงความมั่นใจมากขึ้น)

ในอีกด้านหนึ่งของแกน x เราเห็นรูปแบบของความซับซ้อนที่สูงขึ้นซึ่งอาจเป็นความสามารถที่ดีซึ่งมันจะค่อนข้างจดจำข้อมูลแทนที่จะเรียนรู้ว่ามันเป็นโครงสร้างพื้นฐานทั่วไปเช่นโมเดล overfits หลังจากตระหนักถึงปัญหานี้ดูเหมือนว่าเราควรหลีกเลี่ยงโมเดลที่ซับซ้อน

สิ่งนี้อาจดูขัดแย้งเนื่องจากเราจะไม่แนะนำอคติเช่นมีมิติ VC ต่ำ แต่ควรมีมิติ VC ไม่สูง ปัญหานี้ได้หยั่งรากลึกในทฤษฎีการเรียนรู้ทางสถิติและเป็นที่รู้จักกันเป็นอคติความแปรปรวนถ่วงดุลอำนาจ สิ่งที่เราควรทำในสถานการณ์นี้คือซับซ้อนเท่าที่จำเป็นและง่ายที่สุดเท่าที่จะเป็นไปได้ดังนั้นเมื่อเปรียบเทียบสองรุ่นที่จบลงด้วยข้อผิดพลาดเชิงประจักษ์เดียวกันเราควรใช้สิ่งที่ซับซ้อนน้อยกว่า

ฉันหวังว่าฉันจะแสดงให้คุณเห็นว่ามีแนวคิดเบื้องหลังของ VC VC มากกว่า

— มินาโตะ
แหล่งที่มา

1

VC มิติเป็นจำนวนบิตของข้อมูล (ตัวอย่าง) หนึ่งในความต้องการในการสั่งซื้อที่จะหาวัตถุที่เฉพาะเจาะจง (ฟังก์ชั่น) ในชุดของวัตถุ $N$ (ฟังก์ชั่น)

$VC$ มิติมาจากแนวคิดที่คล้ายคลึงกันในทฤษฎีข้อมูล ทฤษฎีข้อมูลเริ่มต้นจากการสังเกตของแชนนอนดังต่อไปนี้:

หากคุณมีวัตถุและอยู่ในหมู่วัตถุเหล่านี้คุณกำลังมองหาวัตถุเฉพาะ กี่บิตของข้อมูลที่คุณจะต้องไปหาวัตถุนี้ ? คุณสามารถแบ่งชุดของวัตถุออกเป็นสองครึ่งและถามว่า "วัตถุที่ฉันกำลังค้นหาอยู่ครึ่งหนึ่งอยู่ที่ไหน" . คุณได้รับ "ใช่" ถ้าอยู่ในครึ่งแรกหรือ "ไม่" ถ้าอยู่ในช่วงครึ่งหลัง ในคำอื่น ๆ ที่คุณได้รับ1 บิตของข้อมูล หลังจากนั้นคุณถามคำถามเดียวกันและแยกชุดของคุณอีกครั้งและอีกครั้งจนกว่าคุณจะพบวัตถุที่คุณต้องการในที่สุด คุณต้องการข้อมูลจำนวนเท่าใด ( ใช่ / ไม่ใช่คำตอบ) มันชัดเจนว่า $N$ $N$ $log_2(N)$ บิตของข้อมูล - คล้ายกับปัญหาการค้นหาแบบไบนารีด้วยอาร์เรย์ที่เรียงลำดับ

Vapnik และ Chernovenkis ถามคำถามที่คล้ายกันในปัญหาการจดจำรูปแบบ สมมติว่าคุณมีชุดของฟังก์ชั่นเซนต์ป้อนข้อมูลให้แต่ละฟังก์ชั่นเอาท์พุทใช่หรือไม่ (ภายใต้การดูแลปัญหาการจัดหมวดหมู่ binary) และกลุ่มคนเหล่านี้ฟังก์ชั่นที่คุณกำลังมองหาฟังก์ชั่นที่เฉพาะเจาะจงที่ช่วยให้คุณได้ผลลัพธ์ที่ถูกต้องใช่ / ไม่ใช่สำหรับชุดข้อมูลที่ได้รับ\} คุณสามารถถามคำถาม: "ซึ่งฟังก์ชั่นไม่กลับไม่มีและฟังก์ชั่นที่ทำผลตอบแทนที่ใช่สำหรับให้ $N$ $x$ $N$ $D=\{(x_1,y_1), (x_2, y_2), ..., (x_l, y_l)\}$ $x_i$ จากชุดข้อมูลของคุณ เมื่อคุณรู้ว่าสิ่งที่เป็นคำตอบที่แท้จริงจากข้อมูลการฝึกอบรมที่คุณมีคุณสามารถโยนออกไปฟังก์ชั่นทั้งหมดที่ให้คำตอบไม่ถูกต้องสำหรับบางx_iคุณต้องการข้อมูลจำนวนเท่าใด หรือพูดอีกอย่าง: คุณต้องมีตัวอย่างการฝึกอบรมกี่อย่างที่จะลบฟังก์ชั่นที่ผิดเหล่านั้นออกไป . นี่เป็นข้อแตกต่างเล็กน้อยจากการสังเกตของแชนนอนในทฤษฎีข้อมูล คุณไม่ได้แบ่งชุดฟังก์ชั่นของคุณเป็นครึ่งหนึ่ง (อาจจะมีเพียงฟังก์ชันเดียวจากให้คำตอบที่ไม่ถูกต้องสำหรับบาง ) และบางทีชุดฟังก์ชั่นของคุณมีขนาดใหญ่มากและเพียงพอสำหรับคุณที่พบฟังก์ชันที่ - ปิดฟังก์ชั่นที่คุณต้องการและคุณต้องการให้แน่ใจว่าฟังก์ชั่นนี้เป็น $x_i$ $N$ $x_i$ $\epsilon$ $\epsilon$ - ปิดด้วยความน่าจะเป็น ( - เฟรมเวิร์กPAC ) จำนวนบิตของข้อมูล (จำนวนตัวอย่าง) ที่คุณต้องการคือ . $1-\delta$ $(\epsilon, \delta)$ $\frac{log_2N/\delta}{\epsilon}$

สมมติว่าขณะนี้ในชุดของฟังก์ชันไม่มีฟังก์ชันที่ไม่ยอมรับข้อผิดพลาด ก่อนหน้านี้มันก็เพียงพอสำหรับคุณที่จะหาฟังก์ชั่นที่เป็น -close กับความน่า1-จำนวนตัวอย่างที่คุณจะต้องเป็น2} $N$ $\epsilon$ $1-\delta$ $\frac{log_2N/\delta}{\epsilon^2}$

โปรดทราบว่าผลลัพธ์ในทั้งสองกรณีเป็นสัดส่วนกับ - คล้ายกับปัญหาการค้นหาแบบไบนารี $log_2N$

ตอนนี้สมมติว่าคุณมีชุดที่ไม่มีที่สิ้นสุดของฟังก์ชั่นและในหมู่ฟังก์ชั่นที่คุณต้องการที่จะหาฟังก์ชั่นที่ -close กับฟังก์ชั่นที่ดีที่สุดกับความน่าจะเป็น1-สมมติว่า (เพื่อความเรียบง่ายของภาพประกอบ) ที่ฟังก์ชั่นเลียนแบบต่อเนื่อง (SVM) และคุณได้พบฟังก์ชั่นที่ - ใกล้กับฟังก์ชันที่ดีที่สุด หากคุณต้องการย้ายฟังก์ชั่นของคุณเล็กน้อยมันจะไม่เปลี่ยนผลลัพธ์ของการจัดหมวดหมู่คุณจะมีฟังก์ชั่นที่แตกต่างกันซึ่งจัดประเภทด้วยผลลัพธ์เดียวกันกับอันดับแรก คุณสามารถใช้ฟังก์ชั่นดังกล่าวทั้งหมดที่ให้ผลการจำแนกประเภทเดียวกัน (ข้อผิดพลาดการจำแนก) และนับเป็นฟังก์ชั่นเดียวเพราะพวกเขาจำแนกข้อมูลของคุณด้วยการสูญเสียที่แน่นอน (บรรทัดในภาพ) $\epsilon$ $1-\delta$ $\epsilon$

^{___________________ ทั้งสองบรรทัด (ฟังก์ชั่น) จะจำแนกคะแนนที่มีความสำเร็จแบบเดียวกัน ___________________}

คุณต้องการตัวอย่างจำนวนเท่าใดเพื่อหาฟังก์ชันเฉพาะจากชุดชุดฟังก์ชัน (จำได้ว่าเราแบ่งหน้าที่ของเราเป็นชุดของฟังก์ชันที่แต่ละฟังก์ชันให้ผลการจำแนกประเภทเดียวกันสำหรับชุดคะแนนที่กำหนด) นี่คือสิ่งที่ขนาดบอก -ถูกแทนที่ด้วยเพราะคุณมีฟังก์ชั่นต่อเนื่องจำนวนอนันต์ที่แบ่งออกเป็นชุดของฟังก์ชันที่มีข้อผิดพลาดการจำแนกประเภทเดียวกันสำหรับจุดเฉพาะ จำนวนตัวอย่างที่คุณต้องการคือหากคุณมีฟังก์ชั่นที่จดจำได้อย่างสมบูรณ์แบบและ $VC$ $log_2N$ $VC$ $\frac{VC -log(\delta)}{\epsilon}$ $\frac{VC - log(\delta)}{\epsilon^2}$ หากคุณไม่มีฟังก์ชั่นที่สมบูรณ์แบบในชุดฟังก์ชั่นดั้งเดิมของคุณ

นั่นคือมิติจะช่วยให้คุณผูกไว้บน (ที่ไม่สามารถปรับปรุงให้ดีขึ้นครับ) สำหรับจำนวนของกลุ่มตัวอย่างที่คุณต้องการในการสั่งซื้อเพื่อให้บรรลุผิดพลาดเกี่ยวกับความน่าจะเป็น1- $VC$ $\epsilon$ $1-\delta$

— Vlad
แหล่งที่มา

0

มิติ VC คือการวัดความซับซ้อนของแบบจำลอง ตัวอย่างเช่นเมื่อกำหนดให้มิติข้อมูล VC Dvc กฎง่ายๆคือคุณควรมีจุดข้อมูล n = 10xDvc ซึ่งระบุความซับซ้อนของแบบจำลองของคุณ

คุณยังสามารถใช้มันเพื่อสร้างขอบเขตบนของข้อผิดพลาดในการทดสอบ

— CPerkins
แหล่งที่มา