มิติ VC ของแผนผังการตัดสินใจคืออะไร


17

อะไรคือสิ่งที่มิติ VCของต้นไม้ตัดสินใจกับ k แยกในสองมิติ? ให้เราบอกว่าแบบจำลองนั้นเป็นรถเข็นและตัวแยกที่อนุญาตเท่านั้นนั้นขนานกับแกน

ดังนั้นสำหรับการแบ่งหนึ่งครั้งเราสามารถสั่งซื้อ 3 คะแนนในรูปสามเหลี่ยมและจากนั้นสำหรับการติดฉลากของคะแนนใด ๆ ที่เราจะได้รับการทำนายที่สมบูรณ์แบบ (เช่น: จุดแตกหัก)

แต่ประมาณ 2 สปลิต, หรือ k ทั่วไปอะไร?

คำตอบ:


13

ฉันไม่แน่ใจว่านี่เป็นคำถามที่มีคำตอบง่ายๆและฉันไม่เชื่อว่ามันเป็นคำถามที่จำเป็นต้องถามเกี่ยวกับต้นไม้ตัดสินใจ

ปรึกษาAslan และคณะ , การคำนวณ VC-ขนาดของต้นไม้ (2009) พวกเขาแก้ปัญหานี้ด้วยการค้นหาอย่างละเอียดถี่ถ้วนในต้นไม้ขนาดเล็กจากนั้นให้สูตรสูตรคำนวณซ้ำเพื่อประมาณการมิติ VC บนต้นไม้ขนาดใหญ่ จากนั้นพวกเขาใช้สูตรนี้เป็นส่วนหนึ่งของอัลกอริทึมตัดแต่งกิ่ง หากมีคำตอบที่ตรงกับคำถามของคุณฉันมั่นใจว่าพวกเขาจะให้มา พวกเขารู้สึกจำเป็นที่จะต้องย้ำผ่านต้นไม้เล็ก ๆ

d2d2dd2d2dการตอบสนอง แต่ไม่มีใครเหมาะกับต้นไม้ที่สมบูรณ์ โดยทั่วไปแล้วคุณ overfit แล้วตัดออกกลับโดยใช้การตรวจสอบความถูกต้องข้าม สิ่งที่คุณได้รับในตอนท้ายคือต้นไม้ที่เล็กกว่าและเรียบง่ายกว่าเดิม แต่ชุดสมมติฐานของคุณยังคงมีขนาดใหญ่ Aslan และคณะ พยายามประเมินมิติ VC ของตระกูลต้นไม้ต้น isomorphic แต่ละครอบครัวเป็นสมมติฐานที่ตั้งค่าด้วยมิติ VC ของตัวเอง

ป้อนคำอธิบายรูปภาพที่นี่

d=3(1,0,0,1),(1,1,1,0),(0,1,0,1),(1,1,0,1)x1 และ x2จะเป็น isomorphic และเป็นส่วนหนึ่งของชุดสมมติฐานเดียวกัน ดังนั้นแม้ว่าจะมีเพียง 3 ใบบนต้นไม้เหล่านี้แต่ละชุดต้นไม้ดังกล่าวสามารถแตก 4 คะแนนและมิติ VC คือ 4 ในกรณีนี้ อย่างไรก็ตามต้นไม้เดียวกันอาจเกิดขึ้นในพื้นที่ที่มีตัวแปร 4 ตัวซึ่งในกรณีนี้มิติ VC จะเป็น 5 ดังนั้นมันจึงซับซ้อน

วิธีแก้ปัญหากำลังดุร้ายของ Aslan นั้นทำงานได้ค่อนข้างดี แต่สิ่งที่พวกเขาได้รับไม่ใช่มิติ VC ของอัลกอริธึมที่คนใช้เนื่องจากสิ่งเหล่านี้ขึ้นอยู่กับการตัดแต่งกิ่งและการตรวจสอบข้าม มันยากที่จะบอกว่าพื้นที่สมมติฐานคืออะไรจริง ๆ แล้วโดยหลักการแล้วเราเริ่มต้นด้วยจำนวนต้นไม้ที่เป็นไปได้ที่แตกเป็นเสี่ยง ๆ แต่จากนั้นตัดกลับไปที่บางสิ่งที่เหมาะสมกว่า แม้ว่าใครบางคนเริ่มต้นด้วยตัวเลือกเบื้องต้นที่จะไม่ไปเกินสองชั้นพูดว่าอาจยังมีความจำเป็นในการตัดต้นไม้ และเราไม่ต้องการมิติข้อมูล VC จริงๆเนื่องจากการตรวจสอบข้ามไปหลังจากเกิดข้อผิดพลาดตัวอย่างโดยตรง

เพื่อความเป็นธรรมกับ Aslan และคณะพวกเขาไม่ได้ใช้มิติ VC เพื่อกำหนดพื้นที่สมมุติฐานของพวกเขา พวกเขาคำนวณมิติ VC ของสาขาและใช้ปริมาณนั้นเพื่อพิจารณาว่าควรจะตัดสาขาหรือไม่ ในแต่ละขั้นตอนพวกเขาใช้มิติ VC ของการกำหนดค่าเฉพาะของสาขาภายใต้การพิจารณา พวกเขาไม่ได้มองมิติ VC ของปัญหาโดยรวม

หากตัวแปรของคุณมีความต่อเนื่องและการตอบสนองขึ้นอยู่กับการเข้าถึงธรณีประตูแล้วต้นไม้การตัดสินใจจะสร้าง perceptrons จำนวนมากดังนั้นมิติ VC จะน่าจะมากกว่านั้น (เนื่องจากคุณต้องประเมินจุดตัดเพื่อแยก) . หากการตอบสนองนั้นขึ้นอยู่กับการตอบสนองอย่างต่อเนื่องรถเข็นจะตัดออกเป็นหลายขั้นตอนพยายามสร้างแบบจำลองการถดถอยใหม่ ฉันจะไม่ใช้ต้นไม้ในกรณีนั้น - อาจเป็นเกมหรือการถดถอย

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.