ผลรวมของต้นไม้ตัดสินใจสองอันนั้นเท่ากับต้นไม้ตัดสินใจเดี่ยวหรือไม่?


15

สมมติว่าเรามีต้นไม้สองถดถอย (ต้นไม้และต้นไม้ B) ที่ป้อนข้อมูลแผนที่การส่งออกปี R Let Y = F ( x )สำหรับต้นไม้และB ( x )ต้นไม้บีต้นไม้แต่ละต้นใช้ไบนารีแยกกับ hyperplanes เป็นฟังก์ชั่นแยกxRdY^RY^=A(x)B(x)

ทีนี้สมมติว่าเรารับผลรวมถ่วงน้ำหนักของต้นไม้ออกมา:

(x)=WA A(x)+WB B(x)

ฟังก์ชั่นเทียบเท่ากับต้นไม้การถดถอย (ลึก) เดียวหรือไม่? หากคำตอบคือ "บางครั้ง" ดังนั้นภายใต้เงื่อนไขใด

โดยหลักการแล้วฉันต้องการอนุญาตไฮเปอร์เพลนแบบเอียง (เช่นการแยกที่ดำเนินการกับชุดค่าผสมเชิงเส้น) แต่สมมติว่าการแยกคุณสมบัติเดียวอาจใช้ได้ถ้าเป็นคำตอบเดียวที่มี

ตัวอย่าง

นี่คือต้นไม้การถดถอยสองต้นที่กำหนดบนพื้นที่อินพุต 2d:

ป้อนคำอธิบายรูปภาพที่นี่

รูปภาพแสดงให้เห็นว่าต้นไม้แต่ละพาร์ติชั่นมีพื้นที่การป้อนข้อมูลอย่างไรและเอาต์พุตสำหรับแต่ละภูมิภาค (เขียนเป็นสีเทา) หมายเลขสีระบุภูมิภาคของพื้นที่อินพุต: 3,4,5,6 สอดคล้องกับโหนดลีฟ 1 คือการรวมกันของ 3 และ 4 เป็นต้น

ทีนี้สมมติว่าเราเฉลี่ยผลผลิตของต้นไม้ A และ B:

ป้อนคำอธิบายรูปภาพที่นี่

เอาต์พุตเฉลี่ยจะถูกพล็อตทางด้านซ้ายโดยมีขอบเขตการตัดสินใจของต้นไม้ A และ B ซ้อนทับ ในกรณีนี้เป็นไปได้ที่จะสร้างทรีที่ลึกกว่าซึ่งมีเอาต์พุตเทียบเท่ากับค่าเฉลี่ย (พล็อตทางด้านขวา) แต่ละโหนดสอดคล้องกับพื้นที่ของพื้นที่อินพุตที่สามารถสร้างขึ้นจากพื้นที่ที่กำหนดโดยต้นไม้ A และ B (ระบุโดยตัวเลขสีบนแต่ละโหนดหลายหมายเลขบ่งชี้ถึงจุดตัดของสองภูมิภาค) โปรดทราบว่าต้นไม้นี้ไม่เหมือนกัน - เราน่าจะเริ่มสร้างจากต้นไม้ B แทนต้นไม้ A

ตัวอย่างนี้แสดงว่ามีหลายกรณีที่คำตอบคือ "ใช่" ฉันต้องการทราบว่านี่เป็นจริงเสมอ


2
อืม .. ถ้าอย่างนั้นทำไมเราจะฝึกป่าสุ่ม? (เพราะเห็นได้ชัดว่าการรวมกันเชิงเส้นของต้นไม้ 500 ต้นสามารถแสดงอีกครั้งเป็นจำนวนเงิน 499 ผลรวมของจำนวนต้นไม้ 500 คู่) คำถามที่ดี +1
usεr11852พูดว่า Reinstate Monic

คำถามที่น่าสนใจ! ฉันจะสมมติพื้นที่สมมุติฐานของต้นไม้ตัดสินใจและตระการตาต้นไม้ตัดสินใจ (การส่งเสริมการรวมกันเชิงเส้นของต้นไม้) ให้เหมือนกัน รอคอยที่จะได้คำตอบ ..
หลักสี่นาธาน

@ usεr11852อาจเป็นเพราะการใช้ต้นไม้ใหญ่ต้นเดียวแทนที่จะใช้ป่าช้ากว่านี้มาก? เช่นเดียวกับในเครือข่ายนิวรัลเครือข่ายเลเยอร์ที่ซ่อนอยู่สามารถประมาณฟังก์ชั่นต่อเนื่องได้ทั้งหมด แต่การเพิ่มเลเยอร์ทำให้เครือข่ายเร็วขึ้น ไม่ได้พูดแบบนี้เป็นกรณีที่นี่ แต่มันอาจจะเป็น
Harto Saarinen

1
@HartoSaarinen: นี่เป็นวิธีคิดที่น่าสนใจเกี่ยวกับสิ่งนี้ แต่ฉันคิดว่ามันไม่ง่ายเลย เป็นที่ยอมรับกันว่าต้นไม้ที่ลึกมากอาจเหมาะและสรุปได้ไม่ดี (การคาดการณ์ของพวกเขาก็ไม่แน่นอนเช่นกัน) นอกจากนี้ (เกี่ยวกับการพิจารณาความเร็ว) ต้นไม้ที่ลึกกว่านั้นต้องการการแยกแบบทวีคูณมากขึ้นและทำให้เวลาการฝึกอบรมมากขึ้น (ต้นไม้ที่มีความลึก 10 แห่งมีจำนวนมากที่สุด 1,023 แยก แต่ต้นไม้ที่มีความลึก 20, 1048575 แยกมีงานอีกมาก!)
usεr11852พูดว่า Reinstate Monic

1
@ usεr11852ฉันยอมรับว่ามันอาจไม่จริงทั้งหมดและคำตอบอาจแตกต่างกันโดยสิ้นเชิง นี่คือสิ่งที่ทำให้สนามน่าสนใจมากในขณะนี้มีหลายสิ่งให้ค้นพบ!
Harto Saarinen

คำตอบ:


6

ใช่ผลรวมถ่วงน้ำหนักของต้นไม้การถดถอยนั้นเทียบเท่ากับต้นไม้การถดถอยเดียว (ที่ลึกกว่า)

ตัวประมาณฟังก์ชั่นสากล

ต้นไม้การถดถอยเป็นตัวประมาณฟังก์ชั่นสากล (ดูเช่นcstheory ) การวิจัยส่วนใหญ่เกี่ยวกับการประมาณฟังก์ชั่นสากลจะทำในเครือข่ายประสาทเทียมที่มีเลเยอร์ที่ซ่อนอยู่หนึ่งชั้น (อ่านบล็อกที่ยอดเยี่ยมนี้ ) อย่างไรก็ตามอัลกอริธึมการเรียนรู้ของเครื่องส่วนใหญ่เป็นการประมาณฟังก์ชันสากล

การเป็นผู้ประมาณค่าฟังก์ชันสากลหมายความว่าฟังก์ชันใดก็ได้สามารถแทนได้โดยประมาณ ดังนั้นไม่ว่าฟังก์ชั่นจะซับซ้อนเพียงใดการประมาณฟังก์ชั่นสากลสามารถแสดงได้ด้วยความแม่นยำที่ต้องการ ในกรณีของต้นไม้การถดถอยคุณสามารถจินตนาการสิ่งที่ลึกล้ำไม่สิ้นสุด ต้นไม้ที่ลึกล้ำนี้สามารถกำหนดค่าใด ๆ ให้กับจุดใดก็ได้ในอวกาศ

เนื่องจากผลรวมถ่วงน้ำหนักของต้นไม้การถดถอยเป็นอีกฟังก์ชันหนึ่งโดยพลการจึงมีต้นไม้การถดถอยอีกอันที่แทนฟังก์ชันนั้น

อัลกอริทึมในการสร้างต้นไม้

T1T2T2T1T1T2

ตัวอย่างด้านล่างแสดงต้นไม้ง่าย ๆ สองต้นที่เพิ่มด้วยน้ำหนัก 0.5 โปรดทราบว่าจะไม่มีการเข้าถึงโหนดใดโหนดหนึ่งเนื่องจากไม่มีตัวเลขที่เล็กกว่า 3 และใหญ่กว่า 5 ซึ่งบ่งชี้ว่าต้นไม้เหล่านี้สามารถปรับปรุงได้ แต่จะไม่ทำให้ถูกต้อง

ป้อนคำอธิบายรูปภาพที่นี่

ทำไมต้องใช้อัลกอริทึมที่ซับซ้อนมากขึ้น

คำถามเพิ่มเติมที่น่าสนใจถูกสร้างขึ้นโดย @ usεr11852ในความคิดเห็น: ทำไมเราจะใช้อัลกอริธึมการเพิ่ม (หรืออันที่จริงแล้วอัลกอริธึมการเรียนรู้ของเครื่องที่ซับซ้อน) ถ้าทุกฟังก์ชั่นสามารถสร้างแบบจำลอง

แผนภูมิการถดถอยสามารถแสดงถึงการทำงานใด ๆ ได้ แต่นั่นเป็นเพียงเกณฑ์เดียวสำหรับอัลกอริทึมการเรียนรู้ของเครื่อง คุณสมบัติที่สำคัญอีกอย่างหนึ่งก็คือ ต้นไม้ถดถอยลึกมีแนวโน้มที่จะ overfitting เช่นพวกเขาไม่ได้พูดคุยกัน ป่าสุ่มมีต้นไม้ที่ลึกล้ำมากมายเพื่อป้องกันสิ่งนี้

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.