ต้นไม้ถดถอยสามารถทำนายได้อย่างต่อเนื่องหรือไม่?


11

สมมติว่าฉันมีฟังก์ชั่นได้อย่างราบรื่นเช่น 2 ฉันมีชุดการฝึกอบรมD \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \}และแน่นอนฉันไม่รู้fถึงแม้ว่าฉันสามารถประเมินfทุกที่ที่ฉันต้องการ(x,Y)=x2+Y2D{((x,Y),(x,Y))|(x,Y)R2}

ต้นไม้ถดถอยมีความสามารถในการค้นหารูปแบบที่ราบรื่นของฟังก์ชั่น (ดังนั้นการเปลี่ยนแปลงเล็กน้อยในอินพุตควรให้การเปลี่ยนแปลงเพียงเล็กน้อยในผลลัพธ์)

จากสิ่งที่ฉันได้อ่านในบทที่ 10: ต้นไม้การถดถอยดูเหมือนว่าต้นไม้การถดถอยโดยทั่วไปจะใส่ค่าฟังก์ชันลงในถังขยะ:

สำหรับต้นไม้การถดถอยแบบคลาสสิกโมเดลในแต่ละเซลล์เป็นเพียงการประมาณค่าคงที่ของ Y

ขณะที่พวกเขาเขียน "คลาสสิค" ฉันเดาว่ามีตัวแปรที่เซลล์ทำสิ่งที่น่าสนใจมากกว่านี้หรือไม่

คำตอบ:


2

ต้นไม้ถดถอยโดยเฉพาะอย่างยิ่งการไล่ระดับสี (ต้นไม้หลายต้น) มีแนวโน้มที่จะทำได้ดีในการทำนายอย่างต่อเนื่องมักจะดีกว่าแบบจำลองที่มีความต่อเนื่องอย่างแท้จริงเช่นเดียวกับการถดถอยเชิงเส้นเมื่อ สิ่งนี้เป็นจริงโดยเฉพาะอย่างยิ่งเมื่อมีการโต้ตอบตัวแปรและเมื่อคุณมีชุดข้อมูลขนาดใหญ่เพียงพอ (มากกว่า 10,000 เร็กคอร์ด) เพื่อให้การโอเวอร์โหลดมีโอกาสน้อยกว่า หากวัตถุประสงค์หลักของคุณคือพลังในการทำนายเพียงอย่างเดียวโมเดลนั้นควรจะต่อเนื่อง 100% หรือหลอกต่อเนื่องไม่เกี่ยวข้อง หากการทำให้ต้นไม้การถดถอยของคุณเพิ่มขึ้นอย่างต่อเนื่องจะช่วยเพิ่มพลังการทำนายตัวอย่างคุณก็สามารถเพิ่มความลึกของต้นไม้หรือเพิ่มต้นไม้มากขึ้น


1
ฉันเห็นด้วย. ต้นไม้ที่ได้รับการปรับปรุงของฉันเกือบจะดีกว่า GLM ที่สร้างขึ้นมาอย่างระมัดระวังและปรับแต่งอย่างดีที่สุด แน่นอนคุณสูญเสียความสามารถในการตีความเมื่อคุณได้รับพลังการทำนาย
ประกาศข่าว

0

ต้นไม้ถดถอยคลาสสิกที่คุณมีค่าหนึ่งใบ แต่ในใบที่คุณสามารถมีรูปแบบการถดถอยเชิงเส้น, ตรวจสอบนี้ออกตั๋ว

คุณยังสามารถใช้ชุดของต้นไม้ (Random Forest หรือ Gradient Boosting Machines) เพื่อให้ได้ผลลัพธ์ที่ต่อเนื่อง


0

หากคุณขยายคำถามเล็กน้อยเพื่อรวมเทคนิคการไล่ระดับสีทั่วไป (ตรงกันข้ามกับกรณีพิเศษของต้นไม้การถดถอยที่เพิ่มขึ้น) คำตอบคือใช่ การเพิ่มระดับความลาดเอียงได้ถูกนำมาใช้เป็นทางเลือกสำหรับการเลือกตัวแปรสำเร็จแล้ว ตัวอย่างที่ดีคือแพคเกจ mboost กุญแจสำคัญคือคลาสของผู้เรียนพื้นฐานที่ใช้ในการส่งเสริมประกอบด้วยแบบจำลองอย่างต่อเนื่องเพื่อเริ่มต้น บทช่วยสอนนี้อธิบายชั้นเรียนทั่วไปของผู้เรียนพื้นฐานดังนี้

แบบจำลองการเรียนรู้พื้นฐานที่ใช้กันทั่วไปสามารถแบ่งได้เป็นสามประเภท: แบบจำลองเชิงเส้นแบบจำลองที่ราบรื่นและต้นไม้การตัดสินใจ นอกจากนี้ยังมีรุ่นอื่น ๆ อีกมากมายเช่นฟิลด์สุ่มมาร์คอฟ (Dietterich et al., 2004) หรือ wavelets (Viola and Jones, 2001) แต่การประยุกต์ใช้ของพวกเขาเกิดขึ้นสำหรับงานที่ค่อนข้างเฉพาะเจาะจง

โปรดทราบว่ามันกล่าวถึงเวฟเล็ตโดยเฉพาะ ต้นไม้และเวฟเล็ตได้รับการรวมเข้าด้วยกันอย่างประสบความสำเร็จก่อนหน้านี้ในเวฟเล็ตที่ใช้ต้นไม้


ผู้เรียนพื้นฐานอย่างต่อเนื่องในการส่งเสริมการไล่ระดับสีคืออะไร? หากคำตอบคือต้นไม้การตัดสินใจคุณช่วยอธิบายได้ไหมว่ามันต่อเนื่องกันได้ไหม?
Martin Thoma

ฉันได้อัพเดตคำตอบแล้ว กุญแจสำคัญคือการใช้ตัวทำนายที่มีลักษณะคล้ายต้นไม้อย่างต่อเนื่อง
user3605620
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.