ต้นไม้ประมาณเสมอลำเอียงหรือไม่?


9

ฉันกำลังทำการบ้านบนต้นไม้ตัดสินใจและหนึ่งในคำถามที่ฉันต้องตอบคือ "ทำไมตัวประมาณถูกสร้างขึ้นจากต้นไม้ลำเอียงและการห่อถุงช่วยลดความแปรปรวนได้อย่างไร"

ตอนนี้ฉันรู้ว่าแบบจำลองที่ติดตั้งแล้วมีแนวโน้มที่จะมีอคติต่ำมากเพราะพวกเขาพยายามจัดวางจุดข้อมูลทั้งหมด และฉันมีสคริปต์ใน Python ที่ติดตั้งทรีกับชุดข้อมูลบางส่วน (มีคุณสมบัติเดียวมันเป็นเพียงไซน์ไซด์โดยมีจุดปิดบางภาพด้านล่าง) ดังนั้นฉันสงสัยว่า "ดีถ้าฉัน reeeeally overfit ข้อมูลฉันจะได้รับอคติเป็นศูนย์หรือไม่" และมันกลับกลายเป็นว่าแม้จะมีความลึก 10,000 ยังคงมีบางจุดที่เส้นโค้งไม่ผ่าน

ป้อนคำอธิบายรูปภาพที่นี่

ฉันพยายามค้นหาสาเหตุ แต่ไม่พบคำอธิบายจริงๆ ฉันเดาว่าอาจมีต้นไม้บางต้นที่สามารถผ่านทุกจุดได้อย่างสมบูรณ์แบบและต้นไม้ที่ฉันได้รับก็คือ "โชคร้าย" หรือนั่นอาจเป็นชุดข้อมูลที่แตกต่างกันอาจให้ผลลัพธ์ที่ไม่เอนเอียง (อาจเป็นไซนัสที่สมบูรณ์แบบ?) หรือแม้แต่นั้นการตัดที่เกิดขึ้นในตอนต้นทำให้เป็นไปไม่ได้ที่การตัดเพิ่มเติมจะแยกจุดทั้งหมดอย่างสมบูรณ์

ดังนั้นเมื่อคำนึงถึงชุดข้อมูลนี้ (เนื่องจากอาจแตกต่างกับชุดอื่น ๆ ) คำถามของฉันคือ: เป็นไปได้หรือไม่ที่จะปรับต้นไม้จนจุดที่อคตินั้นมีค่าเป็นศูนย์หรือว่าจะมีอคติอยู่บ้าง ขนาดเล็ก? และถ้าอย่างน้อยก็มีอคติเสมอทำไมมันถึงเกิดขึ้น?

PS ฉันไม่รู้ว่ามันอาจเกี่ยวข้องหรือไม่ แต่ฉันใช้DecisionTreeRegressorจากsklearnเพื่อให้พอดีกับโมเดลกับข้อมูล


3
ยินดีต้อนรับสู่เว็บไซต์ของเรา! โปรดทราบว่าไม่จำเป็นต้องเพิ่ม "ขอบคุณล่วงหน้า" ในคำถามของคุณวิธีที่ดีที่สุดในการแสดงความขอบคุณคือรอจนกว่าคุณจะได้รับคำตอบและยอมรับ (ติ๊กสีเขียว) แล้วแต่ว่าสิ่งใดจะช่วยคุณได้มากที่สุด! หากคุณยังไม่ได้ทำทำไมไม่ลองดูทัวร์ของเราเพื่อดูว่าไซต์นี้ทำงานอย่างไร
Silverfish

3
พิจารณาฟังก์ชั่น y = 0 และคุณพยายามใส่ y = f (x) โดยที่ x รับค่าสุ่มบางอย่าง ต้นไม้ประมาณการตัดสินใจลำเอียงในกรณีมุมนี้เป็นที่ยอมรับหรือไม่?
jbowman

คำตอบ:


10

ต้นไม้การตัดสินใจแบบไม่มีอคติเสมอไปกว่าโมเดลการเรียนรู้อื่น ๆ

เพื่ออธิบายลองดูตัวอย่างสองตัวอย่าง ปล่อยX เป็นตัวแปรเครื่องแบบสุ่มบน [0,1]. นี่คือกระบวนการทางสถิติที่เป็นไปได้

ความจริง 1: Y รับ X เป็นฟังก์ชั่นตัวบ่งชี้ของ X รวมทั้งเสียง:

YXI<.5(X)+N(0,1)

ความจริง 2: Y รับ X เป็นฟังก์ชันเชิงเส้นของ Xบวกกับเสียงรบกวน:

YXX+N(0,1)

ถ้าเราพอดีกับต้นไม้การตัดสินใจในทั้งสองสถานการณ์ตัวแบบจะไม่ลำเอียงในสถานการณ์แรก แต่จะลำเอียงในสอง นี่เป็นเพราะต้นไม้ไบนารีแบบแยกที่หนึ่งสามารถกู้คืนโมเดลข้อมูลต้นแบบที่แท้จริงในสถานการณ์แรก ในวินาทีที่ดีที่สุดที่ต้นไม้สามารถทำได้คือประมาณฟังก์ชั่นเชิงเส้นโดยการผัดในช่วงเวลาที่ดีกว่าเดิม - ต้นไม้ที่มีความลึก จำกัด สามารถเข้าใกล้ได้

ถ้าเราพอดีกับการถดถอยเชิงเส้นในทั้งสองสถานการณ์ตัวแบบจะเอนเอียงในสถานการณ์แรก แต่จะไม่ลำเอียงในครั้งที่สอง

ดังนั้นหากต้องการทราบว่าแบบจำลองนั้นมีความลำเอียงหรือไม่คุณต้องทราบว่ากลไกข้อมูลที่แท้จริงนั้นคืออะไร ในสถานการณ์จริงคุณไม่เคยรู้เรื่องนี้ดังนั้นคุณจึงไม่สามารถพูดได้จริง ๆ ว่าแบบจำลองในชีวิตจริงนั้นมีอคติหรือไม่ บางครั้งเราคิดว่าเราถูกต้องมาเป็นเวลานาน แต่แล้วความลำเอียงก็เกิดขึ้นด้วยความเข้าใจที่ลึกซึ้งยิ่งขึ้น (Newtonian Gravity to Einstein Gravity เป็นตัวอย่างที่ไม่มีหลักฐาน)

ในบางแง่มุมเราคาดว่ากระบวนการในโลกแห่งความเป็นจริงส่วนใหญ่ (มีข้อยกเว้นบางอย่าง) จะไม่สามารถหยั่งรู้ได้ว่าการประมาณความจริงที่สมเหตุสมผลพอสมควรคือแบบจำลองของเราทุกลำเอียง ฉันสงสัยว่าคำถามกำลังขอให้มีการสนทนาเชิงลึกเกี่ยวกับความสำคัญที่ไร้ประโยชน์ของการสร้างแบบจำลองกระบวนการทางสถิติที่ซับซ้อน แต่มันสนุกที่จะคิด


0

ความจริงที่ว่าบางจุดในข้อมูลของคุณยังไม่ถูกคาดการณ์อาจเป็นเพราะสิ่งที่เรียกว่าข้อผิดพลาดลดลง ทฤษฎีคือว่าในการเรียนรู้ของเครื่องมีข้อผิดพลาดที่ลดได้และลดลงไม่ได้ แนวคิดของข้อผิดพลาดลดลงไม่ว่าโมเดลของคุณจะดีแค่ไหนก็ตามมันจะไม่สมบูรณ์แบบเลยทีเดียว นี่คือสาเหตุบางประการ หนึ่งไม่ว่าคุณสมบัติการฝึกอบรมของคุณจะมีประสิทธิภาพเพียงใดคุณลักษณะที่ซ่อนอยู่จะมีผลต่อผลลัพธ์ที่ข้อมูลการฝึกอบรมของคุณไม่ได้รวมอยู่ด้วย อีกเหตุผลหนึ่งก็คือในข้อมูลเกือบทั้งหมดมีความผูกพันกับค่าผิดปกติบางอย่าง คุณสามารถพยายามทำให้แบบจำลองของคุณมีความทนทานต่อค่าผิดปกติมากที่สุดเท่าที่จะทำได้ แต่ไม่ว่าคุณจะพยายามมากแค่ไหนค่าตัวผิดพลาดก็จะมีอยู่เสมอ (นี่ไม่ได้หมายความว่าคุณไม่ควรคิดถึงค่าผิดปกติเมื่อสร้างแบบจำลองของคุณ) และรายละเอียดสุดท้ายอย่างหนึ่งก็คือคุณไม่ต้องทำ '

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.