ป่าสุ่มที่มีผลผลิตหลายรายการจะเป็นไปได้ / ในทางปฏิบัติหรือไม่?


17
  1. ป่าสุ่ม (RFs) เป็นการสร้างแบบจำลองข้อมูลการแข่งขัน / วิธีการขุด

  2. RF model มีหนึ่งเอาต์พุต - ตัวแปรเอาต์พุต / การทำนาย

  3. วิธีการที่ไร้เดียงสาในการสร้างแบบจำลองเอาต์พุตจำนวนมากที่มี RFs คือการสร้าง RF สำหรับตัวแปรเอาต์พุตแต่ละตัว ดังนั้นเราจึงมีโมเดลอิสระ N และที่ใดที่มีความสัมพันธ์ระหว่างตัวแปรเอาต์พุตเราจะมีโครงสร้างโมเดลซ้ำซ้อน / ซ้ำกัน นี่อาจสิ้นเปลืองอย่างมากแน่นอน นอกจากนี้ในฐานะที่เป็นกฎทั่วไปมากขึ้นตัวแปรรูปแบบหมายถึงรูปแบบ overfit มากขึ้น (การวางหลักเกณฑ์ทั่วไปน้อยกว่า) ไม่แน่ใจว่าสิ่งนี้ใช้ที่นี่ แต่อาจเป็นไปได้

โดยหลักการแล้วเราอาจมี RF ที่มีเอาต์พุตหลายตัว ตัวแปรการทำนายตอนนี้เป็นเวกเตอร์ (n-tuple) โหนดการตัดสินใจในต้นไม้การตัดสินใจแต่ละชุดจะแยกชุดของเวกเตอร์เป้าหมาย / การทำนายโดยใช้เวกเตอร์จุดเริ่มต้นฉันคิดว่าเกณฑ์นี้ถูกนำมาใช้เป็นระนาบในพื้นที่ n- มิติดังนั้นเราจึงสามารถกำหนดด้านใดของเกณฑ์ เวกเตอร์เป้าหมายแต่ละตัวเปิดอยู่

ค่าการทำนายที่เหมาะสมที่สุดสำหรับแต่ละด้านของการแยกการตัดสินใจคือค่าเฉลี่ย (centroid) ที่คำนวณสำหรับเวกเตอร์ในแต่ละด้าน

การค้นหาจุดแยกที่เหมาะสมที่สุดเมื่อทำงานกับตัวแปรเดี่ยวนั้นมีความสำคัญและรวดเร็ว / มีประสิทธิภาพในการคำนวณ สำหรับ n-tuple เราไม่สามารถหาการแยกที่ดีที่สุด (หรืออย่างน้อยก็กลายเป็น infeasible เป็นเพิ่มขึ้น N) แต่เราอาจจะพบการแยกที่ดีที่สุดใกล้โดยใช้วิธีการชนิด Monte Carlo (หรือไฮบริดของ Monte Carlo และท้องถิ่น การเคลื่อนที่แบบลาดลาด)

มันจะใช้งานได้จริงหรือ นั่นคือมันจะแมปคู่การฝึกอบรมโดยไม่มีการสรุปหรือไม่ เทคนิคนี้มีอยู่แล้วภายใต้ชื่ออื่นหรือไม่?

คุณอาจต้องการพิจารณาว่าสิ่งนี้เกี่ยวข้องกับอวนประสาทเช่นเครื่อง Boltzmann (RBMs) ที่ จำกัด และเครือข่ายความเชื่อที่ลึกล้ำ


Googling "multilabel random forest" แสดงให้เห็นว่าสิ่งนี้เกิดขึ้นได้หลายวิธี อย่างไรก็ตามฉันได้เล่นกับวิธีการหลายไบนารี RFS นี้ในการดึงข้อมูลดนตรีและมันก็ทำได้ดี

1
ผมขอแนะนำให้คุณบทความนี้ พวกเขาทำสิ่งที่ใกล้เคียงกับที่คุณอธิบาย
Dmitry Laptev

2
มีอยู่แล้วในแพ็คเกจปาร์ตี้และแพ็คเกจอื่น ๆ (ภาษา R)
Jase

คำตอบ:


8

ต้นไม้ตัดสินใจเอาท์พุทหลาย (และจากนี้ป่าสุ่ม) ได้รับการพัฒนาและเผยแพร่ Pierre Guertz แจกจ่ายแพ็คเกจสำหรับสิ่งนี้ ( ดาวน์โหลด) ดูเพิ่มเติม Segal & Xiao ป่าสุ่มหลายตัวแปร WIREs Data Mining Knowl Discov 2011 1 80–87, DOI: 10.1002 / widm.12 ฉันเชื่อว่า Scikit-learning รุ่นล่าสุดยังสนับสนุนสิ่งนี้ บทวิจารณ์ที่ดีเกี่ยวกับศิลปะสามารถพบได้ในวิทยานิพนธ์โดย Henrik Linusson เรื่อง "MULTI-OUTPUT RANDOM FORESTS" วิธีที่ง่ายที่สุดสำหรับการเลือกตัวเลือกการแยกที่แต่ละโหนดคือการสุ่มเลือกหนึ่งในตัวแปรเอาต์พุตแล้วทำตามวิธีการฟอเรสต์แบบสุ่มตามปกติสำหรับการเลือกตัวแยก วิธีการอื่น ๆ ที่อิงจากผลรวมถ่วงน้ำหนักของคะแนนข้อมูลร่วมกันที่เกี่ยวกับคุณลักษณะอินพุตและตัวแปรเอาต์พุตได้รับการพัฒนาขึ้น แต่มีราคาค่อนข้างแพงเมื่อเทียบกับวิธีการสุ่ม


-1

ตามที่ระบุไว้ที่นี่ :

ตัวแยกประเภททั้งหมดในการจัดหมวดหมู่มัลติคาสต์แบบ Scikit-Learn do-of-the-box

และนั่นรวมถึงป่าสุ่ม

นอกจากนี้หน้า: http://scikit-learn.org/stable/modules/tree.html#tree-multioutputมีการอ้างอิงจำนวนมากในหัวข้อนั้น


8
ต้องมีความชัดเจน; คำถามเกี่ยวข้องกับการถดถอยแบบหลายเอาต์พุต
redcalx

ขออภัยสำหรับความล่าช้าในการตอบกลับของฉัน แต่ดูเหมือนว่า scikit-learn เสนอการถดถอยแบบมัลติเอาต์เช่นกัน: scikit-learn.org/stable/auto_examples/tree/ และในกรณีใด ๆ มีกลยุทธ์ที่ประกอบด้วยการกระชับหนึ่ง regressor ต่อเป้าหมาย นี่เป็นกลยุทธ์ง่าย ๆ ในการขยายการถดถอยที่ไม่สนับสนุนการถดถอยแบบหลายเป้าหมาย: scikit-learn.org/stable/modules/generated/… HTH
0asa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.