การสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจเทียบกับป่าแบบสุ่ม


11

ป่าสุ่มคือชุดของต้นไม้ตัดสินใจที่เกิดขึ้นจากการสุ่มเลือกคุณสมบัติบางอย่างเท่านั้นที่จะสร้างต้นไม้แต่ละต้นด้วย (และบางครั้งการรวบข้อมูลการฝึกอบรม) เห็นได้ชัดว่าพวกเขาเรียนรู้และพูดคุยได้ดี มีใครทำการสุ่มตัวอย่าง MCMC ของพื้นที่ต้นไม้การตัดสินใจหรือเปรียบเทียบกับป่าสุ่ม? ฉันรู้ว่ามันอาจมีราคาแพงกว่าการคำนวณ MCMC และบันทึกต้นไม้ตัวอย่างทั้งหมด แต่ฉันสนใจคุณสมบัติทางทฤษฎีของรุ่นนี้ไม่ใช่ค่าใช้จ่ายในการคำนวณ สิ่งที่ฉันหมายถึงคือสิ่งนี้:

  1. สร้างแผนผังการตัดสินใจแบบสุ่ม (มันอาจจะทำงานได้อย่างน่ากลัว)
  2. โอกาส Compute ของต้นไม้กับสิ่งที่ต้องการหรือบางทีอาจจะเพิ่มระยะP P R ฉันo R ( T R อีอี)P(TRอีอี|Daเสื้อa)αP(Daเสื้อa|TRอีอี)PพีRผมโอR(TRอีอี)
  3. เลือกขั้นตอนการสุ่มเพื่อเปลี่ยนต้นไม้และเลือกบนพื้นฐานของความน่าจะเป็นข้อมูล)P(TRอีอี|Daเสื้อa)
  4. ทุกขั้นตอน N บันทึกสำเนาของต้นไม้ปัจจุบัน
  5. กลับไปที่ 3 สำหรับขนาดใหญ่ N * M บางครั้ง
  6. ใช้ชุดต้นไม้ที่บันทึกไว้ของ M เพื่อทำนายผล

สิ่งนี้จะให้ประสิทธิภาพที่คล้ายกันกับป่าสุ่ม โปรดทราบว่าที่นี่เราไม่ทิ้งข้อมูลหรือฟีเจอร์ที่ดีในขั้นตอนใด ๆ ซึ่งแตกต่างจากฟอเรสต์แบบสุ่ม


2
ฉันไม่แน่ใจว่าตรงนี้เป็นขั้นตอนการจัดเรียงของคุณวาด แต่มีBART นี่คือลิงค์ไปยังPDF
joran

คำตอบ:



4

น่าเสียดาย Chipman และคณะ ในวิธีการรถเข็นแบบเบย์ของพวกเขาจะดึงต้นไม้ที่น่าจะเป็นไปได้มากที่สุดเท่านั้น พวกเขาไม่เคยพยายามเฉลี่ยเหนือต้นไม้และเปรียบเทียบประสิทธิภาพกับป่าสุ่มและต้นไม้พิเศษ

ฉันเพิ่งอ่านกระดาษ BART จาก Chipman ถ้าฉันเข้าใจอย่างถูกต้องมันเป็นค่าเฉลี่ยของตัวอย่าง K จากการรวบรวมต้นไม้ม มันน่าสนใจในหลาย ๆ ด้านและดูเหมือนว่าจะทำงานได้ดีจริงๆ เมื่อ m = '1' มันเป็นค่าเฉลี่ยเบย์แบบง่าย ๆ ของตัวอย่าง K ของต้นไม้ 1 ต้นซึ่งมาจากด้านหลัง อย่างไรก็ตามมีการทดสอบไม่มากในด้านนั้น และฉันยังคงสนใจที่จะรู้ว่า Random Forest หรือ Extra-Trees เป็นอย่างไรเมื่อเปรียบเทียบกับแบบจำลอง Bayes ที่แท้จริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.