ฟอเรสต์แบบสุ่มในข้อมูลที่จัดกลุ่ม


11

ฉันใช้ฟอเรสต์แบบสุ่มกับข้อมูลที่จัดกลุ่มมิติสูง (ตัวแปรอินพุตตัวเลข 50 ตัว) ซึ่งมีโครงสร้างแบบลำดับชั้น รวบรวมข้อมูลด้วยการจำลองแบบ 6 ครั้งที่ 30 ตำแหน่งของวัตถุที่แตกต่างกัน 70 รายการทำให้เกิดจุดข้อมูล 12,600 จุดซึ่งไม่เป็นอิสระ

ดูเหมือนว่าฟอเรสต์แบบสุ่มมีความเหมาะสมกับข้อมูลมากเกินไปเนื่องจากข้อผิดพลาด oob นั้นมีขนาดเล็กกว่าข้อผิดพลาดที่เราได้รับเมื่อออกจากข้อมูลหนึ่งวัตถุในระหว่างการฝึกอบรมและจากนั้นทำนายผลลัพธ์ของวัตถุด้านซ้าย ยิ่งกว่านั้นฉันมีความสัมพันธ์ที่เหลืออยู่

ฉันคิดว่า overfitting เกิดขึ้นเนื่องจากป่าสุ่มคาดว่าจะมีข้อมูลอิสระ เป็นไปได้ไหมที่จะบอกฟอเรสต์แบบสุ่มเกี่ยวกับโครงสร้างลำดับชั้นของข้อมูล? หรือมีวิธีการรวมหรือการหดตัวที่ทรงพลังอีกวิธีหนึ่งที่สามารถจัดการข้อมูลที่จัดกลุ่มมิติสูงด้วยโครงสร้างการโต้ตอบที่แข็งแกร่งได้หรือไม่

คำใบ้ใด ๆ ที่ฉันสามารถทำได้ดีกว่า?


ลักษณะของข้อมูลลำดับชั้นคืออะไร มันอนุญาตให้คุณใช้ใบของข้อมูลเป็นจุดข้อมูลของคุณหรือไม่
casperOne

1
คุณคิดว่าการบูตสแตรปเป็นระดับสูงสุดของลำดับชั้นแทนที่จะเป็นรายบุคคลหรือไม่?
generic_user

คำตอบ:


1

ดึกมากไปงานเลี้ยงเช่นกัน แต่ฉันคิดว่านั่นอาจเกี่ยวข้องกับสิ่งที่ฉันทำเมื่อไม่กี่ปีที่ผ่านมา งานนั้นเผยแพร่ที่นี่:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

และเป็นเรื่องเกี่ยวกับการจัดการกับความสัมพันธ์ของตัวแปรในชุดการตัดสินใจ คุณควรดูบรรณานุกรมซึ่งชี้ไปที่ข้อเสนอมากมายเพื่อจัดการกับปัญหาประเภทนี้ (ซึ่งเป็นเรื่องปกติในพื้นที่ "พันธุกรรม")

ซอร์สโค้ดมีให้ที่นี่ (แต่ไม่ได้รับการบำรุงรักษาอีกต่อไปจริงๆ)


-1

การปรับสภาพป่าโดยการปรับตัวให้แน่นเกินไปอาจเกิดจากหลายสาเหตุและขึ้นอยู่กับพารามิเตอร์ RF ไม่ชัดเจนจากโพสต์ของคุณว่าคุณปรับคลื่นวิทยุของคุณอย่างไร

นี่คือเคล็ดลับบางอย่างที่อาจช่วยได้:

  1. เพิ่มจำนวนต้นไม้

  2. ปรับความลึกสูงสุดของต้นไม้ พารามิเตอร์นี้ขึ้นอยู่กับปัญหาที่เกิดขึ้น การใช้ต้นไม้ขนาดเล็กสามารถช่วยแก้ปัญหาที่เกิดขึ้นได้


2
สายไปปาร์ตี้มาก แต่คำตอบนี้จะไม่แก้ปัญหาใด ๆ เนื่องจากลักษณะของชุดข้อมูล
cbeleites ไม่มีความสุขกับ SX
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.