Random Forest เหมาะสมกับชุดข้อมูลที่มีขนาดเล็กมากหรือไม่?


13

ฉันมีชุดข้อมูลซึ่งประกอบด้วยข้อมูล 24 แถวทุกเดือน คุณลักษณะคือ GDP การมาถึงสนามบินรายเดือนและอื่น ๆ ตัวแปรตามคือจำนวนผู้เข้าชมปลายทางการท่องเที่ยวที่เป็นที่นิยม ป่าสุ่มจะเหมาะสำหรับปัญหานี้หรือไม่?

ข้อมูลนั้นไม่ใช่ข้อมูลสาธารณะดังนั้นฉันจึงไม่สามารถโพสต์ตัวอย่างได้


โดยทั่วไปแล้วข้อ จำกัด อย่างหนึ่งของป่าสุ่มคือจำนวนคุณลักษณะของคุณควรค่อนข้างใหญ่ - ขั้นตอนแรกของ RF คือการเลือกคุณลักษณะ 1 / 3n หรือ sqrt (n) เพื่อสร้างต้นไม้ (ขึ้นอยู่กับงานการถดถอย / การจัดหมวดหมู่) ดังนั้นหากคุณมีคุณสมบัติค่อนข้างมากให้ใช้ RF แม้ในชุดข้อมูลขนาดเล็ก - ไม่มีอัลกอริทึมที่ทำงานได้ดีกับชุดข้อมูลขนาดเล็กดังนั้นคุณจึงไม่เสียอะไรเลย
German Demidov

คุณอยู่ในช่วงต่ำ RF จะใช้งานได้ แต่อาจจะไม่ได้เรียนรู้สิ่งที่ซับซ้อนมากไปกว่าสิ่งที่คุณจะได้รับจากการแสดงข้อมูลดิบ ช่วยถ้าข้อมูลของคุณมีสัญญาณรบกวนต่ำมาก จาก 40-50 ตัวอย่างมันเริ่มดีขึ้น 500 ดี ยอดเยี่ยม 5,000
Soren Havelund Welling

สำหรับการถดถอยความลึกของต้นไม้ที่เป็นไปได้นั้นถูก จำกัด โดย minnode = 5 ดังนั้นตัวอย่างของคุณโดยเฉลี่ยจะไม่แยกมากกว่า 2 เท่า [[24 -> (1) 12 -> (2) 6. ]] รวมถึงข้อ จำกัด ของ mtry แบบจำลองจะมีช่วงเวลาที่ยากลำบากในการจับเอฟเฟกต์การโต้ตอบหรือเอฟเฟกต์ที่ไม่ใช่เชิงเส้นอย่างง่าย คุณสามารถเล่นซอกับ minnode และ mtry ได้ แต่คุณควรทำอย่างนั้นถ้าข้อมูลของคุณมีสัญญาณรบกวนน้อยกว่า ศักยภาพของข้อสรุปที่เหมาะสมคือฟลิปไซด์ คุณได้โครงสร้างของแบบจำลองจะมีลักษณะเป็นขั้นตอนแบบเรียบ
Soren Havelund Welling


สำหรับชุดข้อมูลขนาดเล็กให้ใช้เทคนิคการตรวจสอบความถูกต้อง สำหรับข้อมูลเพิ่มเติม, stats.stackexchange.com/questions/19048/…
Asif Khan

คำตอบ:


4

ฟอเรสต์แบบสุ่มนั้นจะเริ่มต้นการสุ่มตัวอย่างใหม่และฝึกการตัดสินใจต้นไม้บนตัวอย่างดังนั้นคำตอบสำหรับคำถามของคุณจำเป็นต้องพูดถึงสองข้อนั้น

บูต resamplingคือไม่ได้แก้สำหรับตัวอย่างขนาดเล็ก หากคุณมีการสังเกตเพียงยี่สิบสี่ครั้งในชุดข้อมูลของคุณตัวอย่างแต่ละตัวอย่างที่ถูกแทนที่ด้วยข้อมูลนี้จะประกอบด้วยค่าที่แตกต่างกันไม่เกินยี่สิบสี่ค่า การสับเคสและการไม่วาดภาพบางส่วนจะไม่เปลี่ยนความสามารถของคุณในการเรียนรู้อะไรใหม่เกี่ยวกับการแจกแจงพื้นฐาน ดังนั้นตัวอย่างเล็ก ๆเป็นปัญหาสำหรับ bootstrap

ต้นไม้การตัดสินใจได้รับการฝึกฝนโดยการแยกข้อมูลตามตัวแปรตัวทำนายล่วงหน้าทีละหนึ่งตัวแปรเพื่อค้นหาชุดย่อยที่มีอำนาจในการเลือกปฏิบัติมากที่สุด หากคุณมีเพียงยี่สิบสี่กรณีให้พูดว่าถ้าคุณโชคดีและการแบ่งทั้งหมดมีขนาดเท่ากันถ้าคุณแยกสองกลุ่มคุณจะจบลงด้วยสี่กลุ่มหกกรณีพร้อมต้นไม้แยกกับกลุ่มแปดสามกลุ่ม หากคุณคำนวณค่าเฉลี่ยตามเงื่อนไขในตัวอย่าง (เพื่อทำนายค่าอย่างต่อเนื่องในต้นไม้ถดถอยหรือความน่าจะเป็นตามเงื่อนไขในต้นไม้ตัดสินใจ) คุณจะใช้ข้อสรุปของคุณเฉพาะในสองสามกรณีเหล่านั้น! ตัวอย่างย่อยที่คุณจะใช้ในการตัดสินใจจะน้อยกว่าข้อมูลต้นฉบับของคุณ

กับกลุ่มตัวอย่างขนาดเล็กก็มักจะฉลาดที่จะใช้วิธีการง่ายๆ ยิ่งไปกว่านั้นคุณสามารถติดตามตัวอย่างขนาดเล็กโดยใช้นักบวชที่มีข้อมูลในการตั้งค่าแบบเบย์ (ถ้าคุณมีความรู้นอกเรื่องข้อมูลที่สมเหตุสมผลเกี่ยวกับปัญหา) ดังนั้นคุณสามารถลองใช้แบบจำลองแบบเบส์ที่สร้างขึ้นเองได้


1

ในอีกด้านหนึ่งนี่เป็นชุดข้อมูลขนาดเล็กและฟอเรสต์แบบสุ่มเป็นที่ต้องการข้อมูล

ในทางกลับกันอาจมีบางสิ่งที่ดีกว่าไม่มีอะไร ไม่มีอะไรจะพูดนอกจาก "ลองและดู" คุณจะต้องตัดสินใจว่าโมเดลใด ๆ นั้นดีหรือไม่ ยิ่งกว่านั้นเราไม่สามารถบอกคุณได้ว่าแบบจำลองใดเหมาะสำหรับวัตถุประสงค์เฉพาะ (หรือคุณไม่ต้องการให้เราทำ - ไม่มีค่าใช้จ่ายสำหรับเราหากเราทำผิด!)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.