จำกัด เพียงวิธีการรวมวงดนตรีที่ใช้ต้นไม้ในปัญหาเล็ก ๆ และปัญหาใหญ่ p?


10

วิธีการทั้งมวลของต้นไม้เช่น Random Forest และอนุพันธ์ถัดมา (เช่นป่าที่มีเงื่อนไข) ซึ่งล้วนเป็นประโยชน์ในสิ่งที่เรียกว่าปัญหา "small n , large p " เพื่อระบุความสำคัญของตัวแปรที่เกี่ยวข้อง ที่จริงเรื่องนี้ดูเหมือนจะเป็นจริง แต่คำถามของฉันคือความสามารถนี้จะนำไปได้ไกลแค่ไหน? เราสามารถมีข้อสังเกตได้ 30 ข้อและตัวแปร 100 ตัว? อะไรคือจุดแตกหักของวิธีการดังกล่าวและมีกฎที่เหมาะสมของหัวแม่มือที่มีอยู่? ฉันต้องการและจะยอมรับคำตอบที่ได้รับการสนับสนุนจากลิงก์ไปยังหลักฐานจริง (ไม่ใช่การคาดเดา) โดยใช้ชุดข้อมูลจำลองหรือชุดข้อมูลจริง ฉันไม่ได้พบมากในหลัง ( ที่นี่และที่นี่) ดังนั้นความคิด / คำแนะนำของคุณ / (ในหัวข้อ) คำแนะนำการอ้างอิงยินดีต้อนรับมากที่สุด!

คำตอบ:


3

ฉันสงสัยว่าจะไม่มีคำตอบที่ชัดเจนสำหรับคำถามนี้จนกว่าจะมีการศึกษาสถานการณ์จำลอง ในระหว่างนี้ฉันพบการสุ่มป่าของ Genuer et al : ความเข้าใจวิธีการบางอย่างช่วยให้มีมุมมองเกี่ยวกับคำถามนี้อย่างน้อยก็ในแง่ของการทดสอบ RF กับชุดข้อมูล "low n, high p" ที่หลากหลาย ชุดข้อมูลเหล่านี้หลายชุดมีผู้ทำนาย 5,000 คนและการสังเกตน้อยกว่า 100 ครั้ง !!


3

โหมดความล้มเหลวที่คุณจะพบคือมีคุณสมบัติแบบสุ่มมากพอจะมีคุณสมบัติที่เกี่ยวข้องกับเป้าหมายภายในตัวอย่างถุงที่ใช้สำหรับต้นไม้แต่ละต้น แต่ไม่อยู่ในชุดข้อมูลขนาดใหญ่ ปัญหาที่คล้ายคลึงกับที่เห็นในการทดสอบหลายรายการ

กฎของหัวแม่มือสำหรับเรื่องนี้ยากที่จะพัฒนาเนื่องจากจุดที่แน่นอนที่สิ่งนี้เกิดขึ้นขึ้นอยู่กับปริมาณของเสียงและความแรงของสัญญาณในข้อมูล นอกจากนี้ยังมีวิธีการที่แก้ไขปัญหานี้โดยใช้การทดสอบหลายค่าที่ถูกต้องแก้ไข p เป็นค่าการแยกทำขั้นตอนการเลือกคุณสมบัติตามความสำคัญของตัวแปรและ / หรือการเปรียบเทียบคุณสมบัตินำเข้ากับคุณลักษณะความเปรียบต่างประดิษฐ์ที่ผลิตโดยการสุ่มเปลี่ยนคุณสมบัติจริง ของกระเป๋าเพื่อตรวจสอบการเลือกแยกและวิธีการอื่น ๆ สิ่งเหล่านี้มีประสิทธิภาพอย่างมาก

ฉันเคยใช้ฟอเรสต์แบบสุ่ม (รวมถึงการปรับเปลี่ยนวิธีการบางอย่างข้างต้น) ในชุดข้อมูลที่มี ~ 1,000 เคสและ 30,000-1,000,000 ฟีเจอร์ (ชุดข้อมูลในพันธุศาสตร์มนุษย์ที่มีระดับการเลือกคุณสมบัติหรือวิศวกรรมที่แตกต่างกัน) แน่นอนว่าพวกเขาจะมีประสิทธิภาพในการกู้คืนสัญญาณที่แรง (หรือเอฟเฟกต์แบบแบตช์) ในข้อมูลดังกล่าว แต่ไม่สามารถทำสิ่งต่างๆร่วมกันได้ดีเช่นโรคที่มีสาเหตุต่างกันเนื่องจากการเปลี่ยนแปลงจำนวนสุ่มเอาชนะแต่ละสัญญาณ


0

นอกจากนี้ยังจะขึ้นอยู่กับสัญญาณและเสียงรบกวนในข้อมูลของคุณ ถ้าตัวแปรตามคุณอธิบายได้ค่อนข้างดีจากการรวมกันของตัวแปรในแบบจำลองของคุณมากกว่าที่ฉันคิดว่าคุณสามารถทำได้โดยใช้อัตราส่วน n / p ที่ต่ำกว่า

ฉันสงสัยว่าจะต้องมีจำนวนต่ำสุดที่แน่นอนของ n เพื่อให้ได้โมเดลที่ดีนอกเหนือจากอัตราส่วน

วิธีหนึ่งในการดูว่าต้นไม้แต่ละต้นสร้างโดยใช้ตัวแปร SQRT (p) และถ้าจำนวนนั้นมีขนาดใหญ่และจำนวนจุดเป็นต้นไม้ขนาดเล็กสามารถติดตั้งได้โดยไม่ต้องมีโมเดลจริง ดังนั้นต้นไม้ที่ผ่านการปรับแต่งมากมายจะให้ความสำคัญกับตัวแปรที่ผิดพลาด

โดยปกติถ้าในกราฟความสำคัญของตัวแปรฉันเห็นตัวแปรระดับสูงจำนวนมากที่มีระดับความสำคัญใกล้เคียงกันฉันสรุปว่ามันให้เสียงรบกวน


SQRT (p) มาจากไหน
LauriK

ใน RandomForest ต้นไม้แต่ละต้นจะถูกสร้างขึ้นโดยใช้ตัวอย่างของตัวแปร โดยค่าเริ่มต้น (atleast ในแพคเกจ R randomForest) ค่าที่ใช้คือจำนวนที่ใกล้ที่สุดน้อยกว่าหรือเท่ากับ SQRT (p) โดยที่ p คือจำนวนคอลัมน์
DeepakML
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.