การแบ่งประเภทแบ่งชั้นด้วยป่าสุ่ม (หรือตัวแยกประเภทอื่น)


12

ดังนั้นฉันจึงมีเมทริกซ์ประมาณ 60 x 1,000 ฉันมองว่ามันเป็นวัตถุ 60 ชิ้นที่มีคุณสมบัติ 1,000 รายการ วัตถุ 60 ชิ้นถูกจัดกลุ่มเป็น 3 คลาส (a, b, c) วัตถุ 20 ชิ้นในแต่ละชั้นและเรารู้การจำแนกที่แท้จริง ฉันต้องการทำการเรียนรู้ภายใต้การดูแลในชุดตัวอย่างการฝึกอบรม 60 ชุดนี้และฉันสนใจทั้งความแม่นยำของตัวจําแนก (และตัวชี้วัดที่เกี่ยวข้อง) รวมถึงการเลือกคุณสมบัติของคุณสมบัติ 1,000 รายการ

ก่อนชื่อของฉันเป็นอย่างไร

ตอนนี้คำถามจริง:

ฉันสามารถโยนฟอเรสต์แบบสุ่มตามที่ระบุไว้หรือตัวแยกประเภทอื่น ๆ แต่มีความละเอียดอ่อน - ฉันสนใจเฉพาะความแตกต่างของคลาส c จากคลาส a และ b เท่านั้น ฉันสามารถเรียนสระว่ายน้ำ a และ b แต่มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะสร้างกลุ่มที่แตกต่างกันสองกลุ่มหรือไม่? ฉันต้องการใช้ฟอเรสต์แบบสุ่มหรือตัวแปรเนื่องจากมันแสดงให้เห็นว่ามีประสิทธิภาพสำหรับข้อมูลที่คล้ายกับของฉัน แต่ฉันมั่นใจได้ว่าจะลองวิธีอื่น


ฉันไม่เห็นปัญหาใด ๆ กับระบบการตั้งชื่อของคุณ เป็น 60 วัตถุทั้งหมดที่คุณมี? จากนั้นในการคำนวณความถูกต้องของการจำแนกคุณจะต้องแยกชุดข้อมูลของคุณออกเป็นชุดรถไฟชุดทดสอบ (และการตรวจสอบ) มีหลายวิธีในการทำเช่นนี้ แต่การตรวจสอบความถูกต้องไขว้ของ -fold เป็นสิ่งที่พบได้บ่อยที่สุดฉันคิดว่า k
emrea

1
ใช่แค่ 60 เหล่านี้ แต่ฉันคิดว่าสำหรับป่าสุ่มต้นไม้การตัดสินใจแต่ละต้นถูกสร้างขึ้นด้วยชุดย่อยของตัวอย่างเพื่อให้คุณสามารถรับข้อผิดพลาดการประมาณโดยทั่วไปโดยการใช้ตัวอย่าง 60 ตัวอย่างที่มีอยู่กับต้นไม้เหล่านั้นภายในป่า เห็นตัวอย่างระหว่างการก่อสร้าง ( stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr ) ดังนั้นอาจไม่จำเป็นต้องใช้การตรวจสอบไขว้ทั่วไป
user116293

คุณควรกังวลเกี่ยวกับการพลุ่งพล่านที่นี่มาก คุณมีตัวแปร 1,000 ตัวพร้อมกับวัตถุ 60 ชิ้นฉันจะรู้สึกดีขึ้นมากถ้ามันเป็นคิวอีกรอบและฉันจะบอกว่าคุณควรกังวลเกี่ยวกับการมีน้ำหนักเกิน มีวิธีตรรกะหรือความหมายเพื่อไถ่ถอนจำนวนของตัวแปรก่อนที่จะทำการวิเคราะห์?
jank

คำตอบ:


8

มีวิธีที่ดีในการใช้ความรู้เบื้องต้นว่าวัตถุที่ไม่ใช่ c ทั้งหมดน่าจะก่อให้เกิดกลุ่มที่แตกต่างกันสองกลุ่ม

หากคุณใช้วิธีแบบ tree ฉันไม่คิดว่ามันเป็นเรื่องสำคัญเนื่องจากตัวแยกประเภทตัวแบ่งพาร์ติชันของพื้นที่คุณสมบัติจากนั้นดูสัดส่วนของตัวอย่างในแต่ละคลาส ดังนั้นสิ่งที่สำคัญคือการเกิดสัมพันธ์ของคลาส c ในแต่ละโหนดเทอร์มินัล

หากอย่างไรก็ตามคุณกำลังใช้บางสิ่งบางอย่างเช่นการผสมผสานของบรรทัดฐาน LDA ฯลฯ จากนั้นการรวมสองกลุ่มจะเป็นความคิดที่ไม่ดี (สมมติว่าคลาส a และ b เป็นกลุ่มที่ไม่ซ้ำกัน) ที่นี่คุณจำเป็นต้องรักษาโครงสร้างคลาสเพื่ออธิบายพื้นที่คุณลักษณะที่แมปไปยัง a, b และ c ได้อย่างถูกต้อง โมเดลเหล่านี้ถือว่าคุณสมบัติสำหรับแต่ละคลาสมีการแจกแจงแบบปกติที่แตกต่างกัน หากคุณรวม a และ b คุณจะบังคับให้การแจกแจงแบบปกติเดี่ยวให้พอดีกับส่วนผสม

โดยสรุปสำหรับต้นไม้มันไม่ควรสำคัญมากถ้าคุณ:

I. สร้างตัวแยกประเภทสามตัว (1. a vs b, 2. a vs c และ 3. b vs c) จากนั้นทำนายด้วยวิธีการโหวต

ครั้งที่สอง ผสานคลาส a และ b เพื่อสร้างปัญหาสองระดับ

สาม. ทำนายทั้งสามคลาสจากนั้นจับคู่การทำนายกับค่าสองคลาส (เช่น f (c) = c, f (a) = ไม่ใช่ c, f (b) = ไม่ใช่ c)

อย่างไรก็ตามหากคุณใช้วิธีการที่เหมาะสมในการกระจายไปยังแต่ละคลาสให้หลีกเลี่ยง II และทดสอบว่า I หรือ III ใด ทำงานได้ดีขึ้นสำหรับปัญหาของคุณ


III ฟังดูดี - แม้ว่าฉันคิดว่าตัวจําแนกพูดว่าตัวอย่างคือ. 33 a, .33 b และ. 34 c ฉันควรสรุปความน่าจะเป็นของ a และ b และเลือก 'ไม่ใช่ c'
user116293

1
สำหรับ (I) ขั้นตอนที่ดีสำหรับการโหวตแยก (1: a, 2: c, 3: b) หรือเป็นไปได้ยากที่จะให้ความสำคัญ
user116293

สำหรับ III สิ่งที่คุณแนะนำนั้นถูกต้อง สำหรับฉันในข้อมูลระดับ 3 ฉันไม่คิดว่าจะมีมาตรการใด ๆ ในการแยกการลงคะแนน (1 สำหรับแต่ละคน) เนื่องจากทรัพย์สินสกรรมกริยาจะต้องถูกละเมิด อย่างไรก็ตามสำหรับ 4+ คลาสคุณสามารถมีความสัมพันธ์ที่ด้านบนซึ่งในกรณีนี้คุณสามารถใช้ตัวเลขเป็นตัวเลขแทนที่จะชนะ / แพ้ นั่นคือผลรวมของน้ำหนักนำไปสู่ระดับน้ำหนักสูงสุด
muratoa
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.