ฉันกำลังมองหาในการฝึกอบรมลักษณนามที่จะแยกแยะระหว่างType AและType Bวัตถุที่มีชุดการฝึกอบรมที่มีขนาดใหญ่พอสมควรประมาณ 10,000 วัตถุประมาณครึ่งหนึ่งของที่มีและครึ่งหนึ่งของที่มีType A Type Bชุดข้อมูลประกอบด้วย 100 คุณสมบัติอย่างต่อเนื่องซึ่งมีรายละเอียดคุณสมบัติทางกายภาพของเซลล์ (ขนาด, รัศมีเฉลี่ย, ฯลฯ ) การแสดงข้อมูลในสปิตเตอร์แพล็ตฟอร์มและแผนการแปลงความหนาแน่นบอกเราว่ามีการทับซ้อนกันอย่างมีนัยสำคัญในการแจกแจงของเซลล์มะเร็งและเซลล์ปกติในคุณลักษณะหลายอย่าง
ขณะนี้ฉันกำลังสำรวจป่าสุ่มเป็นวิธีการจำแนกสำหรับชุดข้อมูลนี้และฉันได้เห็นผลลัพธ์ที่ดี การใช้ R ป่าแบบสุ่มสามารถจำแนกวัตถุได้อย่างถูกต้องประมาณ 90%
หนึ่งในสิ่งที่เราต้องการลองทำคือการสร้าง "คะแนนความเชื่อมั่น" ที่จะบอกปริมาณว่าเรามีความมั่นใจในการจำแนกประเภทของวัตถุอย่างไร เรารู้ว่าลักษณนามของเราจะไม่ถูกต้อง 100% และแม้ว่าความแม่นยำสูงในการคาดการณ์ที่จะประสบความสำเร็จเราจะต้องการเทคนิคการฝึกอบรมที่จะระบุว่าวัตถุอย่างแท้จริงและType A Type Bดังนั้นแทนที่จะให้การคาดการณ์ที่แน่วแน่ของType AหรือType Bเราต้องการที่จะนำเสนอคะแนนสำหรับแต่ละวัตถุที่จะอธิบายถึงวิธีการAหรือBวัตถุ ตัวอย่างเช่นถ้าเรากำหนดคะแนนที่มีช่วงตั้งแต่ 0 ถึง 10 คะแนน 0 อาจบ่งบอกว่าวัตถุนั้นคล้ายกับType Aวัตถุมากในขณะที่คะแนน 10 จะบ่งบอกว่าวัตถุนั้นมีลักษณะคล้ายType Bกันมาก
ฉันคิดว่าฉันสามารถใช้คะแนนภายในป่าสุ่มเพื่อคิดคะแนนเช่นนี้ เนื่องจากการจำแนกในป่าสุ่มจะกระทำโดยการโหวตส่วนใหญ่ภายในป่าของต้นไม้ที่สร้างขึ้นฉันจะสมมติว่าวัตถุที่ได้รับการโหวต 100% ของต้นไม้Type Aจะแตกต่างจากวัตถุที่ได้รับการโหวตโดยพูดว่า 51% ของต้นไม้ Type Aเป็น
ขณะนี้ผมได้พยายามตั้งค่าเกณฑ์พลสำหรับสัดส่วนของคะแนนโหวตว่าวัตถุต้องได้รับที่จะจัดเป็นType Aหรือและถ้าเกณฑ์ไม่ผ่านก็จะถูกจัดเป็นType B Uncertainตัวอย่างเช่นถ้าผมบังคับเงื่อนไขที่ว่า 80% หรือมากกว่าของต้นไม้จะต้องยอมรับในการตัดสินใจสำหรับการจำแนกประเภทที่จะผ่านผมพบว่า 99% ของการคาดการณ์ระดับถูกต้อง แต่ประมาณ 40% Uncertainของวัตถุจะเป็นขยะ
ถ้าอย่างนั้นจะใช้ความได้เปรียบจากข้อมูลการลงคะแนนเพื่อให้คะแนนความแน่นอน หรือฉันกำลังมุ่งหน้าไปในทิศทางที่ผิดกับความคิดของฉัน?