ฉันกำลังมองหาในการฝึกอบรมลักษณนามที่จะแยกแยะระหว่างType A
และType B
วัตถุที่มีชุดการฝึกอบรมที่มีขนาดใหญ่พอสมควรประมาณ 10,000 วัตถุประมาณครึ่งหนึ่งของที่มีและครึ่งหนึ่งของที่มีType A
Type B
ชุดข้อมูลประกอบด้วย 100 คุณสมบัติอย่างต่อเนื่องซึ่งมีรายละเอียดคุณสมบัติทางกายภาพของเซลล์ (ขนาด, รัศมีเฉลี่ย, ฯลฯ ) การแสดงข้อมูลในสปิตเตอร์แพล็ตฟอร์มและแผนการแปลงความหนาแน่นบอกเราว่ามีการทับซ้อนกันอย่างมีนัยสำคัญในการแจกแจงของเซลล์มะเร็งและเซลล์ปกติในคุณลักษณะหลายอย่าง
ขณะนี้ฉันกำลังสำรวจป่าสุ่มเป็นวิธีการจำแนกสำหรับชุดข้อมูลนี้และฉันได้เห็นผลลัพธ์ที่ดี การใช้ R ป่าแบบสุ่มสามารถจำแนกวัตถุได้อย่างถูกต้องประมาณ 90%
หนึ่งในสิ่งที่เราต้องการลองทำคือการสร้าง "คะแนนความเชื่อมั่น" ที่จะบอกปริมาณว่าเรามีความมั่นใจในการจำแนกประเภทของวัตถุอย่างไร เรารู้ว่าลักษณนามของเราจะไม่ถูกต้อง 100% และแม้ว่าความแม่นยำสูงในการคาดการณ์ที่จะประสบความสำเร็จเราจะต้องการเทคนิคการฝึกอบรมที่จะระบุว่าวัตถุอย่างแท้จริงและType A
Type B
ดังนั้นแทนที่จะให้การคาดการณ์ที่แน่วแน่ของType A
หรือType B
เราต้องการที่จะนำเสนอคะแนนสำหรับแต่ละวัตถุที่จะอธิบายถึงวิธีการA
หรือB
วัตถุ ตัวอย่างเช่นถ้าเรากำหนดคะแนนที่มีช่วงตั้งแต่ 0 ถึง 10 คะแนน 0 อาจบ่งบอกว่าวัตถุนั้นคล้ายกับType A
วัตถุมากในขณะที่คะแนน 10 จะบ่งบอกว่าวัตถุนั้นมีลักษณะคล้ายType B
กันมาก
ฉันคิดว่าฉันสามารถใช้คะแนนภายในป่าสุ่มเพื่อคิดคะแนนเช่นนี้ เนื่องจากการจำแนกในป่าสุ่มจะกระทำโดยการโหวตส่วนใหญ่ภายในป่าของต้นไม้ที่สร้างขึ้นฉันจะสมมติว่าวัตถุที่ได้รับการโหวต 100% ของต้นไม้Type A
จะแตกต่างจากวัตถุที่ได้รับการโหวตโดยพูดว่า 51% ของต้นไม้ Type A
เป็น
ขณะนี้ผมได้พยายามตั้งค่าเกณฑ์พลสำหรับสัดส่วนของคะแนนโหวตว่าวัตถุต้องได้รับที่จะจัดเป็นType A
หรือและถ้าเกณฑ์ไม่ผ่านก็จะถูกจัดเป็นType B
Uncertain
ตัวอย่างเช่นถ้าผมบังคับเงื่อนไขที่ว่า 80% หรือมากกว่าของต้นไม้จะต้องยอมรับในการตัดสินใจสำหรับการจำแนกประเภทที่จะผ่านผมพบว่า 99% ของการคาดการณ์ระดับถูกต้อง แต่ประมาณ 40% Uncertain
ของวัตถุจะเป็นขยะ
ถ้าอย่างนั้นจะใช้ความได้เปรียบจากข้อมูลการลงคะแนนเพื่อให้คะแนนความแน่นอน หรือฉันกำลังมุ่งหน้าไปในทิศทางที่ผิดกับความคิดของฉัน?