ฉันมีชุดข้อมูลที่มีรูปแบบต่อไปนี้
มีมะเร็งผลไบนารี / ไม่มีมะเร็ง แพทย์ทุกคนในชุดข้อมูลได้เห็นผู้ป่วยทุกรายและตัดสินอย่างอิสระว่าผู้ป่วยเป็นมะเร็งหรือไม่ จากนั้นแพทย์จะให้ระดับความเชื่อมั่นของพวกเขาจาก 5 ที่การวินิจฉัยของพวกเขาถูกต้องและระดับความมั่นใจจะปรากฏในวงเล็บ
ฉันได้ลองหลายวิธีเพื่อให้ได้การคาดการณ์ที่ดีจากชุดข้อมูลนี้
มันใช้งานได้ดีสำหรับฉันโดยเฉลี่ยทั่วทั้งหมอโดยไม่สนใจระดับความมั่นใจ ในตารางด้านบนที่มีการวินิจฉัยที่ถูกต้องสำหรับผู้ป่วย 1 และผู้ป่วย 2 แม้ว่าจะมีการกล่าวอย่างไม่ถูกต้องว่าผู้ป่วย 3 เป็นมะเร็งตั้งแต่ 2-1 คนส่วนใหญ่แพทย์คิดว่าผู้ป่วย 3 เป็นมะเร็ง
ฉันยังลองวิธีที่เราสุ่มตัวอย่างหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันการลงคะแนนการตัดสินใจจะขึ้นอยู่กับว่าหมอคนไหนมีความมั่นใจมากขึ้น วิธีการนี้ประหยัดได้โดยที่เราไม่ต้องปรึกษาแพทย์จำนวนมาก แต่มันก็ช่วยเพิ่มอัตราความผิดพลาดได้อีกเล็กน้อย
ฉันลองวิธีการที่เกี่ยวข้องซึ่งเราสุ่มเลือกหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันเราสุ่มเลือกอีกสองคน หากการวินิจฉัยอย่างใดอย่างหนึ่งข้างหน้าอย่างน้อยสองคะแนนโหวตแล้วเราจะแก้ไขสิ่งที่เป็นประโยชน์ในการวินิจฉัยว่า ถ้าไม่เราจะสุ่มตัวอย่างแพทย์เพิ่มขึ้นเรื่อย ๆ วิธีนี้ค่อนข้างประหยัดและไม่ทำผิดพลาดมากเกินไป
ฉันไม่สามารถรู้สึกได้ว่าฉันขาดวิธีการที่ซับซ้อนกว่านี้ในการทำสิ่งต่าง ๆ ตัวอย่างเช่นฉันสงสัยว่ามีวิธีใดบ้างที่ฉันสามารถแบ่งชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบและหาวิธีที่เหมาะสมที่สุดในการรวมการวินิจฉัยและดูว่าน้ำหนักเหล่านั้นทำงานบนชุดทดสอบอย่างไร ความเป็นไปได้อย่างหนึ่งคือวิธีการบางอย่างที่ทำให้ฉันมีน้ำหนักตัวลดลงที่ทำผิดพลาดในชุดทดลองและอาจมีการวินิจฉัยที่มีความมั่นใจสูง (ความเชื่อมั่นมีความสัมพันธ์กับความถูกต้องในชุดข้อมูลนี้)
ฉันมีชุดข้อมูลหลายชุดที่ตรงกับคำอธิบายทั่วไปนี้ดังนั้นขนาดของกลุ่มตัวอย่างจึงแตกต่างกันไปและชุดข้อมูลทั้งหมดไม่เกี่ยวข้องกับแพทย์ / ผู้ป่วย อย่างไรก็ตามในชุดข้อมูลนี้มีแพทย์ 40 คนที่แต่ละคนเห็นผู้ป่วย 108 คน
แก้ไข: นี่คือลิงค์ไปยังน้ำหนักบางส่วนที่เป็นผลมาจากการอ่านคำตอบของ @ jeremy-miles ของฉัน
ผลลัพธ์ที่ไม่ได้ถ่วงน้ำหนักอยู่ในคอลัมน์แรก จริงๆแล้วในชุดข้อมูลนี้ค่าความเชื่อมั่นสูงสุดคือ 4 ไม่ใช่ 5 เพราะฉันพูดผิดไปก่อนหน้านี้ ดังนั้นตามวิธีการ @ jeremy-mile ของคะแนนที่ไม่ถ่วงน้ำหนักสูงสุดที่ผู้ป่วยจะได้รับคือ 7 นั่นหมายความว่าแพทย์ทุกคนยืนยันด้วยระดับความเชื่อมั่นที่ 4 ซึ่งผู้ป่วยนั้นเป็นมะเร็ง คะแนนที่ไม่ถ่วงน้ำหนักต่ำสุดที่ผู้ป่วยจะได้รับคือ 0 ซึ่งหมายความว่าแพทย์ทุกคนยืนยันด้วยระดับความเชื่อมั่นที่ 4 ซึ่งผู้ป่วยนั้นไม่มีโรคมะเร็ง
น้ำหนักโดยอัลฟ่าของครอนบาค ฉันพบใน SPSS ว่ามี Alpha ของ Cronbach รวม 0.9807 ฉันพยายามตรวจสอบว่าค่านี้ถูกต้องโดยการคำนวณอัลฟ่าของครอนบาคด้วยวิธีที่เป็นคู่มือมากกว่านี้ ฉันสร้างเมทริกซ์ความแปรปรวนของทั้งหมด 40 แพทย์ซึ่งผมวางที่นี่ จากนั้นตามความเข้าใจของฉันเกี่ยวกับสูตรอัลฟ่าของครอนบาคโดยที่คือจำนวนของรายการ (ที่นี่แพทย์คือ 'รายการ') ฉันคำนวณโดยการรวมองค์ประกอบแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมและโดยรวมองค์ประกอบทั้งหมดใน เมทริกซ์ความแปรปรวนร่วม ฉันได้แล้วจากนั้นฉันคำนวณผล Cronbach Alpha 40 รายการที่แตกต่างกันซึ่งจะเกิดขึ้นเมื่อแพทย์แต่ละคนถูกนำออกจาก ชุด ฉันถ่วงน้ำหนักหมอที่มีส่วนร่วมในทางลบต่อ Cronbach's Alpha ที่ศูนย์ ฉันคิดน้ำหนักหมอที่เหลือตามสัดส่วนของผลบวกของพวกเขาต่ออัลฟ่าของครอนบาค
น้ำหนักตามความสัมพันธ์ของรายการทั้งหมด ฉันคำนวณความสัมพันธ์ของรายการทั้งหมดจากนั้นให้น้ำหนักแพทย์แต่ละคนตามสัดส่วนกับขนาดของความสัมพันธ์ของพวกเขา
การถ่วงน้ำหนักด้วยค่าสัมประสิทธิ์การถดถอย
สิ่งหนึ่งที่ฉันยังไม่แน่ใจก็คือวิธีพูดว่าวิธีใดทำงานได้ดีกว่าวิธีอื่น ก่อนหน้านี้ฉันเคยคำนวณสิ่งต่าง ๆ เช่นคะแนนทักษะเพียรซซึ่งเหมาะสำหรับอินสแตนซ์ที่มีการทำนายแบบไบนารีและผลลัพธ์ไบนารี อย่างไรก็ตามตอนนี้ฉันมีการคาดการณ์ตั้งแต่ 0 ถึง 7 แทนที่จะเป็น 0 ถึง 1 ฉันควรแปลงคะแนนถ่วงน้ำหนักทั้งหมด> 3.50 เป็น 1 และคะแนนถ่วงน้ำหนักทั้งหมด <3.50 ถึง 0 หรือไม่
Cancer (4)
No Cancer (4)
เราไม่สามารถพูดได้ว่าNo Cancer (3)
และCancer (2)
จะเหมือนกัน แต่เราอาจจะบอกว่ามีความต่อเนื่องและจุดกลางในความต่อเนื่องนี้และCancer (1)
No Cancer (1)
No Cancer (3)
ได้Cancer (2)
มั้ย นั่นจะทำให้ปัญหาของคุณง่ายขึ้นเล็กน้อย