ฉันจะแก้ไขปัญหาการทำนายแบบไบนารีนี้ได้อย่างไร


9

ฉันมีชุดข้อมูลที่มีรูปแบบต่อไปนี้

การพยากรณ์โรคมะเร็งไม่มีมะเร็ง

มีมะเร็งผลไบนารี / ไม่มีมะเร็ง แพทย์ทุกคนในชุดข้อมูลได้เห็นผู้ป่วยทุกรายและตัดสินอย่างอิสระว่าผู้ป่วยเป็นมะเร็งหรือไม่ จากนั้นแพทย์จะให้ระดับความเชื่อมั่นของพวกเขาจาก 5 ที่การวินิจฉัยของพวกเขาถูกต้องและระดับความมั่นใจจะปรากฏในวงเล็บ

ฉันได้ลองหลายวิธีเพื่อให้ได้การคาดการณ์ที่ดีจากชุดข้อมูลนี้

มันใช้งานได้ดีสำหรับฉันโดยเฉลี่ยทั่วทั้งหมอโดยไม่สนใจระดับความมั่นใจ ในตารางด้านบนที่มีการวินิจฉัยที่ถูกต้องสำหรับผู้ป่วย 1 และผู้ป่วย 2 แม้ว่าจะมีการกล่าวอย่างไม่ถูกต้องว่าผู้ป่วย 3 เป็นมะเร็งตั้งแต่ 2-1 คนส่วนใหญ่แพทย์คิดว่าผู้ป่วย 3 เป็นมะเร็ง

ฉันยังลองวิธีที่เราสุ่มตัวอย่างหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันการลงคะแนนการตัดสินใจจะขึ้นอยู่กับว่าหมอคนไหนมีความมั่นใจมากขึ้น วิธีการนี้ประหยัดได้โดยที่เราไม่ต้องปรึกษาแพทย์จำนวนมาก แต่มันก็ช่วยเพิ่มอัตราความผิดพลาดได้อีกเล็กน้อย

ฉันลองวิธีการที่เกี่ยวข้องซึ่งเราสุ่มเลือกหมอสองคนและถ้าพวกเขาไม่เห็นด้วยกันเราสุ่มเลือกอีกสองคน หากการวินิจฉัยอย่างใดอย่างหนึ่งข้างหน้าอย่างน้อยสองคะแนนโหวตแล้วเราจะแก้ไขสิ่งที่เป็นประโยชน์ในการวินิจฉัยว่า ถ้าไม่เราจะสุ่มตัวอย่างแพทย์เพิ่มขึ้นเรื่อย ๆ วิธีนี้ค่อนข้างประหยัดและไม่ทำผิดพลาดมากเกินไป

ฉันไม่สามารถรู้สึกได้ว่าฉันขาดวิธีการที่ซับซ้อนกว่านี้ในการทำสิ่งต่าง ๆ ตัวอย่างเช่นฉันสงสัยว่ามีวิธีใดบ้างที่ฉันสามารถแบ่งชุดข้อมูลออกเป็นชุดฝึกอบรมและชุดทดสอบและหาวิธีที่เหมาะสมที่สุดในการรวมการวินิจฉัยและดูว่าน้ำหนักเหล่านั้นทำงานบนชุดทดสอบอย่างไร ความเป็นไปได้อย่างหนึ่งคือวิธีการบางอย่างที่ทำให้ฉันมีน้ำหนักตัวลดลงที่ทำผิดพลาดในชุดทดลองและอาจมีการวินิจฉัยที่มีความมั่นใจสูง (ความเชื่อมั่นมีความสัมพันธ์กับความถูกต้องในชุดข้อมูลนี้)

ฉันมีชุดข้อมูลหลายชุดที่ตรงกับคำอธิบายทั่วไปนี้ดังนั้นขนาดของกลุ่มตัวอย่างจึงแตกต่างกันไปและชุดข้อมูลทั้งหมดไม่เกี่ยวข้องกับแพทย์ / ผู้ป่วย อย่างไรก็ตามในชุดข้อมูลนี้มีแพทย์ 40 คนที่แต่ละคนเห็นผู้ป่วย 108 คน

แก้ไข: นี่คือลิงค์ไปยังน้ำหนักบางส่วนที่เป็นผลมาจากการอ่านคำตอบของ @ jeremy-miles ของฉัน

  1. ผลลัพธ์ที่ไม่ได้ถ่วงน้ำหนักอยู่ในคอลัมน์แรก จริงๆแล้วในชุดข้อมูลนี้ค่าความเชื่อมั่นสูงสุดคือ 4 ไม่ใช่ 5 เพราะฉันพูดผิดไปก่อนหน้านี้ ดังนั้นตามวิธีการ @ jeremy-mile ของคะแนนที่ไม่ถ่วงน้ำหนักสูงสุดที่ผู้ป่วยจะได้รับคือ 7 นั่นหมายความว่าแพทย์ทุกคนยืนยันด้วยระดับความเชื่อมั่นที่ 4 ซึ่งผู้ป่วยนั้นเป็นมะเร็ง คะแนนที่ไม่ถ่วงน้ำหนักต่ำสุดที่ผู้ป่วยจะได้รับคือ 0 ซึ่งหมายความว่าแพทย์ทุกคนยืนยันด้วยระดับความเชื่อมั่นที่ 4 ซึ่งผู้ป่วยนั้นไม่มีโรคมะเร็ง

  2. น้ำหนักโดยอัลฟ่าของครอนบาค ฉันพบใน SPSS ว่ามี Alpha ของ Cronbach รวม 0.9807 ฉันพยายามตรวจสอบว่าค่านี้ถูกต้องโดยการคำนวณอัลฟ่าของครอนบาคด้วยวิธีที่เป็นคู่มือมากกว่านี้ ฉันสร้างเมทริกซ์ความแปรปรวนของทั้งหมด 40 แพทย์ซึ่งผมวางที่นี่ จากนั้นตามความเข้าใจของฉันเกี่ยวกับสูตรอัลฟ่าของครอนบาคโดยที่คือจำนวนของรายการ (ที่นี่แพทย์คือ 'รายการ') ฉันคำนวณโดยการรวมองค์ประกอบแนวทแยงทั้งหมดในเมทริกซ์ความแปรปรวนร่วมและโดยรวมองค์ประกอบทั้งหมดใน เมทริกซ์ความแปรปรวนร่วม ฉันได้แล้วα=KK1(1σxi2σT2)Kσxi2σT2α=40401(18.7915200.7112)=0.9807จากนั้นฉันคำนวณผล Cronbach Alpha 40 รายการที่แตกต่างกันซึ่งจะเกิดขึ้นเมื่อแพทย์แต่ละคนถูกนำออกจาก ชุด ฉันถ่วงน้ำหนักหมอที่มีส่วนร่วมในทางลบต่อ Cronbach's Alpha ที่ศูนย์ ฉันคิดน้ำหนักหมอที่เหลือตามสัดส่วนของผลบวกของพวกเขาต่ออัลฟ่าของครอนบาค

  3. น้ำหนักตามความสัมพันธ์ของรายการทั้งหมด ฉันคำนวณความสัมพันธ์ของรายการทั้งหมดจากนั้นให้น้ำหนักแพทย์แต่ละคนตามสัดส่วนกับขนาดของความสัมพันธ์ของพวกเขา

  4. การถ่วงน้ำหนักด้วยค่าสัมประสิทธิ์การถดถอย

สิ่งหนึ่งที่ฉันยังไม่แน่ใจก็คือวิธีพูดว่าวิธีใดทำงานได้ดีกว่าวิธีอื่น ก่อนหน้านี้ฉันเคยคำนวณสิ่งต่าง ๆ เช่นคะแนนทักษะเพียรซซึ่งเหมาะสำหรับอินสแตนซ์ที่มีการทำนายแบบไบนารีและผลลัพธ์ไบนารี อย่างไรก็ตามตอนนี้ฉันมีการคาดการณ์ตั้งแต่ 0 ถึง 7 แทนที่จะเป็น 0 ถึง 1 ฉันควรแปลงคะแนนถ่วงน้ำหนักทั้งหมด> 3.50 เป็น 1 และคะแนนถ่วงน้ำหนักทั้งหมด <3.50 ถึง 0 หรือไม่


เราพูดNo Cancer (3)ได้Cancer (2)มั้ย นั่นจะทำให้ปัญหาของคุณง่ายขึ้นเล็กน้อย
Wayne

1
Re: โครงสร้างข้อมูลของคุณมันเกือบจะดีกว่าเสมอที่จะมีตัวแปรที่แตกต่างกัน (ไม่ว่าผู้ป่วยจะเป็นมะเร็งหรือไม่และมีความมั่นใจในการประเมินอย่างไร) ในคอลัมน์ต่างๆ รวมไว้ใน "ไม่มีมะเร็ง (3)" จำกัด ตัวเลือกของคุณอย่างรุนแรง
rolando2

@Wayne ช่วงข้อมูลจากการคาดการณ์ของโรคมะเร็งด้วยความมั่นใจสูงสุดให้กับการคาดการณ์ของมะเร็งด้วยความมั่นใจสูงสุดCancer (4) No Cancer (4)เราไม่สามารถพูดได้ว่าNo Cancer (3)และCancer (2)จะเหมือนกัน แต่เราอาจจะบอกว่ามีความต่อเนื่องและจุดกลางในความต่อเนื่องนี้และCancer (1) No Cancer (1)
user1205901 - คืนสถานะโมนิก้า

@ rolando2 ขอบคุณสำหรับคำแนะนำ ฉันได้จัดเรียงสิ่งต่าง ๆ ในไฟล์ข้อมูลของตัวเองใหม่
user1205901 - คืนสถานะโมนิก้า

1
โปรดทราบว่าเกณฑ์ของคุณเป็นพารามิเตอร์ที่ปรับได้ดังนั้นการตัดยอดที่เหมาะสมจะขึ้นอยู่กับเกณฑ์การประเมินของคุณ ขณะที่ผมไม่คุ้นเคยกับตัวชี้วัดที่ฉัน Googled มันและจริงตีครั้งแรกอาจจะเกี่ยวข้องกับคุณ: หมายเหตุเกี่ยวกับคะแนนสูงสุดเพียรซกิล (2007)
GeoMatt22

คำตอบ:


7

ก่อนอื่นฉันจะดูว่าหมอเห็นด้วยหรือไม่ คุณไม่สามารถวิเคราะห์แพทย์ 50 คนแยกกันเพราะคุณเหมาะสมกับโมเดลมาก - หมอหนึ่งคนจะดูดีโดยบังเอิญ

คุณอาจลองรวมความมั่นใจและการวินิจฉัยเข้ากับสเกล 10 จุด หากแพทย์บอกว่าผู้ป่วยไม่มีมะเร็งและพวกเขามีความมั่นใจมากนั่นคือ 0 ถ้าหมอบอกว่าพวกเขาเป็นมะเร็งและพวกเขามีความมั่นใจมากนั่นคือ 9. ถ้าหมอบอกว่าพวกเขาไม่มี และไม่มั่นใจนั่นคือ 5 เป็นต้น

เมื่อคุณพยายามที่จะทำนายคุณทำการวิเคราะห์การถดถอยบางอย่าง แต่คิดถึงการเรียงลำดับเชิงสาเหตุของตัวแปรเหล่านี้มันเป็นวิธีอื่น ไม่ว่าผู้ป่วยจะเป็นมะเร็งเป็นสาเหตุของการวินิจฉัยหรือไม่ผลลัพธ์ก็คือการวินิจฉัย

แถวของคุณควรเป็นผู้ป่วยและคอลัมน์ของคุณควรเป็นแพทย์ ตอนนี้คุณมีสถานการณ์ที่พบบ่อยใน psychometrics (ซึ่งเป็นเหตุผลที่ฉันเพิ่มแท็ก)

จากนั้นดูความสัมพันธ์ระหว่างคะแนน ผู้ป่วยแต่ละรายมีคะแนนเฉลี่ยและคะแนนจากแพทย์แต่ละคน คะแนนเฉลี่ยมีความสัมพันธ์เชิงบวกกับคะแนนของแพทย์ทุกคนหรือไม่? ถ้าไม่เช่นนั้นแพทย์นั้นอาจไม่น่าเชื่อถือ (เรียกว่าสหสัมพันธ์ทั้งหมด - รายการ) บางครั้งคุณลบหมอหนึ่งคนออกจากคะแนนรวม (หรือคะแนนเฉลี่ย) และดูว่าหมอนั้นมีความสัมพันธ์กับค่าเฉลี่ยของแพทย์คนอื่น ๆ ทั้งหมดหรือไม่ - นี่คือความสัมพันธ์ทั้งหมดรายการที่ถูกต้องแก้ไข

คุณสามารถคำนวณอัลฟ่าของครอนบาค (ซึ่งเป็นรูปแบบของความสัมพันธ์ภายในชั้นเรียน) และอัลฟาโดยไม่ต้องมีแพทย์แต่ละคน อัลฟ่าควรเพิ่มขึ้นเสมอเมื่อคุณเพิ่มแพทย์ดังนั้นหากมันเพิ่มขึ้นเมื่อคุณเอาหมอออกไปการจัดอันดับของแพทย์นั้นเป็นที่น่าสงสัย

ถ้าคุณใช้ R สิ่งนี้มีอยู่ในแพ็คเกจทางจิตวิทยาโดยใช้ฟังก์ชันอัลฟ่า ถ้าคุณใช้ Stata คำสั่งคือ alpha ใน SAS เป็น proc corr และใน SPSS มันอยู่ในระดับที่น่าเชื่อถือ

จากนั้นคุณสามารถคำนวณคะแนนเป็นคะแนนเฉลี่ยจากแพทย์แต่ละคนหรือค่าเฉลี่ยถ่วงน้ำหนัก (ถ่วงน้ำหนักด้วยค่าสหสัมพันธ์) และดูว่าคะแนนนั้นเป็นตัวทำนายการวินิจฉัยที่แท้จริงหรือไม่

หรือคุณสามารถข้ามขั้นตอนนั้นและถอยหลังคะแนนของแพทย์แต่ละคนในการวินิจฉัยแยกกันและรักษาพารามิเตอร์การถดถอยเป็นน้ำหนัก

อย่าลังเลที่จะขอคำอธิบายและถ้าคุณต้องการหนังสือฉันชอบ Streiner และ Norman "เครื่องชั่งวัดสุขภาพ"

-Edit: ขึ้นอยู่กับข้อมูลเพิ่มเติมของ OPs

ว้าวนั่นเป็นห่าของอัลฟ่าของครอนบาค ครั้งเดียวที่ฉันเห็นมันสูงว่าเมื่อมีข้อผิดพลาดเกิดขึ้น

ตอนนี้ฉันจะทำการถดถอยโลจิสติกและดูที่ ROC curves

ความแตกต่างระหว่างน้ำหนักโดยการถดถอยและสหสัมพันธ์ขึ้นอยู่กับว่าคุณเชื่อว่าแพทย์กำลังตอบสนองอย่างไร โดยทั่วไปเอกสารบางอย่างอาจมีความมั่นใจมากขึ้น (โดยไม่ต้องมีทักษะมากขึ้น) และด้วยเหตุนี้พวกเขาจึงอาจใช้ช่วงที่มากขึ้น หากคุณต้องการแก้ไขให้ถูกต้องโดยใช้สหสัมพันธ์แทนที่จะใช้การถดถอย ฉันอาจจะถ่วงน้ำหนักด้วยการถดถอยเนื่องจากจะเก็บข้อมูลดั้งเดิมไว้ (และไม่ทิ้งข้อมูลใด ๆ )

แก้ไข (2): ฉันใช้โมเดลการถดถอยโลจิสติกใน R เพื่อดูว่าแต่ละตัวทำนายผลลัพธ์ได้ดีเพียงใด tl / dr: ไม่มีอะไรระหว่างพวกเขา

นี่คือรหัสของฉัน:

d <- read.csv("Copy of Cancer data - Weightings.csv")

mrc <- glm(cancer ~ weightrc, data = d, family = "binomial")
mun <- glm(cancer ~ unweight, data = d, family = "binomial")
mca <- glm(cancer ~ weightca, data = d, family = "binomial")
mic <- glm(cancer ~ weightic, data = d, family = "binomial")

d$prc <- predict(mrc, type = "response")
d$pun <- predict(mun, type = "response")
d$pca <- predict(mca, type = "response")
d$pic <- predict(mic, type = "response")

par(mfrow = c(2, 2))
roc(d$cancer, d$prc, ci = TRUE, plot = TRUE)
roc(d$cancer, d$pun, ci = TRUE, plot = TRUE)
roc(d$cancer, d$pca, ci = TRUE, plot = TRUE)
roc(d$cancer, d$pic, ci = TRUE, plot = TRUE)

4 ROC curves

และผลลัพธ์:

> par(mfrow = c(2, 2))
> roc(d$cancer, d$prc, ci = TRUE, plot = TRUE)

Call:
roc.default(response = d$cancer, predictor = d$prc, ci = TRUE,     plot = TRUE)

Data: d$prc in 81 controls (d$cancer 0) < 27 cases (d$cancer 1).
Area under the curve: 0.9831
95% CI: 0.9637-1 (DeLong)
> roc(d$cancer, d$pun, ci = TRUE, plot = TRUE)

Call:
roc.default(response = d$cancer, predictor = d$pun, ci = TRUE,     plot = TRUE)

Data: d$pun in 81 controls (d$cancer 0) < 27 cases (d$cancer 1).
Area under the curve: 0.9808
95% CI: 0.9602-1 (DeLong)
> roc(d$cancer, d$pca, ci = TRUE, plot = TRUE)

Call:
roc.default(response = d$cancer, predictor = d$pca, ci = TRUE,     plot = TRUE)

Data: d$pca in 81 controls (d$cancer 0) < 27 cases (d$cancer 1).
Area under the curve: 0.9854
95% CI: 0.9688-1 (DeLong)
> roc(d$cancer, d$pic, ci = TRUE, plot = TRUE)

Call:
roc.default(response = d$cancer, predictor = d$pic, ci = TRUE,     plot = TRUE)

Data: d$pic in 81 controls (d$cancer 0) < 27 cases (d$cancer 1).
Area under the curve: 0.9822
95% CI: 0.9623-1 (DeLong)

1
ดีมาก. และตามเหตุผลของคุณคุณอาจเป็นไปได้ที่หมอบางคนจะทำให้อัลฟาแย่ลงด้วยการให้ข้อมูลเชิงลึกที่ไม่ซ้ำใครในขณะที่รักษาแนวโน้ม
rolando2

@ jeremy-miles ขอบคุณสำหรับคำตอบนี้และข้อเสนอที่ดีสำหรับคำถามในฟิลด์เกี่ยวกับมัน ฉันพยายามใช้สิ่งที่คุณแนะนำและแก้ไข OP เพื่อโพสต์ผลลัพธ์บางส่วน สิ่งสำคัญที่ฉันสงสัยคือฉันตีความโพสต์ของคุณถูกต้องหรือไม่และยังต้องใช้เพื่อแสดงให้เห็นว่าวิธีการรวมตัวบางอย่างทำงานได้ดีกว่าวิธีอื่น ๆ ในการทำนายผลลัพธ์
user1205901 - คืนสถานะโมนิก้า

ขอขอบคุณที่โพสต์ข้อมูล ฉันจะดูทีหลัง (คุณใช้ซอฟต์แวร์ประเภทใด)
Jeremy Miles

@JeremyMiles ขอบคุณที่โพสต์การแก้ไขนี้! ฉันใช้ MATLAB แต่ฉันรู้เพียงพอเกี่ยวกับ R เพื่อเลื่อนขึ้นและใช้แทนเนื่องจากคุณได้โพสต์รหัส R แล้ว ฉันคำนวณว่า Cronbach's Alpha ใน SPSS - คุณได้รับค่าที่แตกต่างจาก R หรือไม่
user1205901 - คืนสถานะโมนิก้า

1
ใช่นั่นคือสิ่งที่ฉันคิด ดังนั้นแพทย์แต่ละคนจึงมีน้ำหนักต่างกัน
Jeremy Miles

2

ข้อเสนอแนะแบบสองทันที:

  1. คุณสามารถใช้ตุ้มน้ำหนักในฟังก์ชั่นการสูญเสียของการถดถอยโลจิสติกของคุณเพื่อให้แพทย์ที่มีความมั่นใจมากว่าผู้ป่วยที่เป็นโรคมะเร็งด้วย P = 1 ได้รับสองเท่าผลกระทบมีอีกคนหนึ่งที่บอกว่าเขาเป็นมะเร็ง อย่าลืมแปลงความน่าจะเป็นน้ำหนักของคุณให้เหมาะสม
  2. ตระกูลของโมเดลที่มักถูกละเลยคือโมเดลที่จัดอันดับ ภายในผู้จัดอันดับมีสามกลุ่มใหญ่ ๆ คือการจัดอันดับแบบรายการตามลำดับแบบจุดและแบบคู่ขึ้นอยู่กับว่าข้อมูลของคุณเป็นแบบใด ดูเหมือนว่าคุณสามารถใช้การจัดอันดับตามจุดในกรณีของคุณ

คุณสามารถแนะนำวิธีเปลี่ยนความน่าจะเป็นน้ำหนักให้เหมาะสมได้หรือไม่? ฉันลองใช้ Google แนวคิดนี้ แต่ไม่สามารถหาคำแนะนำที่ชัดเจนเกี่ยวกับวิธีการทำเช่นนี้ได้
user1205901 - Reinstate Monica

@ user1205901 ฉันมีบางสิ่งบางอย่างในใจที่ง่ายมากที่ชอบ: Let P= น่าจะเป็นของการเกิดโรคมะเร็งที่ได้รับจากแพทย์แล้ว (ในสัญกรณ์หลาม) และy=[1 if p >= 0.5 else 0 for p in P] w=[abs(p-0.5)*2 for p in P]จากนั้นฝึกฝนโมเดล:LogisticRegression().fit(X,y,w)
Ricardo Cruz

ในฟังก์ชั่นการสูญเสียสิ่งนี้จะให้น้ำหนักเพิ่มเป็นสองเท่าถึง 0.1 มากกว่า 0.2 เพื่อไม่ให้เป็นมะเร็ง (0.1 -> 0.8 และ 0.2 -> 0.6) หากแพทย์ไม่แน่ใจ (P ~ 0.5) การสังเกตจะไม่ก่อให้เกิดความสูญเสียเลย ไม่ว่าเขาจะใช้โมเดลแบบใดต้องสนับสนุนการเพิ่มเวกเตอร์ราคาไปยังฟังก์ชันการสูญเสียซึ่งโมเดลส่วนใหญ่สนับสนุน ฉันไม่รู้ว่านี่เป็นสิ่งที่ดีหรือไม่ แต่ก็น่าลอง เขาต้องการระบุตัวชี้วัดก่อน ฟังก์ชั่นการสูญเสียสามารถปรับให้เข้ากับสิ่งที่เขาต้องการเพิ่มให้มากที่สุด
Ricardo Cruz

2

(นี่ไม่ใช่ความเชี่ยวชาญของฉันดังนั้นคำตอบของ Jeremy Milesอาจเชื่อถือได้มากกว่า)

นี่คือความคิดหนึ่ง

ก่อนอื่นให้จินตนาการว่าไม่มีระดับความมั่นใจ จากนั้นสำหรับผู้ป่วยแต่ละราย , พวกเขาเป็นมะเร็งหรือไม่ , และแพทย์แต่ละคนวินิจฉัยว่าเป็นมะเร็งหรือไม่,\}i=1Nci{0,1}j=1mdij{0,1}

วิธีง่าย ๆ คือสมมติว่าในขณะที่แพทย์อาจเห็นด้วยหรือไม่เห็นด้วยกับการวินิจฉัยของผู้ป่วยถ้าเรารู้ว่าสถานะที่แท้จริงของผู้ป่วยการวินิจฉัยของแพทย์แต่ละคนจะได้รับการปฏิบัติอย่างอิสระ นั่นคือมีเงื่อนไขอิสระที่กำหนดC_iซึ่งส่งผลให้ตัวจําแนกที่กําหนดไว้อย่างดีรู้จักในชื่อNaive Bayesพร้อมพารามิเตอร์ที่ง่ายต่อการประมาณdijci

โดยเฉพาะอย่างยิ่งพารามิเตอร์หลักคืออัตราฐาน, และความน่าจะเป็นเงื่อนไขการวินิจฉัย โปรดทราบว่าพารามิเตอร์หลังนี้เป็นถัวเฉลี่ยถ่วงน้ำหนักของการวินิจฉัยสำหรับแพทย์ที่น้ำหนักเป็นจริงสภาพผู้ป่วยC_ip[c]1Nici

p[dj|c]idijciici
jci

ทีนี้ถ้าแบบนี้สมเหตุสมผลแล้ววิธีหนึ่งที่จะรวมระดับความมั่นใจคือการปรับน้ำหนัก จากนั้นโอกาสที่มีเงื่อนไขจะกลายเป็น นี่เป็นน้ำหนักที่บัญชีสำหรับระดับความเชื่อมั่นของ{IJ}

p[dj|c,wj]idijwijciiwijci
wij0dij

โปรดทราบว่าหากน้ำหนักของคุณมีความน่าจะเป็นคุณสามารถใช้สูตร "ทางลัดBernoulli " บัญชีสำหรับกรณีอย่างเหมาะสมw[0,1]

p[dw]=dw(1d)1w
d=0

หมายเหตุ:สิ่งนี้ต้องการให้ซอฟต์แวร์ของคุณมอบให้0^0=1มากกว่า0^0=NaNซึ่งเป็นเรื่องปกติ แต่คุ้มค่าที่จะตรวจสอบ! หรือคุณสามารถมั่นใจได้ว่าเช่นถ้าความเชื่อมั่นคือดังนั้นจะทำงานได้w(0,1)k{1K}w=k/(K+1)


ในบริบทของความคิดเห็นโดย @Wayne: ถ้าคุณพูดว่าNo Cancer (3) = Cancer (2)นี่สอดคล้องกับแบบจำลองน้ำหนักของฉันโดยใช้เนื่องจาก{5} หรือถ้าคุณบอกว่านี้มีความสอดคล้องกับตั้งแต่{6} w[k]=kK25=135No Cancer (3) = Cancer (3)w[k]=kK+136=136
GeoMatt22

ฉันสามารถตรวจสอบได้หรือไม่ว่าฉันเข้าใจถูกต้องหรือไม่ หากผลลัพธ์เป็น [1,0,1] และแพทย์คาดการณ์ [0,1,1] และน้ำหนักของแพทย์คือ [0.2,0.4,0.8] โอกาสในการวินิจฉัยตามเงื่อนไขของน้ำหนักจะออกมาเป็น 0.5 หรือไม่?
p[dj|c,wj]idijwijciiwijci
user1205901 - คืนสถานะโมนิก้า

ขอโทษนะฉันรู้ว่าผมตั้งใจเพียงว่า 's ให้น้ำหนักคือมากกว่าหุ้น\} ดังนั้นสำหรับกรณีของคุณ[0.8,0.4,0.8] จากนั้นขณะที่และPดังนั้นและPdδ[0,1]d{0,1}δi=wi(di=1)+(1wi)(di=0)δ=[0.8,0.4,0.8]p[c,δ]=cδ¯=0.8+0+0.83=230.8p[2]=c¯=23p[δ]=δ¯=560.8p[c|δ]=p[c,δ]/p[δ]=0.8p[δ|c]=p[c,δ]/p[c]=0.8
GeoMatt22

0

จากคำถามของคุณปรากฏว่าสิ่งที่คุณต้องการทดสอบคือระบบการวัดของคุณ ในขอบเขตวิศวกรรมกระบวนการนี้จะเป็นการวิเคราะห์ระบบการวัดคุณลักษณะหรือ MSA

ลิงค์นี้ให้ข้อมูลที่เป็นประโยชน์เกี่ยวกับขนาดตัวอย่างที่จำเป็นและการคำนวณจะดำเนินการศึกษาประเภทนี้ https://www.isixsigma.com/tools-templates/measurement-systems-analysis-msa-gage-rr/making-sense-attribute-gage-rr-calculations/

ด้วยการศึกษานี้คุณจะต้องให้แพทย์วินิจฉัยผู้ป่วยรายเดียวกันด้วยข้อมูลเดียวกันอย่างน้อยสองครั้ง

คุณสามารถทำการศึกษาหนึ่งในสองวิธีนี้ คุณสามารถใช้การจัดอันดับมะเร็งแบบง่าย ๆ / ไม่มีมะเร็งเพื่อกำหนดข้อตกลงระหว่างแพทย์และโดยแพทย์แต่ละคน พวกเขาควรจะสามารถวินิจฉัยด้วยความมั่นใจในระดับเดียวกัน จากนั้นคุณสามารถใช้ระดับคะแนนเต็ม 10 เพื่อทดสอบข้อตกลงระหว่างและโดยแพทย์แต่ละคน (ทุกคนควรเห็นด้วยว่ามะเร็ง (5) อยู่ในระดับเดียวกันและไม่มีมะเร็ง (1) เป็นอันดับเดียวกัน & c.)

การคำนวณในเว็บไซต์ที่เชื่อมโยงนั้นง่ายต่อการดำเนินการในแพลตฟอร์มใด ๆ ที่คุณอาจใช้สำหรับการทดสอบของคุณ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.