อิทธิพลของความไม่แน่นอนในการทำนายแบบจำลองตัวแทนที่ต่างกัน
อย่างไรก็ตามหนึ่งในสมมติฐานที่อยู่เบื้องหลังการวิเคราะห์ทวินามคือความน่าจะเป็นที่เหมือนกันของความสำเร็จสำหรับการทดลองแต่ละครั้งและฉันไม่แน่ใจว่าวิธีการจำแนกประเภทของ 'ถูกต้อง' หรือ 'ผิด' ในการตรวจสอบไขว้นั้น ความน่าจะเป็นเหมือนกันของความสำเร็จ
ทีนี้, โดยทั่วไปแล้วความเท่ากันนั้นเป็นสมมติฐานที่จำเป็นเพื่อให้คุณรวมผลลัพธ์ของแบบจำลองตัวแทน
ในทางปฏิบัติสัญชาตญาณของคุณว่าข้อสันนิษฐานนี้อาจถูกละเมิดมักเป็นความจริง แต่คุณสามารถวัดได้ว่าเป็นกรณีนี้หรือไม่ นั่นคือสิ่งที่ฉันพบว่าการตรวจสอบข้ามซ้ำมีประโยชน์: ความเสถียรของการทำนายสำหรับกรณีเดียวกันโดยตัวแทนจำลองที่แตกต่างกันช่วยให้คุณตัดสินว่าแบบจำลองนั้นมีความเท่าเทียมกันหรือไม่
นี่เป็นรูปแบบของการตรวจสอบความถูกต้องแบบข้าม -fold ซ้ำแล้วซ้ำอีก (เรียกอีกอย่างว่า) :k

ชั้นเรียนมีสีแดงและสีน้ำเงิน วงกลมด้านขวาเป็นสัญลักษณ์ของการทำนาย ในการคำนวณซ้ำแต่ละครั้งจะมีการคาดการณ์ตัวอย่างแต่ละครั้งอย่างแน่นอน โดยปกติแล้วค่าเฉลี่ยขนาดใหญ่จะใช้เป็นค่าประมาณประสิทธิภาพโดยปริยายสมมติว่าประสิทธิภาพของตัวแทนรุ่นมีค่าเท่ากับ หากคุณมองหาตัวอย่างแต่ละตัวที่การทำนายที่ทำโดยตัวจำลองตัวแทนที่แตกต่างกัน (เช่นในคอลัมน์) คุณจะเห็นว่าการทำนายนั้นมีความเสถียรสำหรับตัวอย่างนี้อย่างไรฉัน⋅ k
นอกจากนี้คุณยังสามารถคำนวณประสิทธิภาพสำหรับการวนซ้ำแต่ละครั้ง (บล็อก 3 แถวในผัง) ความแปรปรวนระหว่างสิ่งเหล่านี้หมายความว่าการสันนิษฐานว่าตัวแทนนางแบบจะเทียบเท่า (ต่อกันและยิ่งไปกว่านั้น "แกรนด์โมเดล" ที่สร้างขึ้นในทุกกรณี) จะไม่พบ แต่สิ่งนี้จะบอกคุณว่าคุณมีความไม่แน่นอนมากแค่ไหน สำหรับสัดส่วนทวินามฉันคิดว่าตราบใดที่ประสิทธิภาพที่แท้จริงเหมือนกัน (เช่นเป็นอิสระไม่ว่าจะเป็นกรณีเดียวกันเสมอจะทำนายผิดหรือว่าหมายเลขเดียวกัน แต่มีหลายกรณี แต่ทำนายผิด) ฉันไม่รู้ว่าจะมีใครสามารถคาดคะเนการแจกจ่ายเฉพาะสำหรับประสิทธิภาพของแบบจำลองตัวแทนได้หรือไม่ แต่ฉันคิดว่ามันไม่ว่าในกรณีใดข้อได้เปรียบเหนือการรายงานข้อผิดพลาดการจัดหมวดหมู่ทั่วไปในปัจจุบันถ้าคุณรายงานความไม่แน่นอนนั้นตัวแทนแบบจำลองถูกรวมเข้าด้วยกันแล้วสำหรับการทำซ้ำแต่ละครั้งความแปรปรวนของความไม่แน่นอนจะคร่าวๆkk
«
nkผม
รูปวาดเป็นรูปที่ใหม่กว่าของรูป 5 ในบทความนี้: Beleites, C. & Salzer, R .: การประเมินและปรับปรุงเสถียรภาพของแบบจำลองทางเคมีในสถานการณ์ขนาดตัวอย่างขนาดเล็ก Anal Bioanal Chem, 390, 1261-1271 (2008) DOI: 10.1007 / s00216-007-1818-6
โปรดทราบว่าเมื่อเราเขียนบทความฉันยังไม่ได้ตระหนักถึงแหล่งที่มาของความแปรปรวนต่าง ๆ ที่ฉันอธิบายไว้ที่นี่อย่างเต็มที่ - โปรดจำไว้ว่า ฉันจึงคิดว่าการโต้แย้งสำหรับการประมาณขนาดตัวอย่างที่มีประสิทธิภาพที่ให้ไว้นั้นไม่ถูกต้องถึงแม้ว่าข้อสรุปของการประยุกต์ใช้ว่าประเภทของเนื้อเยื่อที่แตกต่างกันภายในผู้ป่วยแต่ละรายให้ข้อมูลโดยรวมเท่ากับผู้ป่วยรายใหม่ที่มีประเภทของเนื้อเยื่อที่กำหนด หลักฐานซึ่งชี้ให้เห็นด้วยวิธีนั้น) อย่างไรก็ตามฉันยังไม่แน่ใจเกี่ยวกับเรื่องนี้อย่างสมบูรณ์ (หรือจะทำอย่างไรให้ดีขึ้นและสามารถตรวจสอบได้) และปัญหานี้ไม่เกี่ยวข้องกับคำถามของคุณ
ประสิทธิภาพใดที่จะใช้สำหรับช่วงความเชื่อมั่นทวินาม
จนถึงตอนนี้ฉันใช้ประสิทธิภาพที่สังเกตได้โดยเฉลี่ยแล้ว นอกจากนี้คุณยังสามารถใช้ประสิทธิภาพที่สังเกตได้แย่ที่สุด: ยิ่งประสิทธิภาพที่สังเกตได้คือ 0.5 ยิ่งความแปรปรวนที่มากขึ้นและช่วงความมั่นใจ ดังนั้นช่วงความเชื่อมั่นของประสิทธิภาพที่สังเกตได้ใกล้เคียงกับ 0.5 จะให้ "ความปลอดภัย"
โปรดทราบว่าวิธีการบางอย่างในการคำนวณช่วงความเชื่อมั่นทวินามนั้นทำงานได้เช่นกันหากจำนวนความสำเร็จที่สังเกตได้ไม่ใช่จำนวนเต็ม ฉันใช้ "การรวมตัวของความน่าจะเป็นหลังแบบเบย์" ตามที่อธิบายไว้ใน
Ross, TD: ช่วงความเชื่อมั่นที่แม่นยำสำหรับสัดส่วนทวินามและการประมาณอัตราปัวซอง, Comput Biol Med, 33, 509-531 (2003) DOI: 10.1016 / S0010-4825 (03) 00019-2
(ฉันไม่รู้สำหรับ Matlab แต่ใน R คุณสามารถใช้binom::binom.bayes
กับพารามิเตอร์รูปร่างทั้งชุดที่ 1)
nแตกต่างกันไป (ฉันไม่รู้ว่าจะทำอย่างไรนอกจากการได้รับชุดข้อมูลการฝึกอบรมใหม่ "ทางร่างกาย")
ดูเพิ่มเติมที่: Bengio, Y. และ Grandvalet, Y: ไม่มีการประมาณค่าความแปรปรวนของการตรวจสอบความถูกต้องข้าม K-Fold, วารสารการวิจัยการเรียนรู้ของเครื่องจักร, 2004, 5, 1089-11051089-1105
(การคิดเพิ่มเติมเกี่ยวกับสิ่งเหล่านี้อยู่ในรายการวิจัยของฉันสิ่งที่ต้องทำ ... แต่เมื่อฉันมาจากวิทยาศาสตร์การทดลองฉันชอบที่จะเสริมข้อสรุปเชิงทฤษฎีและการจำลองด้วยข้อมูลการทดลองซึ่งยากที่นี่เพราะฉันต้องการขนาดใหญ่ ชุดกรณีอิสระสำหรับการทดสอบอ้างอิง)
ปรับปรุง: มันเป็นธรรมที่จะถือว่าการกระจายทางชีวภาพหรือไม่?
k
nการประมาณโดยบอกว่าเรามีแหล่งที่มาของการเปลี่ยนแปลงเพิ่มเติม: ความไม่แน่นอน) หรือประสิทธิภาพเฉลี่ยสามารถใช้เป็นการประเมินแบบจุดโดยไม่มีเหตุผลเพิ่มเติม
nพีn