ข้อผิดพลาดประเภทโดยรวมเมื่อทำการทดสอบข้อมูลที่สะสมซ้ำ ๆ


12

ฉันมีคำถามเกี่ยวกับกลุ่มวิธีการตามลำดับ

ตามที่ Wikipedia:

ในการทดลองแบบสุ่มกับกลุ่มการรักษาสองกลุ่มการทดสอบตามลำดับกลุ่มแบบดั้งเดิมจะใช้ในลักษณะดังต่อไปนี้: หากมีอาสาสมัครในแต่ละกลุ่มมีการวิเคราะห์ระหว่างกาลจะดำเนินการในอาสาสมัคร 2n การวิเคราะห์ทางสถิติจะดำเนินการเพื่อเปรียบเทียบทั้งสองกลุ่มและหากยอมรับสมมติฐานทางเลือกการทดลองจะสิ้นสุดลง มิเช่นนั้นการทดลองจะดำเนินต่อไปสำหรับวิชา 2n อีกวิชาโดยมี n วิชาต่อกลุ่ม การวิเคราะห์ทางสถิติจะดำเนินการอีกครั้งในวิชา 4n หากทางเลือกได้รับการยอมรับการทดลองจะสิ้นสุดลง มิฉะนั้นจะดำเนินการประเมินเป็นระยะ ๆ จนกว่าจะมีตัวแบบ N 2 ชุดให้เลือก เมื่อมาถึงจุดนี้การทดสอบทางสถิติครั้งสุดท้ายจะดำเนินการและการทดลองจะถูกยกเลิก

แต่ด้วยการทดสอบข้อมูลที่สะสมซ้ำ ๆ ในแบบนี้ระดับความผิดพลาดที่เป็นประเภทที่สูงเกินจริง ...

หากตัวอย่างเป็นอิสระจากกันข้อผิดพลาดประเภท I โดยรวมจะเป็นα

α=1(1α)k

โดยที่คือระดับของการทดสอบแต่ละครั้งและคือจำนวนการค้นหาระหว่างกาลkαk

แต่ตัวอย่างไม่ได้เป็นอิสระเนื่องจากทับซ้อนกัน สมมติว่าการวิเคราะห์ระหว่างกาลจะดำเนินการที่เพิ่มขึ้นของข้อมูลเท่ากันจะพบว่า (สไลด์ 6)

ป้อนคำอธิบายรูปภาพที่นี่

คุณช่วยอธิบายให้ฉันฟังว่าตารางนี้ได้มาอย่างไร

คำตอบ:


12

สไลด์ต่อไปนี้จนถึงวันที่ 14 อธิบายความคิด ประเด็นดังที่คุณทราบคือลำดับของสถิตินั้นมีความสัมพันธ์กัน

บริบทคือการทดสอบ z ที่มีค่าเบี่ยงเบนมาตรฐานที่ทราบ การทดสอบสถิติครั้งแรก , มาตรฐานเหมาะสมมีปกติ (0,1) การกระจายกับ CDF \ดังนั้นสถิติที่สองแต่ - เพราะแรก ๆ ที่ใช้เป็นส่วนหนึ่งของข้อมูลที่ใช้สำหรับที่สอง - สองสถิติมีความสัมพันธ์กับค่าสัมประสิทธิ์สหสัมพันธ์{1/2} ดังนั้นจึงมีการแจกแจงแบบทวินาม ความน่าจะเป็นของความผิดพลาดประเภทที่ 1 (ภายใต้สมมติฐานว่าง) เท่ากับความน่าจะเป็นที่ (ก) ข้อผิดพลาดประเภทที่ 1 เกิดขึ้นในการทดสอบครั้งแรกหรือ (ข) ข้อผิดพลาดประเภทที่ 1 ไม่ได้เกิดขึ้นในการทดสอบครั้งแรก การทดสอบครั้งที่สอง ให้ Φ z 2 z1Φz2 (Z1,Z2)=Φ - 1 (1-0.05/2)อัลฟ่า| z1| >c| z1| c| z2| >c1/2(z1,z2)c=Φ1(10.05/2)เป็นค่าวิกฤต (สำหรับการทดสอบสองด้านที่มีขนาดปกติ = 0.05) จากนั้นโอกาสที่ข้อผิดพลาดประเภท I หลังจากการวิเคราะห์สองครั้งจะเท่ากับโอกาสที่หรือและ . การรวมตัวเลขให้ค่า 0.0831178 สำหรับความน่าจะเป็นนี้ซึ่งสอดคล้องกับตาราง ค่าที่ตามมาในตารางได้มาพร้อมกับการให้เหตุผลที่คล้ายกัน (และการรวมที่ซับซ้อนมากขึ้น)α|z1|>c|z1|c|z2|>c

กราฟิกนี้แสดงให้เห็นถึงไฟล์ PDF แบบไบนารีและพื้นที่ของการรวม (พื้นผิวทึบ) ไบนารีปกติพล็อตพื้นผิว 3 มิติ


เข้าใจขอบคุณ! cor correlation (z1, z2) หายากไหม
ocram

@ Marco ความสัมพันธ์นั้นตรงไปตรงมาเพื่อคำนวณเนื่องจากสถิติการทดสอบนั้นง่ายมาก: มันเป็นการรวมกันเชิงเส้นของตัวแปรปกติ (นี่เป็นเพราะเราถือว่าแปรปรวนเป็นที่รู้จักกัน.) หรือคุณอาจจะคิดว่าสถิติที่สองในฐานะที่เป็นผลรวมของสองตัวแปรสุ่มอิสระครั้งแรกหนึ่งบวกการเปลี่ยนแปลงที่สร้างขึ้นโดยข้อมูลเพิ่มเติมที่z_2 ในกรณีที่ซับซ้อนมากขึ้นความสัมพันธ์อาจจะยากในการคำนวณนั่นคือเหตุผลหนึ่งที่สถานการณ์ในอุดมคตินี้ถูกใช้เพื่อกระตุ้นการทดสอบตามลำดับ! z 1 - z 2z1z1z2
whuber

ขอบคุณมาก. ใช่ความสัมพันธ์นั้นง่ายต่อการคำนวณ จริงๆแล้วมันไม่ชัดเจนสำหรับฉันว่าบริบทนั้นเป็นการเปรียบเทียบวิธีการแจกแจงปกติสองแบบ ตอนนี้มันชัดเจนแล้วและคุณก็ทำให้ทุกอย่างชัดเจนเช่นกัน! ขอบคุณ!
ocram

คุณสามารถให้สูตร (หรือรหัส R) วิธีการคำนวณเช่น n = 400 ฉันจะทำสิ่งนี้ด้วยตัวเอง แต่น่าเสียดายที่ฉันไม่รู้ และฉันจะต้องปรับสูตรอย่างไรถ้าฉันต้องการคำนวณอัตราความผิดพลาดโดยรวมถ้าฉันมีการเปรียบเทียบหลายอย่าง (เช่นการเปรียบเทียบ 4 สัดส่วน) และไม่ทำการแก้ไขอย่าง Bonferroni และทำการทดสอบซ้ำ? คุณช่วยฉันได้ไหม
Andreas
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.