การปฏิเสธสมมติฐานโดยใช้ p-value เทียบเท่ากับสมมติฐานที่ไม่ได้อยู่ในช่วงความเชื่อมั่นหรือไม่?


29

ในขณะที่ได้รับช่วงความเชื่อมั่นอย่างเป็นทางการของการประเมินฉันลงเอยด้วยสูตรที่คล้ายกับวิธีคำนวณค่าp

ดังนั้นคำถาม: พวกเขาเทียบเท่าอย่างเป็นทางการ? Ie กำลังปฏิเสธสมมติฐานมีค่าวิกฤตเทียบเท่ากับไม่ได้อยู่ในช่วงความเชื่อมั่นที่มีค่าวิกฤต ?α 0 αH0=0α0α


2
@f coppens: ใช่หากใช้การทดสอบสองครั้งด้วยสถิติที่แตกต่างกันคุณจะพบกับช่วงความมั่นใจที่ต่างกันสองช่วง แต่ฉันคิดว่า OP ค้นพบความจริงพื้นฐาน: ทั้งช่วงความเชื่อมั่นและค่า p- ได้มาจากการกระจายตัวของสถิติเดียวกันดังนั้นทั้งคู่สามารถใช้เพื่อตัดสินใจปฏิเสธสมมติฐานว่างหรือไม่
StijnDeVuyst

1
@StijnDeVuyst: ช่วงเวลา Clopper / Pearon สำหรับสัดส่วนและช่วงเวลา Sterne สำหรับสัดส่วนนั้นมาจากการแจกแจงแบบทวินามด้วยขนาดเดียวกัน (ไม่รู้จัก p เพราะพวกเขาค้นหาช่วงความมั่นใจสำหรับ p) ความแตกต่างระหว่าง Clopper / Pearson และ Sterne เกิดจากความไม่สมดุลของความหนาแน่นแบบทวินาม ช่วงเวลา Sterne พยายามลดความกว้างของช่วงเวลาและ Clopper_pearson พยายามรักษาความสมมาตร (แต่เนื่องจากความเบ้ของ Binomial จะพบได้โดยประมาณเท่านั้น)

6
ไม่โดยทั่วไปไม่มี พิจารณากรณีที่ความกว้างของช่วงเวลาเป็นฟังก์ชั่นของค่าพารามิเตอร์โดยประมาณในขณะที่สำหรับการทดสอบความกว้างของช่วงเวลาเป็นฟังก์ชั่นของสมมติฐานหนึ่ง ตัวอย่างที่ชัดเจนจะเป็นการทดสอบทวินาม ลองใช้ค่าประมาณปกติ สำหรับความเรียบง่าย (แม้ว่ารูปแบบของการโต้แย้งไม่ได้ขึ้นอยู่กับมัน) พิจารณา n = 10 และค่า null เท่ากับ p = 0.5 ลองนึกภาพดู 2 หัว; null ไม่ถูกปฏิเสธ (เพราะ "2" อยู่ภายในช่วง 95% ประมาณ 0.5) แต่ CI สำหรับ p ไม่รวม 0.5 (เนื่องจาก CI แคบกว่าความกว้างช่วงเวลาภายใต้ค่า null
Glen_b -Reinstate Monica

4
หรือถ้าคุณต้องการให้มีขนาดใหญ่พอที่ค่าประมาณปกติดีลอง 469 หัวในการโยน 1,000 ครั้งสำหรับ H0 p = 0.5 อีกครั้ง 95% CI สำหรับ p ไม่ได้รวม 0.5 แต่การทดสอบ 5% ไม่ได้ปฏิเสธเนื่องจากความกว้างช่วงเวลาที่สอดคล้องกันภายใต้ H0 นั้นกว้างกว่าทางเลือกอื่น (ซึ่งเป็นสิ่งที่คุณทำกับ CI)
Glen_b -Reinstate Monica

4
@Glen_b: ดูเหมือนว่าคำถามที่ใหม่กว่านี้stats.stackexchange.com/questions/173005มีตัวอย่างของสถานการณ์ที่คุณได้อธิบายที่นี่
อะมีบาพูดว่า Reinstate Monica

คำตอบ:


32

ใช่และไม่.

ก่อนอื่นคือ "ใช่"

สิ่งที่คุณสังเกตเห็นคือเมื่อการทดสอบและช่วงความมั่นใจขึ้นอยู่กับสถิติเดียวกันมีความเท่าเทียมกันระหว่างพวกเขา: เราสามารถตีความเป็นค่าที่เล็กที่สุดของซึ่งค่า null ของพารามิเตอร์ จะรวมอยู่ในช่วงความเชื่อมั่นα 1 - αพีα1-α

ให้เป็นพารามิเตอร์ที่ไม่รู้จักในพื้นที่พารามิเตอร์และปล่อยให้ตัวอย่างเป็นสำนึกของตัวแปรสุ่มX_n) เพื่อความง่ายให้กำหนดช่วงความมั่นใจเป็นช่วงเวลาแบบสุ่มเพื่อให้ครอบคลุมความน่าจะเป็น (คุณสามารถพิจารณาช่วงเวลาทั่วไปที่คล้ายกันมากขึ้นโดยที่ความน่าจะเป็นของความครอบคลุมอาจถูกล้อมรอบด้วยหรือประมาณเท่ากับการให้เหตุผลมีความคล้ายคลึงกัน)Θ R x = ( x 1 , ... , x n ) X nR n X = ( X 1 , ... , X n ) ฉันα ( X ) P θ ( θ ฉันα ( X ) ) = 1 - αθΘRx=(x1,...,xn)XnRnX=(X1,...,Xn)ผมα(X) 1 - α

Pθ(θผมα(X))=1-αสำหรับทุกอย่าง α(0,1).
1α

พิจารณาการทดสอบสองด้านของจุด null สมมติฐานกับทางเลือก\ ให้แสดงถึงค่า p ของการทดสอบ สำหรับการใด ๆ ,ถูกปฏิเสธในระดับถ้า\ระดับ rejection regionคือชุดซึ่งนำไปสู่การปฏิเสธ : H 1 ( θ 0 ) : θH0(θ0):θ=θ0 λ ( θ 0 , x ) อัลฟ่า( 0 , 1 ) H 0 ( θ 0 ) อัลฟ่าλ ( θ 0 , x ) อัลฟ่าอัลฟ่าx H 0 ( θ 0 ) RH1(θ0):θθ0λ(θ0,x)α(0,1)H0(θ0)αλ(θ0,x)αα xH0(θ0)

Rα(θ0)={xRn:λ(θ0,x)α}.

ตอนนี้พิจารณาครอบครัวของทั้งสองด้านการทดสอบกับ P-ค่าสำหรับ\สำหรับครอบครัวเราสามารถกำหนดเขตการปฏิเสธคว่ำθ Θ Q α ( x ) = { θ Θ : λ ( θ , x ) α }λ(θ,x)θΘ

Qα(x)={θΘ:λ(θ,x)α}.

สำหรับการแก้ไข ,จะถูกปฏิเสธหากซึ่งจะเกิดขึ้นถ้าหาก , นั่นคือ หากการทดสอบจะขึ้นอยู่กับสถิติทดสอบกับที่ระบุไว้อย่างสมบูรณ์กระจาย null ต่อเนื่องอย่างแน่นอนแล้วภายใต้theta_0) จากนั้น เนื่องจากสมการนี้มีไว้สำหรับH 0 ( θ 0 ) xR α ( ) P θ 0 ( XR α ( θ 0 ) ) , Q α ( x ) θ 0 α Q Cθ0H0(θ0)θ 0Q α ( x ) xR α ( θ 0 ) θ 0Q α ( x ) λ ( θ 0 , X ) U ( 0 , 1 ) H 0 ( θ 0xRα(θ0)θ0Qα(x)

xRα(θ0)θ0Qα(x).
λ(θ0,X)~ยู(0,1)H0(θ0)θ 0Θ P θ 0 ( XR α ( θ 0 ) ) = P θ 0 ( θ 0Q α ( X
Pθ0(XRα(θ0))=Pθ0(λ(θ0,X)α)=α.
θ0Θและตั้งแต่สมการข้างต้นมันก็หมายความว่ามันตามที่ชุดสุ่มเสมอครอบคลุมพารามิเตอร์จริงกับความน่าจะเป็น\ดังนั้นปล่อยให้แสดงถึงส่วนประกอบของสำหรับเรามี หมายความว่าส่วนประกอบของภูมิภาคปฏิเสธกลับเป็นช่วงความเชื่อมั่น\
Pθ0(XRα(θ0))=Pθ0(θ0Qα(X)),
Qα(x)θ0αQα(x)θ0ΘPθ0(θ0Q C α (X))=1-α,1-αθQαC(x)Qα(x)θ0Θ
Pθ0(θ0QαC(X))=1-α,
1-αθ

ภาพประกอบได้รับด้านล่างแสดงให้เห็นถึงการปฏิเสธภูมิภาคและช่วงความเชื่อมั่นที่สอดคล้องกับที่ -test สำหรับค่าเฉลี่ยปกติสำหรับวิธีการที่แตกต่างกัน nullและตัวอย่างวิธีการที่แตกต่างกันกับ 1 ถูกปฏิเสธหากอยู่ในภูมิภาคสีเทาอ่อน แสดงเป็นสีเทาเข้มคือบริเวณที่ปฏิเสธและช่วงความมั่นใจ0.120,1.120) Zθx¯σ=1H0(θ)(x¯,θ)R0.05(-0.9)=(-,-1.52)(-0.281,)ผม0.05(1/2)=Q0.05C(1/2)=(-0.120,1.120)ป้อนคำอธิบายรูปภาพที่นี่

(สิ่งนี้ส่วนใหญ่นำมาจากวิทยานิพนธ์ระดับปริญญาเอกของฉัน )

ตอนนี้สำหรับ "ไม่"

ข้างต้นฉันอธิบายวิธีมาตรฐานในการสร้างช่วงความมั่นใจ ในวิธีการนี้เราใช้สถิติที่เกี่ยวข้องกับพารามิเตอร์ที่ไม่รู้จักเพื่อสร้างช่วงเวลา นอกจากนี้ยังมีช่วงเวลาตามขั้นตอนวิธีการลดซึ่งพยายามที่จะลดความยาวของสภาพช่วงเวลากับค่าของXโดยปกติช่วงเวลาดังกล่าวไม่สอดคล้องกับการทดสอบθX

ปรากฏการณ์นี้เกี่ยวข้องกับปัญหาที่เกี่ยวข้องกับช่วงเวลาดังกล่าวที่ไม่ซ้อนกันซึ่งหมายความว่าช่วงเวลา 94% อาจสั้นกว่าช่วงเวลา 95% สำหรับข้อมูลเพิ่มเติมเกี่ยวกับเรื่องนี้ดูหัวข้อ 2.5 ของเอกสารล่าสุดของฉัน (เพื่อแสดงใน Bernoulli)

และครั้งที่สอง "ไม่"

ในบางปัญหาช่วงความมั่นใจมาตรฐานไม่ได้ขึ้นอยู่กับสถิติเดียวกับการทดสอบมาตรฐาน (ตามที่ Michael Fay อธิบายไว้ในบทความนี้ ) ในกรณีเหล่านั้นช่วงความมั่นใจและการทดสอบอาจไม่ให้ผลลัพธ์ที่เหมือนกัน ตัวอย่างเช่นอาจถูกปฏิเสธโดยการทดสอบแม้ว่า 0 จะรวมอยู่ในช่วงความมั่นใจ สิ่งนี้ไม่ขัดแย้งกับ "ใช่" ด้านบนเนื่องจากมีการใช้สถิติที่แตกต่างθ0=0

และบางครั้ง "ใช่" ไม่ใช่สิ่งที่ดี

ตามที่ระบุโดยf coppensในความคิดเห็นบางครั้งช่วงเวลาและการทดสอบมีเป้าหมายที่ค่อนข้างขัดแย้งกัน เราต้องการช่วงเวลาสั้น ๆ และการทดสอบที่มีกำลังแรงสูง แต่ช่วงเวลาที่สั้นที่สุดนั้นไม่สอดคล้องกับการทดสอบด้วยกำลังสูงสุดเสมอไป สำหรับตัวอย่างบางส่วนของนี้ดูบทความนี้ (กระจายปกติหลายตัวแปร) หรือนี้ (กระจายชี้แจง) หรือมาตรา 4 แห่งวิทยานิพนธ์ของฉัน

Bayesians ยังสามารถพูดได้ทั้งใช่และไม่ใช่

หลายปีที่ผ่านมาฉันโพสต์คำถามที่นี่เกี่ยวกับว่ามีการทดสอบช่วงเวลาเทียบเท่าในสถิติ Bayesian หรือไม่ คำตอบสั้น ๆ คือการใช้การทดสอบสมมติฐานแบบเบย์มาตรฐานคำตอบคือ "ไม่" ด้วยการปรับแก้ปัญหาการทดสอบเล็กน้อยคำตอบอาจเป็น "ใช่" (ความพยายามของฉันในการตอบคำถามของฉันกลายเป็นกระดาษในที่สุด!)


2
คำตอบที่ดี (+1) และ (คุณทำบางส่วน) มันอาจเป็นการดีที่จะชี้ให้เห็นว่าบางครั้งความมั่นใจในช่วงเวลาและการทดสอบสมมติฐานมีเป้าหมายที่ขัดแย้งกัน (อาจ) ความขัดแย้ง: หนึ่งพยายามหาช่วงความมั่นใจ สำหรับการทดสอบสมมติฐานเราพยายามค้นหาภูมิภาคที่สำคัญว่า 'มีประสิทธิภาพที่สุดเท่าที่จะเป็นไปได้'

@fcoppens: ขอบคุณสำหรับคำแนะนำ! ฉันได้อัปเดตคำตอบของฉันด้วยบางบรรทัดเกี่ยวกับเรื่องนี้
MånsT

วิทยานิพนธ์ที่ดี! คุณทำงานในช่วงเวลา Sterne เช่นกันหรือไม่?

@fcoppens: ใช่ฉันทำงานบางช่วงเวลา Sterne เป็นส่วนใหญ่ในบทความนี้
MånsT

7
@ amoeba: ที่จริงแล้วฉันคิดว่า "ไม่" ของเขาคืออันดับสองของฉัน "ไม่" เท่าที่ฉันสามารถบอกได้เขาจะยึดช่วงความมั่นใจกับสถิติและการทดสอบ ในสถิติn} สังเกตความแตกต่างในตัวส่วน คุณสามารถสร้างการทดสอบและช่วงเวลาโดยใช้สถิติอย่างใดอย่างหนึ่งและตราบใดที่คุณใช้สถิติเดียวกันสำหรับทั้งสองจะไม่มีความแตกต่าง T1=(พี^-พี)/พี^(1-พี^)/nT2=(พี^-พี)/พี(1-พี)/n
MånsT

2

เมื่อดูที่พารามิเตอร์เดียวอาจเป็นไปได้ว่าการทดสอบเกี่ยวกับค่าของพารามิเตอร์และช่วงความเชื่อมั่น "ไม่ตรงกัน" ขึ้นอยู่กับวิธีการสร้าง โดยเฉพาะอย่างยิ่งการทดสอบสมมติฐานคือระดับ -test ถ้ามันปฏิเสธสมมติฐานว่างในสัดส่วนของเวลาที่สมมติฐานว่างเป็นจริง ด้วยเหตุผลนั้นเราสามารถใช้การประมาณค่าพารามิเตอร์ของโมเดล (เช่นความแปรปรวน) ที่ใช้ได้เฉพาะภายใต้สมมติฐานว่าง หากมีใครพยายามสร้าง CI โดยการคว่ำการทดสอบนี้ความคุ้มครองอาจไม่ถูกต้องภายใต้สมมติฐานทางเลือก ด้วยเหตุผลนั้นเรามักจะสร้างช่วงความเชื่อมั่นที่แตกต่างกันเพื่อให้การคุ้มครองนั้นอยู่ภายใต้ทางเลือกอื่นซึ่งจะนำไปสู่การไม่ตรงกัน (มักจะเล็กมาก)αα

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.