ค่า P ในการทดสอบแบบสองหางพร้อมการแจกแจงโมฆะแบบอสมมาตร


18

สถานการณ์ของฉันเป็นดังนี้: ฉันต้องการผ่านการศึกษา Monte-Carlo เพื่อเปรียบเทียบค่าpของการทดสอบที่แตกต่างกันสองรายการสำหรับนัยสำคัญทางสถิติของพารามิเตอร์ที่ประมาณไว้ (null คือ "ไม่มีผล - พารามิเตอร์เป็นศูนย์" และทางเลือกโดยนัยคือ " พารามิเตอร์ไม่ใช่ศูนย์ ") การทดสอบAเป็นมาตรฐาน"อิสระสองตัวอย่าง t-test สำหรับความเท่าเทียมกันของวิธีการ"โดยมีความแปรปรวนเท่ากันภายใต้ null

ทดสอบBฉันสร้างเองแล้ว ที่นี่การแจกแจงโมฆะที่ใช้คือการแจกแจงแบบไม่ต่อเนื่องทั่วไปแบบอสมมาตร แต่ฉันได้พบความคิดเห็นต่อไปนี้ในRohatgi & Saleh (2001, 2nd ed, p. 462)

"ถ้าการกระจายไม่สมมาตรที่p -value ไม่ได้กำหนดไว้อย่างดีในกรณีที่สองด้านแม้จะเขียนหลายคนแนะนำให้สองเท่าด้านเดียวp -value"

ผู้เขียนไม่ได้พูดถึงเรื่องนี้เพิ่มเติมและพวกเขาไม่แสดงความคิดเห็นใน "คำแนะนำของผู้เขียนหลายคน" เพื่อเพิ่มค่า - valueด้านเดียว p(นี้จะสร้างคำถาม "คู่p -value ของที่ด้านข้างหรือไม่และทำไมด้านนี้และไม่อื่น ๆ ?)

ฉันไม่สามารถค้นหาความคิดเห็นความเห็นหรือผลลัพธ์อื่น ๆ ในเรื่องทั้งหมดนี้ได้ ฉันเข้าใจว่าด้วยการกระจายแบบอสมมาตรถึงแม้ว่าเราสามารถพิจารณาช่วงเวลาแบบสมมาตรรอบ ๆ สมมุติฐานว่างเกี่ยวกับค่าของพารามิเตอร์เราจะไม่ได้ความสมมาตรปกติอันดับที่สองนั่นคือการจัดสรรมวลความน่าจะเป็น แต่ฉันไม่เข้าใจว่าทำไมจึงทำให้ ค่าp "ไม่ถูกต้อง" ส่วนตัวโดยใช้ช่วงเวลาสมมาตรรอบ ๆ สมมติฐานว่างสำหรับค่าของตัวประมาณค่าฉันไม่เห็นชัดเจนปัญหาในการพูดว่า "ความน่าจะเป็นที่การแจกแจงโมฆะจะสร้างค่าเท่ากับขอบเขตหรือนอกช่วงเวลานี้คือ XX" ความจริงที่ว่ามวลความน่าจะเป็นในอีกด้านหนึ่งจะแตกต่างจากมวลความน่าจะเป็นที่อยู่อีกด้านหนึ่งดูเหมือนจะไม่ก่อให้เกิดปัญหาอย่างน้อยก็เพื่อจุดประสงค์ของฉัน แต่มันค่อนข้างจะเป็นไปได้มากกว่าที่ Rohatgi & Saleh รู้บางอย่างที่ฉันทำไม่ได้

ดังนั้นนี่คือคำถามของฉัน: ในแง่ใดค่าpคือ (หรือสามารถ) "ไม่ชัดเจน" ในกรณีของการทดสอบสองด้านเมื่อการแจกแจงโมฆะไม่สมมาตร?

ข้อควรทราบที่สำคัญ: ฉันเข้าใกล้เรื่องนี้มากขึ้นในวิญญาณชาวประมงฉันไม่ได้พยายามที่จะได้รับกฎการตัดสินใจที่เข้มงวดในความหมายของเนย์แมน - เพียร์สัน ฉันปล่อยให้ผู้ใช้ทำการทดสอบเพื่อใช้ข้อมูลควบคู่ไปกับข้อมูลอื่น ๆ เพื่อทำการอนุมานp


4
นอกจากวิธีตามความน่าจะเป็น ("ฟิชเชอร์") และวิธี LR-based (NP) แล้วยังมีวิธีอื่นที่จะพิจารณาวิธีการได้รับช่วงความเชื่อมั่นระยะสั้นและใช้สำหรับการทดสอบสมมติฐาน สิ่งนี้ทำในจิตวิญญาณของทฤษฎีการตัดสินใจ (และใช้วิธีการของมัน) ซึ่งความยาวถูกรวมไว้ในฟังก์ชันการสูญเสีย สำหรับการแจกแจงแบบสมมาตรแบบ unimodal ของสถิติการทดสอบเห็นได้ชัดว่าช่วงเวลาที่สั้นที่สุดที่เป็นไปได้คือการใช้ช่วงเวลาแบบสมมาตร ช่วงเวลาที่สั้นที่สุดขึ้นอยู่กับการกำหนดพารามิเตอร์: ดังนั้นจึงไม่สามารถเป็นชาวประมง
whuber

ฉันสงสัยว่าคำตอบที่โพสต์ที่นี่จะใช้กับการแจกแจงแบบเบต้าหรือไม่ ขอบคุณ
JLT

@JLT: ใช่ทำไมไม่
Scortchi - Reinstate Monica

คำตอบ:


12

หากเราดูการทดสอบที่แม่นยำ 2x2 และใช้วิธีการของเราสิ่งที่ "เกินความคาดหมาย" อาจวัดได้โดยตรงจาก 'ความน่าจะเป็นต่ำกว่า' (Agresti [1] กล่าวถึงวิธีการหลายอย่างโดยผู้เขียนหลายคนเพื่อคำนวณค่า p แบบสองด้านสำหรับกรณีนี้ของการทดสอบ 2x2 Fisher ที่แน่นอนซึ่งวิธีนี้เป็นหนึ่งในสามที่กล่าวถึงโดยเฉพาะว่าเป็น 'ที่นิยมมากที่สุด')

สำหรับการแจกแจงแบบต่อเนื่อง (unimodal) คุณแค่หาจุดที่หางอีกข้างที่มีความหนาแน่นเท่ากันกับค่าตัวอย่างของคุณและทุกอย่างที่มีโอกาสเท่ากันหรือต่ำกว่าในหางอื่น ๆ จะถูกนับในการคำนวณค่า p

สำหรับการกระจายแบบไม่ต่อเนื่องซึ่งไม่ซ้ำซากจำเจในหางมันเป็นเรื่องง่าย คุณเพียงแค่นับทุกสิ่งที่มีโอกาสเท่ากันหรือต่ำกว่าตัวอย่างของคุณซึ่งให้สมมติฐานที่ฉันเพิ่ม (เพื่อให้คำว่า "ก้อย" เหมาะสมกับความคิด) ได้ให้วิธีการทำงานออกมา

หากคุณคุ้นเคยกับช่วงเวลาของ HPD (และอีกครั้งเรากำลังจัดการกับความไร้ทิศทาง) โดยทั่วไปแล้วมันเหมือนกับการเอาทุกอย่างออกไปนอกช่วง HPD ที่เปิดซึ่งล้อมรอบด้วยหางเดียวโดยสถิติตัวอย่างของคุณ

ป้อนคำอธิบายรูปภาพที่นี่

[เพื่อย้ำ - นี่เป็นโอกาสภายใต้โมฆะเรากำลัง equating ที่นี่]

อย่างน้อยในกรณีที่เหมือนกันดูเหมือนง่ายพอที่จะเลียนแบบการทดสอบที่แน่นอนของฟิชเชอร์และยังคงพูดถึงสองหาง

อย่างไรก็ตามคุณอาจไม่ได้ตั้งใจที่จะเรียกใช้จิตวิญญาณของการทดสอบที่แน่นอนของฟิชเชอร์ด้วยวิธีนี้

ดังนั้นการคิดนอกความคิดของสิ่งที่ทำให้บางสิ่งบางอย่าง 'เป็นหรือสุดขีดมากขึ้น' สักครู่ให้เรามุ่งหน้าไปยังจุดสิ้นสุดของ Neyman-Pearson เพียงเล็กน้อย สามารถช่วย (ก่อนทดสอบ!) เพื่อกำหนดเกี่ยวกับการกำหนดขอบเขตการปฏิเสธสำหรับการทดสอบที่ดำเนินการในระดับทั่วไปα (ฉันไม่ได้หมายความว่าคุณต้องคำนวณอย่างแท้จริงตามวิธีที่คุณจะคำนวณหนึ่ง) ทันทีที่คุณทำวิธีการคำนวณค่า p แบบสองค่าสำหรับกรณีของคุณควรชัดเจน

วิธีการนี้มีประโยชน์แม้ว่าจะทำการทดสอบนอกการทดสอบอัตราส่วนความน่าจะเป็นปกติ สำหรับบางแอปพลิเคชั่นอาจเป็นเรื่องยากที่จะหาวิธีคำนวณค่า p ในการทดสอบการเปลี่ยนรูปแบบไม่สมมาตร ... แต่มักจะง่ายกว่าถ้าคุณคิดถึงกฎการปฏิเสธก่อน

ด้วยการทดสอบความแปรปรวนแบบ F ฉันได้สังเกตว่า "ค่า p คู่หนึ่งค่า" สามารถให้ค่า p แตกต่างกันมากกับสิ่งที่ฉันเห็นว่าเป็นแนวทางที่ถูกต้อง [ไม่สำคัญว่ากลุ่มใดที่คุณเรียกว่า "ตัวอย่าง 1" หรือว่าคุณใส่ความแปรปรวนที่ใหญ่กว่าหรือเล็กลงในตัวเศษ]

[1]: Agresti, A. (1992),
การสำรวจการอนุมานที่แน่นอนสำหรับตาราง
สถิติเหตุฉุกเฉิน, Vol. 7 , ลำดับที่ 1 (ก.พ. ), หน้า 131-153


1
ctd ... หากเราทำการทดสอบอัตราส่วนความน่าจะเป็นอัตราส่วนความน่าจะเป็นแบบด้านเดียวเสมอ แต่ถ้าเราสร้างแบบทดสอบแบบสองด้านที่เทียบเท่ากันขึ้นอยู่กับสถิติบางตัวเราจะยังคงอัตราส่วนความน่าจะเป็นที่จะเล็กลง
Glen_b -Reinstate Monica

2
การเพิ่มค่า p เดียวให้เป็นสองเท่าอาจได้รับการปกป้องเป็นการแก้ไข Bonferroni สำหรับการทดสอบสองด้าน ท้ายที่สุดหลังจากการทดสอบแบบสองด้านเรามักจะรู้สึกกังวลมากเกี่ยวกับความจริงของโมฆะเพราะเห็นชอบสมมติฐานอื่นที่มีการกำหนดทิศทางโดยข้อมูล
Scortchi - Reinstate Monica

1
@Alcos มันง่ายพอที่จะแสดงให้เห็นถึงทางเลือกที่สมมาตร! ฉันพบว่ามันยากที่จะเห็นว่าคุณจะอ่านสิ่งที่ฉันเขียนตามที่บอกว่าตัวเลือกแบบสมมาตรนั้นเป็นวิธีที่ไม่ถูกต้องหรือไม่ (ตัวเลือกนั้นครอบคลุมโดยการอภิปรายที่ฉันได้ให้ไว้เกี่ยวกับกฎการปฏิเสธ - คุณสามารถสร้างสมมาตรได้อย่างง่ายดาย กฎการปฏิเสธ) ส่วนแรกของคำตอบของฉันคือการตอบคำถามในส่วนที่เกี่ยวกับฟิชเชอร์ หากคุณถามเกี่ยวกับฟิชเชอร์ฉันไม่ควรพูดคุยว่าฟิชเชอร์อาจทำอะไรขึ้นอยู่กับสิ่งที่เขาทำในสถานการณ์ที่คล้ายคลึงกัน? คุณดูเหมือนจะตีความคำตอบของฉันว่าพูดมากกว่านั้น
Glen_b -Reinstate Monica

1
@Alecos โดยเฉพาะฉันไม่สนับสนุน Fisher หรือวิธี Neyman Pearson (ไม่ว่าเราจะพูดถึงการทดสอบอัตราส่วนความน่าจะเป็นหรือเพียงแค่การทดสอบสมมติฐานโดยทั่วไป) และคุณไม่ควรพิจารณาฉันว่าพยายามแนะนำว่าอะไรก็ตามที่ฉันข้ามไปอาจผิด . ฉันแค่คุยเรื่องต่าง ๆ ที่คุณคิดว่าจะทำให้เกิดคำถาม
Glen_b

2
ในที่สุดใช่ สิ่งที่ประณีตเกี่ยวกับวิธีการของฟิชเชอร์คือให้วิธีที่สมเหตุสมผลในการเข้าถึงค่า p โดยไม่ต้องมีทางเลือก แต่ถ้าคุณมีทางเลือกเฉพาะที่น่าสนใจคุณสามารถกำหนดเป้าหมายภูมิภาคการปฏิเสธของคุณให้มากขึ้นหรือน้อยลงไปยังทางเลือกเหล่านั้นโดยการประกาศส่วนของพื้นที่ตัวอย่างที่มีทางเลือกอื่นที่จะทำให้กลุ่มตัวอย่างของคุณเป็นภูมิภาคการปฏิเสธ สถิติการทดสอบ T เป็นวิธีที่สะดวกในการบรรลุเป้าหมายโดยการเชื่อมโยงตัวเลขเดียวกับแต่ละจุดในนั้น (ให้ 'สุดขีดมากขึ้น' ตามที่วัดโดย T) ... ctd
Glen_b -Reinstate Monica

9

STST=|S|

t=min(PrH0(S<s),PrH0(S>s))S2t

SST=fS(S)X1.66-1.66

พี=ราคา(X>1.66)+ราคา(X<-1.66)=0.048457+0.048457=0.09691
Yอี1.66=5.25930.025732=อี-3.66
พี=ราคา(Y>5.2593)+ราคา(Y<0.025732)=0.048457+0.00012611=0.04858

enter image description here

p=2t=2min(Pr(X<1.66),Pr(X>1.66))=2min(Pr(Y<5.2593),Pr(Y>5.2593))=2min(0.048457,0.951543)=2×0.048457=0.09691.

ชนิดของผลสืบเนื่องไปคำตอบนี้ถกหลักการบางส่วนของการสร้างแบบทดสอบซึ่งในสมมติฐานทางเลือกที่จะระบุไว้อย่างชัดเจนสามารถพบได้ที่นี่

S

pL=PrH0(Ss)
pU=PrH0(Ss)

สำหรับค่า p เดียวด้านล่างและด้านบนจะได้รับค่า p สองด้าน

Pr(Tt)={pL+PrH0(PUpL)when pLpUpU+PrH0(PLpU)otherwise

; i.e. by adding to the smaller one-tailed p-value the largest achievable p-value in the other tail that does not exceed it. Note that 2t is still an upper bound.


1
Oh wow. This is a very good point, +1. What is your advice then? Also, can I interpret this discrepancy as corresponding to different (in this case implicit) choices of test statistic?
amoeba says Reinstate Monica

1
@amoeba: Not a typo! And when you observe 1.66 you take the the minimum of 0.952 & 0.048. If you actually observed -3.66 it'd be the minimum of 0.0001 & 0.9999.
Scortchi - Reinstate Monica

1
@Scortchi I have just accepted Glen_b's answer because it was more "useful" to me in the narrow sense. But yours helped me to avoid the trap of thinking that "that's all there is to it", which is an excellent insurance policy for future risks. Thanks again.
Alecos Papadopoulos

1
@Scortchi I have to agree; my response took a rather simplistic and one-sided view, and I should qualify, extend and justify the answer. I'll probably do that in several stages.
Glen_b -Reinstate Monica

1
@Glen_b: Thanks, I look forward to it. I also want to extend mine to show how score tests & generalized likelihood ratio tests give different answers (in general); & the theory of unbiased tests is surely worth mentioning in this context (but I can barely remember it).
Scortchi - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.