อะไรคือตัวอย่างที่ดีและน่าเชื่อถือที่ค่า p มีประโยชน์?


64

คำถามของฉันในชื่อเป็นคำอธิบายตัวเอง แต่ฉันต้องการที่จะให้บริบท

ASA ออกแถลงการณ์เมื่อต้นสัปดาห์นี้“ บนค่า p: บริบทกระบวนการและวัตถุประสงค์ ” สรุปความเข้าใจผิดที่หลากหลายของค่า p และเรียกร้องให้ระมัดระวังไม่ใช้โดยไม่มีบริบทและความคิด (ซึ่งอาจกล่าวได้เพียงเกี่ยวกับ วิธีการทางสถิติใด ๆ จริงๆ)

ในการตอบสนองต่อ ASA ศาสตราจารย์ Matloff เขียนบล็อกโพสต์หัวข้อ: หลังจาก 150 ปี, เอเอสเอกล่าวว่าไม่มีค่า P- จากนั้นอาจารย์ Benjamini (และฉัน) โพสต์ตอบกลับหัวข้อมันไม่ใช่ความผิด P-ค่า - การสะท้อนความเห็นในงบ เพื่อตอบสนองต่อมันศาสตราจารย์ Matloff ถามในโพสต์ติดตาม :

สิ่งที่ฉันต้องการเห็น [... คือ] - เป็นตัวอย่างที่ดีและน่าเชื่อถือซึ่งค่า p มีประโยชน์ นั่นจะต้องเป็นบรรทัดล่าง

เพื่ออ้างถึงสองข้อโต้แย้งที่สำคัญของเขากับประโยชน์ของค่า:p

  1. ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญจะกระโจนเข้าหาตัวเล็ก ๆ ซึ่งไม่สำคัญออกไปจากสมมติฐานว่าง

  2. เกือบจะไม่มีสมมติฐานว่างใด ๆ ที่เป็นจริงในโลกแห่งความจริงดังนั้นการทดสอบความสำคัญกับพวกเขาจึงไร้สาระและแปลกประหลาด

ฉันสนใจในสิ่งที่สมาชิกชุมชน crossvalidated คนอื่น ๆ คิดถึงคำถาม / ข้อโต้แย้งนี้และสิ่งที่อาจเป็นคำตอบที่ดี


5
สังเกตอีกสองกระทู้ที่เกี่ยวข้องกับหัวข้อนี้: stats.stackexchange.com/questions/200500/…และstats.stackexchange.com/questions/200745/…
ทิม

2
ขอบคุณทิม ฉันสงสัยว่าคำถามของฉันแตกต่างกันพอสมควรที่จะได้รับเธรดของตัวเอง ถึงกระนั้นลิงค์ก็น่าสนใจมาก!
Tal Galili

3
มันสมควรและน่าสนใจ (ด้วยเหตุนี้ +1 ของฉัน) ฉันให้ลิงก์เพียง FYI :)
ทิม

3
ฉันต้องบอกว่าฉันยังไม่ได้ (อ่าน) อ่านสิ่งที่ Matloff เขียนไว้ในหัวข้อ แต่เพื่อให้คำถามของคุณยืนได้ด้วยตัวเองคุณสามารถสรุปสั้น ๆ ว่าทำไมเขาถึงพบตัวอย่างมาตรฐานการใช้ p-values ​​ไม่ได้ " ดี / น่าเชื่อ "? เช่นใครบางคนต้องการศึกษาว่าการจัดการทดลองบางอย่างเปลี่ยนพฤติกรรมสัตว์ไปในทิศทางใดทิศทางหนึ่งหรือไม่ ดังนั้นกลุ่มทดลองและกลุ่มควบคุมจึงถูกวัดและเปรียบเทียบ ในฐานะผู้อ่านบทความนี้ฉันดีใจที่ได้เห็นค่า p (เช่นพวกเขามีประโยชน์สำหรับฉัน) เพราะถ้ามันมีขนาดใหญ่แล้วฉันไม่จำเป็นต้องใส่ใจ ตัวอย่างนี้ไม่เพียงพอ?
อะมีบาพูดว่า Reinstate Monica

1
@amoeba - เขาแสดงไว้ที่นี่: matloff.wordpress.com/2016/03/07/ ...... ----- อ้างถึงข้อโต้แย้งของเขา: 1) ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญเกิดขึ้นที่การเดินทางเล็ก ๆ ที่ไม่สำคัญจากสมมติฐานว่าง 2) เกือบจะไม่มีสมมติฐานว่างใด ๆ ที่เป็นจริงในโลกแห่งความจริงดังนั้นการทดสอบความสำคัญกับพวกเขาจึงไร้สาระและแปลกประหลาด ----- ฉันมีเวลาทำของตัวเอง (ซึ่งฉันต้องการให้เป็นทางการในภายหลัง) แต่ฉันมั่นใจว่าคนอื่นจะมีวิธีที่ชาญฉลาดในการตอบคำถามนี้
Tal Galili

คำตอบ:


44

ฉันจะพิจารณาคะแนนทั้งสองของ Matloff:

  1. ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญจะกระโจนเข้าหาตัวเล็ก ๆ ซึ่งไม่สำคัญออกไปจากสมมติฐานว่าง

    p=0.0001npp

    (ในความคิดเห็น @RobinEkman ชี้ให้ฉันเห็นการศึกษาที่ได้รับการอ้างสิทธิ์สูงหลายครั้งโดย Ziliak & McCloskey ( 1996 , 2004 ) ที่สังเกตว่าส่วนใหญ่ของเอกสารทางเศรษฐศาสตร์ทรัมเป็ต "นัยสำคัญทางสถิติ" ของผลกระทบบางอย่างโดยไม่สนใจขนาดผล "ความสำคัญในทางปฏิบัติ" (ซึ่ง Z&MS เถียงมักจะมีขนาดเล็ก) นี่เป็นการปฏิบัติที่ไม่ดีอย่างเห็นได้ชัดอย่างไรก็ตามตามที่ @MatteoS อธิบายไว้ด้านล่างขนาดผลกระทบ (การประมาณการถดถอย) จึงถูกรายงานเสมอ

  2. เกือบจะไม่มีสมมติฐานว่างใด ๆ ที่เป็นจริงในโลกแห่งความจริงดังนั้นการทดสอบความสำคัญกับพวกเขาจึงไร้สาระและแปลกประหลาด

    n n=20n=50n=5000เป็นความจริงที่แทบไม่มีผลกระทบใด ๆ ที่แท้จริงเป็นศูนย์อย่างแน่นอนมันเป็นความจริงที่ว่าผลกระทบจริงจำนวนมากนั้นเล็กพอที่จะตรวจจับได้ด้วยขนาดตัวอย่างที่สมเหตุสมผล

    n=100n=20

    นอกจากนี้ฉันไม่คิดว่าฉันยอมรับว่าเกือบจะไม่มีสมมติฐานว่างเปล่าเป็นจริงอย่างน้อยก็ไม่ได้อยู่ในการศึกษาแบบสุ่มทดลอง (ตรงข้ามกับข้อสังเกต) เหตุผลสองประการ:

    • δ>0H0:δ=0H0:δ<0

    • H0:δ=0

pp95%95%99%pα

p


p

p0.60.695%[0.2,1.0]p95%p0.05

95%99%

ppp0.05d=0.6

p


pp


1
การตอบสนองของคุณต่อข้อโต้แย้งที่สองนั้นไม่ตรงประเด็นในความคิดของฉัน ไม่มีใครแนะนำว่านักวิจัยที่แท้จริงจะเพิ่มขนาดตัวอย่างของพวกเขาลงไปใน infinitum ประเด็น (ตามที่ฉันเห็น) คือสมมติฐานว่างใด ๆ ของรูปแบบ "effect = 0" ที่นักวิจัยจะสนใจในการทดสอบจะเป็นเท็จและมีค่าน้อยในการทดสอบสมมติฐานหากสมมติฐานว่างอยู่แล้ว รู้ว่าเป็นเท็จ แน่นอนนี้อนุมานว่าสิ่งที่เราสนใจจริง ๆ คือพารามิเตอร์ของประชากรที่เกี่ยวข้องมากกว่าลักษณะของตัวอย่าง
mark999

1
แต่ฉันยอมรับว่า "สมมติฐานว่างใด ๆ ... จะเป็นเท็จ" เป็นเพียงสมมติฐาน
mark999

1
ฉันควรยอมรับว่าเหตุผลของฉันที่นี่ค่อนข้างไม่เป็นทางการและฉันไม่เคยพยายามทำให้เป็นทางการ บางทีเพื่อให้การโต้แย้งนี้เป็นจริงฉันไม่ควรพูดว่ามีขอบเขตที่ชัดเจนระหว่างขนาดเอฟเฟกต์ที่น่าสนใจและไม่น่าสนใจ ค่อนข้างเป็นความต่อเนื่องที่น่าสนใจเพิ่มขึ้นห่างจากศูนย์และขนาดตัวอย่าง "สมเหตุสมผล" ควรให้พลังงานขนาดเล็กถึงขนาดเอฟเฟกต์ที่ไม่น่าสนใจและพลังงานขนาดใหญ่ให้กับสิ่งที่น่าสนใจมาก แต่ไม่มีเกณฑ์ใดเลย ฉันสงสัยว่ามีใครสามารถทำมันให้เป็นทางการได้อย่างถูกต้องตามแนวของ Neyman-Pearson
อะมีบาพูดว่า Reinstate Monica

6
p

3
@amoeba: แหล่งที่มาของการอ้างสิทธิ์ 70% อาจเป็นถ้อยคำที่คลุมเครือในบทคัดย่อปี 2549:“ จากบทความยาว 182 ฉบับที่ตีพิมพ์ในปี 1980 ใน [AER] 70% ไม่ได้แยกความแตกต่างทางเศรษฐกิจจากนัยสำคัญทางสถิติ” สิ่งที่พวกเขาหมายถึง - ตามที่อธิบายไว้ในเอกสารทั้งสอง - คือบ่อยครั้งที่มีเพียงความเห็นหลังและความสำคัญของสัมประสิทธิ์การถดถอยที่เกี่ยวข้องกับตัวแปรตาม ("ความสำคัญทางเศรษฐกิจ" ในศัพท์แสงของพวกเขา) ไม่ได้วิเคราะห์อย่างกว้างขวาง . แต่มีการรายงานเสมอ ฉันขอแนะนำให้คุณแก้ไขการอัปเดตของคุณในคำตอบเพื่อสะท้อนถึง :-)
MatteoS

29

ฉันทำผิดมากในสองแนวคิดต่อไปนี้:

  1. ด้วยตัวอย่างขนาดใหญ่การทดสอบอย่างมีนัยสำคัญจะกระโจนเข้าหาตัวเล็ก ๆ ซึ่งไม่สำคัญออกไปจากสมมติฐานว่าง

  2. เกือบจะไม่มีสมมติฐานว่างใด ๆ ที่เป็นจริงในโลกแห่งความจริงดังนั้นการทดสอบความสำคัญกับพวกเขาจึงไร้สาระและแปลกประหลาด

มันเป็นข้อโต้แย้งของชาวฟางเกี่ยวกับค่า p ปัญหาพื้นฐานที่สร้างแรงจูงใจในการพัฒนาสถิตินั้นมาจากการมองเห็นแนวโน้มและต้องการทราบว่าสิ่งที่เราเห็นคือโดยบังเอิญหรือตัวแทนของแนวโน้มที่เป็นระบบ

Ho:μd=0μdμd0μd>0μd<0μd>0μd=0μd<0

จริงอยู่ที่สิ่งนี้ไม่ได้บอกขนาดของเอฟเฟกต์ แต่มันบอกคุณถึงทิศทางของเอฟเฟกต์ ดังนั้นอย่าใส่เกวียนก่อนม้า ก่อนที่ฉันจะเริ่มข้อสรุปเกี่ยวกับขนาดของเอฟเฟกต์ฉันต้องการมั่นใจว่าฉันมีทิศทางของเอฟเฟกต์ที่ถูกต้อง!

H1:μd>1H2:μd<1

เพื่ออธิบายเพิ่มเติมนี้สมมติว่าเราเพิ่งดูช่วงความเชื่อมั่นและค่า p ที่ถูกทิ้งไป สิ่งแรกที่คุณจะตรวจสอบในช่วงความมั่นใจคืออะไร? ไม่ว่าจะเป็นผลที่เป็นบวก (หรือลบ) อย่างเคร่งครัดก่อนที่จะรับผลอย่างจริงจังเกินไป ดังนั้นแม้จะไม่มีค่า p เราก็จะทำการทดสอบสมมติฐานอย่างไม่เป็นทางการ

ในที่สุดเกี่ยวกับคำขอของ OP / Matloff "ให้ข้อโต้แย้งที่น่าเชื่อถือของค่าพีดีขึ้นอย่างมีนัยสำคัญ" ฉันคิดว่าคำถามนั้นค่อนข้างน่าอึดอัดใจ ฉันพูดแบบนี้เพราะมันขึ้นอยู่กับมุมมองของคุณมันจะตอบตัวเองโดยอัตโนมัติ ("ยกตัวอย่างหนึ่งที่เป็นรูปธรรมให้ฉันซึ่งการทดสอบสมมติฐานดีกว่าไม่ทดสอบพวกเขา") อย่างไรก็ตามกรณีพิเศษที่ฉันคิดว่าเกือบจะปฏิเสธไม่ได้คือข้อมูล RNAseq ในกรณีนี้เรามักจะดูที่ระดับการแสดงออกของ RNA ในสองกลุ่มที่แตกต่างกัน (เช่นโรคควบคุม) และพยายามที่จะค้นหายีนที่แสดงออกแตกต่างกันในทั้งสองกลุ่ม ในกรณีนี้ขนาดของเอฟเฟกต์เองนั้นไม่ได้มีความหมายจริงๆ นี่เป็นเพราะระดับการแสดงออกของยีนที่แตกต่างกันแตกต่างกันไปอย่างดุเดือดสำหรับบางยีนการมีการแสดงออกที่สูงกว่า 2x ไม่ได้หมายความว่าอะไร ในขณะที่ยีนที่ควบคุมอย่างเข้มงวดอื่น ๆ การแสดงออกที่สูงขึ้น 1.2x เป็นอันตรายถึงชีวิต ดังนั้นขนาดที่แท้จริงของขนาดเอฟเฟกต์จึงค่อนข้างไม่น่าสนใจเมื่อเปรียบเทียบกลุ่มครั้งแรก แต่คุณจริง ๆต้องการทราบว่าการแสดงออกของยีนเปลี่ยนแปลงระหว่างกลุ่มและทิศทางของการเปลี่ยนแปลงหรือไม่! นอกจากนี้มันยากมากที่จะแก้ไขปัญหาของการเปรียบเทียบหลาย ๆ แบบ (ซึ่งคุณอาจทำ 20,000 รายการในการทดสอบครั้งเดียว) ด้วยช่วงความมั่นใจมากกว่าที่จะเป็นกับค่า p


2
ฉันไม่เห็นด้วยว่าการรู้ว่าทิศทางของเอฟเฟกต์นั้นมีประโยชน์อย่างไร ถ้าฉันถ่มน้ำลายลงบนพื้นฉันรู้ว่าสิ่งนี้จะปรับปรุงหรือยับยั้งการเจริญเติบโตของพืช (เช่นสมมติฐานว่างเปล่าที่ไม่มีผลใด ๆ เป็นเท็จ) วิธีคือการรู้ทิศทางของผลกระทบนี้โดยไม่ต้องใด ๆข้อมูลเกี่ยวกับขนาดของมันมีประโยชน์หรือไม่ แต่นี่เป็นสิ่งเดียวที่p-valueจากการทดสอบสองด้านของคุณ / การทดสอบด้านเดียว (เรียงลำดับ) บอกคุณ! (BTW ฉันคิดว่าตัวอย่าง 'น้ำลายบนพื้นดิน' ยืมมาจากกระดาษบางส่วนในค่าp ที่ฉันอ่านเมื่อหลายปีก่อน แต่ฉันจำไม่ได้ว่าอันไหน)
Karl Ove Hufthammer

3
@KarlOveHufthammer: รถเข็นก่อนม้า ฉันไม่ควรหยุดเพียงเพราะรู้ทิศทางของผลกระทบ แต่ฉันควรใส่ใจว่าฉันมีทิศทางที่ถูกต้องก่อนที่ฉันจะเริ่มกังวลเกี่ยวกับขนาด คุณคิดว่าชุมชนวิทยาศาสตร์น่าจะดีกว่านี้ไหมโดยการยอมรับทุกสิ่งที่มีเอฟเฟกต์ขนาดใหญ่โดยไม่ตรวจสอบค่า p
หน้าผา AB

3
Ha:μd>1Ha:μd<1

2
คุณทำคะแนนได้ดีมากในการแก้ไข ฉันชอบคำตอบของคุณตอนนี้!
อะมีบาพูดว่า Reinstate Monica

3
ในขณะที่ทำงานกับคำตอบของฉันที่stats.stackexchange.com/questions/200500ฉันได้พบกับการพิมพ์ครั้งล่าสุดโดย Wagenmakers และคณะที่พวกเขาโต้เถียงประเด็นของคุณเกี่ยวกับทิศทาง: "ค่า P ด้านเดียวสามารถให้การตีความแบบเบส์เป็นการทดสอบโดยประมาณ ในทิศทางนั้นคือการทดสอบว่าผลแฝงเป็นลบหรือบวก " เป็นเรื่องที่น่าสนใจเพราะ Wagenmakers เป็น Bayesian ที่แข็งกร้าวเขาเขียนมากกับค่า p ถึงกระนั้นฉันเห็นข้อตกลงเชิงแนวคิดบางอย่างที่นี่
อะมีบาพูดว่า Reinstate Monica

6

ให้อภัยการถากถางของฉัน แต่ตัวอย่างหนึ่งที่เห็นได้ชัดเจนของการใช้ประโยชน์ของค่า p คือการตีพิมพ์ ฉันมีผู้ทดลองคนหนึ่งเข้ามาหาฉันเพื่อผลิต p-value ... เขาแนะนำการถ่ายยีนในต้นเดียวเพื่อปรับปรุงการเจริญเติบโต จากโรงงานเดี่ยวนั้นเขาสร้างโคลนหลายแห่งและเลือกโคลนที่ใหญ่ที่สุดตัวอย่างที่ประชากรทั้งหมดถูกระบุ คำถามของเขาผู้ตรวจทานต้องการเห็นค่า p ที่โคลนนี้มีขนาดใหญ่ที่สุด ฉันบอกว่าไม่จำเป็นต้องมีสถิติในกรณีนี้เพราะเขามีประชากรทั้งหมดอยู่ในมือ แต่ไม่มีประโยชน์

จากมุมมองทางวิชาการฉันพบว่าการสนทนาเหล่านี้น่าสนใจและน่าสนใจยิ่งขึ้นเช่นเดียวกับการถกเถียงกันอย่างถี่ถ้วนกับ Bayesian ประจำเมื่อไม่กี่ปีที่ผ่านมา มันนำเสนอมุมมองที่แตกต่างกันของจิตใจที่ดีที่สุดในสาขานี้และให้ความกระจ่างกับสมมติฐาน / ข้อผิดพลาดมากมายที่เกี่ยวข้องกับวิธีการที่ไม่สามารถเข้าถึงได้อย่างง่ายดาย

ในทางปฏิบัติฉันคิดว่าแทนที่จะโต้เถียงเกี่ยวกับวิธีการที่ดีที่สุดและแทนที่ปทัฏฐานข้อบกพร่องที่หนึ่งที่มีข้อบกพร่องตามที่ได้รับการแนะนำก่อนที่อื่น ๆ สำหรับฉันมันค่อนข้างเปิดเผยของปัญหาพื้นฐานของระบบและเน้นควรพยายามหาสิ่งที่ดีที่สุด การแก้ปัญหา ตัวอย่างเช่นเราสามารถแสดงสถานการณ์ที่ค่า p และ CI ช่วยเติมเต็มซึ่งกันและกันและสถานการณ์ที่หนึ่งมีความน่าเชื่อถือมากกว่าอีกสถานการณ์หนึ่ง ในโครงการที่ยิ่งใหญ่ของสิ่งต่าง ๆ ฉันเข้าใจว่าเครื่องมือเชิงอนุมานทั้งหมดมีข้อบกพร่องของตัวเองซึ่งจำเป็นต้องเข้าใจในแอปพลิเคชันใด ๆ เพื่อไม่ให้หน้าซีดคืบไปสู่เป้าหมายสูงสุด .. ความเข้าใจที่ลึกซึ้งของระบบการศึกษา


6

ฉันจะให้กรณีตัวอย่างที่เป็นประโยชน์เกี่ยวกับวิธีการใช้ค่า p และรายงาน มันเป็นรายงานล่าสุดมากในการค้นหาของอนุภาคลึกลับบนLarge Hadron Collider (LHC) ในเซิร์น

ไม่กี่เดือนที่ผ่านมามีคนพูดพล่อยตื่นเต้นในวงการฟิสิกส์พลังงานสูงเกี่ยวกับความเป็นไปได้ที่ LHC ตรวจพบอนุภาคขนาดใหญ่ จำไว้ว่านี่เป็นหลังจากการค้นพบของฮิกส์โบซอน นี่คือข้อความที่ตัดตอนมาจากกระดาษ "ค้นหาเรโซแนนซ์ที่สลายเป็นคู่โฟตอนใน 3.2 fb − 1 ของการชนกันของ pp ที่√s = 13 TeV พร้อมตัวตรวจจับ ATLAS" โดยATLAS Collaboration Dec 15 2015 และความคิดเห็นของฉัน

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งที่พวกเขาพูดในที่นี้คือเหตุการณ์นับเกินสิ่งที่โมเดลมาตรฐานคาดการณ์ รูปด้านล่างจากกระดาษแสดงค่า p ของเหตุการณ์ส่วนเกินเป็นฟังก์ชั่นของมวลของอนุภาค คุณเห็นว่าค่า p-dives ประมาณ 750 GeV อย่างไร ดังนั้นพวกเขากำลังจะบอกว่ามีความเป็นไปได้ว่าอนุภาคใหม่ที่มีการตรวจพบมีมวลเท่ากับ 750 Giga eV ค่า p ในรูปคำนวณเป็น "ท้องถิ่น" ค่า p ทั่วโลกจะสูงกว่ามาก นั่นไม่สำคัญสำหรับการสนทนาของเรา

สิ่งสำคัญคือค่า p ยังไม่ "ต่ำพอ" สำหรับนักฟิสิกส์ที่จะประกาศการค้นหา แต่ "ต่ำพอ" เพื่อให้ตื่นเต้น ดังนั้นพวกเขาวางแผนที่จะนับต่อไปและหวังว่าค่า p จะลดลงอีก

ป้อนคำอธิบายรูปภาพที่นี่

ซูมไม่กี่เดือนข้างหน้าเพื่อสิงหาคม 2016, ชิคาโกจัดงานประชุมในHEP มีรายงานใหม่นำเสนอ "ค้นหาการผลิตจังหวะของคู่โฟตอนมวลสูงโดยใช้การปะทะกันของโปรตอน - โปรตอน 12.9 fb − 1 ที่√ s = 13 TeV และการตีความการค้นหาที่รวม 8 และ 13 TeV" โดย The Collaboration CMSในครั้งนี้ นี่คือข้อความที่ตัดตอนมาพร้อมกับความคิดเห็นของฉันอีกครั้ง:

ป้อนคำอธิบายรูปภาพที่นี่

ดังนั้นพวกเขายังคงสะสมเหตุการณ์และตอนนี้เหตุการณ์ที่เหลือเกินพิกัดที่ 750 GeV หายไป รูปด้านล่างจากกระดาษแสดงค่า p และคุณสามารถดูว่าค่า p เพิ่มขึ้นเมื่อเทียบกับรายงานแรกได้อย่างไร ดังนั้นพวกเขาเศร้าสรุปว่าไม่มีการตรวจพบอนุภาคที่ 750 GeV

ป้อนคำอธิบายรูปภาพที่นี่

ฉันคิดว่านี่เป็นวิธีที่ควรใช้ค่า p พวกเขาทำให้รู้สึกโดยสิ้นเชิงและทำงานอย่างชัดเจน ฉันคิดว่าเหตุผลก็คือวิธีการที่ใช้เป็นประจำนั้นเป็นเรื่องธรรมดาในฟิสิกส์ ไม่มีเรื่องส่วนตัวเกี่ยวกับการกระเจิงของอนุภาค คุณรวบรวมตัวอย่างขนาดใหญ่พอและรับสัญญาณที่ชัดเจนว่ามี

หากคุณคำนวณค่า p ที่นี่ได้อย่างแท้จริงให้อ่านบทความนี้ : "สูตรเชิงเส้นสำหรับการทดสอบความเป็นไปได้ของฟิสิกส์ใหม่" โดย Cowan et al


2
ทุกคนหวังว่ายอดเขา 750 GeV จะเป็นจริงและตอนนี้ก็น่าเศร้า แต่จริง ๆ แล้วฉันหวังว่ามันจะกลายเป็นความผันผวน (และสามารถเดิมพันได้) และตอนนี้ฉันก็โล่งใจ ฉันคิดว่ามันยอดเยี่ยมที่โมเดลมาตรฐานใช้งานได้ดี ไม่ค่อยเข้าใจความปรารถนาที่จะลุกไหม้เกินกว่ารุ่นมาตรฐาน (ราวกับว่าทุกอย่างในฟิสิกส์ได้รับการแก้ไขแล้ว) อย่างไรก็ตาม +1 เป็นตัวอย่างที่ดี
อะมีบาพูดว่า Reinstate Monica

2

คำอธิบายอื่น ๆ นั้นใช้ได้ดีฉันแค่อยากลองและให้คำตอบสั้น ๆ และตรงกับคำถามที่โผล่เข้ามาในหัวของฉัน

การตรวจสอบความไม่สมดุลของโควาเรตในการทดลองแบบสุ่ม

การอ้างสิทธิ์ครั้งที่สองของคุณ (เกี่ยวกับสมมติฐานโมฆะที่ไม่สมจริง) ไม่เป็นความจริงเมื่อเราตรวจสอบความแปรปรวนร่วมของการแปรปรวนร่วมในการทดลองแบบสุ่มซึ่งเรารู้ว่าการสุ่มเสร็จสิ้นอย่างถูกต้อง ในกรณีนี้เรารู้ว่าสมมติฐานว่างเป็นจริง ถ้าเราได้รับความแตกต่างอย่างมีนัยสำคัญระหว่างกลุ่มการรักษาและกลุ่มควบคุมใน covariate บางส่วน - หลังจากควบคุมเพื่อเปรียบเทียบหลายอย่างแน่นอน - นั่นก็บอกเราว่าเราได้รับ "การจับที่ไม่ดี" ในการสุ่มตัวอย่างและเราอาจไม่เชื่อ มาก. นี่เป็นเพราะเราอาจคิดว่าการประเมินผลการรักษาของเราจากการสุ่ม "เลวร้าย" โดยเฉพาะนั้นอยู่ห่างจากผลการรักษาที่แท้จริงมากกว่าการประมาณการที่ได้จาก "การจับฉลากที่ดี"

ฉันคิดว่านี่เป็นการใช้ค่า p อย่างสมบูรณ์แบบ มันใช้คำจำกัดความของ p-value: ความน่าจะเป็นที่จะได้ค่าตามที่ได้รับหรือมากไปกว่านั้นจากสมมติฐานว่าง หากผลลัพธ์นั้นไม่น่าเป็นไปได้สูงเราก็จะได้รับ "การจับฉลากที่ไม่ดี"

ตาราง / สถิติยอดดุลนั้นเป็นเรื่องปกติเมื่อใช้ข้อมูลเชิงสังเกตเพื่อลองและทำการอนุมานเชิงสาเหตุ (เช่นการจับคู่การทดลองตามธรรมชาติ) แม้ว่าในกรณีเหล่านี้ตารางยอดคงเหลือนั้นยังห่างไกลจากความเพียงพอที่จะแสดงให้เห็นถึงฉลาก "สาเหตุ" กับการประมาณการ


ฉันไม่เห็นด้วยว่านี่เป็นการใช้ค่า p ที่สมบูรณ์แบบ (หรือแม้แต่ดี) คุณจะกำหนด "ภาพวาดที่ไม่ดี" ได้อย่างไร
mark999

2
@ เครื่องหมายตกลง ฉันคิดว่าฉันสามารถตอบคำถามสุดท้ายของคุณได้ในขณะที่ Matt ไม่อยู่: แน่นอนในตัวอย่าง ลองนึกภาพการทดลองแบบสุ่มกับ 50 คน ลองนึกภาพว่ามันเกิดขึ้นจนคนทั้ง 25 คนในกลุ่ม A กลายเป็นผู้ชายและอีก 25 คนในกลุ่ม B กลายเป็นผู้หญิง เห็นได้ชัดว่ามันสามารถสร้างความสงสัยอย่างมากในข้อสรุปใด ๆ ของการศึกษา; นั่นเป็นตัวอย่างของ "การจับสลาก" Matt แนะนำให้ทำการทดสอบความแตกต่างในเพศ (covariate) ระหว่าง A และ B ฉันไม่เห็นว่าคำตอบของ Matt สามารถตีความต่างกันได้อย่างไร มีประชากรที่ไม่มีเนื้อหาที่นี่เลย
อะมีบากล่าวว่า Reinstate Monica

1
@ mark999 แต่การทดสอบความแตกต่างระหว่าง 12/25 ถึง 13/25 จะเห็นได้ชัดว่าให้ค่า p ที่ไม่มีนัยสำคัญสูงดังนั้นฉันไม่แน่ใจว่าประเด็นของคุณคืออะไรที่นี่ แมตต์แนะนำให้ทำการทดสอบและพิจารณาค่า p ต่ำเป็นธงสีแดง ไม่มีธงสีแดงในตัวอย่างของคุณ ฉันคิดว่าฉันจะหยุดที่นี่และให้ Matt ดำเนินการโต้ตอบต่อหากเขาต้องการ
อะมีบาพูดว่า Reinstate Monica

4
ไม่โปรดดู 'การทดสอบสมดุลการเข้าใจผิด': gking.harvard.edu/files/matchse.pdfคุณอธิบายกรณีที่สถิติการทดสอบของตัวเองอาจปรับ (ใช้เป็นการวัดระยะทางในการย่อให้เล็กสุด) แต่ค่า p ทำให้ไม่มี ความรู้สึก
conjugateprior

2
สำหรับการตรวจสอบมากขึ้นล่าสุดนี้ในจิตและ neurolinguistics มีใหม่arXiv preprint เมื่อคุณพิจารณาการจัดการสมดุล ฯลฯ คุณไม่ได้สุ่มตัวอย่างและแม้ว่าคุณจะเป็นแบบทดสอบการตอบคำถามเชิงอนุมานที่แตกต่างกันเกี่ยวกับความสมดุลในประชากรที่ไม่สมดุลในตัวอย่าง
Livius

2

การควบคุมอัตราความผิดพลาดนั้นคล้ายคลึงกับการควบคุมคุณภาพในการผลิต หุ่นยนต์ในสายการผลิตมีกฎสำหรับการตัดสินใจว่าชิ้นส่วนชำรุดซึ่งรับประกันว่าจะไม่เกินอัตราที่กำหนดของชิ้นส่วนที่ชำรุดซึ่งไม่ผ่านการตรวจจับ ในทำนองเดียวกันหน่วยงานที่ตัดสินใจเกี่ยวกับการอนุมัติยาเสพติดโดยยึดตามค่า P ที่ "ซื่อสัตย์" มีวิธีที่จะรักษาอัตราการปฏิเสธที่ผิดพลาดในระดับการควบคุมโดยคำจำกัดความผ่านการสร้างการทดสอบระยะยาวเป็นประจำ ที่นี่ "ซื่อสัตย์" หมายถึงไม่มีอคติที่ไม่มีการควบคุมการเลือกที่ซ่อนอยู่ ฯลฯ

อย่างไรก็ตามหุ่นยนต์หรือหน่วยงานไม่มีส่วนร่วมในยาเสพติดโดยเฉพาะหรือส่วนใด ๆ ที่ต้องผ่านสายพานลำเลียงประกอบ ในทางวิทยาศาสตร์ในทางกลับกันเราในฐานะนักวิจัยรายบุคคลให้ความสำคัญกับสมมติฐานเฉพาะที่เราศึกษามากกว่าเกี่ยวกับสัดส่วนของการอ้างสิทธิ์ปลอมในวารสารที่เราโปรดปราน ทั้งขนาด P-value และขอบเขตของช่วงความมั่นใจ (CI) อ้างถึงคำถามของเราโดยตรงเกี่ยวกับความน่าเชื่อถือของสิ่งที่เรารายงาน เมื่อเราสร้างขอบเขต CI เราควรจะบอกว่าความหมายเดียวของสองตัวเลขคือถ้านักวิทยาศาสตร์คนอื่นทำการคำนวณ CI ชนิดเดียวกันในการศึกษาของพวกเขา 95% หรือความครอบคลุมใด ๆ จะได้รับการดูแลในการศึกษาที่หลากหลายโดยรวม .

ในแง่นี้ฉันพบว่าแดกดันที่ P-values ​​ถูก "ห้าม" โดยวารสารพิจารณาว่าในช่วงวิกฤตของการทำซ้ำที่หนาพวกเขามีค่ามากกว่าบรรณาธิการวารสารมากกว่านักวิจัยที่ส่งเอกสารของพวกเขาเป็นวิธีปฏิบัติในการรักษา อัตราการค้นพบปลอมรายงานโดยวารสารที่อ่าวในระยะยาว P-values ​​ดีในการกรองหรือตามที่ IJ Good เขียนไว้เป็นสิ่งที่ดีสำหรับการปกป้องด้านหลังของนักสถิติ แต่ไม่มากนักที่ด้านหลังของลูกค้า

ป.ล. ฉันเป็นแฟนตัวยงของ Benjamini และ Hochberg ที่มีความคาดหวังอย่างไม่มีเงื่อนไขในการศึกษาด้วยการทดสอบหลายครั้ง ภายใต้ "ว่าง" ทั่วโลก FDR "ประจำ" ยังคงถูกควบคุม - การศึกษาที่มีการปฏิเสธหนึ่งครั้งหรือมากกว่านั้นปรากฏขึ้นในวารสารในอัตราที่ควบคุมแม้ว่าในกรณีนี้การศึกษาใด ๆ ที่การปฏิเสธบางอย่างได้สัดส่วนจริง ของการปฏิเสธที่ผิดพลาดซึ่งเท่ากับหนึ่ง


1

ฉันเห็นด้วยกับ Matt ว่าค่า p มีประโยชน์เมื่อสมมติฐานว่างเป็นจริง

ตัวอย่างที่ง่ายที่สุดที่ฉันคิดได้คือทดสอบตัวสร้างตัวเลขแบบสุ่ม หากเครื่องกำเนิดไฟฟ้าทำงานอย่างถูกต้องคุณสามารถใช้ขนาดตัวอย่างที่เหมาะสมของการรับรู้และเมื่อทดสอบพอดีกับตัวอย่างจำนวนมากค่า p ควรมีการแจกแจงแบบสม่ำเสมอ หากพวกเขาทำนี่เป็นหลักฐานที่ดีสำหรับการดำเนินการที่ถูกต้อง หากพวกเขาทำไม่ได้คุณรู้ว่าคุณได้ทำผิดพลาดที่ไหนสักแห่ง

สถานการณ์ที่คล้ายคลึงกันอื่น ๆ เกิดขึ้นเมื่อคุณรู้ว่าสถิติหรือตัวแปรสุ่มควรมีการแจกแจงบางอย่าง (อีกครั้งบริบทที่ชัดเจนที่สุดคือการจำลอง) หากค่า p มีค่าเหมือนกันคุณจะพบการสนับสนุนสำหรับการนำไปปฏิบัติที่ถูกต้อง ถ้าไม่คุณรู้ว่าคุณมีปัญหาในรหัสของคุณ


1

ฉันสามารถคิดถึงตัวอย่างที่ค่า p มีประโยชน์ในฟิสิกส์พลังงานสูงเชิงทดลอง ดูรูปที่1พล็อตนี้นำมาจากบทความนี้: การ สังเกตอนุภาคใหม่ในการค้นหาแบบจำลองมาตรฐานฮิกส์โบซอนด้วยเครื่องตรวจจับ ATLAS ที่ LHC

5σH125

ป้อนคำอธิบายรูปภาพที่นี่


1
คุณต้องให้ข้อมูลเพิ่มเติมเกี่ยวกับพล็อตพร้อมพื้นหลังและวิธีตอบคำถามเดิม ข้อมูลนี้ยังไม่เพียงพอ
Greenparker

@Greenparker พยายามเพิ่มพื้นหลังบางส่วนในพล็อต
Nicolas Gutierrez

±1σ
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.