นิยาม p-value สองวิธีทำอย่างไรจึงจะพิสูจน์ความเท่าเทียมกันได้


11

ฉันอ่านหนังสือของ Larry Wasserman สถิติทั้งหมดและในปัจจุบันเกี่ยวกับค่า p (หน้า 187) ให้ฉันแนะนำคำจำกัดความก่อน (ฉันพูด)

คำจำกัดความ 1ฟังก์ชั่นพลังงานของการทดสอบที่มีพื้นที่การปฏิเสธถูกกำหนดโดย ขนาดของการทดสอบถูกกำหนดให้เป็น การทดสอบจะกล่าวว่ามีระดับ\ alphaถ้าขนาดของมันคือน้อยกว่าหรือเท่ากับ\ alphaR

β(θ)=Pθ(XR)
α=supθΘ0β(θ)
αα

โดยพื้นฐานแล้วบอกว่าαขนาดคือความน่าจะเป็น "ใหญ่ที่สุด" ของข้อผิดพลาดประเภท I ค่าpจะถูกกำหนดผ่านทาง (I quote)

ความหมายที่ 2สมมติว่าทุกα(0,1)เรามีขนาดαทดสอบกับภูมิภาคปฏิเสธR_Rαจากนั้น

p-value=inf{α:T(Xn)Rα}
ที่Xn=(X1,,Xn)X_n)

สำหรับฉันนี่หมายถึง: รับเฉพาะαมีพื้นที่ทดสอบและปฏิเสธRαดังนั้นα=supθΘ0(α)Pθ(T(Xn)Rα)alpha) สำหรับp -value ผมก็ใช้เวลาแล้วที่เล็กที่สุดของทั้งหมดเหล่านี้\α

คำถามที่ 1ในกรณีนี้จะเป็นกรณีที่แล้วผมได้อย่างชัดเจนสามารถเลือกα=ϵสำหรับธุรกิจขนาดเล็กโดยพล\ϵการตีความคำจำกัดความที่ 2 ของฉันคืออะไรหมายถึงอะไร

ตอนนี้ Wasserman ต่อเนื่องและแจ้งให้ทฤษฎีบทมีคำนิยาม "เทียบเท่า" ของpซึ่งฉันคุ้นเคย (ฉันพูด):

ทฤษฎีบทสมมติว่าการทดสอบขนาดเป็นรูปแบบ จากนั้น ที่เป็นค่าสังเกตของ nα

reject H0T(Xn)cα
p-value=supθΘ0Pθ(T(Xn)T(xn))
xnXn

ดังนั้นนี่คือคำถามที่สองของฉัน:

คำถามที่ 2ฉันจะพิสูจน์ทฤษฎีบทนี้ได้อย่างไร อาจเป็นเพราะความเข้าใจผิดเกี่ยวกับคำจำกัดความของค่าแต่ฉันไม่สามารถหาคำตอบได้p


4
มันแปลกในเชิงบวกที่ Wasserman จะกำหนดพลังงานเป็น " " เนื่องจากสัญลักษณ์เกือบจะถูกใช้ในระดับสากลสำหรับอัตราความผิดพลาด Type II (เช่น power = 1-สำหรับผู้เขียนคนอื่น ๆ ที่พูดถึงอำนาจ) ฉันพบว่ามันยากที่จะจินตนาการว่าตัวเลือกสัญกรณ์สามารถทำให้เกิดความสับสนที่เลวร้ายยิ่งขึ้นยกเว้นโดยจงใจตั้งใจทำมัน βββ
Glen_b -Reinstate Monica

1
ฉันยอมรับว่าเป็นเรื่องแปลกเกลน - แต่ Casella และ Berger ทำสิ่งเดียวกันและข้อความของพวกเขาคือในความคิดของฉันมาตรฐานทองคำสำหรับทฤษฎีทางสถิติ
Matt Brems

คำตอบ:


6

เรามีข้อมูลหลายตัวแปร , ดึงออกมาจากการกระจายมีบางอย่างไม่ทราบพารามิเตอร์\โปรดทราบว่าคือผลลัพธ์ตัวอย่างxDθx

เราต้องการที่จะทดสอบสมมติฐานบางอย่างเกี่ยวกับพารามิเตอร์ที่ไม่รู้จักค่าของภายใต้สมมติฐานที่มีอยู่ในชุด\θθθ0

ในช่องว่างของเราสามารถกำหนดขอบเขตการปฏิเสธและพลังของภูมิภาคนี้ถูกกำหนดเป็นR) ดังนั้นอำนาจในการคำนวณหาค่าเฉพาะของเป็นโอกาสที่ผลตัวอย่างอยู่ในภูมิภาคปฏิเสธเมื่อค่าของมีtheta} เห็นได้ชัดว่าอำนาจขึ้นอยู่กับภูมิภาคและเลือกXRRPθ¯R=Pθ¯(xR)θ¯θxR θθ¯Rθ¯

คำจำกัดความ 1 กำหนดขนาดของพื้นที่Rเป็นค่าสูงสุดของค่าสำหรับในดังนั้นสำหรับค่าของภายใต้ H_0เห็นได้ชัดว่านี้ขึ้นอยู่กับภูมิภาคดังนั้น RPθ¯Rθ¯θ0θ¯H0αR=supθ¯θ0Pθ¯R

เนื่องจากขึ้นอยู่กับเรามีค่าอื่นเมื่อการเปลี่ยนแปลงภูมิภาคและนี่คือพื้นฐานสำหรับการกำหนดค่า p-value: เปลี่ยนภูมิภาค แต่ในลักษณะที่ตัวอย่างที่สังเกตค่ายังคงเป็นของภูมิภาคสำหรับ แต่ละภูมิภาคดังกล่าวคำนวณตามที่ระบุไว้ข้างต้นและใช้ infimum: R ดังนั้น p-value มีขนาดเล็กที่สุดของทุกภูมิภาคที่มี xαRRαRpv(x)=infR|xRαRx

ทฤษฎีบทนั้นเป็นเพียง 'การแปล' ของมันคือกรณีที่ขอบเขตถูกกำหนดโดยใช้สถิติและสำหรับค่าคุณกำหนดขอบเขตเป็น\} หากคุณใช้ขอบเขตประเภทนี้ในการให้เหตุผลข้างต้นทฤษฎีบทก็จะตามมาRTcRR={x|T(x)c}R

แก้ไขเนื่องจากความคิดเห็น:

@ user8: สำหรับทฤษฎีบท; ถ้าคุณกำหนดขอบเขตการปฏิเสธตามทฤษฎีบทพื้นที่การปฏิเสธขนาดคือชุดที่ดูเหมือนสำหรับบางc_αRα={X|T(X)cα}cα

ในการหาค่า p-value ของค่าที่สังเกตได้คือ ieคุณต้องหาขอบเขตที่เล็กที่สุดนั่นคือค่าที่ใหญ่ที่สุดของเช่นนั้นยังคงมี , หลัง (ขอบเขตมี ) เท่ากับ (เนื่องจากวิธีการกำหนดภูมิภาค) เพื่อบอกว่าดังนั้นคุณต้องหา ใหญ่ที่สุดเช่นนั้นxpv(x)Rc{X|T(X)c} xxcT(x)c{X|T(X)c&cT(x)}

เห็นได้ชัดว่าใหญ่ที่สุดที่ควรเป็นจากนั้นชุด supra กลายเป็นccT(x)c=T(x){X|T(X)c=T(x)}={X|T(X)T(x)}


ขอบคุณมากสำหรับคำตอบของคุณ สำหรับคำถามเกี่ยวกับการตรวจสอบความถูกต้องของทฤษฎีบท: ไม่มีเกินหายไปหรือไม่? infα
คณิตศาสตร์

@ user8: ฉันเพิ่มวรรคท้ายคำตอบของคุณคุณเห็นจุดที่ไม่สิ้นสุดตอนนี้หรือไม่

7

ในความละเอียด 2, -value ของสถิติทดสอบเป็นที่ยิ่งใหญ่ที่สุดที่ถูกผูกไว้ที่ต่ำกว่าของทุกดังกล่าวว่าสมมติฐานที่ถูกปฏิเสธสำหรับการทดสอบขนาด\จำได้ว่ามีขนาดเล็กกว่าที่เราทำ , ความอดทนน้อยสำหรับข้อผิดพลาดประเภทที่เราจะช่วยให้จึงภูมิภาคปฏิเสธยังจะลดลง ดังนั้น (มาก) พูดอย่างไม่เป็นทางการเป็นเล็กที่สุดที่เราสามารถเลือกได้ซึ่งยังช่วยให้เราปฏิเสธสำหรับข้อมูลที่เราสังเกตเห็น เราไม่สามารถเลือกเล็กกว่าได้เองเนื่องจากบางประเด็นpαααRαpαH0αRα จะมีขนาดเล็กจนไม่รวม (เช่นไม่สามารถมี) เหตุการณ์ที่เราสังเกต

ตอนนี้ตามที่กล่าวมาฉันขอเชิญคุณให้ทบทวนทฤษฎีบทอีกครั้ง


ฉันยังคงสับสนเล็กน้อย ดังนั้นครั้งแรกในความหมายเป็นสถิติคงที่สำหรับทุก ? ฉันไม่เห็นด้วยกับข้อความของคุณ: "... ณ จุดหนึ่งจะมีขนาดเล็กจนจะแยกออก (เช่นไม่สามารถมี) เหตุการณ์ที่เราสังเกตเห็น" สมบูรณ์ดีถ้ามีขนาดเล็กเพื่อที่ว่ามันไม่ได้มีตัวอย่างสังเกตเราไม่ปฏิเสธH_0มีปัญหาอะไรกับเรื่องนี้? ขอบคุณสำหรับความช่วยเหลือ / ความอดทน2TαRαRαH0
คณิตศาสตร์

ใช่. การทดสอบสถิติเป็นฟังก์ชั่นที่กำหนดไว้คงที่ของกลุ่มตัวอย่างที่ "คงที่" ในความหมายนี้หมายถึงรูปแบบของฟังก์ชั่นจะไม่เปลี่ยนแปลงใด ๆ\ค่าที่ใช้ในอาจ (และควร) ขึ้นอยู่กับตัวอย่าง คำสั่งของคุณ "เราไม่ปฏิเสธ " แสดงให้เห็นว่าทำไมไม่เห็นด้วยคุณไม่ถูกต้อง: โดยความหมาย ,ประกอบด้วยชุดของค่าทั้งหมดที่ทดสอบสถิติที่นำไปสู่การปฏิเสธของโมฆะ นั่นเป็นเหตุผลว่าทำไมจึงมีข้อความระบุว่า - สำหรับการออก "R" ฉันจะโพสต์การอัปเดตคำตอบของฉันเพื่ออธิบายรายละเอียดเพิ่มเติม TαH0RαR
heropup

ขอบคุณมากสำหรับคำตอบที่รวดเร็วและล่วงหน้าสำหรับเวอร์ชั่นที่อัปเดตของคุณ สิ่งที่ฉันหมายถึงคือ: เราปฏิเสธถ้าโดยที่เป็นตัวอย่างที่สังเกตได้ บอกว่าฉันรุนแรงมากและเลือกขนาดเล็กมากดังนั้นสำหรับตัวอย่างให้ซึ่งก็หมายความว่าเราไม่ปฏิเสธH_0ดังนั้นขนาดเล็กจึงไม่ใช่สิ่งที่ apriori เป็นสิ่งเลวร้าย เห็นได้ชัดว่าเมื่อถึงจุดหนึ่งมันมีขนาดเล็กเพื่อที่มากมากมากไม่น่าจะสังเกตตัวอย่างที่อยู่ในR_ขอขอบคุณอีกครั้งสำหรับความอดทน / ความช่วยเหลือของคุณ ชื่นชมจริงๆ! H0T(xn)RαxnRαT(xn)RαH0RαRα
คณิตศาสตร์

2
คำนิยามที่กำหนดของ p-value อย่างชัดเจนต้องใช้สถิติทดสอบสำหรับตัวอย่างที่จะเป็นในภูมิภาคปฏิเสธ คุณไม่สามารถเปลี่ยนแปลงส่วนหนึ่งของคำนิยามของ p-value ได้
Glen_b -Reinstate Monica

@Glen_b ขอบคุณสำหรับความคิดเห็น อันที่จริงความคิดเห็นก่อนหน้าของฉันไม่ละเมิดคำจำกัดความ ขอบคุณที่ชี้นำ
คณิตศาสตร์
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.