การทดสอบสองด้าน…ฉันไม่มั่นใจ ประเด็นคืออะไร?


59

ข้อความที่ตัดตอนมาต่อไปนี้มาจากการเข้า, อะไรคือความแตกต่างระหว่างการทดสอบแบบด้านเดียวและแบบสองด้าน? บนเว็บไซต์ช่วยเหลือสถิติของ UCLA

... พิจารณาถึงผลที่จะตามมาจากการขาดหายไปในทิศทางอื่น ลองนึกภาพคุณได้พัฒนายาใหม่ที่คุณเชื่อว่าเป็นการพัฒนายาที่มีอยู่เดิม คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุงให้สูงสุดเพื่อที่คุณจะได้เลือกการทดสอบแบบด้านเดียว ในการทำเช่นนี้คุณไม่สามารถทดสอบความเป็นไปได้ที่ยาใหม่จะมีประสิทธิภาพน้อยกว่ายาที่มีอยู่เดิม

หลังจากเรียนรู้พื้นฐานที่แน่นอนของการทดสอบสมมติฐานและไปที่ส่วนเกี่ยวกับการทดสอบแบบเทลด์ vs การทดสอบสองแบบ ... ฉันเข้าใจคณิตศาสตร์พื้นฐานและความสามารถในการตรวจจับที่เพิ่มขึ้นของการทดสอบแบบเทลด์หนึ่งการทดสอบ ฯลฯ ... แต่ฉันไม่สามารถพันรอบศีรษะ รอบ ๆ สิ่งหนึ่ง ... ประเด็นคืออะไร? ฉันล้มเหลวที่จะเข้าใจว่าทำไมคุณควรแยกอัลฟ่าของคุณระหว่างสุดขั้วทั้งสองเมื่อผลลัพธ์ตัวอย่างของคุณสามารถเป็นหนึ่งหรืออย่างอื่นหรือทั้งสองอย่าง

ใช้สถานการณ์ตัวอย่างจากข้อความที่ยกมาด้านบน คุณอาจจะ "ล้มเหลวในการทดสอบ" สำหรับผลลัพธ์ในทิศทางตรงกันข้ามได้อย่างไร? คุณมีค่าเฉลี่ยตัวอย่าง คุณมีค่าเฉลี่ยประชากรของคุณ เลขคณิตอย่างง่ายจะบอกให้คุณทราบว่าอะไรสูงกว่า มีการทดสอบอะไรหรือล้มเหลวในการทดสอบในทิศทางตรงกันข้าม สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงกันข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างจะไปในทิศทางอื่น?

อ้างจากหน้าเดียวกันอีก:

การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม

ฉันคิดว่าสิ่งนี้ยังใช้กับการสลับขั้วของการทดสอบแบบด้านเดียว แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก?

เห็นได้ชัดว่าฉันพลาดภาพส่วนใหญ่ที่นี่ ทุกอย่างดูเหมือนจะไม่เจาะจงเกินไป ซึ่งก็คือฉันคิดว่าในแง่ที่สิ่งที่หมายถึง "นัยสำคัญทางสถิติ" - 95%, 99%, 99.9% ... โดยพลการเริ่มต้นด้วย


18
นี่เป็นคำถามที่ดีมากสำหรับฉัน +1
gung - Reinstate Monica

5
ในขณะที่มันเป็นอย่างชัดเจนว่าคุณควรออกแบบการทดลองและการทดสอบของคุณก่อนที่จะเก็บรวบรวมข้อมูลของคุณผมหาตัวอย่างของพวกเขากับยาเสพติดค่อนข้างน่าสนใจให้ความจริงที่ว่ายาเสพติดใหม่มักจะมีการทดสอบด้วยการทดสอบ 1 ด้านโดยไม่ต้องโวยมาก
P-Gn

3
@ user1735003 บทความแดกดันที่จะพบว่ามีหลายอารมณ์ / พฤติกรรมที่ควบคุมการทดลองใช้ยากำลังอยู่ภายใต้การพิจารณาที่เพิ่มขึ้นสำหรับการตั้งค่าของผู้สังเกตการณ์ ที่น่าสนใจใน Cochrane Ritalin ที่นี่ "การได้รับยาหลอกที่เหนือกว่า" คือสิ่งที่ผู้ทดลองใช้คนใดจะเรียกว่า "อันตราย" ดังนั้นฉันจึงไม่พบว่าเป็นสิ่งที่นึกไม่ถึงในที่สุด แต่ในการทดลองเหล่านี้ถ้าการศึกษาหยุดยั้งอันตรายสัญญาณนั้นมาจากเหตุการณ์ไม่พึงประสงค์
AdamO

10
"คุณมีค่าเฉลี่ยตัวอย่างคุณมีค่าเฉลี่ยประชากรของคุณ ... สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างอยู่ในทิศทางตรงกันข้าม? . ไม่การทดสอบสมมติฐานทั้งหมดคือคุณไม่มีค่าเฉลี่ยประชากรและคุณใช้ค่าเฉลี่ยตัวอย่างเพื่อทดสอบสมมติฐานเกี่ยวกับค่าเฉลี่ยประชากร (สมมติฐานว่าง) ดังนั้นจึงไม่มี"เห็นได้ชัดว่าค่าเฉลี่ยตัวอย่างคือวิธีปิด"เพราะเป็นสิ่งที่คุณกำลังทดสอบไม่ใช่สิ่งที่กำหนด
StAtS

1
ปัญหาที่บ่อยครั้งคุณไม่รู้ว่าขั้วดังนั้นคุณต้องทำการทดสอบแบบสองด้าน ลองนึกภาพเสียบโวลต์มิเตอร์เข้ากับแหล่งจ่ายไฟ DC เมื่อคุณไม่ทราบว่าปลั๊กตัวใดเป็นบวก
อักษะกัล

คำตอบ:


46

คิดว่าข้อมูลเป็นส่วนหนึ่งของภูเขาน้ำแข็ง - ทั้งหมดที่คุณเห็นได้เหนือน้ำคือปลายยอดภูเขาน้ำแข็ง แต่ในความเป็นจริงคุณสนใจที่จะเรียนรู้บางสิ่งเกี่ยวกับภูเขาน้ำแข็งทั้งหมด

นักสถิตินักวิทยาศาสตร์ด้านข้อมูลและคนอื่น ๆ ที่ทำงานกับข้อมูลนั้นต้องระวังไม่ให้สิ่งที่พวกเขาเห็นอยู่เหนืออิทธิพลของสายน้ำและมีอคติต่อการประเมินสิ่งที่ซ่อนอยู่ใต้แนวน้ำ ด้วยเหตุนี้ในสถานการณ์การทดสอบสมมติฐานพวกเขามีแนวโน้มที่จะกำหนดสมมติฐานที่เป็นโมฆะและทางเลือกของพวกเขาก่อนที่พวกเขาจะเห็นปลายภูเขาน้ำแข็งตามความคาดหวังของพวกเขา (หรือขาดมัน) ของสิ่งที่อาจเกิดขึ้น .

การดูข้อมูลเพื่อกำหนดสมมติฐานของคุณนั้นเป็นวิธีปฏิบัติที่ไม่ดีและควรหลีกเลี่ยง - มันเหมือนกับการเอาเกวียนมาก่อนม้า จำได้ว่าข้อมูลมาจากตัวอย่างเดียวที่เลือก (หวังว่าจะใช้กลไกการเลือกแบบสุ่ม) จากประชากรเป้าหมาย / จักรวาลที่สนใจ ตัวอย่างมีนิสัยเฉพาะของตัวเองซึ่งอาจหรืออาจจะไม่สะท้อนของประชากรพื้นฐาน ทำไมคุณต้องการให้สมมติฐานของคุณสะท้อนชิ้นส่วนแคบ ๆ ของประชากรแทนประชากรทั้งหมด

วิธีคิดอีกอย่างคือว่าทุกครั้งที่คุณเลือกตัวอย่างจากกลุ่มเป้าหมายของคุณ (ใช้กลไกการเลือกแบบสุ่ม) ตัวอย่างจะให้ข้อมูลที่แตกต่างกัน หากคุณใช้ข้อมูล (ซึ่งคุณไม่ควร !!!) เพื่อเป็นแนวทางในการกำหนดค่าว่างและสมมติฐานทางเลือกของคุณสมมติฐานของคุณจะอยู่ทั่วแผนที่ซึ่งได้รับแรงหนุนจากคุณสมบัติเฉพาะของแต่ละตัวอย่าง แน่นอนว่าในทางปฏิบัติเราวาดเพียงตัวอย่างเดียว แต่มันเป็นความคิดที่น่าสงสัยอย่างมากที่จะรู้ว่าถ้ามีคนอื่นทำการศึกษาเดียวกันโดยมีตัวอย่างขนาดต่างกันพวกเขาจะต้องเปลี่ยนสมมติฐานเพื่อสะท้อนความเป็นจริงของ ตัวอย่างของพวกเขา

หนึ่งในอาจารย์บัณฑิตวิทยาลัยของฉันเคยมีคำกล่าวที่ว่าฉลาดมาก: "เราไม่สนใจเกี่ยวกับตัวอย่างยกเว้นว่ามันบอกเราบางอย่างเกี่ยวกับประชากร" เราต้องการกำหนดสมมติฐานของเราเพื่อเรียนรู้บางอย่างเกี่ยวกับประชากรเป้าหมายไม่ใช่เกี่ยวกับตัวอย่างเดียวที่เราเลือกจากประชากรนั้น


1
@ subhashc.davar: เพียงเพราะคุณไม่เห็นความเกี่ยวข้องของคำตอบของฉันมันไม่ได้หมายความว่าคนอื่นจะไม่ โปรดระลึกไว้เสมอว่าคำตอบมีไว้สำหรับชุมชนทั้งหมดไม่เพียง แต่สำหรับผู้ที่ถามคำถามเท่านั้น ฉันยินดีที่จะลบคำตอบถ้าคุณรู้สึกอย่างยิ่งเกี่ยวกับเรื่องนี้
Isabella Ghement

7
@ subhashc.davar ตัวอย่างอาจช่วย: สมมติว่าคุณทดสอบว่าขนมมีผลต่อประสิทธิภาพ คุณเรียกใช้การทดสอบและหาคะแนนเล็กน้อยในอาหารว่าง ที่ดี! ใช้การทดสอบแบบหางเดียวเพื่อดูว่านักเล่นสแน็คเกอร์> ผู้ที่ไม่ใช่สแน็คเกอร์หรือไม่ ปัญหา: คุณจะทำอะไรถ้าคุณดึงตัวอย่างที่คนทำสแน็คเกอร์แย่ลง? คุณได้ทำแบบทดสอบเดียวสำหรับนักทานอาหารว่าง ถ้าเป็นเช่นนั้นคุณกำลังยืนยันข้อผิดพลาดและให้ตัวอย่าง idiosyncracies เป็นแนวทางในการทดสอบของคุณ
RM

21
เรื่องเล็ก ๆ น้อย ๆ จากศาสตราจารย์ของฉัน: "เราไปเยี่ยมลูกสาวคนแรกของเพื่อนที่หอผู้ป่วยเด็ก 20 คนและ 18 คนจาก 20 คนสวมหมวกสีชมพูดังนั้นฉันจึงทำในสิ่งที่นักสถิติจะทำ: คำนวณค่า p สำหรับเพศในความเป็นจริง 50 / 50. มันมีนัยสำคัญทางสถิติดังนั้นผู้ที่ต้องการเขียนบทความนี้กับฉันหรือไม่ไม่มีใครทำไมคุณไม่สามารถใช้ข้อมูลที่สร้างสมมติฐานเพื่อทดสอบสมมติฐานได้ "
AdamO

4
@ AdamO ฉันพบว่าความคิดเห็นของคุณเป็นคำอธิบายที่ดีกว่าคำตอบ ฉันจะเรียบเรียงประโยคสุดท้ายใหม่เป็น 'คุณไม่ควรใช้ข้อมูลเดียวกันกับที่คุณสร้างสมมติฐานของคุณเพื่อทดสอบสมมติฐานของคุณด้วย' ความหมายที่เกี่ยวข้องคือคุณสามารถเปลี่ยนแปลงสมมติฐานของคุณตามผลการทดสอบใด ๆ ที่คุณเลือกก่อนหน้านี้ แต่คุณควรทดสอบสมมติฐานใหม่ด้วยข้อมูลใหม่
Kenny Evitt

3
@ KennyEvitt ใช่ถูกต้องแล้ว การค้นพบโดยบังเอิญมีความสำคัญและควรรายงาน แต่ไม่ควรขายเป็นสมมติฐานที่กำหนดล่วงหน้า
AdamO

18

ฉันคิดว่าเมื่อพิจารณาคำถามของคุณจะช่วยได้ถ้าคุณพยายามเก็บคะแนน / เป้าหมายการขายของการทดสอบนัยสำคัญ null-hypothesis (NHST) ไว้ในใจ เป็นเพียงกระบวนทัศน์หนึ่ง (แม้ว่าจะเป็นที่นิยมมาก) สำหรับการอนุมานทางสถิติและอื่น ๆ มีจุดแข็งของตนเองเช่นกัน (ดูที่นี่สำหรับการสนทนาของ NHST เทียบกับการอนุมานแบบเบย์) อะไรเงยใหญ่ของ NHST ?: ควบคุมความผิดพลาดในระยะยาว หากคุณปฏิบัติตามกฎของ NHST (และบางครั้งก็ยิ่งใหญ่มาก ) ดังนั้นคุณควรมีความรู้สึกว่าคุณมีแนวโน้มที่จะผิดกับการอนุมานที่คุณทำในระยะยาว

หนึ่งในกฎของความตั้งใจแน่วแน่ของ NHST คือโดยไม่ต้องทำการเปลี่ยนแปลงขั้นตอนการทดสอบของคุณอีกต่อไปคุณจะได้เห็นการทดสอบที่คุณสนใจเพียงครั้งเดียว นักวิจัยในทางปฏิบัติมักเพิกเฉย (หรือไม่รู้) กฎนี้ (ดู Simmons et al., 2012) ทำการทดสอบหลายครั้งหลังจากเพิ่มคลื่นของข้อมูลตรวจสอบพี- ค่าหลังจากการเพิ่ม / ลบตัวแปรให้กับแบบจำลองของพวกเขา ฯลฯ ปัญหาของเรื่องนี้คือนักวิจัยไม่ค่อยเป็นกลางเกี่ยวกับผลลัพธ์ของ NHST; พวกเขาตระหนักดีว่าผลลัพธ์ที่สำคัญมีแนวโน้มที่จะถูกเผยแพร่มากกว่าผลลัพธ์ที่ไม่สำคัญ (ด้วยเหตุผลที่เข้าใจผิดและถูกกฎหมาย; Rosenthal, 1979) นักวิจัยมักจะมีแรงจูงใจในการเพิ่มข้อมูล / แก้ไขตัวแบบ / เลือกค่าผิดปกติและทดสอบซ้ำ ๆ จนกว่าพวกเขาจะ "เปิดเผย" ผลกระทบที่สำคัญ (ดู John et al., 2011, บทนำที่ดี)

ปัญหา counterintuitive ถูกสร้างขึ้นโดยการปฏิบัติดังกล่าวข้างต้นอธิบายอย่างใน dienes (2008): ถ้านักวิจัยจะช่วยให้การปรับตัวอย่างของพวกเขา / ออกแบบ / รุ่นจนอย่างมีนัยสำคัญจะประสบความสำเร็จแล้วที่ต้องการอัตราความผิดพลาดของพวกเขาในระยะยาวของการค้นพบ false-positive (มัก ) และผลการวิจัยเชิงลบเท็จ (มักβ = 0.20 ) แต่ละคนจะเข้าใกล้ 1.0 และ 0.0 ตามลำดับ (เช่นคุณก็จะปฏิเสธH 0ทั้งเมื่อมันเป็นเท็จและเมื่อมันเป็นความจริง)α=05β=.20H0

ในบริบทของคำถามเฉพาะของคุณนักวิจัยใช้การทดสอบแบบสองด้านเป็นค่าเริ่มต้นเมื่อพวกเขาไม่ต้องการคาดการณ์เป็นพิเศษเกี่ยวกับทิศทางของผลกระทบ หากพวกเขาผิดในการคาดเดาของพวกเขาและเรียกใช้การทดสอบหนึ่งด้านในทิศทางของผลกระทบระยะยาวของพวกเขาจะสูงเกินจริง หากพวกเขาดูสถิติเชิงพรรณนาและทำการทดสอบแบบทางด้านเดียวโดยดูจากแนวโน้มของการมองเห็นαระยะยาวของพวกเขาจะสูงเกินจริง คุณอาจคิดว่านี่ไม่ใช่ปัญหาใหญ่นักในทางปฏิบัติว่าค่าpสูญเสียความหมายในระยะยาวของพวกเขา แต่ถ้าพวกเขาไม่รักษาความหมายไว้มันจะถามคำถามว่าทำไมคุณถึงใช้วิธีอนุมานว่า จัดลำดับความสำคัญการควบคุมข้อผิดพลาดระยะยาวααพี

สุดท้าย (และเป็นเรื่องของความชอบส่วนตัว) ฉันจะมีปัญหาน้อยลงถ้าคุณทำการทดสอบสองด้านเป็นครั้งแรกพบว่ามันไม่สำคัญแล้วทำการทดสอบแบบหนึ่งด้านในทิศทางที่การทดสอบครั้งแรกบอกเป็นนัยและ พบว่ามีความสำคัญหาก (และเฉพาะในกรณีที่) คุณทำการจำลองแบบการยืนยันที่เข้มงวดของผลกระทบนั้นในตัวอย่างอื่นและเผยแพร่การจำลองแบบในกระดาษเดียวกัน การวิเคราะห์ข้อมูลเชิงสำรวจ - ด้วยการฝึกการวิเคราะห์ความยืดหยุ่นที่ผิดพลาดในอัตราผิดพลาดนั้นใช้ได้ตราบใดที่คุณสามารถจำลองผลกระทบของคุณในตัวอย่างใหม่ได้

อ้างอิง

Dienes, Z. (2008) การทำความเข้าใจจิตวิทยาเป็นวิทยาศาสตร์: แนะนำให้รู้จักกับการอนุมานทางวิทยาศาสตร์และสถิติ พัลเกรฟมักมิลลัน

John, LK, Loewenstein, G. , & Prelec, D. (2012) การวัดความชุกของการปฏิบัติงานวิจัยที่น่าสงสัยพร้อมสิ่งจูงใจเพื่อบอกความจริง วิทยาศาสตร์จิตวิทยา , 23 (5), 524-532

Rosenthal, R. (1979) ปัญหาลิ้นชักไฟล์และการยอมรับเพื่อให้ได้ผลลัพธ์ที่เป็นโมฆะ กระดานข่าวทางจิตวิทยา , 86 (3), 638

Simmons, JP, Nelson, LD, & Simonsohn, U. (2011) จิตวิทยาเชิงบวกเท็จ: ความยืดหยุ่นที่ไม่เปิดเผยในการรวบรวมข้อมูลและการวิเคราะห์ช่วยให้นำเสนอสิ่งที่สำคัญ วิทยาศาสตร์จิตวิทยา , 22 (11), 1359-1366


คำตอบที่ดีมาก ช่วยฉันดึงข้อกังวลบางอย่างที่ฉันมีในระหว่างการเจาะลึกงานวิจัยล่าสุด (ในฐานะคนธรรมดา) ดูเหมือนเป็นการยืนยันความคิดที่ว่าค่า p ที่มีค่าเดียวสามารถ "เชื่อถือได้" เท่านั้นหากคุณมีเหตุผลที่จะมั่นใจในเชิงลบ ความสัมพันธ์ "ทิศทางเป็นเท็จ
Venryx

10

โชคไม่ดีตัวอย่างที่เป็นแรงจูงใจในการพัฒนายาไม่ใช่สิ่งที่ดีเพราะมันไม่ใช่สิ่งที่เราทำเพื่อพัฒนายา เราใช้กฎที่แตกต่างและเข้มงวดมากขึ้นเพื่อหยุดการศึกษาหากแนวโน้มอยู่ด้านอันตราย นี่คือเพื่อความปลอดภัยของผู้ป่วยและยังเป็นเพราะยาเสพติดไม่น่าจะแกว่งอย่างน่าอัศจรรย์ในทิศทางของผลประโยชน์ที่มีความหมาย

ดังนั้นทำไมการทดสอบสองเทลด์ ? (ในกรณีส่วนใหญ่เรามีแนวคิดเบื้องต้นเกี่ยวกับทิศทางของเอฟเฟกต์ที่เป็นไปได้ที่เราพยายามทำแบบจำลอง)

สมมติฐานว่างควรมีความคล้ายคลึงกับความเชื่อบางอย่างในแง่ของความน่าเชื่อถือได้รับทราบและเป็นธรรม ในกรณีส่วนใหญ่คนเห็นด้วยกับ "ผลที่ไม่น่าสนใจ" คือเมื่อมีผล 0 ในขณะที่ผลลบหรือผลบวกเป็นดอกเบี้ยเท่ากัน มันยากมากที่จะพูดถึงสมมุติฐานว่างประกอบเช่นกรณีที่เรารู้ว่าสถิติอาจเท่ากับหรือน้อยกว่าจำนวนหนึ่ง เราจะต้องชัดเจนมากเกี่ยวกับสมมติฐานว่างเพื่อให้เข้าใจถึงผลการวิจัยทางวิทยาศาสตร์ของพวกเขา เป็นค่าที่ชี้ให้เห็นว่าวิธีที่หนึ่งดำเนินการทดสอบสมมุติฐานเชิงประกอบคือสถิติภายใต้สมมติฐานว่างถือว่าค่าที่สอดคล้องกันมากที่สุดภายในช่วงของข้อมูลที่สังเกตได้ ดังนั้นหากเอฟเฟกต์อยู่ในทิศทางบวกตามที่คาดไว้ค่า Null จะถูกนำมาใช้เป็น 0 ต่อไปและเราก็ทำการคำนวณโดยไม่จำเป็น

จำนวนการทดสอบสองแบบเพื่อทำการทดสอบด้านเดียวสองแบบพร้อมการควบคุมสำหรับการเปรียบเทียบหลายแบบ! การทดสอบทั้งสองแบบนั้นมีค่าเป็นส่วนหนึ่งเพราะในท้ายที่สุดการทดสอบระยะยาว เมื่อเรามีความเชื่อที่ดีเกี่ยวกับทิศทางของผลกระทบการทดสอบทั้งสองหางจะให้ผลบวกปลอมครึ่งบ่อยครั้งโดยมีผลกระทบโดยรวมต่อพลังน้อยมาก

ในกรณีของการประเมินการรักษาในการทดลองแบบควบคุมแบบสุ่มถ้าคุณพยายามขายการทดสอบด้านเดียวให้ฉันฉันจะหยุดให้คุณถามว่า "เดี๋ยวก่อนทำไมเราถึงเชื่อว่าการรักษานั้นเป็นอันตรายจริง ๆ หรือไม่มีหลักฐานจริง ๆ เพื่อสนับสนุนสิ่งนี้หรือไม่มีแม้กระทั่ง [ความสามารถในการแสดงให้เห็นถึงผลประโยชน์] " ความไม่สอดคล้องกันเชิงตรรกะที่อยู่เบื้องหลังการทดสอบด้านเดียวเรียกการวิจัยทั้งหมดเป็นคำถาม หากไม่มีสิ่งใดเป็นที่รู้จักอย่างแท้จริงค่าใด ๆ ที่นอกเหนือจาก 0 ถือว่าน่าสนใจและการทดสอบสองแบบนั้นไม่ได้เป็นเพียงความคิดที่ดีมันจำเป็น


8

วิธีหนึ่งในการเข้าถึงคือการลืมการทดสอบสมมติฐานชั่วคราวและคิดเกี่ยวกับช่วงความมั่นใจแทน การทดสอบด้านเดียวสอดคล้องกับช่วงความเชื่อมั่นด้านเดียวและการทดสอบสองด้านสอดคล้องกับช่วงความมั่นใจแบบสองด้าน

สมมติว่าคุณต้องการประเมินค่าเฉลี่ยของประชากร โดยปกติคุณจะต้องนำตัวอย่างและคำนวณค่าเฉลี่ยตัวอย่าง ไม่มีเหตุผลที่จะประเมินจุดที่มูลค่าดังนั้นคุณแสดงคำตอบของคุณในแง่ของช่วงเวลาที่คุณมั่นใจพอสมควรประกอบด้วยค่าเฉลี่ยที่แท้จริง คุณเลือกช่วงเวลาประเภทใด ช่วงเวลาสองด้านเป็นทางเลือกที่เป็นธรรมชาติมากกว่า ช่วงเวลาด้านเดียวจะเหมาะสมเมื่อคุณไม่สนใจที่จะหาขอบเขตบนหรือขอบเขตล่างของค่าประมาณของคุณ (เพราะคุณเชื่อว่าคุณรู้ถึงขอบเขตที่มีประโยชน์ในทิศทางเดียวแล้ว) บ่อยแค่ไหนที่คุณเป็นจริงว่าแน่ใจเกี่ยวกับสถานการณ์หรือไม่

บางทีการเปลี่ยนคำถามเป็นช่วงความมั่นใจนั้นไม่ได้ช่วยลดความจริง แต่ก็มีวิธีการที่ไม่สอดคล้องกันที่จะชอบการทดสอบแบบด้านเดียว แต่มีช่วงความมั่นใจแบบสองด้าน


4

หลังจากเรียนรู้พื้นฐานที่แน่นอนของการทดสอบสมมติฐานและไปที่ส่วนเกี่ยวกับการทดสอบแบบเทลด์ vs การทดสอบสองแบบ ... ฉันเข้าใจคณิตศาสตร์พื้นฐานและความสามารถในการตรวจจับที่เพิ่มขึ้นของการทดสอบแบบเทลด์หนึ่งการทดสอบ ฯลฯ ... แต่ฉันไม่สามารถพันรอบศีรษะ รอบ ๆ สิ่งหนึ่ง ... ประเด็นคืออะไร? ฉันล้มเหลวที่จะเข้าใจว่าทำไมคุณควรแยกอัลฟ่าของคุณระหว่างสุดขั้วทั้งสองเมื่อผลลัพธ์ตัวอย่างของคุณสามารถเป็นหนึ่งหรืออย่างอื่นหรือทั้งสองอย่าง

ปัญหาคือคุณไม่รู้ค่าเฉลี่ยประชากร ฉันไม่เคยพบสถานการณ์โลกจริงที่ฉันรู้ว่าค่าเฉลี่ยประชากรที่แท้จริง

ใช้สถานการณ์ตัวอย่างจากข้อความที่ยกมาด้านบน คุณอาจจะ "ล้มเหลวในการทดสอบ" สำหรับผลลัพธ์ในทิศทางตรงกันข้ามได้อย่างไร? คุณมีค่าเฉลี่ยตัวอย่าง คุณมีค่าเฉลี่ยประชากรของคุณ เลขคณิตอย่างง่ายบอกคุณว่าสูงกว่า มีการทดสอบอะไรหรือล้มเหลวในการทดสอบในทิศทางตรงกันข้าม สิ่งที่หยุดคุณเพิ่งเริ่มต้นจากศูนย์ด้วยสมมติฐานตรงกันข้ามถ้าคุณเห็นชัดเจนว่าค่าเฉลี่ยตัวอย่างจะไปในทิศทางอื่น?

ฉันอ่านย่อหน้าของคุณหลายครั้ง แต่ฉันยังไม่แน่ใจเกี่ยวกับข้อโต้แย้งของคุณ คุณต้องการใช้ข้อความใหม่อีกครั้งหรือไม่ คุณไม่สามารถ "ทดสอบ" หากข้อมูลของคุณไม่ได้นำคุณไปสู่ภูมิภาคที่สำคัญที่คุณเลือก

ฉันคิดว่าสิ่งนี้ยังใช้กับการสลับขั้วของการทดสอบแบบด้านเดียว แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก?

ใบเสนอราคาถูกต้องเนื่องจากการแฮ็คค่า p ไม่เหมาะสม เรารู้มากแค่ไหนเกี่ยวกับการแฮ็ก p-in "ในป่า"? มีรายละเอียดเพิ่มเติม

เห็นได้ชัดว่าฉันพลาดภาพส่วนใหญ่ที่นี่ ทุกอย่างดูเหมือนจะไม่เจาะจงเกินไป ซึ่งก็คือฉันคิดว่าในแง่ที่สิ่งที่หมายถึง "นัยสำคัญทางสถิติ" - 95%, 99%, 99.9% ... โดยพลการเริ่มต้นด้วย ช่วยด้วย?

มันเป็นเรื่องโดยพลการ นั่นเป็นเหตุผลที่นักวิทยาศาสตร์ข้อมูลโดยทั่วไปรายงานขนาดของ p-value เอง (ไม่ใช่แค่นัยสำคัญหรือไม่มีนัยสำคัญ) และขนาดของเอฟเฟกต์


เพื่อความชัดเจนฉันไม่ได้พยายามท้าทายรากฐานของการอนุมานทางสถิติ ตามที่ระบุไว้ฉันเพิ่งเรียนรู้พื้นฐานมากและมีปัญหาในการเข้าใจว่าการค้นพบที่อาจเกิดขึ้นอาจพลาดได้ด้วยการไม่ใช้การทดสอบที่ถูกต้อง
FromTheAshes

โจพูดกับเพื่อนของคุณประดิษฐ์ผลิตภัณฑ์ใหม่ที่เขาอ้างว่าช่วยเพิ่มการเติบโตของพืชอย่างมาก ที่รักคุณคิดการศึกษาที่แข็งแกร่งกับกลุ่มควบคุมและกลุ่มการรักษา hyp null ของคุณ คือจะไม่มีการเปลี่ยนแปลงในการเจริญเติบโตทางเลือกของคุณ สเปรย์เวทย์มนตร์ของ Joe เพิ่มขึ้นอย่างมีนัยสำคัญ - ดังนั้นการทดสอบแบบด้านเดียว 2 สัปดาห์ต่อมาคุณทำการสังเกตการณ์ขั้นสุดท้ายและวิเคราะห์ผลลัพธ์ ค่าเฉลี่ยของการเติบโตของกลุ่มการรักษามีข้อผิดพลาดมาตรฐานมากกว่า 5 ข้อด้านล่างของการควบคุม การค้นหาครั้งนี้มีความสำคัญมากเพียงใดเพราะการทดสอบที่คุณเลือกไม่ชัดเจนหรือไม่ถูกต้อง?
FromTheAshes

2
ถ้าฉันขอให้คุณโทรหาหัวหรือก้อยเพื่อโยนเหรียญความน่าจะเป็นของการทำนายผลคือ 50/50 (สมมติว่าเป็นเหรียญที่สมดุลและตีนกบที่ซื่อสัตย์) อย่างไรก็ตามถ้าฉันพลิกเหรียญก่อนแล้วให้คุณดูจากนั้นทำการทำนายของคุณมันจะไม่เป็น 50/50 หากคุณกำลังทำการทดสอบแบบทางด้านเดียวด้วยระดับอัลฟ่าที่ 0.01 แต่ให้พลิกทิศทางการทดสอบหลังจากเห็นผลลัพธ์เนื่องจาก p <.01 ในอีกทางหนึ่งความเสี่ยงของข้อผิดพลาด Type I นั้นไม่นาน. 01 แต่สูงกว่ามาก โปรดทราบว่าอัตราความผิดพลาด p-value และ Type I ที่สังเกตได้นั้นไม่เหมือนกัน
dbwilson

@ จากที่นี่ไม่มีอะไรผิดปกติกับการพยายามท้าทายฐานราก การทดสอบสมมติฐานทางสถิตินั้นไม่มีประโยชน์ แต่มันมีข้อบกพร่องเชิงตรรกะขนาดใหญ่และมีเหตุผลพอที่จะท้าทายพวกเขา!
Flounderer

3

ความแตกต่างทั้งหมดขึ้นอยู่กับคำถามที่คุณต้องการตอบ หากคำถามคือ: "กลุ่มหนึ่งมีค่ามากกว่ากลุ่มอื่น" คุณสามารถใช้แบบทดสอบเทลด์เดียวได้ หากต้องการตอบคำถาม: "กลุ่มของค่าเหล่านี้แตกต่างกันหรือไม่" คุณใช้การทดสอบทั้งสองแบบ พิจารณาว่าชุดข้อมูลอาจสูงกว่าสถิติอื่น แต่ไม่แตกต่างกันอย่างมีนัยสำคัญทางสถิติ ... และนั่นคือสถิติ


1
'หากคำถามคือ: "กลุ่มหนึ่งมีค่ามากกว่ากลุ่มอื่นหรือไม่" คุณสามารถใช้การทดสอบแบบหางเดียวได้ ' หากคำถามคือ "Is * กลุ่มนี้ยิ่งใหญ่กว่ากลุ่มอื่น" คุณควรใช้การทดสอบแบบสองด้าน
สะสม

ควรสังเกตว่ามันค่อนข้างส่อให้เห็นว่าหากคุณถามคำถามนั้นว่า "และโดยวิธีการที่ดูเหมือนว่ากลุ่มอื่น ๆนั้นใหญ่กว่าจริงฉันก็ไม่สนใจ" หากคุณเห็นสิ่งที่ตรงกันข้ามกับสิ่งที่คุณคาดหวังจากนั้นจึงเปลี่ยนทิศทางของการทดสอบสมมติฐานจากนั้นคุณก็โกหกตัวเองมาตลอดและควรทำแบบทดสอบสองด้านเพื่อเริ่มต้น
Dason

2

แต่วิธีนี้ "หมอ" ส่งผลให้ถูกต้องน้อยกว่าถ้าคุณเพียงแค่เลือกการทดสอบหนึ่งด้านที่ถูกต้องในตอนแรก?

ค่าอัลฟาคือความน่าจะเป็นที่คุณจะปฏิเสธโมฆะเนื่องจากโมฆะเป็นจริง สมมติว่าค่า Null ของคุณคือโดยปกติค่าเฉลี่ยตัวอย่างจะถูกกระจายด้วยค่าเฉลี่ยศูนย์ ถ้า P (ตัวอย่างหมายถึง> 1 | H0) = .05 แล้วกฎ "รวบรวมตัวอย่างและปฏิเสธค่า Null ถ้าค่าเฉลี่ยตัวอย่างมากกว่า 1" มีความน่าจะเป็นเนื่องจากค่า Null เป็นจริงเท่ากับ 5% ของ ปฏิเสธโมฆะ กฎ "รวบรวมตัวอย่างและถ้าค่าเฉลี่ยตัวอย่างเป็นบวกให้ปฏิเสธค่า null ถ้าค่าเฉลี่ยตัวอย่างมากกว่า 1 และถ้าค่าเฉลี่ยตัวอย่างเป็นลบให้ปฏิเสธค่าว่างถ้าค่าเฉลี่ยตัวอย่างน้อยกว่า 1" มี ความน่าจะเป็นที่เป็นโมฆะจริงสำหรับ 10% ของการปฏิเสธโมฆะ ดังนั้นกฎข้อแรกมีอัลฟา 5% และกฎข้อที่สองมีอัลฟา 10% หากคุณเริ่มต้นด้วยการทดสอบสองด้าน จากนั้นเปลี่ยนเป็นการทดสอบแบบหางเดียวตามข้อมูลจากนั้นคุณกำลังติดตามกฎข้อที่สองดังนั้นจึงไม่ถูกต้องที่จะรายงานอัลฟาของคุณเป็น 5% ค่าอัลฟาไม่เพียงขึ้นอยู่กับว่าข้อมูลคืออะไร แต่กฎใดที่คุณติดตามในการวิเคราะห์ หากคุณถามว่าเหตุใดจึงใช้เมตริกที่มีคุณสมบัตินี้แทนที่จะเป็นสิ่งที่ขึ้นอยู่กับข้อมูลนั่นเป็นคำถามที่ซับซ้อนกว่า


2

เกี่ยวกับจุดที่ 2

การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม

α

αα100%

P(ปฏิเสธสองด้านหรือด้านเดียวทำได้ แต่สองด้านไม่)
P(ปฏิเสธสองด้าน(ด้านเดียวไม่สองด้านไม่ได้))
P(ปฏิเสธสองด้าน)+P(ด้านเดียวไม่สองด้านไม่ได้)
α/21-α1-α/2
P(ด้านเดียวไม่สองด้านไม่ได้)=α/2
α+α2>α
α/21-α1-α/21-α/2

นี่เป็นภาพประกอบเชิงตัวเลขเล็กน้อย:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

1

พี<α=0.05

α0.05α

α=0.05α=0.025

α=0.05


แล้วแน่นอนมีสิ่งที่เรียกว่าการศึกษาระดับปริญญานักวิจัยของเสรีภาพ คุณสามารถค้นหาความสำคัญในข้อมูลประเภทใด ๆ หากคุณมีข้อมูลเพียงพอและมีอิสระที่จะทดสอบได้หลายวิธีตามที่คุณต้องการ นี่คือเหตุผลที่คุณตั้งใจจะตัดสินใจทดสอบที่คุณทำก่อนที่จะดูข้อมูล ทุกอย่างอื่นนำไปสู่ผลการทดสอบไม่สามารถพิสูจน์ได้ ฉันแนะนำให้ไปที่ youtube และดูที่ Andrew Gelmans พูดคุย "อาชญากรรมเกี่ยวกับข้อมูลสำหรับข้อมูลเพิ่มเติม


1
อืมสมมุติฐานว่างไม่ใช่ว่าผลลัพธ์จะเป็นแบบสุ่ม สิ่งนี้จะสร้างความสับสนให้กับแพทย์และนักวิทยาศาสตร์ที่เห็นผลงานของพวกเขาเป็นอย่างมากเพื่อให้ได้ผลลัพธ์ที่แน่นอน
AdamO

1
α=0.050.0525%2.5%

1

เมื่อมองแวบแรกข้อความเหล่านี้ไม่ได้เป็นการยืนยันว่าการทดสอบสองด้านนั้น 'เหนือกว่า' ต่อการศึกษาแบบด้านเดียว จำเป็นต้องมีการเชื่อมต่อทางตรรกะจากสมมติฐานการวิจัยที่กำลังทดสอบเชื่อมโยงกับการอนุมานทางสถิติที่กำลังทดสอบ

ตัวอย่างเช่น

... พิจารณาถึงผลที่จะตามมาจากการขาดหายไปในทิศทางอื่น ลองนึกภาพคุณได้พัฒนายาใหม่ที่คุณเชื่อว่าเป็นการพัฒนายาที่มีอยู่เดิม คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุงให้สูงสุดเพื่อให้คุณเลือกการทดสอบแบบด้านเดียว ในการทำเช่นนี้คุณไม่สามารถทดสอบความเป็นไปได้ที่ยาใหม่จะมีประสิทธิภาพน้อยกว่ายาที่มีอยู่เดิม

ก่อนอื่นนี่คือการศึกษายา ดังนั้นความไม่ถูกต้องในทิศทางตรงกันข้ามจึงมีความสำคัญทางสังคมมากกว่ากรอบของสถิติ เช่นเดียวกับที่หลายคนบอกว่าสุขภาพไม่ใช่สิ่งที่ดีที่สุดในการสร้างภาพรวม

ในใบเสนอราคาข้างต้นดูเหมือนว่าเป็นการทดสอบยาเมื่อมียาตัวอื่นอยู่แล้ว ดังนั้นสำหรับฉันแล้วนี่แสดงว่ายาของคุณถือว่ามีประสิทธิภาพอยู่แล้ว คำแถลงนี้เกี่ยวกับการเปรียบเทียบยาสองชนิดที่มีประสิทธิภาพหลังจากนั้น เมื่อเปรียบเทียบการกระจายตัวเหล่านี้หากคุณไม่สนใจประชากรด้านใดด้านหนึ่งเพื่อปรับปรุงผลการเปรียบเทียบ มันไม่ได้เป็นเพียงข้อสรุปที่เอนเอียง แต่การเปรียบเทียบนั้นไม่ใช่ข้อสรุปที่ถูกต้องอีกต่อไป: คุณกำลังเปรียบเทียบแอปเปิ้ลกับส้ม

ในทำนองเดียวกันอาจมีการประมาณค่าที่ชี้ให้เห็นว่าการอนุมานเชิงสถิตินั้นไม่ได้ทำให้ข้อสรุปแตกต่างกัน แต่มีความสำคัญทางสังคมเป็นอย่างมาก นั่นเป็นเพราะตัวอย่างของเราเป็นตัวแทนของชีวิตผู้คนสิ่งที่ไม่สามารถ "เกิดขึ้นอีกครั้ง" และมีค่ายิ่ง

อีกทางหนึ่งข้อความดังกล่าวแสดงถึงนักวิจัยที่มีแรงจูงใจ: "คุณต้องการเพิ่มความสามารถในการตรวจจับการปรับปรุง ... " ความคิดนี้ไม่สำคัญกับกรณีที่ถูกแยกออกเป็นโปรโตคอลที่ไม่ดี

การเลือกการทดสอบแบบหนึ่งด้านหลังจากรันการทดสอบแบบสองด้านที่ล้มเหลวในการปฏิเสธสมมติฐานว่างไม่เหมาะสมไม่ว่า "ปิด" ถึงการทดสอบแบบสองด้านนั้นมีนัยสำคัญก็ตาม

อีกครั้งที่นี่มันหมายถึงนักวิจัยคือ 'เปลี่ยน' การทดสอบของเขา: จากสองด้านเป็นด้านเดียว สิ่งนี้ไม่เหมาะสม จำเป็นต้องมีวัตถุประสงค์การวิจัยก่อนการทดสอบ โดยเริ่มต้นที่ความสะดวกสบายของวิธีการสองด้านเสมอ - นักวิจัยไม่สะดวกที่จะเข้าใจปรากฏการณ์อย่างจริงจังมากขึ้น

นี่เป็นบทความเกี่ยวกับหัวข้อนี้จริง ๆ แล้วทำให้กรณีที่การทดสอบสองด้านถูกใช้มากเกินไป

มันโทษการทดสอบสองด้านที่มากเกินไปเมื่อไม่มี:

ความแตกต่างที่ชัดเจนและการเชื่อมโยงเชิงตรรกะระหว่างสมมติฐานการวิจัยและสมมติฐานทางสถิติ

ต้องใช้ตำแหน่งและท่าทางที่นักวิจัย:

อาจไม่ได้รับรู้ถึงความแตกต่างระหว่างสองโหมดการแสดงออกหรือตระหนักถึงการไหลของตรรกะที่สมมติฐานการวิจัยควรได้รับการแปลเป็นสมมติฐานทางสถิติ การผสมผสานความสะดวกสบายของการวิจัยและสมมติฐานทางสถิติอาจเป็นสาเหตุของการทดสอบสองด้านมากเกินไปแม้ในสถานการณ์ที่การใช้การทดสอบแบบสองด้านนั้นไม่เหมาะสม

สิ่งที่จำเป็นคือการเข้าใจสถิติที่แน่นอนในการตีความผลการทดสอบทางสถิติ ไม่แน่นอนภายใต้ชื่อของการเป็นอนุรักษ์นิยมไม่แนะนำ ในแง่นั้นผู้เขียนคิดว่าเพียงรายงานผลการทดสอบเช่น“ พบว่ามีนัยสำคัญทางสถิติที่ระดับนัยสำคัญ 0.05 (กล่าวคือ p <0.05)” นั้นไม่ดีพอ

แม้ว่าการทดสอบแบบสองด้านนั้นมีความอนุรักษ์นิยมมากกว่าในทางทฤษฎี แต่การเชื่อมโยงระหว่างสมมติฐานการวิจัยทิศทางกับสมมติฐานทางสถิติอาจนำไปสู่ค่า p ที่สูงเกินจริงเป็นสองเท่า

ผู้เขียนได้แสดงให้เห็นว่าการโต้แย้งในการหาผลอย่างมีนัยสำคัญในทิศทางตรงกันข้ามมีความหมายเฉพาะในบริบทของการค้นพบมากกว่าในบริบทของเหตุผล
ในกรณีของการทดสอบสมมติฐานการวิจัยและทฤษฎีพื้นฐานของมันนักวิจัยไม่ควรกล่าวถึงบริบทของการค้นพบและเหตุผล

https://www.sciencedirect.com/science/article/pii/S0148296312000550


1

บ่อยครั้งที่การทดสอบอย่างมีนัยสำคัญที่จะดำเนินการสำหรับสมมติฐานกับสมมติฐานทางเลือก นี่คือเมื่อหนึ่งด้านกับสองด้านสร้างความแตกต่าง


  • α

    อัตราความผิดพลาด Type I ไม่แตกต่างกันสำหรับการทดสอบด้านเดียวหรือสองด้าน

  • บนมืออื่น ๆ , เพื่ออำนาจมันเป็นเรื่องสำคัญ

    หากสมมติฐานทางเลือกของคุณไม่สมมาตรคุณควรจะมุ่งเน้นเกณฑ์เพื่อปฏิเสธสมมติฐานว่างเฉพาะที่ส่วนท้าย / ท้ายนี้ เช่นว่าเมื่อสมมติฐานทางเลือกเป็นจริงจากนั้นคุณมีโอกาสน้อยที่จะไม่ปฏิเสธ ("ยอมรับ") สมมติฐานว่าง

    หากสมมติฐานทางเลือกของคุณเป็นแบบสมมาตร (คุณไม่สนใจที่จะวางกำลังมากหรือน้อยลงในด้านใดด้านหนึ่ง) และคาดว่าการโก่งตัว / เอฟเฟกต์ทั้งสองข้างเท่ากัน (หรือเพียงแค่ไม่รู้จัก / ไม่รู้) การทดสอบสองด้าน (คุณไม่ได้สูญเสียพลังงาน 50% สำหรับหางที่คุณไม่ได้ทดสอบและที่ที่คุณจะทำให้เกิดข้อผิดพลาดประเภท II)

    อัตราความผิดพลาด Type II นั้นแตกต่างกันสำหรับการทดสอบด้านหนึ่งและสองและขึ้นอยู่กับสมมติฐานทางเลือกด้วย

มันกลายเป็นแนวคิดแบบเบย์มากขึ้นในตอนนี้เมื่อเราเริ่มเกี่ยวข้องกับอคติว่าเราคาดหวังว่าผลกระทบจะตกด้านหนึ่งหรือทั้งสองด้านและเมื่อเราต้องการใช้การทดสอบ (เพื่อดูว่าเราสามารถปลอมแปลง a สมมติฐานว่าง) เพื่อ 'ยืนยัน' หรือสร้างสิ่งที่เป็นไปได้มากขึ้นเช่นผลกระทบ


0

ดังนั้นอีกหนึ่งคำตอบพยายาม:

ฉันเดาว่าการเลือกแบบหนึ่งด้านหรือสองด้านขึ้นอยู่กับสมมติฐานทางเลือกอย่างสมบูรณ์

ลองพิจารณาตัวอย่างการทดสอบค่าเฉลี่ยต่อไปนี้ในการทดสอบ t-test:

H0:μ=0

Ha:μ0

ตอนนี้ถ้าคุณสังเกตค่าเฉลี่ยตัวอย่างลบมากหรือค่าเฉลี่ยตัวอย่างบวกมากสมมติฐานของคุณไม่น่าจะเป็นจริง

0 0

μ=0μ0

แต่เดี๋ยวก่อน! ถ้านั่นคือสมมุติฐานว่างของฉันฉันจะตั้งค่าการแจกแจงโมฆะได้อย่างไร การแจกแจงโมฆะของค่าเฉลี่ยตัวอย่างนั้นเป็นที่ทราบกันดีถึงค่าที่สันนิษฐานของพารามิเตอร์ประชากร (ที่นี่0

μH0:μ=0H0:μ>0

ดังนั้นโซลูชันของคุณจะกลายเป็น:

H0:μ=0

Ha:μ<0

ตัวอย่างที่ดีที่สุดคือการทดสอบ Dickey-Fuller สำหรับความคงที่

หวังว่านี่จะช่วยได้ (ต้องการรวมไดอะแกรม แต่ตอบกลับจากมือถือ)

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.