ความหมายของค่า p และค่า t ในการทดสอบทางสถิติคืออะไร?


246

หลังจากลงเรียนวิชาสถิติแล้วพยายามช่วยเหลือเพื่อนนักเรียนฉันสังเกตเห็นวิชาหนึ่งที่ดลใจให้อาจารย์ใหญ่ตีกันมากคือตีความผลการทดสอบสมมติฐานทางสถิติ ดูเหมือนว่านักเรียนจะเรียนรู้วิธีการคำนวณตามที่กำหนดโดยการทดสอบที่กำหนดได้อย่างง่ายดาย เครื่องมือที่ใช้คอมพิวเตอร์หลายเครื่องรายงานผลการทดสอบในรูปของ "ค่า p" หรือ "ค่าที"

คุณจะอธิบายประเด็นต่อไปนี้ให้กับนักเรียนที่เรียนหลักสูตรแรกในสถิติได้อย่างไร:

  • "p-value" หมายถึงอะไรที่เกี่ยวข้องกับสมมติฐานที่กำลังทดสอบ มีกรณีที่ควรมองหาค่า p สูงหรือค่า p ต่ำหรือไม่

  • ความสัมพันธ์ระหว่างค่า p และค่า t คืออะไร?


11
ความยุติธรรมของเรื่องนี้ถูกครอบคลุมโดยประโยคแรกของบทความ wikipedia เกี่ยวกับค่า pซึ่งกำหนด p-value ได้อย่างถูกต้อง หากเป็นที่เข้าใจจะมีการแจ้งให้ทราบชัดเจน
Glen_b

1
เพิ่งได้รับหนังสือ: สถิติไร้น้ำตา มันอาจช่วยสติของคุณได้ !!

7
@ user48700 คุณสามารถสรุปว่าสถิติไม่มีน้ำตาอธิบายได้อย่างไร
Matt Krause

5
บางคนควรวาดกราฟของคำถามที่เกี่ยวข้องกับค่า p เมื่อเวลาผ่านไปและฉันเดิมพันเราจะเห็นฤดูกาลและความสัมพันธ์กับปฏิทินการศึกษาในวิทยาลัยหรือชั้นเรียนวิทยาศาสตร์ข้อมูล Coursera
Aksakal

นอกจากคำแนะนำหนังสือที่ดีและมีความเกี่ยวข้องอื่น ๆ ในคำตอบและความคิดเห็นแล้วฉันอยากจะแนะนำหนังสือเล่มอื่นที่เรียกว่า"p-value คืออะไร" .
Aleksandr Blekh

คำตอบ:


150

การทำความเข้าใจค่าp

สมมติว่าคุณต้องการทดสอบสมมติฐานว่านักเรียนชายในมหาวิทยาลัยของคุณมีความสูงเฉลี่ยฟุตนิ้ว คุณรวบรวมความสูงของนักเรียนคนที่สุ่มเลือกและคำนวณค่าเฉลี่ยตัวอย่าง (บอกว่ามันเป็นฟุตนิ้ว) โดยใช้สูตรที่เหมาะสม / ประจำทางสถิติที่คุณคำนวณ -value สมมติฐานของคุณและบอกว่ามันจะออกมาเป็น0.067 100 5 9 p 0.065710059p0.06

เพื่อตีความอย่างเหมาะสมเราควรคำนึงถึงหลายสิ่ง:p=0.06

  1. ขั้นตอนแรกภายใต้การทดสอบสมมติฐานแบบดั้งเดิมคือสมมติฐานที่ว่าสมมติฐานที่อยู่ในการพิจารณานั้นเป็นจริง (ในบริบทของเราเราถือว่าความสูงเฉลี่ยจริงคือฟุตนิ้ว)757

  2. ลองนึกภาพทำการคำนวณต่อไปนี้คำนวณความน่าจะเป็นที่ค่าเฉลี่ยตัวอย่างมากกว่าฟุตนิ้วโดยสมมติว่าสมมติฐานของเราถูกต้องจริง (ดูจุดที่ 1)959

กล่าวอีกนัยหนึ่งเราต้องการทราบ

P(Samplemean5ft9inches|Truevalue=5ft7inches).

การคำนวณในขั้นตอนที่ 2 เป็นสิ่งที่เรียกว่า -value ดังนั้นค่าจึงหมายความว่าถ้าเราทำการทดสอบซ้ำหลายครั้งหลายครั้ง (แต่ละครั้งเราเลือกนักเรียนคนโดยการสุ่มและคำนวณค่าเฉลี่ยตัวอย่าง) จากนั้นครั้งจากเราคาดหวังว่าจะเห็นตัวอย่าง หมายถึงมากกว่าหรือเท่ากับฟุตนิ้วpp0.06100610059

จากความเข้าใจข้างต้นเราควรจะรักษาสมมติฐานของเราว่าสมมติฐานของเราเป็นจริง (ดูขั้นตอนที่ 1) aบ่งบอกว่าสิ่งหนึ่งในสองสิ่งเกิดขึ้น:p=0.06

  • (A) สมมุติฐานของเราถูกต้องและเหตุการณ์ที่ไม่น่าจะเกิดขึ้น (เช่นนักเรียนทั้งหมดคนเป็นนักกีฬานักเรียน)100

หรือ

  • (B) การสันนิษฐานของเราไม่ถูกต้องและตัวอย่างที่เราได้มานั้นไม่ได้ผิดปกติ

วิธีแบบดั้งเดิมที่จะเลือกระหว่าง (A) และ (B) คือการเลือกโดยพลการตัดสำหรับพีเราเลือก (A) ถ้าและ (ข) ถ้า<0.05pp>0.05p<0.05


3
ใช้เวลาของคุณ! ฉันจะไม่คิดเลือก "คำตอบที่ดีที่สุด" เป็นเวลาหนึ่งสัปดาห์
Sharpie

1
ตอนนี้ฉันมีโอกาสกลับมาและอ่านคำตอบทั้งหมด - +1 ใหญ่สำหรับตัวอย่างความสูงของนักเรียน ชัดเจนมากและจัดวางอย่างดี
Sharpie

3
เยี่ยมมาก ... แต่เราต้องเพิ่ม (C) โมเดลของเรา (รวมอยู่ในสูตร / ชุดคำสั่งทางสถิติ) ผิด
Andrew Robinson

6
ค่า t (หรือสถิติการทดสอบอื่น ๆ ) ส่วนใหญ่เป็นขั้นตอนกลาง มันเป็นสถิติบางอย่างที่ได้รับการพิสูจน์ภายใต้สมมติฐานบางอย่างเพื่อให้มีการกระจายที่รู้จักกันดี เนื่องจากเรารู้ว่าการกระจายตัวของสถิติการทดสอบภายใต้ค่า Null เราสามารถใช้ตารางมาตรฐาน (ส่วนใหญ่เป็นซอฟต์แวร์ในปัจจุบัน) เพื่อหาค่า p
Gala

1
ค่า p-value นั้นได้มาจากการทำแบบทดสอบไคสแควร์แล้วจากตารางไคสแควร์หรือไม่? ฉันสงสัยว่าทำไมความน่าจะเป็นที่คำนวณข้างต้นบ่งชี้ว่า p-value นั้นเอง!
ผู้ชายลอนดอน

123

บทสนทนาระหว่างครูกับนักเรียนที่มีความคิด

ส่งอย่างนอบน้อมในความเชื่อที่ว่ามีดินสอสีไม่เพียงพอในหัวข้อนี้ บทสรุปสั้น ๆ ที่ปรากฏขึ้นจะปรากฏในตอนท้าย


นักเรียน : p-value หมายถึงอะไร? ผู้คนจำนวนมากดูเหมือนจะยอมรับว่าเป็นโอกาสที่เราจะ"ดูตัวอย่างค่าเฉลี่ยมากกว่าหรือเท่ากับ"สถิติหรือเป็น"ความน่าจะเป็นที่จะสังเกตผลลัพธ์นี้ ... เนื่องจากสมมติฐานว่างเปล่าเป็นจริง"หรือที่"สถิติตัวอย่างของฉัน ลดลงเมื่อ [จำลอง] กระจาย"และแม้กระทั่ง'น่าจะเป็นของการสังเกตสถิติทดสอบอย่างน้อยมีขนาดใหญ่เป็นหนึ่งคำนวณสมมติว่าสมมติฐานที่เป็นจริง'

ครู : เข้าใจอย่างถูกต้องข้อความเหล่านั้นทั้งหมดถูกต้องในหลาย ๆ สถานการณ์

นักเรียน : ฉันไม่เห็นว่าส่วนใหญ่เกี่ยวข้องกันอย่างไร คุณไม่สอนเราว่าเราต้องระบุสมมติฐานและสมมติฐานทางเลือกหรือไม่? พวกเขามีส่วนร่วมในแนวคิดเหล่านี้ของ "มากกว่าหรือเท่ากับ" หรือ "อย่างน้อยที่สุดก็ใหญ่" หรือเป็นที่นิยม "มากขึ้น"H AH0HA

ครู : เพราะมันดูซับซ้อนโดยทั่วไปมันช่วยให้เราสำรวจตัวอย่างที่เป็นรูปธรรมได้หรือไม่

นักเรียน : แน่นอน แต่โปรดทำให้มันสมจริง แต่เรียบง่ายถ้าคุณทำได้

ครู : ทฤษฎีการทดสอบสมมติฐานนี้ในอดีตเริ่มต้นด้วยความต้องการของนักดาราศาสตร์เพื่อวิเคราะห์ข้อผิดพลาดเชิงสังเกตการณ์ดังนั้นเริ่มต้นอย่างไรที่นั่น ฉันกำลังอ่านเอกสารเก่าอยู่วันหนึ่งซึ่งนักวิทยาศาสตร์ได้อธิบายความพยายามของเขาในการลดข้อผิดพลาดในการวัดในเครื่องมือของเขา เขาใช้การตรวจสอบดาวจำนวนมากในตำแหน่งที่รู้จักและบันทึกการกระจัดของดาวฤกษ์ก่อนหรือหลังตำแหน่งนั้น เพื่อให้เห็นภาพการกระจัดเหล่านั้นเขาวาดฮิสโตแกรมที่ - เมื่อปรับให้เรียบเล็กน้อย - ดูเหมือนกับภาพนี้

รูปที่ 1: ฮิสโตแกรมของการกระจัด

นักเรียน : ฉันจำได้ว่าฮิสโทแกรมทำงานอย่างไร: แกนตั้งมีป้ายกำกับ "ความหนาแน่น" เพื่อเตือนฉันว่าความถี่สัมพัทธ์ของการวัดแสดงด้วยพื้นที่มากกว่าความสูง

ครู : ถูกต้อง ค่า "ผิดปกติ" หรือ "สุดขั้ว" จะอยู่ในภูมิภาคที่มีพื้นที่ขนาดเล็ก นี่คือดินสอสี คุณคิดว่าคุณสามารถระบายสีในภูมิภาคที่มีพื้นที่รวมเพียงหนึ่งในสิบ

นักเรียน : แน่นอน; นั่นเป็นเรื่องง่าย [สีในรูป]

รูปที่ 2: สีแรกของนักเรียน

ครู : ดีมาก! ดูเหมือนว่าประมาณ 10% ของพื้นที่ที่ฉัน อย่างไรก็ตามโปรดจำไว้ว่าพื้นที่เพียงอย่างเดียวในฮิสโตแกรมที่มีความสำคัญนั้นอยู่ระหว่างเส้นแนวตั้ง: มันแสดงถึงโอกาสหรือความน่าจะเป็นที่การกระจัดจะอยู่ระหว่างเส้นเหล่านั้นบนแกนนอน นั่นหมายความว่าคุณจำเป็นต้องลงสีจนถึงด้านล่างและนั่นจะเป็นพื้นที่มากกว่าครึ่งหนึ่งใช่มั้ย

นักเรียน : โอ้ฉันเข้าใจแล้ว ให้ฉันลองอีกครั้ง. ฉันจะต้องการให้สีที่เส้นโค้งต่ำจริงๆใช่มั้ย ต่ำสุดที่ปลายทั้งสอง ฉันต้องทำสีในพื้นที่ ๆ เดียวหรือไม่หรือว่ามันจะโอเคที่จะแบ่งออกเป็นหลายส่วน?

ครู : การใช้หลายส่วนเป็นแนวคิดที่ฉลาด พวกเขาจะอยู่ที่ไหน

นักเรียน (ชี้): ที่นี่และที่นี่ เนื่องจากสีเทียนนี้ไม่คมมากฉันจึงใช้ปากกาเพื่อแสดงเส้นที่ฉันกำลังใช้

รูปที่ 3: สีที่สองของนักเรียน

ครู : ดีมาก! ฉันจะเล่าเรื่องที่เหลือให้คุณฟัง นักวิทยาศาสตร์ทำการปรับปรุงอุปกรณ์ของเขาจากนั้นเขาก็ทำการวัดเพิ่มเติม เขาเขียนว่าการกำจัดของคนแรกเพียงซึ่งเขาคิดว่าเป็นสัญญาณที่ดี แต่เป็นนักวิทยาศาสตร์ระมัดระวังเขาดำเนินการตรวจวัดเพิ่มเติมเป็นเช็ค แต่น่าเสียดายที่วัดอื่น ๆ เหล่านี้จะหายไป - ต้นฉบับหยุดที่จุดนี้ - และทั้งหมดที่เรามีคือจำนวนเดียว0.10.10.10.1

นักเรียน : แย่มาก แต่นั่นก็ไม่ได้ดีไปกว่าการกระจัดในวงกว้างของคุณ?

ครู : นั่นเป็นคำถามที่ฉันอยากให้คุณตอบ ในการเริ่มต้นเราควรตั้งอะไรเป็นH0

นักเรียน : อืมผู้สงสัยจะสงสัยว่าการปรับปรุงที่ทำกับอุปกรณ์มีผลกระทบใด ๆ หรือไม่ ภาระการพิสูจน์อยู่ที่นักวิทยาศาสตร์: เขาต้องการแสดงให้เห็นว่าคนขี้ระแวงนั้นผิด นั่นทำให้ฉันคิดว่าสมมติฐานว่างเปล่าเป็นสิ่งที่ไม่ดีสำหรับนักวิทยาศาสตร์: มันบอกว่าการวัดใหม่ทั้งหมด - รวมถึงค่าเรารู้ - ควรทำตามที่อธิบายไว้ในฮิสโตแกรมแรก หรืออาจยิ่งแย่ไปกว่านั้นพวกมันอาจจะกระจายออกไปมากขึ้น0.1

ครู : ไปเลยคุณทำได้ดี

นักเรียน : แล้วทางเลือกก็คือการวัดใหม่จะกระจายน้อยลงใช่มั้ย

ครู : ดีมาก! คุณช่วยวาดรูปฮิสโตแกรมที่มีสเปรดน้อยกว่าให้ฉันได้ไหม นี่คือฮิสโตแกรมแรกอีกสำเนาหนึ่ง คุณสามารถวาดมันไว้เป็นข้อมูลอ้างอิงได้

นักเรียน (รูปวาด): ฉันกำลังใช้ปากกาเพื่อร่างฮิสโตแกรมใหม่และฉันกำลังระบายสีในพื้นที่ด้านล่าง ฉันทำให้มันโค้งมากที่สุดใกล้กับศูนย์ในแกนนอนและพื้นที่ส่วนใหญ่อยู่ใกล้กับค่า (แนวนอน) ของศูนย์: นั่นคือสิ่งที่มันหมายถึงการแพร่กระจายน้อยลงหรือแม่นยำมากขึ้น

รูปที่ 4: ฮิสโตแกรมใหม่ของนักเรียน

ครู : เป็นการเริ่มต้นที่ดี แต่จำไว้ว่ากราฟแสดงโอกาสควรจะมีพื้นที่ทั้งหมด1พื้นที่ทั้งหมดของ histogram แรกจึงเป็น1ฮิสโตแกรมใหม่มีพื้นที่เท่าใด111

นักเรียน : น้อยกว่าครึ่งฉันคิดว่า ฉันเห็นว่าเป็นปัญหา แต่ฉันไม่ทราบวิธีการแก้ไข ฉันควรทำอย่างไร?

ครู : เคล็ดลับคือการทำให้ histogram ใหม่ที่สูงขึ้นกว่าเดิมเพื่อให้พื้นที่ทั้งหมดของมันคือ1ที่นี่ฉันจะแสดงเวอร์ชันที่คอมพิวเตอร์สร้างขึ้นเพื่อแสดงให้คุณเห็น1

รูปที่ 5: ฮิสโตแกรมใหม่ของครู

นักเรียน : ฉันเข้าใจแล้ว: คุณเหยียดมันออกในแนวตั้งดังนั้นรูปร่างของมันจึงไม่เปลี่ยนแปลง แต่ตอนนี้พื้นที่สีแดงและพื้นที่สีเทา (รวมถึงส่วนใต้สีแดง) มีปริมาณเท่ากัน

ครู : ถูกต้อง คุณกำลังดูรูปภาพของสมมติฐานว่าง (เป็นสีน้ำเงินกระจายออกไป) และเป็นส่วนหนึ่งของสมมติฐานทางเลือก (เป็นสีแดงและกระจายน้อยกว่า)

นักเรียน : "ส่วน" ของทางเลือกหมายถึงอะไร มันไม่ได้เป็นเพียงแค่สมมติฐานทางเลือก?

ครู : นักสถิติและไวยากรณ์ดูเหมือนจะไม่เข้ากัน :-) อย่างจริงจังสิ่งที่พวกเขาหมายถึงโดย "สมมติฐาน" มักจะเป็นชุดใหญ่ของความเป็นไปได้ทั้งหมด ที่นี่ทางเลือก (ตามที่คุณระบุไว้อย่างดีมาก่อน) คือการวัดนั้น "กระจายน้อยลง" กว่า แต่ก่อน แต่วิธีการมากน้อย ? มีความเป็นไปได้มากมาย ที่นี่ให้ฉันแสดงให้คุณเห็นอีก ฉันวาดด้วยเส้นประสีเหลือง มันอยู่ระหว่างสองก่อนหน้านี้

รูปที่ 6: ค่า null พร้อมกับสององค์ประกอบของทางเลือก

นักเรียน : ฉันรู้ว่าคุณสามารถมีสเปรดในจำนวนที่แตกต่างกัน แต่คุณไม่รู้ล่วงหน้าว่าสเปรดนั้นจะมีราคาเท่าไหร่ แต่ทำไมคุณถึงทำให้เงาตลกในภาพนี้

ครู : ฉันต้องการเน้นว่าฮิสโทแกรมแตกต่างกันอย่างไรและอย่างไร ผมสีเทาพวกเขาในสีเทาที่ histograms ทางเลือกต่ำกว่าโมฆะและสีแดงที่ทางเลือกที่มีสูงขึ้น

นักเรียน : ทำไมถึงเป็นเช่นนั้น

ครู : คุณจำได้หรือไม่ว่าคุณวาดฮิสโตแกรมแรกในหางทั้งสองเป็นอย่างไร? [มองดูเอกสาร] อ้านี่นี่สิ ลองระบายสีรูปภาพนี้ด้วยวิธีเดียวกัน

รูปที่ 7: ค่า null และสีอื่น

นักเรียน : ฉันจำได้ว่า: นั่นเป็นค่าที่สุดยอด ฉันพบว่าสถานที่ที่ความหนาแน่นของโมฆะนั้นเล็กที่สุดเท่าที่จะเป็นไปได้และมีสีอยู่ 10% ของพื้นที่นั้น

ครู : บอกฉันเกี่ยวกับทางเลือกในพื้นที่สุดโต่งเหล่านั้น

นักเรียน : มันยากที่จะเห็นเพราะดินสอสีปกคลุมมันขึ้นมา แต่ดูเหมือนว่าแทบจะไม่มีโอกาสได้รับทางเลือกใด ๆ ฮิสโทแกรมของพวกเขาอยู่ตรงข้ามกับแกนค่าและไม่มีที่ว่างสำหรับพื้นที่ใด ๆ ข้างใต้

ครู : ขอคิดต่อไป ถ้าฉันบอกคุณโดยสมมุติว่าการวัดมีการกระจัดเป็นและขอให้คุณเลือกฮิสโทแกรมทั้งสามนี้เป็นอันที่น่าจะมาจากไหน2

นักเรียน : คนแรก - คนที่สีน้ำเงิน มันแพร่กระจายมากที่สุดและมันเป็นเพียงสิ่งเดียวที่ดูเหมือนว่าจะมีโอกาสเกิดขึ้น2

ครู : แล้วค่าของในต้นฉบับเป็นอย่างไร?0.1

นักเรียน : อืม ... นั่นเป็นเรื่องที่แตกต่าง ทั้งสาม histograms จะสวยสูงเหนือพื้นดินที่0.10.1

ครู : โอเคยุติธรรมพอ แต่สมมติว่าผมบอกคุณค่าอยู่ที่ไหนสักแห่งที่อยู่ใกล้กับเช่นระหว่างและ0.2นั่นช่วยให้คุณอ่านความน่าจะเป็นที่เกิดจากกราฟเหล่านี้ได้หรือไม่?0 0.20.100.2

นักเรียน : แน่นอนเพราะฉันสามารถใช้พื้นที่ได้ ฉันเพียงแค่ต้องประเมินพื้นที่ใต้เส้นโค้งแต่ละระหว่างและ0.2แต่นั่นดูค่อนข้างยาก0.200.2

ครู : คุณไม่จำเป็นต้องไปไกลขนาดนั้น คุณสามารถบอกได้ไหมว่าพื้นที่ใดที่ใหญ่ที่สุด?

นักเรียน : คนที่อยู่ใต้เส้นโค้งที่สูงที่สุดแน่นอน ทั้งสามพื้นที่มีฐานเดียวกันดังนั้นยิ่งเส้นโค้งสูงพื้นที่ที่อยู่ด้านล่างและฐานก็จะมากขึ้น นั่นหมายความว่า histogram ที่สูงที่สุด - หนึ่งฉันวาดด้วยสีแดงขีดกลาง - เป็นหนึ่งที่มีโอกาสมากที่สุดกระจัดของ0.1ฉันคิดว่าฉันดูว่าคุณกำลังจะไปกับเรื่องนี้ แต่ฉันกังวลเล็กน้อย: ฉันจึงไม่ต้องมองไปที่ทุก histograms สำหรับทุกทางเลือกไม่ได้เป็นเพียงหนึ่งหรือสองที่แสดงที่นี่? ฉันจะทำอย่างนั้นได้อย่างไร?0.1

คุณครู : คุณเก่งในการเลือกรูปแบบดังนั้นบอกฉัน: เมื่อเครื่องมือวัดมีความแม่นยำมากขึ้นจะเกิดอะไรขึ้นกับฮิสโตแกรมของมัน

นักเรียน : มันแคบลง - และต้องสูงขึ้นด้วยดังนั้นพื้นที่ทั้งหมดจึงยังคงเท่าเดิม ทำให้ยากที่จะเปรียบเทียบฮิสโทแกรม อีกทางเลือกหนึ่งทั้งหมดนั้นสูงกว่าค่า Null เท่ากับซึ่งเห็นได้ชัด แต่ที่ค่าอื่น ๆ บางครั้งทางเลือกจะสูงกว่าและบางครั้งก็ต่ำกว่า! ตัวอย่างเช่น [ชี้ไปที่ค่าใกล้ ] ตรงนี้ฮิสโตแกรมสีแดงของฉันคือต่ำที่สุดฮิสโตแกรมสีเหลืองนั้นสูงที่สุดและฮิสโตแกรม null ดั้งเดิมอยู่ระหว่างพวกเขา แต่ทางด้านขวาค่า Null เป็นค่าสูงสุด3 / 403/4

ครู : โดยทั่วไปการเปรียบเทียบฮิสโทแกรมเป็นธุรกิจที่ซับซ้อน เพื่อช่วยให้เราทำมันฉันได้ขอให้คอมพิวเตอร์สร้างพล็อตใหม่: มันได้แบ่งฮิสโตแกรมทางเลือก (หรือ "ความหนาแน่น") แต่ละอันด้วยความสูงฮิสโทแกรมแบบ null ซึ่งสร้างค่าที่รู้จักกันในชื่อ ดังนั้นค่าที่มากกว่าหมายถึงทางเลือกมีโอกาสมากขึ้นในขณะที่ค่าน้อยกว่าหมายถึงทางเลือกนั้นมีโอกาสน้อยกว่า มันได้วาดอีกทางเลือกหนึ่ง: มันแพร่กระจายได้มากกว่าอีกสองตัว แต่ก็ยังแพร่กระจายน้อยกว่าอุปกรณ์ดั้งเดิมคือ111

รูปที่ 8: อัตราส่วนความน่าจะเป็น

ครู (ต่อ): คุณสามารถแสดงให้ฉันเห็นว่าตัวเลือกอื่นมีแนวโน้มที่จะเป็นมากกว่าโมฆะหรือไม่

นักเรียน (ระบายสี): ตรงกลางเห็นได้ชัด และเนื่องจากสิ่งเหล่านี้ไม่ใช่ฮิสโทแกรมอีกต่อไปฉันเดาว่าเราควรมองความสูงมากกว่าพื้นที่ดังนั้นฉันจึงทำเครื่องหมายช่วงของค่าบนแกนนอน แต่ฉันจะรู้ได้อย่างไรว่าสีอยู่ตรงกลางเท่าไหร่? ฉันจะหยุดการระบายสีที่ไหน

รูปที่ 9: แผนการอัตราส่วนความน่าจะเป็นที่ถูกทำเครื่องหมายไว้

ครู : ไม่มีกฎเกณฑ์ที่แน่ชัด ทุกอย่างขึ้นอยู่กับวิธีการที่เราวางแผนที่จะใช้ข้อสรุปและความคลางแคลงที่รุนแรง แต่กลับมานั่งและคิดเกี่ยวกับสิ่งที่คุณได้ประสบความสำเร็จ: ตอนนี้คุณรู้ว่าผลลัพธ์ที่มีอัตราส่วนความน่าจะเป็นขนาดใหญ่เป็นหลักฐานสำหรับทางเลือกและผลลัพธ์ที่มีอัตราส่วนความน่าจะเป็นขนาดเล็กที่มีหลักฐานกับทางเลือก สิ่งที่ฉันจะขอให้คุณทำคือการระบายสีในบริเวณที่เท่าที่เป็นไปได้มีโอกาสเล็กน้อยที่จะเกิดขึ้นภายใต้สมมติฐานว่างและมีโอกาสค่อนข้างมากที่จะเกิดขึ้นภายใต้ทางเลือก กลับไปที่ไดอะแกรมแรกที่คุณทำสีกลับไปที่จุดเริ่มต้นของการสนทนาของเราคุณทำสีในสองส่วนท้ายของ null เพราะพวกเขาเป็น "สุดขีด" พวกเขาจะยังคงทำงานได้ดีหรือไม่?

นักเรียน : ฉันไม่คิดอย่างนั้น แม้ว่าพวกมันจะสุดขั้วและหายากภายใต้สมมติฐานว่าง แต่พวกมันก็เป็นไปไม่ได้สำหรับทางเลือกใด ๆ หากการวัดใหม่ของฉันคือพูดฉันคิดว่าฉันจะสงสัยและสงสัยว่าจะมีการปรับปรุงใด ๆ เกิดขึ้นแม้ว่าจะเป็นผลลัพธ์ที่ผิดปกติในทุกกรณี ฉันต้องการเปลี่ยนสี ที่นี่ - ให้ฉันมีดินสอสีอีกอัน3.03.03.0

รูปที่ 10: ปรับปรุงมาร์กอัป

ครู : นั่นหมายถึงอะไร

นักเรียน : เราเริ่มจากคุณขอให้ฉันวาดเพียง 10% ของพื้นที่ใต้ฮิสโตแกรมดั้งเดิม - อันที่อธิบายโมฆะ ดังนั้นตอนนี้ฉันเข้ามาถึง 10% ของพื้นที่ที่มีทางเลือกที่ดูเหมือนว่าจะเกิดขึ้น ฉันคิดว่าเมื่อการวัดใหม่อยู่ในพื้นที่นั้นมันบอกเราว่าเราควรจะเชื่อทางเลือกอื่น

ครู : และคนขี้ระแวงควรมีปฏิกิริยาอย่างไรต่อสิ่งนั้น?

นักเรียน : คนขี้ระแวงไม่จำเป็นต้องยอมรับว่าเขาผิดใช่ไหม? แต่ฉันคิดว่าความเชื่อของเขาควรจะสั่นคลอนเล็กน้อย หลังจากทั้งหมดเราจัดเพื่อที่แม้จะมีการวัดอาจจะอยู่ในพื้นที่ที่เพิ่งเข้ามาก็มีโอกาส 10% ของการมีเมื่อ null เป็นจริง และมีโอกาสมากขึ้นที่จะอยู่ที่นั่นเมื่อทางเลือกเป็นจริง ฉันไม่สามารถบอกคุณได้ว่ามีขนาดใหญ่มีโอกาสที่เป็นเพราะมันจะขึ้นอยู่กับเท่าใดนักวิทยาศาสตร์การปรับปรุงอุปกรณ์ ฉันเพิ่งรู้ว่ามันใหญ่กว่า ดังนั้นหลักฐานจะขัดต่อความสงสัย

ครู : โอเค คุณจะช่วยสรุปความเข้าใจของคุณเพื่อที่เราจะได้เข้าใจอย่างชัดเจนเกี่ยวกับสิ่งที่คุณได้เรียนรู้?

นักเรียน : ฉันเรียนรู้ว่าการเปรียบเทียบสมมติฐานทางเลือกกับสมมติฐานว่างเราควรเปรียบเทียบฮิสโตแกรมของพวกเขา เราแบ่งความหนาแน่นของทางเลือกด้วยความหนาแน่นของโมฆะ: นั่นคือสิ่งที่คุณเรียกว่า "อัตราส่วนความน่าจะเป็น" เพื่อทำการทดสอบที่ดีฉันควรเลือกจำนวนเล็กน้อยเช่น 10% หรืออะไรก็ตามที่อาจจะเพียงพอที่จะเขย่าความสงสัย จากนั้นฉันควรหาค่าที่อัตราส่วนความน่าจะเป็นสูงที่สุดเท่าที่จะเป็นไปได้และกำหนดสีให้ได้จนถึง 10% (หรืออะไรก็ตาม) ที่ได้รับการระบายสี

ครู : แล้วคุณจะใช้สีนั้นอย่างไร?

นักเรียน : ตามที่คุณเตือนฉันก่อนหน้านี้การระบายสีต้องอยู่ระหว่างเส้นแนวตั้ง ค่า (บนแกนนอน) ที่อยู่ภายใต้การระบายสีเป็นหลักฐานต่อสมมติฐานว่าง ค่าอื่น ๆ - ก็ยากที่จะพูดในสิ่งที่พวกเขาอาจหมายถึงโดยไม่ต้องดูรายละเอียดเพิ่มเติมทั้งหมดฮิสโตแกรมที่เกี่ยวข้อง

0.1

นักเรียน : นั่นอยู่ในพื้นที่ที่ฉันระบายสีไว้ฉันจึงคิดว่านักวิทยาศาสตร์อาจจะพูดถูกและอุปกรณ์ก็ปรับปรุงขึ้นมาจริงๆ

ครู : สิ่งสุดท้าย ข้อสรุปของคุณขึ้นอยู่กับการเลือก 10% เป็นเกณฑ์หรือ "ขนาด" ของการทดสอบ หลายคนชอบใช้ 5% แทน บางคนชอบ 1% คุณบอกอะไรพวกเขาได้บ้าง

00.10.050.10.080.1. พวกเขาจะไม่ได้ข้อสรุปเดียวกันกับที่ฉันทำ: พวกเขาจะบอกว่าไม่มีหลักฐานเพียงพอที่การเปลี่ยนแปลงเกิดขึ้นจริง

0.08

นักเรียน : ขอบคุณ ฉันยังไม่มั่นใจฉันเข้าใจทั้งหมดนี้ แต่คุณให้ฉันคิดมาก

ครู : ถ้าคุณต้องการที่จะไปเพิ่มเติมให้ดูที่การNeyman เพียร์สันแทรก คุณอาจพร้อมที่จะเข้าใจในตอนนี้


สรุป

ztt=0.1

รูปที่ 11: ค่า p เป็นพื้นที่

0t=0.1ถึง. p-value คือพื้นที่ของพื้นที่แรเงาภายใต้ฮิสโทแกรมว่าง: มันเป็นโอกาสโดยสมมติว่าโมฆะนั้นเป็นจริงในการสังเกตผลลัพธ์ที่อัตราส่วนความน่าจะเป็นมีแนวโน้มที่จะมีขนาดใหญ่ โดยเฉพาะอย่างยิ่งการก่อสร้างนี้ขึ้นอยู่กับสมมติฐานทางเลือกอย่างใกล้ชิด ไม่สามารถดำเนินการได้โดยไม่ระบุทางเลือกที่เป็นไปได้


4
นี้มีการจัดการอย่างดีด้วยกับความคิดเห็นของฉันในคำตอบอื่นที่ไม่มีคำตอบก่อนที่จะมีคำถามนี้ได้ tackled ในทั่วไป, ทั่วไปได้ยิน "หรือมากขึ้น" ด้านของพี -value (แม้ว่าคำตอบ "การทดสอบชา"ยังมีตัวอย่างที่ดี) ฉันชื่นชมอย่างยิ่งว่าตัวอย่างนี้ถูกสร้างขึ้นโดยเจตนาเพื่อเน้นว่า "สุดขีดมาก" อาจหมายถึงสิ่งที่ตรงกันข้ามกับ "ใหญ่กว่า" หรือ "ไกลจากศูนย์"
Silverfish

4
H1H1

3
ไม่เหมือนใครและลึกซึ้งเช่นเคยขอขอบคุณที่สละเวลาเขียนคำตอบที่เป็นประโยชน์อย่างเหลือเชื่อเหล่านั้น ฉันสงสัยจริงๆว่าทำไมหนังสือไม่เคยเขียนในแบบที่มีอยู่ใกล้ระดับความชัดเจนและสัญชาตญาณเหล่านี้
jeremy radcliff

ผมคิดว่าการเชื่อมโยงความหมายของความน่าจะเป็น WRT เป็นตัวอย่างที่นี้อาจจะเป็นประโยชน์
baxx

1
เป็นเรื่องอันตรายที่จะใช้การเสียดสีในความคิดเห็น @baxx เนื่องจากมีพื้นที่ไม่เพียงพอที่อนุญาตให้เราทำอย่างสุภาพและสวยงาม ดังนั้นจึงไม่ใช่ความคิดที่ดีที่จะคิดว่าความคิดเห็นกำลังประชดประชันเว้นแต่จะมีการบอกคุณอย่างชัดเจน เพียงสมมติว่าความคิดเห็นมีไว้เพื่อช่วยคุณ หากคุณเพียงแค่ติดตามผลการค้นหาแรกที่ฉันให้ฉันคิดว่าคำถามของคุณจะได้รับคำตอบ
whuber

44

ก่อนที่จะแตะหัวข้อนี้ฉันจะต้องตรวจสอบให้แน่ใจว่านักเรียนมีความสุขในการเคลื่อนไหวระหว่างเปอร์เซ็นต์ทศนิยมอัตราต่อรองและเศษส่วน หากพวกเขาไม่พอใจอย่างสมบูรณ์กับเรื่องนี้พวกเขาจะสับสนได้อย่างรวดเร็ว

ฉันชอบที่จะอธิบายการทดสอบสมมติฐานเป็นครั้งแรก (และดังนั้นค่า p และสถิติการทดสอบ) ผ่านการทดสอบชาแบบดั้งเดิมของฟิชเชอร์ ฉันมีเหตุผลหลายประการสำหรับสิ่งนี้:

(i) ฉันคิดว่าการทำงานผ่านการทดสอบและการกำหนดคำศัพท์ในขณะที่เราดำเนินการไปนั้นเหมาะสมกว่าที่จะเริ่มต้นคำศัพท์เหล่านี้ทั้งหมด (ii) คุณไม่จำเป็นต้องพึ่งพาการแจกแจงความน่าจะเป็นอย่างชัดเจนพื้นที่ใต้เส้นโค้ง ฯลฯ เพื่อให้ผ่านจุดสำคัญของการทดสอบสมมติฐาน (iii) มันอธิบายความคิดที่ไร้สาระของ "เท่าหรือมากกว่าที่สังเกต" ในลักษณะที่สมเหตุสมผล (iv) ฉันพบว่านักเรียนชอบที่จะเข้าใจประวัติศาสตร์ต้นกำเนิดและเรื่องราวย้อนหลังของสิ่งที่พวกเขากำลังศึกษาอยู่ กว่าทฤษฎีที่เป็นนามธรรม (v) ไม่สำคัญว่านักเรียนจะต้องมีวินัยหรือวิชาอะไรพวกเขาสามารถเกี่ยวข้องกับตัวอย่างของชาได้ (NB นักเรียนต่างชาติบางคนมีปัญหากับสถาบันการดื่มนมอังกฤษที่แปลกประหลาดแห่งนี้)

[หมายเหตุ: ตอนแรกฉันได้รับแนวคิดนี้จากบทความที่ยอดเยี่ยมของ Dennis Lindley "การวิเคราะห์ข้อมูลการทดลอง: การแข็งค่าของ Tea & Wine" ซึ่งเขาแสดงให้เห็นว่าทำไมวิธีการแบบเบย์จึงดีกว่าวิธีการแบบดั้งเดิม]

เรื่องราวเบื้องหลังคือมิวเรียลบริสตอลเข้าเยี่ยมชมฟิชเชอร์ในบ่ายวันหนึ่งในปี 1920 ที่สถานีทดลอง Rothamsted เพื่อดื่มชาสักถ้วย เมื่อฟิชเชอร์ใส่นมในครั้งสุดท้ายที่เธอบ่นบอกว่าเธอยังสามารถบอกได้ว่านมรินครั้งแรก (หรือครั้งสุดท้าย) และเธอชอบอดีต ในการทดสอบครั้งนี้เขาได้ออกแบบการทดสอบชาแบบคลาสสิกของเขาโดยที่ Muriel ได้รับการเสนอด้วยถ้วยชาหนึ่งคู่และเธอต้องระบุว่ามีการเพิ่มนมรายการใดก่อน ทำซ้ำกับถ้วยชาหกคู่ ตัวเลือกของเธอคือ Right (R) หรือ Wrong (W) และผลลัพธ์ของเธอคือ: RRRRRW

6

(a)สมมติฐานว่าง (Muriel คาดเดา) เป็นจริงและเหตุการณ์ที่มีความเป็นไปได้น้อยเกิดขึ้นหรือ

(b)สมมติฐานว่างเป็นเท็จและ Muriel มีอำนาจในการเลือกปฏิบัติ

p-value (หรือค่าความน่าจะเป็น) คือความน่าจะเป็นในการสังเกตผลลัพธ์นี้ (RRRRRW) เนื่องจากสมมติฐานว่างเป็นจริง - มันเป็นความน่าจะเป็นเล็ก ๆ ที่อ้างถึงใน (a) ด้านบน ในกรณีนี้คือ 0.016 เนื่องจากเหตุการณ์ที่มีความน่าจะเป็นเล็ก ๆ จะเกิดขึ้นน้อยครั้ง (ตามคำนิยาม) สถานการณ์ (b) อาจเป็นคำอธิบายที่ดีกว่าสิ่งที่เกิดขึ้นมากกว่าสถานการณ์ (a) เมื่อเราปฏิเสธสมมติฐานว่างเราจริง ๆ แล้วยอมรับสมมติฐานตรงกันข้ามซึ่งเราเรียกว่าสมมุติฐานทางเลือก ในตัวอย่างนี้มิวเรียลมีอำนาจการเลือกปฏิบัติเป็นสมมติฐานทางเลือก

การพิจารณาที่สำคัญคือสิ่งที่เราจะเรียนเป็นความน่าจะเป็น "เล็ก"? สิ่งที่เป็นจุดตัดที่เรายินดีที่จะบอกว่าเหตุการณ์ไม่น่า? มาตรฐานมาตรฐานคือ 5% (0.05) และสิ่งนี้เรียกว่าระดับนัยสำคัญ เมื่อค่า p-value มีขนาดเล็กกว่าระดับนัยสำคัญเราจะปฏิเสธสมมติฐานว่างเปล่าว่าเป็นเท็จและยอมรับสมมติฐานทางเลือกของเรา มันเป็นสำนวนทั่วไปที่เรียกร้องผลคือ "สำคัญ" เมื่อ p-value มีขนาดเล็กกว่าระดับนัยสำคัญคือเมื่อความน่าจะเป็นของสิ่งที่เราสังเกตเห็นเกิดขึ้นเนื่องจากสมมติฐานว่างเป็นจริงมีขนาดเล็กกว่าจุดตัดของเรา สิ่งสำคัญคือต้องมีความชัดเจนว่าการใช้ 5% เป็นแบบอัตนัยทั้งหมด (เช่นเดียวกับการใช้ระดับนัยสำคัญทั่วไปอื่น ๆ คือ 1% และ 10%)

ฟิชเชอร์ตระหนักว่าสิ่งนี้ไม่ทำงาน ผลลัพธ์ที่เป็นไปได้ทุกอย่างที่มีคู่ที่ไม่ถูกต้องหนึ่งคู่มีอำนาจในการเลือกปฏิบัติ ความน่าจะเป็นที่เกี่ยวข้องกับสถานการณ์ (ก) ข้างต้นเท่ากับ 6 (0.5) ^ 6 = 0.094 (หรือ 6/64) ซึ่งตอนนี้ไม่มีนัยสำคัญที่ระดับนัยสำคัญ 5% เพื่อเอาชนะชาวประมงคนนี้แย้งว่าหากความผิดพลาด 1 ใน 6 ถือว่าเป็นหลักฐานของอำนาจการเลือกปฏิบัติดังนั้นจึงไม่มีข้อผิดพลาดนั่นคือผลลัพธ์ที่บ่งชี้ถึงอำนาจการเลือกปฏิบัติมากกว่าที่ควรจะเป็นเมื่อพิจารณาการคำนวณ p-value สิ่งนี้ส่งผลให้มีการแก้ไขเหตุผลดังต่อไปนี้:

(a) สมมติฐานว่าง (Muriel กำลังเดา) เป็นจริงและความน่าจะเป็นของเหตุการณ์ที่เกิดขึ้นหรือมากเกินกว่าที่สังเกตคือเล็กหรือ

(b) สมมติฐานว่างเป็นเท็จและ Muriel มีอำนาจในการเลือกปฏิบัติ

กลับไปที่การทดลองชาของเราและเราพบว่าค่า p ภายใต้การตั้งค่านี้คือ 7 (0.5) ^ 6 = 0.109 ซึ่งยังไม่สำคัญที่ 5% เกณฑ์

จากนั้นฉันให้นักเรียนทำงานกับตัวอย่างอื่น ๆ เช่นการโยนเหรียญเพื่อหาว่าเหรียญนั้นยุติธรรมหรือไม่ การฝึกซ้อมนี้เป็นบ้านของแนวคิดของสมมติฐานว่าง / ทางเลือกค่า p และระดับนัยสำคัญ จากนั้นเราย้ายไปยังกรณีของตัวแปรต่อเนื่องและแนะนำแนวคิดของการทดสอบทางสถิติ เนื่องจากเราได้ครอบคลุมการแจกแจงแบบปกติการกระจายตัวแบบปกติมาตรฐานและการแปลง z ในเชิงลึกจึงเป็นเรื่องของการผสมผสานแนวคิดหลาย ๆ อย่างเข้าด้วยกัน

เช่นเดียวกับการคำนวณสถิติทดสอบค่า p และการตัดสินใจ (สำคัญ / ไม่สำคัญ) ฉันให้นักเรียนทำงานผ่านเอกสารเผยแพร่ในการเติมในเกมว่างที่ขาดหายไป


2
ฉันรู้ว่าฉันค่อนข้างจะฟื้นเธรดเก่า ๆ แต่ที่นี่มันไป ... ฉันสนุกกับคำตอบของคุณมาก แต่ฉันคิดถึงส่วนค่า t อยู่ในนั้น :( คุณช่วยยกตัวอย่างของคุณให้พูดถึงได้ไหม? ไม่มีใครตอบคำถามเกี่ยวกับส่วนทดสอบ t
Sosi

@sosi อาจเป็นเพราะค่า p ทั่วไปมากกว่าค่า t มันเหมือนกับถามคำถามเกี่ยวกับรถยนต์แล้วเบรกเกี่ยวกับ Ford Fiesta
คาดเดา

2
ppพี

27

ไม่มีคำอธิบายหรือการคำนวณทางวาจาจำนวนมากช่วยให้ฉันเข้าใจในระดับลำไส้ว่าค่า p คืออะไร แต่มันกลับกลายเป็นจุดสนใจสำหรับฉันเมื่อฉันเรียนในหลักสูตรที่เกี่ยวข้องกับการจำลอง นั่นทำให้ฉันมีความสามารถในการดูข้อมูลที่สร้างขึ้นจากสมมติฐานว่างและเพื่อกำหนดค่าเฉลี่ย / ฯลฯ จากตัวอย่างที่จำลองขึ้นมาจากนั้นดูที่สถิติตัวอย่างของฉันตกลงไปที่การแจกแจงนั้น

ฉันคิดว่าข้อดีที่สำคัญของสิ่งนี้คือมันช่วยให้นักเรียนลืมเรื่องคณิตศาสตร์และการแจกแจงสถิติการทดสอบเป็นเวลาหนึ่งนาทีและมุ่งเน้นไปที่แนวคิดในมือ จริงอยู่ที่ว่าฉันต้องเรียนรู้วิธีจำลองสิ่งต่าง ๆ ซึ่งจะทำให้เกิดปัญหาสำหรับนักเรียนกลุ่มอื่น แต่มันใช้งานได้สำหรับฉันและฉันใช้การจำลองครั้งนับไม่ถ้วนเพื่อช่วยอธิบายสถิติแก่ผู้อื่นด้วยความสำเร็จที่ยิ่งใหญ่ (เช่น "นี่คือข้อมูลของคุณเป็นอย่างไรนี่คือลักษณะการแจกแจงปัวซองดูเหมือนว่าคุณต้องการ ทำปัวซองถดถอยหรือไม่ ")

สิ่งนี้ไม่ได้ตอบคำถามที่คุณโพสต์ไว้อย่างแน่นอน แต่สำหรับฉันอย่างน้อยก็ทำให้พวกเขาไม่สำคัญ


10
ฉันเห็นด้วยอย่างสุดใจเกี่ยวกับการใช้แบบจำลองเพื่ออธิบายเรื่องนี้ แต่โน้ตเล็ก ๆ ในตัวอย่างที่สิ้นสุด: ผมพบว่าคน (ไม่เพียง แต่นักเรียน) จะพบว่ามันยากที่จะแยกแยะความแตกต่างสำหรับสมมติฐานกระจายใด ๆ โดยเฉพาะอย่างยิ่งเช่น Poisson ระหว่างการเป็นเล็กน้อย Poisson กระจายและเป็นเงื่อนไข Poisson กระจาย เนื่องจากสิ่งหลังมีความสำคัญสำหรับตัวแบบการถดถอยกลุ่มของค่าตัวแปรตามจำนวนมากซึ่งไม่ใช่ปัวซองจึงไม่จำเป็นต้องเป็นสาเหตุของความกังวล
conjugateprior

1
ฉันต้องสารภาพว่าไม่รู้ ฉันชื่นชมความคิดเห็นของคุณเกี่ยวกับเว็บไซต์นี้ในช่วงสองสามวันที่ผ่านมาของการเป็นสมาชิกของคุณ - ฉันหวังว่าคุณจะติดใจ
Matt Parker

@MattParker คุณรู้จักแหล่งเรียนรู้ใด ๆ ที่เน้นไปที่การใช้แบบจำลองเพื่อพัฒนาความเข้าใจหรือไม่? หรือเป็นกรณีของการรวมสคริปต์ python / R เข้าด้วยกันและทำการทดสอบหลายชุด?
baxx

1
@baxx เว็บไซต์ [Seeing Theory โดย Daniel Kunin] (students.brown.edu/seeing-theory/) มีเครื่องมือที่น่าสนใจสำหรับเรื่องนี้ แต่ยังอยู่ระหว่างการปรับปรุง ไม่เช่นนั้นฉันได้ทดลองใช้เครื่องมือในตัวสำหรับการจำลองเป็นส่วนใหญ่ - ใช้พวกมันเพื่อพิสูจน์วิธีการทำงานของตัวเองหรือดูว่าจะเกิดอะไรขึ้นถ้าตัวทำนายถูกแทนที่ด้วยตัวแปรสุ่ม ฯลฯ ขออภัย ฉันหวังว่าฉันจะได้รับทรัพยากรที่ดีกว่าสำหรับสิ่งนี้!
Matt Parker

@ MattParker ขอบคุณมาก ใช่ไก่และไข่ในการสร้างการทดลองที่คุณ (ฉันคิดว่า?) ต้องมีอย่างน้อยก็เพียงพอที่จะเขียน ไม่ต้องกังวลเลย ..... แค่ตรวจสอบเว็บไซต์ที่คุณเชื่อมโยงมันเป็นเรื่องดีขอบคุณ
baxx

16

คำจำกัดความที่ดีของ p-value คือ "ความน่าจะเป็นในการสังเกตสถิติการทดสอบอย่างน้อยใหญ่เท่ากับที่คำนวณโดยสมมติว่าสมมติฐานว่างเป็นจริง"

ปัญหาที่เกิดขึ้นคือต้องมีความเข้าใจใน "สถิติการทดสอบ" และ "สมมติฐานว่าง" แต่นั่นเป็นเรื่องง่ายที่จะข้าม หากสมมุติฐานว่างเป็นจริงมักจะคล้ายกับ "พารามิเตอร์จากประชากร A เท่ากับพารามิเตอร์จากประชากร B" และคุณคำนวณสถิติเพื่อประมาณค่าพารามิเตอร์เหล่านี้ความน่าจะเป็นที่จะได้เห็นสถิติทดสอบที่บอกว่า "พวกเขาเป็นแบบนี้ ที่แตกต่างกัน "?

เช่นถ้าเหรียญยุติธรรมความน่าจะเป็นที่ฉันเห็น 60 หัวจาก 100 ทอยคืออะไร นั่นคือการทดสอบสมมติฐานว่าง "เหรียญยุติธรรม" หรือ "p = .5" โดยที่ p คือความน่าจะเป็นของหัว

สถิติการทดสอบในกรณีนั้นจะเป็นจำนวนของหัว

ตอนนี้ฉันคิดว่าสิ่งที่คุณเรียกว่า "ค่า t" คือ "สถิติทดสอบ" ทั่วไปไม่ใช่ค่าจาก "การแจกแจง t" พวกมันไม่เหมือนกันและคำว่า "t-value" ไม่ใช่คำที่ใช้กันอย่างแพร่หลายและอาจทำให้สับสน

สิ่งที่คุณเรียกว่า "ค่า t" อาจเป็นสิ่งที่ฉันเรียกว่า "สถิติการทดสอบ" ในการคำนวณค่า p (จำไว้เป็นเพียงความน่าจะเป็น) คุณต้องมีการแจกแจงและค่าที่จะเสียบเข้ากับการแจกแจงนั้นซึ่งจะคืนค่าความน่าจะเป็น เมื่อคุณทำเช่นนั้นความน่าจะเป็นที่คุณกลับมาคือ p-value ของคุณ คุณจะเห็นว่าพวกมันเกี่ยวข้องกันเพราะภายใต้การกระจายตัวเดียวกันสถิติการทดสอบที่แตกต่างกันจะส่งคืนค่า p ที่แตกต่างกัน สถิติการทดสอบที่รุนแรงมากขึ้นจะให้ค่า p ต่ำกว่าซึ่งบ่งชี้ได้ดีกว่าว่าสมมติฐานว่างเป็นเท็จ

ฉันไม่สนใจปัญหาของค่า p ด้านเดียวและสองด้านที่นี่


11

ลองนึกภาพคุณมีถุงที่มีหินอ่อนสีดำ 900 และสีขาว 100 นั่นคือ 10% ของหินอ่อนเป็นสีขาว ทีนี้ลองนึกภาพว่าคุณเอาหินอ่อน 1 ใบออกมาดูแล้วบันทึกสีของมันนำออกมาอีกอันบันทึกสีของมันแล้วทำ 100 ครั้ง ในตอนท้ายของกระบวนการนี้คุณจะมีตัวเลขสำหรับหินอ่อนสีขาวซึ่งในอุดมคติเราคาดว่าจะเท่ากับ 10 คือ 10% ของ 100 แต่ในความเป็นจริงอาจเป็น 8 หรือ 13 หรืออะไรก็ตามที่เกิดจากการสุ่ม หากคุณทำการทดลองถอนหินอ่อน 100 ครั้งหลายครั้งหลายครั้งแล้วพล็อตกราฟแท่งของจำนวนหินอ่อนสีขาวที่วาดต่อการทดสอบคุณจะพบว่าคุณจะมี Bell Curve กึ่งกลางประมาณ 10

นี่แสดงถึงสมมติฐาน 10% ของคุณ: ด้วยถุงใด ๆ ที่มี 1,000 หินอ่อนซึ่งขาว 10% ถ้าคุณสุ่มเอา 100 หินอ่อนคุณจะพบ 10 หินอ่อนสีขาวในการเลือกให้หรือรับ 4 หรือมากกว่านั้น ค่า p คือทั้งหมดที่เกี่ยวกับ "ให้หรือรับ 4 หรือมากกว่านั้น" สมมติว่าโดยอ้างอิงจาก Curve Curve ที่สร้างไว้ก่อนหน้านี้คุณสามารถระบุได้ว่าน้อยกว่า 5% ของเวลาที่คุณจะได้รับหินอ่อนสีขาว 5 ตัวหรือน้อยกว่าและอีก <5% ของบัญชีเวลาสำหรับหินอ่อนสีขาว 15 ตัวหรือมากกว่านั้น> 90% เวลาที่คุณเลือกหินอ่อน 100 ตัวจะมีลูกหินสีขาวรวมอยู่ระหว่าง 6 ถึง 14

ทีนี้สมมติว่ามีใครบางคนใส่ถุงหินอ่อน 1,000 ลูกที่มีหินอ่อนสีขาวจำนวนหนึ่งที่ไม่ทราบเรามีเครื่องมือที่จะตอบคำถามเหล่านี้

i) มีหินอ่อนสีขาวน้อยกว่า 100 เม็ดหรือไม่?

ii) มีลูกหินสีขาวมากกว่า 100 ลูกหรือไม่?

iii) ถุงบรรจุหินอ่อนสีขาว 100 เม็ดหรือไม่?

เพียงนำหินอ่อนออกจากกระเป๋า 100 ใบและนับจำนวนตัวอย่างนี้เป็นสีขาว

a) หากมีคนผิวขาว 6 ถึง 14 คนในตัวอย่างคุณไม่สามารถปฏิเสธสมมติฐานที่ว่ามีลูกหินสีขาว 100 ถุงในกระเป๋าและค่า p ที่สอดคล้องกันสำหรับ 6 ถึง 14 จะเท่ากับ> 0.05

b) หากมีคนขาว 5 คนหรือน้อยกว่าในตัวอย่างคุณสามารถปฏิเสธสมมติฐานที่ว่ามีหินอ่อนสีขาว 100 ใบในถุงและค่า p ที่สอดคล้องกันสำหรับ 5 หรือน้อยกว่านั้นจะเป็น <0.05 คุณคาดว่าถุงจะมีหินอ่อนสีขาว <10%

c) หากมีคนผิวขาว 15 คนขึ้นไปในตัวอย่างคุณสามารถปฏิเสธสมมติฐานที่ว่ามีหินอ่อนสีขาว 100 ใบในถุงและค่า p ที่สอดคล้องกันสำหรับ 15 หรือมากกว่านั้นจะเท่ากับ <0.05 คุณคาดว่าถุงจะมีหินอ่อนสีขาว> 10%

ในการตอบสนองต่อความคิดเห็นของ Baltimark

จากตัวอย่างข้างต้นมีค่าประมาณ: -

โอกาส 4.8% ในการทะลุ 5 ลูกบอลสีขาวหรือน้อยกว่า

โอกาส 1.85% 4 หรือน้อยกว่า

โอกาส 0.55% ที่ 3 หรือน้อยกว่า

โอกาส 0.1% 2 หรือน้อยกว่า

โอกาส 6.25% ที่ 15 หรือมากกว่า

โอกาส 3.25% ที่ 16 หรือมากกว่านั้น

โอกาส 1.5% 17 หรือมากกว่า

โอกาส 0.65% ที่ 18 หรือมากกว่า

โอกาส 0.25% จาก 19 หรือมากกว่า

โอกาส 0.1% 20 หรือมากกว่านั้น

โอกาส 0.05% ที่ 21 หรือมากกว่า

ตัวเลขเหล่านี้ถูกประเมินจากการกระจายเชิงประจักษ์ที่สร้างขึ้นโดยการเรียกใช้ Monte Carlo แบบธรรมดาใน R และปริมาณผลลัพธ์ที่เป็นผลลัพธ์ของการกระจายตัวตัวอย่าง

สำหรับจุดประสงค์ในการตอบคำถามต้นฉบับสมมติว่าคุณวาดลูกบอลสีขาว 5 ลูกมีโอกาส 4.8% โดยประมาณว่าถ้าถุงหินอ่อน 1,000 ใบมีลูกบอลสีขาว 10% มีลูกบอลสีขาว 10% คุณจะดึงผ้าขาว 5 ใบในตัวอย่าง 100 ชิ้น ซึ่งเท่ากับค่า ap <0.05 ตอนนี้คุณต้องเลือกระหว่าง

i) มีลูกบอลสีขาว 10% ในกระเป๋าและฉันเพิ่ง "โชคร้าย" วาดน้อยมาก

หรือ

ii) ฉันได้วาดลูกบอลสีขาวไม่กี่ลูกที่มีลูกบอลสีขาวไม่ถึง 10% (ปฏิเสธสมมติฐานของลูกบอลสีขาว 10%)


ก่อนอื่นนี่เป็นเพียงตัวอย่างที่ยิ่งใหญ่และไม่ได้อธิบายอย่างแท้จริงให้อธิบายแนวคิดเกี่ยวกับค่า p และค่าสถิติทดสอบ ประการที่สองคุณเพียงแค่อ้างว่าถ้าคุณได้รับหินอ่อนสีขาวน้อยกว่า 5 หรือมากกว่า 15 ตัวคุณก็จะปฏิเสธสมมติฐานว่าง การกระจายของคุณที่คุณคำนวณความน่าจะเป็นเหล่านั้นมาจากอะไร? สิ่งนี้สามารถประมาณได้ด้วยระยะทางปกติ มีศูนย์กลางที่ 10 โดยมีค่าเบี่ยงเบนมาตรฐานเท่ากับ 3. เกณฑ์การปฏิเสธของคุณไม่เข้มงวดพอ
Baltimark

ฉันยอมรับว่านี่เป็นเพียงตัวอย่างเท่านั้นและฉันก็เลือกหมายเลข 5 และ 15 ออกจากอากาศเพื่อเป็นตัวอย่าง เมื่อฉันมีเวลาฉันจะโพสต์คำตอบที่สองซึ่งฉันหวังว่าจะสมบูรณ์มากขึ้น
babelproofreader

10

สิ่งที่ค่า p ไม่ได้บอกคุณคือความเป็นไปได้ว่าสมมติฐานว่างเป็นจริง ภายใต้กรอบการทดสอบความสำคัญแบบดั้งเดิม (ฟิชเชอร์) เราจะคำนวณความน่าจะเป็นของการสังเกตข้อมูลที่สมมติว่าสมมติฐานว่างเป็นจริงนี่คือค่า p-value ดูเหมือนว่ามีเหตุผลอย่างสมเหตุสมผลแล้วสมมติว่าสมมติฐานว่างอาจเป็นเท็จหากข้อมูลไม่น่าจะเพียงพอที่จะสังเกตได้ภายใต้สมมติฐานว่าง นี่คือเหตุผลทั้งหมด นักสถิติใช้เกณฑ์และ "ปฏิเสธสมมติฐานว่างที่ระดับนัยสำคัญ 95%" ถ้า (1 - p)> 0.95; อย่างไรก็ตามนี่เป็นเพียงการประชุมที่พิสูจน์แล้วว่ามีเหตุผลในทางปฏิบัติ - ไม่ได้หมายความว่ามีความน่าจะเป็นน้อยกว่า 5% ที่สมมติฐานว่างเป็นเท็จ (และดังนั้นความน่าจะเป็น 95% ที่สมมติฐานทางเลือกเป็นจริง)

การถ่ายภาพฟังก์ชัน f () ที่แมปค่า p ลงบนความน่าจะเป็นที่สมมติฐานทางเลือกเป็นจริง มันจะสมเหตุสมผลที่จะยืนยันว่าฟังก์ชั่นนี้ลดลงอย่างเคร่งครัด (เช่นยิ่งการสังเกตภายใต้สมมติฐานว่างมากโอกาสน้อยกว่าสมมติฐานทางเลือกจะเป็นจริง) และให้ค่าระหว่าง 0 และ 1 (เนื่องจากให้การประมาณ ของความน่าจะเป็น) อย่างไรก็ตามนั่นคือทั้งหมดที่เรารู้เกี่ยวกับ f () ดังนั้นในขณะที่มีความสัมพันธ์ระหว่าง p และความน่าจะเป็นที่สมมติฐานทางเลือกเป็นจริงมันจะไม่ได้รับการปรับเทียบ ซึ่งหมายความว่าเราไม่สามารถใช้ค่า p เพื่อสร้างข้อความเชิงปริมาณเกี่ยวกับความเป็นไปได้ของสมมติฐานโมฆะและทางเลือก

Caveat lector: มันไม่ได้อยู่ในกรอบการทำงานบ่อย ๆ ที่จะพูดถึงความน่าจะเป็นที่สมมติฐานนั้นเป็นจริงเพราะมันไม่ใช่ตัวแปรสุ่ม - มันเป็นจริงหรือไม่ก็ได้ ดังนั้นที่ฉันได้พูดคุยเกี่ยวกับความน่าจะเป็นของความจริงของสมมติฐานที่ฉันได้ย้ายไปโดยปริยายตีความเบย์ มันไม่ถูกต้องในการผสม Bayesian และบ่อยครั้งอย่างไรก็ตามมีสิ่งล่อใจให้ทำเช่นนั้นเสมอเพราะสิ่งที่เราต้องการคือการบ่งชี้เชิงปริมาณของความน่าเชื่อถือ / ความน่าจะเป็นของสัมพัทธ์ แต่นี่ไม่ใช่สิ่งที่ค่า p มีให้


7

ในสถิติที่คุณไม่สามารถพูดอะไรบางอย่างแน่นอนดังนั้นนักสถิติใช้วิธีการอื่นเพื่อวัดว่าสมมติฐานเป็นจริงหรือไม่ พวกเขาพยายามปฏิเสธสมมติฐานอื่น ๆ ทั้งหมดที่ไม่ได้รับการสนับสนุนจากข้อมูล

เมื่อต้องการทำเช่นนี้การทดสอบทางสถิติมีสมมติฐานว่างและสมมติฐานสำรอง p-value ที่รายงานจากการทดสอบทางสถิติคือความน่าจะเป็นของผลลัพธ์ที่ระบุว่าสมมติฐานว่างถูกต้อง นั่นเป็นเหตุผลที่เราต้องการค่า p เล็ก ๆ ยิ่งมีขนาดเล็กผลลัพธ์ก็น่าจะน้อยลงหากสมมติฐานว่างถูกต้อง หาก p-value มีขนาดเล็กพอ (กล่าวคือมันไม่น่าเป็นไปได้มากที่ผลลัพธ์จะเกิดขึ้นหากสมมติฐานว่างถูกต้อง) ดังนั้นสมมติฐานว่างจะถูกปฏิเสธ

ในรูปแบบนี้สมมติฐานว่างสามารถกำหนดและปฏิเสธในภายหลัง หากสมมติฐานว่างถูกปฏิเสธคุณยอมรับสมมติฐานอื่นเป็นคำอธิบายที่ดีที่สุด เพียงจำไว้ว่าสมมติฐานทางเลือกนั้นไม่แน่นอนเนื่องจากสมมติฐานว่างอาจมีผลลัพธ์ได้


Pr(Tt|H0)Pr(T=t|H0)

5

ฉันไม่กล้าที่จะรื้อฟื้นหัวข้อเก่า แต่ฉันกระโดดจากที่นี่ดังนั้นฉันโพสต์สิ่งนี้เพื่อตอบคำถามในลิงค์

p-value เป็นคำที่เป็นรูปธรรมไม่ควรมีที่ว่างสำหรับการเข้าใจผิด แต่มันเป็นเรื่องลึกลับที่การแปลความหมายของคำนิยามของค่า p นำไปสู่การตีความที่แตกต่างกันหลายอย่าง ฉันคิดว่าต้นตอของปัญหาคือการใช้วลี "อย่างน้อยตรงข้ามกับสมมติฐานว่าง" หรือ "อย่างน้อยที่สุดเท่าที่เป็นหนึ่งในข้อมูลตัวอย่างของคุณ" เป็นต้น

ตัวอย่างเช่น Wikipedia พูดว่า

... p-value คือความน่าจะเป็นที่จะได้ผลลัพธ์ตัวอย่างที่สังเกตได้ (หรือผลลัพธ์ที่รุนแรงกว่า) เมื่อสมมติฐานว่างเปล่าเป็นจริง

p

ฉันคิดว่ามันจะดีกว่าที่จะปล่อยให้ "ผลที่มากขึ้น" เพื่อสิ่งที่ต้องการการกระทำคำพูดอ้อม ดังนั้นเวลาของฉันคือ

ค่า p คือความน่าจะเป็นที่ได้เห็นสิ่งที่คุณเห็นใน "โลกแห่งจินตนาการ" ซึ่งสมมติฐานว่างเปล่าเป็นจริง

xμ0=20N(20,1)

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

t0=nX¯μ0s

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

|t0|t0t(9)

pvalue=Pr(|t0|2.97)=0.01559054
2*(1 - pt(2.974405, 9))
#[1] 0.01559054

เนื่องจากค่า p มีขนาดเล็กจึงไม่น่าเป็นไปได้มากที่ตัวอย่างxจะถูกดึงขึ้นมาในโลกที่ถูกตั้งสมมติฐาน ดังนั้นเราจึงสรุปได้ว่ามันไม่น่าเป็นไปได้มากที่โลกสมมุติฐานนั้นในความเป็นจริงโลกแห่งความจริง


2
+1 แต่เมื่อคุณเขียน "ความน่าจะเป็นที่จะได้เห็นสิ่งที่คุณเห็น" และละเว้นส่วน "สุดขีด" ประโยคนี้จะกลายเป็นการพูดที่ผิดอย่างเคร่งครัด (และอาจทำให้เข้าใจผิดแม้ว่าจะทำให้สับสนน้อยลงก็ตาม) ไม่ใช่ความน่าจะเป็นที่จะเห็นสิ่งที่คุณเห็น (โดยปกติจะเป็นศูนย์) มันเป็นความน่าจะเป็นที่ได้เห็นสิ่งที่คุณเห็น "หรือสุดขั้ว" แม้ว่านี่อาจเป็นเรื่องที่ทำให้สับสนสำหรับหลาย ๆ คน แต่ก็ยังมีความสำคัญ (และเราสามารถโต้เถียงเกี่ยวกับระดับความรู้สึกส่วนตัวที่ไม่รู้จบซึ่งซ่อนอยู่เบื้องหลังถ้อยคำที่“ รุนแรงยิ่งกว่านี้” นี้)
อะมีบา

@ amoeba ฉันคิดว่าเมื่อมีตัวอย่างที่เพียงพอก็สามารถใช้เป็นพร็อกซีสำหรับ "การรับผลลัพธ์ตัวอย่างที่สังเกตได้ (หรือผลลัพธ์ที่รุนแรงกว่า)" อาจจำเป็นต้องใช้ถ้อยคำที่ดีกว่า
Khashaa

1
ฉันจะสังเกตเช่นเดียวกับ @amoeba; ส่วน "หรือสุดขีด" ได้รับการจัดการอย่างดีจากตัวอย่างในความสูงของนักเรียนและคำตอบงานเลี้ยงน้ำชา แต่ฉันไม่คิดว่าคำตอบใด ๆ ในหัวข้อนี้ได้อธิบายถึงคำอธิบายทั่วไปที่ชัดเจนของมันโดยเฉพาะอย่างยิ่งที่ครอบคลุมสมมติฐานที่แตกต่างกัน ฉันเห็นด้วยกับคำตอบนี้บอกว่าส่วน "หรือสุดขั้ว" เป็นจุดยึดแนวคิดสำหรับนักเรียนหลายคน
Silverfish

@Silverfish: และไม่เพียง แต่นักเรียน ฉันอ่านว่ามี Bayesian-vs-Frequists rants กี่คนที่พูดคุยเกี่ยวกับประเด็นส่วนตัว / ความเที่ยงธรรมของบิต "ยิ่งมาก" นี้!
อะมีบา

1
@Silver ฉันเห็นด้วยกับคำวิจารณ์ของคุณและได้โพสต์คำตอบที่พยายามจะแก้ไข "หรือมากกว่านั้น" เป็นประเด็นสำคัญของเรื่องนี้
whuber

4

ฉันพบว่ามีประโยชน์ในการติดตามลำดับที่คุณอธิบายแนวคิดตามลำดับต่อไปนี้: (1) คะแนน z และสัดส่วนด้านบนและด้านล่างของคะแนน z สมมติว่าเป็นเส้นโค้งปกติ (2) แนวคิดของการแจกแจงตัวอย่างและคะแนน z สำหรับตัวอย่างที่ได้รับหมายถึงเมื่อทราบค่าเบี่ยงเบนมาตรฐานของประชากร (และจากนั้นทดสอบซีตัวอย่างหนึ่ง) (3) การทดสอบตัวอย่างหนึ่งตัวอย่างและโอกาสของการ ตัวอย่างหมายถึงเมื่อไม่ทราบค่าเบี่ยงเบนมาตรฐานของประชากร (ประกอบไปด้วยเรื่องราวเกี่ยวกับตัวตนที่เป็นความลับของนักสถิติอุตสาหกรรมบางคนและเหตุใดจึงกินเนสส์ดีสำหรับสถิติ) (4) การทดสอบสองตัวอย่างและการกระจายตัวตัวอย่างของความแตกต่างเฉลี่ย ความง่ายในการที่นักเรียนเกริ่นนำเข้าใจว่าการทดสอบ t มีส่วนเกี่ยวข้องกับงานพื้นฐานที่จัดทำขึ้นสำหรับหัวข้อนี้

/ * อาจารย์ผู้สอนของนักเรียนหวาดกลัวโหมดปิด * /


4

ฉันพบว่าการจำลองเป็นประโยชน์ในการสอนด้วย

nN(μ,1)σ2=1H0:μ=μ0

ttstat:=n(X¯μ0)N(0,1)H0pΦ(tstat)pnorm(tstat)

N(μ0,1)μ0=2nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

0

"p-value" หมายถึงอะไรที่เกี่ยวข้องกับสมมติฐานที่กำลังทดสอบ

ในแง่ของภววิทยา (ความจริงคืออะไร) มันไม่มีความหมายอะไรเลย การทดสอบสมมติฐานใด ๆ ที่อยู่บนพื้นฐานของสมมติฐานทดสอบ นี่เป็นส่วนหนึ่งของการทดสอบ แต่ก็เป็นส่วนหนึ่งของแบบจำลองที่คุณใช้อยู่ (เช่นในแบบจำลองการถดถอย) เนื่องจากเราแค่สมมติว่าเป็นสิ่งเหล่านี้เราไม่สามารถรู้ได้ว่าเหตุผลที่ p-value นั้นต่ำกว่าขีด จำกัด ของเราหรือไม่นั้นเป็นเพราะค่าว่างนั้นเป็นเท็จ มันไม่ใช่ sequitur ที่จะอนุมานโดยไม่มีเงื่อนไขว่าเนื่องจากค่า p ต่ำเราต้องปฏิเสธ null ตัวอย่างเช่นมีบางอย่างในแบบจำลองอาจผิด

ในความรู้สึกญาณวิทยา (สิ่งที่เราสามารถเรียนรู้?) ก็หมายถึงบางสิ่งบางอย่าง คุณได้รับความรู้ตามเงื่อนไขในสถานที่ที่ยังไม่ผ่านการทดสอบว่าเป็นจริง ตั้งแต่ (อย่างน้อยก็จนถึงปัจจุบัน) เราไม่สามารถพิสูจน์ความจริงทุกเรื่องได้ความรู้ทั้งหมดของเราจะเป็นเงื่อนไข เราจะไม่ไปถึง "ความจริง"


-1

ฉันคิดว่าตัวอย่างที่เกี่ยวข้องกับหินอ่อนหรือเหรียญหรือการวัดความสูงนั้นสามารถทำได้ดีสำหรับการฝึกคณิตศาสตร์ แต่มันไม่ดีสำหรับการสร้างสัญชาตญาณ นักศึกษาวิทยาลัยชอบตั้งคำถามกับสังคมใช่ไหม วิธีการเกี่ยวกับการใช้ตัวอย่างทางการเมือง?

สมมติว่าผู้สมัครทางการเมืองใช้แคมเปญที่มีแนวโน้มว่านโยบายบางอย่างจะช่วยเศรษฐกิจ เธอได้รับเลือกเธอได้รับนโยบายตราและ 2 ปีต่อมาเศรษฐกิจกำลังเฟื่องฟู เธอพร้อมสำหรับการเลือกตั้งใหม่และอ้างว่านโยบายของเธอคือเหตุผลสำหรับความเจริญรุ่งเรืองของทุกคน คุณควรเลือกเธออีกครั้ง?

พลเมืองที่มีน้ำใจควรพูดว่า "ดีจริงอยู่ที่เศรษฐกิจกำลังดี แต่เราสามารถบอกคุณลักษณะนี้กับนโยบายของคุณได้หรือไม่" ในการตอบคำถามนี้อย่างแท้จริงเราต้องพิจารณาคำถามที่ว่า "เศรษฐกิจจะทำได้ดีใน 2 ปีที่ผ่านมาหรือไม่" หากคำตอบคือใช่ (เช่นเศรษฐกิจกำลังเฟื่องฟูเนื่องจากการพัฒนาเทคโนโลยีใหม่ที่ไม่เกี่ยวข้อง) เราก็ปฏิเสธคำอธิบายของนักการเมืองเกี่ยวกับข้อมูล

นั่นคือเพื่อตรวจสอบสมมติฐานหนึ่ง (นโยบายช่วยเศรษฐกิจ) เราจะต้องสร้างแบบจำลองของโลกที่สมมติฐานนั้นเป็นโมฆะ (นโยบายไม่เคยถูกตรา) จากนั้นเราทำการทำนายภายใต้โมเดลนั้น เราเรียกความน่าจะเป็นที่จะสังเกตข้อมูลนี้ในค่าp-value ของโลกอื่น หากค่า p สูงเกินไปเราจะไม่เชื่อตามสมมติฐาน - นโยบายไม่มีความแตกต่าง หากค่า p ต่ำเราเชื่อมั่นในสมมติฐาน - นโยบายเป็นสิ่งจำเป็น


1
ฉันไม่เห็นด้วยกับ p ที่ถูกนิยามว่า "เราเรียกความน่าจะเป็นที่จะสังเกตข้อมูลนี้ใน p-value ของโลกอื่น" และความแข็งแกร่งของข้อสรุปที่ถูกวาดขึ้นมา
Silverfish

@ Silververfish คุณช่วยได้ไหม อาจเป็นความถูกต้องที่จะเรียก p-value ว่าความน่าจะเป็นของการสังเกตหรือการสังเกตที่รุนแรง แต่ดูเหมือนว่าคุณจะมีคำวิจารณ์ที่ลึกซึ้งกว่า
cgreen

1
เนื่องจากคำถามเดิมถามว่าค่า p คืออะไรฉันจึงคิดว่าการให้คำจำกัดความนั้นอย่างชัดเจนเป็นสิ่งสำคัญ เพียงแค่พูดว่า "สุดโต่งยิ่งกว่า" ไม่ได้มีประโยชน์ในตัวเองมากนักหากไม่อธิบายว่า "สุดโต่งยิ่งกว่า" อาจหมายถึงอะไร - นั่นเป็นจุดอ่อนของคำตอบส่วนใหญ่ในหัวข้อนี้ที่ฉันคิดว่า มีเพียงคำตอบของ whuber และ "test test" เท่านั้นที่ดูเหมือนจะอธิบายได้อย่างชัดเจนว่าทำไม "มากเกินไป" ก็มีความสำคัญเช่นกัน
Silverfish

ฉันยังรู้สึกว่าข้อสรุปของคุณนั้นเป็นถ้อยคำที่รุนแรงเกินไป ถ้าเราปฏิเสธโมฆะเรามีหลักฐานสำคัญต่อมัน แต่ไม่รู้ว่ามันผิด เมื่อเราล้มเหลวในการปฏิเสธโมฆะนั่นไม่ได้หมายความว่าโมฆะจะเป็นจริง (แม้ว่ามันอาจจะเป็น) ในความคิดเห็นทั่วไปฉันมีความรู้สึกว่าแบบทดสอบที่คุณอธิบายในแง่นามธรรมค่อนข้างไม่น่าจะชัดเจนสำหรับผู้เรียนที่เพิ่งเรียนรู้วิธีการทำแบบทดสอบ การขาดสถิติการทดสอบที่กำหนดไว้อย่างชัดเจนไม่ได้ดีกับคำถามต้นฉบับที่ถามถึงวิธีการตีความt -statistic เช่นกัน
Silverfish

คุณสมบัติของคำตอบนี้ฉันชอบมาก ๆ คือคำอธิบายที่ชัดเจนว่าค่า p ถูกคำนวณโดยใช้แบบจำลองแบบ null แม้ว่าเราจะไม่เชื่อว่าแบบจำลองนั้นเป็นเรื่องจริงก็ตาม ฉันคิดว่าสถิติการทดสอบความจริงถูกคำนวณภายใต้แบบจำลองเป็นประเด็นสำคัญที่นักเรียนหลายคนต้องประสบ
Silverfish

-1

p

pX

0c1,FX|H0(inf{x:FX|H0(x)c})=c
FX|H0XH0

X

  1. p[0,1]
  2. [0,1]p

p


P

@whuber ขอบคุณสำหรับการป้อนข้อมูล ฉันได้แก้ไขคำจำกัดความแล้วและควรสมเหตุสมผลมากกว่าตอนนี้!
nalzok

1
X[0,1].

(θ,θ+1)θR,θ=0,X=(X1,,Xn).X(X)=X1.[0,1]H0:n=1X1=2:2

-4

ค่า p นั้นไม่ลึกลับเท่านักวิเคราะห์ส่วนใหญ่ เป็นวิธีที่ไม่ต้องคำนวณช่วงความเชื่อมั่นสำหรับการทดสอบ t แต่เพียงกำหนดระดับความเชื่อมั่นซึ่งสมมติฐานว่างสามารถปฏิเสธได้

ภาพประกอบ คุณรันการทดสอบ ค่า p มีค่าเท่ากับ 0.1866 สำหรับตัวแปร Q, 0.0023 สำหรับตัวแปร R (สิ่งเหล่านี้แสดงเป็น%)

หากคุณกำลังทดสอบที่ระดับความมั่นใจ 95% เพื่อปฏิเสธค่า null ที่เป็นศูนย์

สำหรับ Q: 100-18.66 = 81.34%

สำหรับ R: 100-0.23 = 99.77%

ที่ระดับความเชื่อมั่น 95% Q ให้ความมั่นใจ 81.34% ในการปฏิเสธ ซึ่งต่ำกว่า 95% และไม่สามารถยอมรับได้ ยอมรับ NULL

R ให้ความมั่นใจ 99.77% ในการปฏิเสธ null เหนือกว่าที่ต้องการอย่างชัดเจน 95% เราจึงปฏิเสธค่าว่าง

ฉันเพิ่งแสดงให้เห็นว่าการอ่านค่า p ผ่านทาง 'ย้อนกลับ' ของการวัดมันขึ้นอยู่กับระดับความเชื่อมั่นที่เราปฏิเสธ hypo ที่เป็นโมฆะ


6
QR

@ cardinal ชี้ให้เห็นถึงจุดสำคัญ คุณจะไม่ยอมรับค่าว่าง
Patrick Coulombe

-8

****** ค่า p ในการทดสอบสมมติฐานเป็นการวัดความไวของการทดสอบค่า p ที่ต่ำกว่ายิ่งมีความไว หากตั้งค่าระดับนัยสำคัญที่ 0.05 ค่า p เป็น 0.0001 แสดงถึงความน่าจะเป็นสูงของผลการทดสอบที่ถูกต้อง ******


6
-1 สิ่งนี้ผิดอย่างชัดเจน คุณอาจต้องการอ่านคำตอบที่โหวตให้สูงกว่าก่อน
Momo
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.