Ziliak (2011) คัดค้านการใช้ค่า p และกล่าวถึงทางเลือกบางอย่าง พวกเขาคืออะไร


25

ในบทความล่าสุดที่กล่าวถึง demerits ของการพึ่งพา p-value สำหรับการอนุมานเชิงสถิติเรียกว่า"Matrixx v. Siracusano และ Student v. Fisher นัยสำคัญทางสถิติในการทดลอง" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak คัดค้านการใช้ค่า p ในย่อหน้าสุดท้ายเขาพูดว่า:

ข้อมูลเป็นสิ่งหนึ่งที่เรารู้และแน่นอน สิ่งที่เราต้องการทราบจริง ๆ คือสิ่งที่แตกต่างกันมาก: ความน่าจะเป็นของสมมติฐานที่เป็นจริง (หรืออย่างน้อยก็มีประโยชน์ในทางปฏิบัติ) จากข้อมูลที่เรามี เราต้องการทราบความน่าจะเป็นที่ยาทั้งสองนั้นแตกต่างกันและได้รับหลักฐานเท่าใด การทดสอบอย่างมีนัยสำคัญ - ขึ้นอยู่กับการเข้าใจผิดของเงื่อนไขการย้ายกับดักที่ฟิชเชอร์ล้มลง - ไม่ได้และไม่สามารถบอกเราว่าน่าจะเป็น ฟังก์ชั่นพลังงาน, ฟังก์ชั่นการสูญเสียที่คาดหวังและวิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ อีกมากมายที่สืบทอดมาจาก Student และ Jeffreys ซึ่งตอนนี้มีให้ใช้กันอย่างแพร่หลายและออนไลน์ฟรี

ฟังก์ชั่นพลังงานฟังก์ชั่นการสูญเสียที่คาดหวังและ "วิธีการตัดสินใจเชิงทฤษฎีและวิธีเบย์อื่น ๆ " คืออะไร? วิธีการเหล่านี้ใช้กันอย่างแพร่หลายหรือไม่? พวกเขามีอยู่ใน R หรือไม่? วิธีการที่แนะนำใหม่เหล่านี้มีการใช้งานอย่างไร? ตัวอย่างเช่นฉันจะใช้วิธีการเหล่านี้เพื่อทดสอบสมมุติฐานของฉันในชุดข้อมูลหรือไม่ฉันจะใช้การทดสอบสองตัวอย่างแบบทั่วไปและค่า p


มีเอกสารจำนวนมากที่โต้แย้งการใช้ value เพียงอย่างเดียว แต่มันขึ้นอยู่กับบริบท IMO คุณช่วยเพิ่มข้อมูลเพิ่มเติมเกี่ยวกับสิ่งที่คุณสนใจได้ไหม (เทียบกับประโยคสุดท้ายของคุณ)? พี
chl

2
ฉันไม่สามารถเข้าถึงบทความได้ แต่อาร์กิวเมนต์นี้บ่งชี้ความเข้าใจที่ค่อนข้างสมบูรณ์ว่าเกิดอะไรขึ้น แม้จะมีความเข้าใจที่ไม่สมบูรณ์ แต่ข้อสรุปที่ว่าสถิติอื่น ๆ นั้นมีค่าควรพิจารณานั้นสมเหตุสมผล ฟังก์ชั่นการสูญเสียที่คาดว่าจะเป็นเพียงการประมาณการที่คาดว่าจะคุ้มค่าของฟังก์ชั่นการสูญเสีย (เช่นข้อผิดพลาดแควร์, โลจิสติกและอื่น ๆ )
Iterator

เนื่องจากเมื่อเร็ว ๆ นี้มีการโพสต์เธรดที่คล้ายกันฉันจึงตั้งคำถามเกี่ยวกับหัวข้อนี้ในMeta CV
Silverfish

คำตอบ:


17

เสียงนี้เหมือนกระดาษที่แตกต่างกันโดยบุคคลที่สับสน ฟิชเชอร์ไม่ได้ตกหลุมพรางเช่นนี้แม้ว่าจะมีนักเรียนจำนวนมากที่ทำสถิติ

การทดสอบสมมติฐานเป็นปัญหาทางทฤษฎีการตัดสินใจ โดยทั่วไปแล้วคุณจะสิ้นสุดการทดสอบด้วยการกำหนดขีด จำกัด ระหว่างการตัดสินใจทั้งสอง (สมมุติฐานจริงหรือสมมุติฐานเท็จ) หากคุณมีสมมติฐานที่ตรงกับจุดเดียวเช่นคุณสามารถคำนวณความน่าจะเป็นของข้อมูลที่เกิดขึ้นเมื่อมันเป็นจริง แต่คุณจะทำอย่างไรถ้าไม่ใช่จุดเดียว? คุณจะได้รับการทำงานของ\สมมติฐานเป็นสมมุติฐานเช่นนี้และคุณได้รับฟังก์ชั่นดังกล่าวสำหรับความน่าจะเป็นในการสร้างข้อมูลที่สังเกตได้เนื่องจากมันเป็นจริง ฟังก์ชั่นนั่นคือฟังก์ชั่นพลังงาน มันคลาสสิคมาก ฟิชเชอร์รู้ทุกอย่างเกี่ยวกับมันθ=0θθ0

การสูญเสียที่คาดหวังเป็นส่วนหนึ่งของเครื่องจักรพื้นฐานของทฤษฎีการตัดสินใจ คุณมีสภาวะของธรรมชาติต่าง ๆ และข้อมูลต่าง ๆ ที่เป็นไปได้ที่เป็นผลมาจากพวกเขาและการตัดสินใจที่เป็นไปได้ที่คุณสามารถทำได้และคุณต้องการค้นหาฟังก์ชันที่ดีจากข้อมูลไปสู่การตัดสินใจ คุณให้คำจำกัดความที่ดีได้อย่างไร? เมื่อพิจารณาถึงลักษณะเฉพาะของข้อมูลที่คุณได้รับและการตัดสินใจของขั้นตอนนั้นการสูญเสียที่คาดหวังของคุณคืออะไร สิ่งนี้เข้าใจได้ง่ายที่สุดในปัญหาทางธุรกิจ (ถ้าฉันทำตามยอดขายที่ฉันสังเกตเห็นในสามไตรมาสที่ผ่านมาการสูญเสียทางการเงินที่คาดหวังคืออะไร)

ขั้นตอนแบบเบย์เป็นส่วนหนึ่งของกระบวนการทางทฤษฎีการตัดสินใจ การสูญเสียที่คาดหวังไม่เพียงพอที่จะระบุขั้นตอนที่ดีที่สุดที่ไม่ซ้ำกันในทุกกรณียกเว้นเรื่องเล็กน้อย หากโพรซีเดอร์หนึ่งดีกว่าโพรซีเดอร์ทั้งในสถานะ A และ B เห็นได้ชัดว่าคุณจะชอบมากกว่านี้ แต่ถ้าโพรเซสหนึ่งนั้นดีกว่าในสถานะ A และอีกอันหนึ่งดีกว่าในสถานะ B ซึ่งคุณเลือก? นี่คือที่ความคิดเสริมเช่นขั้นตอน Bayes, ความบกพร่องน้อยที่สุดและความเป็นกลาง

t-test เป็นวิธีแก้ปัญหาการตัดสินใจเชิงทฤษฎีที่ดีอย่างสมบูรณ์แบบ คำถามคือว่าคุณจะเลือกทางลัดในการที่คุณคำนวณ ค่าที่กำหนดของสอดคล้องกับค่าที่กำหนดของ , ความน่าจะเป็นของข้อผิดพลาดประเภท I และชุดของ powersกำหนดขึ้นอยู่กับขนาดของพารามิเตอร์พื้นฐานที่คุณกำลังประเมิน มันเป็นการประมาณเพื่อใช้สมมุติฐานจุดว่าง? ใช่. ปกติแล้วมันจะมีปัญหาในทางปฏิบัติหรือไม่? ไม่เช่นเดียวกับการใช้ทฤษฎีโดยประมาณของ Bernoulli สำหรับการเบี่ยงเบนลำแสงมักจะดีในวิศวกรรมโครงสร้าง การมีค่าไร้ประโยชน์หรือไม่ ไม่บุคคลอื่นที่กำลังดูข้อมูลของคุณอาจต้องการใช้เสื้อเสื้อαβพีαกว่าคุณและค่ารองรับการใช้งานนั้นพี

ฉันยังสับสนเล็กน้อยว่าทำไมเขาถึงตั้งชื่อนักเรียนและเจฟฟรีย์ด้วยกันเพราะฟิชเชอร์รับผิดชอบในการเผยแพร่ผลงานของนักเรียนในวงกว้าง

โดยพื้นฐานแล้วการใช้ p-values ​​แบบตาบอดนั้นเป็นแนวคิดที่ไม่ดีและเป็นแนวคิดที่ค่อนข้างละเอียด แต่นั่นก็ไม่ได้ทำให้ไร้ประโยชน์เลย เราควรคัดค้านการใช้งานในทางที่ผิดโดยนักวิจัยที่มีภูมิหลังทางคณิตศาสตร์ไม่ดีหรือไม่? อย่างแน่นอน แต่ขอให้จำไว้ว่าสิ่งที่ดูเหมือนว่าก่อนที่ฟิชเชอร์พยายามที่จะกลั่นบางสิ่งบางอย่างลงเพื่อให้ชายในสนามที่จะใช้


5
+1 สำหรับการตอบคำถามจริง ๆ และ +1 เพิ่มเติม (แต่เสมือน) สำหรับการเสนอราคาท้าทายซึ่งเป็นเรื่องเร้าใจ แต่มีปัญหา ฉันเห็นว่าคุณเป็นผู้เข้าร่วมเมื่อไม่นานมานี้ แต่ได้ให้คำตอบมากมายแล้ว: ขอบคุณมาก ๆ และยินดีต้อนรับสู่เว็บไซต์ของเรา!
whuber

ขอบคุณมากสำหรับคำตอบโดยละเอียดของคุณ ช่วยให้คิดเกี่ยวกับกลยุทธ์ทางเลือกที่เสนอในบทความนี้อย่างยิ่ง ฉันถามคำถามนี้เพราะเพื่อนร่วมงานบางคนใช้กระดาษนี้เพื่อบอกว่าเราไม่ควรมองค่า p เลยและฉันก็รู้ว่าฉันไม่เข้าใจว่าทางเลือกเหล่านี้มีความหมายอย่างไร ขอบคุณสำหรับคำชี้แจงของคุณ!
Ariel

@ โฮเบอร์ฉันไม่คิดว่านี่จะตอบคำถามได้เลย OP ได้ถามถึงทางเลือกที่ Ziliak แนะนำและคำตอบนี้ไม่ได้กล่าวถึง ตัวอย่างเช่นการวิจารณ์อย่างมีนัยสำคัญของ Ziliak ทำให้ผู้คนใช้ความสำคัญ 5% หรือ 1% ไม่มีเหตุผลที่แน่ชัดและเขาสามารถติดตามระดับเหล่านี้กลับไปที่เอกสารของฟิชเชอร์ มันเป็นเพียงตัวเลขที่สะดวกและแน่นอน ซึ่งตรงข้ามกับวิธีการ "ทางเลือก" ที่ขึ้นอยู่กับข้อได้เปรียบทางการเงินเช่นค่าเงินดอลลาร์
อักซากัล

1
@ Aksakal ฉันเชื่อว่าการมีส่วนร่วมที่สำคัญทำให้การสนทนาโดยการทดสอบสมมติฐานที่เกี่ยวข้องกับปัญหาการตัดสินใจทางทฤษฎีและการเชื่อมต่อ p-value กับความเสี่ยงที่คาดหวังอย่างชัดเจน (ขึ้นอยู่กับฟังก์ชั่นการสูญเสีย 0-1)
whuber

6

ฉันแนะนำให้เน้นสิ่งต่าง ๆ เช่นช่วงความมั่นใจและการตรวจสอบแบบ Andrew Gelman ทำงานได้ดีเยี่ยมในเรื่องนี้ ฉันแนะนำหนังสือเรียนของเขา แต่ลองดูสิ่งที่เขาใส่ออนไลน์เช่นhttp://andrewgelman.com/2011/06/the_holes_in_my/


5

EZแพคเกจให้อัตราส่วนความน่าจะเป็นเมื่อคุณใช้ezMixed()ฟังก์ชั่นที่จะทำผลกระทบผสมการสร้างแบบจำลอง อัตราส่วนความน่าจะเป็นมีเป้าหมายที่จะหาปริมาณของหลักฐานสำหรับปรากฏการณ์โดยการเปรียบเทียบความน่าจะเป็น (ที่ได้รับข้อมูลที่สังเกตได้) ของทั้งสองรุ่น: โมเดล "จำกัด " ที่ จำกัด อิทธิพลของปรากฏการณ์ให้เป็นศูนย์และเป็นโมเดล "ไม่ จำกัด " ปรากฏการณ์ หลังจากแก้ไขความน่าจะเป็นที่สังเกตได้สำหรับความซับซ้อนที่แตกต่างกันของแบบจำลอง (ผ่านเกณฑ์ข้อมูลของ Akaike ซึ่งเท่ากับ asymptotically เทียบเท่ากับการตรวจสอบความถูกต้องข้าม) สัดส่วนปริมาณหลักฐานสำหรับปรากฏการณ์


4

เทคนิคทั้งหมดนั้นมีอยู่ใน R ในลักษณะเดียวกับที่พีชคณิตทั้งหมดมีอยู่ในดินสอของคุณ แม้ค่า p จะพร้อมใช้งานผ่านฟังก์ชั่นต่าง ๆ มากมายใน R การตัดสินใจว่าจะใช้ฟังก์ชันใดเพื่อรับค่า p หรือ Bayesian posterior นั้นซับซ้อนกว่าตัวชี้ไปยังฟังก์ชันหรือแพ็คเกจเดียว

เมื่อคุณเรียนรู้เกี่ยวกับเทคนิคเหล่านั้นและตัดสินใจว่าคำถามใดที่คุณต้องการคำตอบจริง ๆ แล้วคุณจะเห็น (หรือเราสามารถให้ความช่วยเหลือเพิ่มเติม) วิธีการใช้ R (หรือเครื่องมืออื่น ๆ ) เพียงแค่บอกว่าคุณต้องการลดฟังก์ชั่นการสูญเสียของคุณให้น้อยที่สุดหรือเพื่อให้การกระจายหลังเป็นเรื่องที่มีประโยชน์เช่นเดียวกับการตอบ "อาหาร" เมื่อถูกถามว่าคุณต้องการกินอะไรสำหรับอาหารค่ำ

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.