การอ้างถึงผลลัพธ์ว่า "เกือบ" หรือ "ค่อนข้าง" สำคัญหรือไม่


13

ฉันทามติทั่วไปเกี่ยวกับคำถามที่คล้ายกันมันผิดหรือไม่ที่อ้างถึงผลลัพธ์ว่า "สำคัญมาก" หรือไม่? คือ "มีความสำคัญสูง" เป็นวิธีที่ถูกต้องแม้ว่าจะไม่ใช่วิธีที่เฉพาะเจาะจงในการอธิบายความแข็งแกร่งของการเชื่อมโยงที่มีค่า p ต่ำกว่าขีด จำกัด นัยสำคัญที่คุณตั้งไว้ อย่างไรก็ตามสิ่งที่เกี่ยวกับการอธิบายค่า p ที่สูงกว่าเกณฑ์ของคุณเล็กน้อย? ฉันได้เห็นเอกสารบางฉบับใช้คำเช่น "ค่อนข้างมีนัยสำคัญ", "มีนัยสำคัญเกือบ", "ใกล้จะถึงความสำคัญ" และอื่น ๆ ฉันพบว่าคำศัพท์เหล่านี้มีความปรารถนาเล็กน้อยที่สกปรกในบางกรณีวิธีที่ไม่เหมาะสมในการดึงเส้นเขตแดนเพื่อดึงผลลัพธ์ที่มีความหมายออกมาจากการศึกษาที่มีผลลัพธ์เชิงลบ ข้อกำหนดเหล่านี้ยอมรับได้หรือไม่ที่จะอธิบายผลลัพธ์ที่ "เพิ่งพลาด" การตัดค่า p ของคุณหรือไม่


3
ฉันไม่เชื่อว่ามีใครแนะนำ "สำคัญ" ที่มีคุณสมบัติเหมาะสมเพื่ออธิบาย "ความแข็งแกร่งของสมาคม"; เสียงหลังดังขึ้นเหมือนการวัดขนาดของเอฟเฟกต์ อย่างไรก็ตามดูที่นี่สำหรับรายการฟูลเลอร์
Scortchi - Reinstate Monica

1
@ Scortchi - จากความเข้าใจของฉันค่า p ที่น้อยมากมีความสำคัญสูงซึ่งหมายถึงการเชื่อมโยงที่แข็งแกร่งระหว่างตัวแปรในคำถามและเป้าหมาย นี่คือผลลัพธ์ของขนาดเอฟเฟกต์ขนาดใหญ่ข้อมูลจำนวนมากหรือทั้งสองอย่าง สำหรับค่า p ขนาดใหญ่หลักฐานที่สนับสนุนความสัมพันธ์ระหว่างตัวแปรและเป้าหมายนั้นอ่อนแอ นอกจากนี้รักรายการในลิงค์ของคุณ
วังนิวเคลียร์

9
การได้รับ p-value เล็กมากสำหรับเอฟเฟกต์ขนาดเล็กอาจเรียกได้ว่าเป็น "การเชื่อมโยงที่แข็งแกร่ง" มันจะเป็นสมาคมที่ตรวจพบได้เท่านั้น
whuber

2
ฉันเคยเห็นคนใช้วลีเหล่านี้มากมายในอุตสาหกรรมไม่ใช่ในเอกสารทางวิชาการ
Aksakal

1
บางทีความรู้สึกไม่สบายของคุณอาจมาจากการเชื่อว่าค่า p (หรือตัวเลขอื่น ๆ ที่ได้จากตัวอย่าง) เป็นมาตรการที่คมชัดของบางสิ่ง
Eric Towers

คำตอบ:


14

หากคุณต้องการอนุญาตให้ "นัยสำคัญ" ยอมรับองศาก็ยุติธรรมพอ ("ค่อนข้างสำคัญ", "ค่อนข้างสำคัญ") แต่หลีกเลี่ยงวลีที่แนะนำว่าคุณยังคงแต่งงานกับแนวคิดของเกณฑ์เช่น "เกือบสำคัญ" , "กำลังใกล้เข้ามาถึงอย่างมีนัยสำคัญ" หรือ "เป็นจุดสำคัญ" (โปรดของฉันจาก"ยังไม่สำคัญ"ในบล็อกข้อผิดพลาดน่าจะเป็น ) หากคุณไม่ต้องการให้ปรากฏอย่างสิ้นหวัง


9
(+1) สำหรับลิงก์ แต่ผมคิดว่าไฮไลท์ของความคิดสร้างสรรค์บทกวีมี"teetering ในปากอย่างมีนัยสำคัญ (p = 0.06)"
Alecos Papadopoulos

1
@AlecosPapadopoulos: คุณพูดถูก "เจ้าชู้กับนัยสำคัญในระดับปกติ" & "โฉบเข้าใกล้ความสำคัญทางสถิติ" สมควรได้รับการกล่าวถึง "กึ่งสำคัญ" อาจจะเป็นผู้ชนะในประเภทที่แตกต่างกัน
Scortchi - Reinstate Monica

4
อันที่จริงสองคนแรกเป็นวิญญาณภาพยนตร์ที่แท้จริงครั้งแรกจากภาพยนตร์เรื่อง "Gigolo ทางสถิติ" (ใครจะเจ้าชู้กับระดับธรรมดา ?) ในขณะที่สองจากภาพยนตร์เรื่อง "Dying on the Tail" ที่เราเห็นอีแร้งอันตราย (p-value) ลอยอยู่เหนือฮีโร่ที่กำลังจะตาย (นัยสำคัญทางสถิติ)
Alecos Papadopoulos

1
โดยส่วนตัวแล้วฉันจะละทิ้งคำว่า 'สำคัญ' ในการใช้ถ้อยคำของฉันและโทรหา p = 0.06 'น่าสนใจทีเดียว' ถูกต้องหรือผิดเมื่อฉันพบค่า p ในหลักสูตร Six Sigma ครั้งแรกผู้สอนแนะนำว่าสำหรับ 0.05 <= 0.1 ฉลากที่ถูกต้องคือ 'ต้องการข้อมูลเพิ่มเติม' (ขึ้นอยู่กับการตั้งค่าอุตสาหกรรมที่มีจุดข้อมูลเพิ่มเติมยากที่จะได้รับ แตกต่างอย่างสิ้นเชิงกับสถานการณ์ 'Big Data' ใด ๆ
Robert de Graaf

6

จากมุมมองของฉันปัญหาเดือดลงไปที่สิ่งที่จริงหมายถึงการดำเนินการทดสอบอย่างมีนัยสำคัญ การทดสอบความสำคัญถูกออกแบบขึ้นเพื่อใช้ในการตัดสินใจว่าจะปฏิเสธสมมติฐานว่างหรือไม่ยอมรับมัน ฟิชเชอร์เองแนะนำกฎ 0.05 ที่น่าอับอายสำหรับการตัดสินใจ (โดยพลการ)

โดยพื้นฐานแล้วตรรกะของการทดสอบอย่างมีนัยสำคัญคือผู้ใช้จะต้องระบุระดับอัลฟาสำหรับการปฏิเสธสมมติฐานว่าง (ตามอัตภาพ 0.05) ก่อนรวบรวมข้อมูลก่อนที่จะเก็บรวบรวมข้อมูลหลังจากเสร็จสิ้นการทดสอบที่สำคัญผู้ใช้จะปฏิเสธค่า Null ถ้าค่า p น้อยกว่าระดับอัลฟา (หรือล้มเหลวในการปฏิเสธเป็นอย่างอื่น)

เหตุผลที่คุณไม่สามารถประกาศผลที่มีนัยสำคัญสูง (เช่นที่ระดับ 0.001) เป็นเพราะคุณไม่สามารถหาหลักฐานที่แข็งแกร่งกว่าที่คุณกำหนดไว้ ดังนั้นหากคุณตั้งค่าระดับอัลฟ่าของคุณที่ 0.05 ก่อนการทดสอบคุณจะพบหลักฐานที่ระดับ 0.05 เท่านั้นไม่ว่าค่า p ของคุณจะเล็กเพียงใด ในทำนองเดียวกันการพูดถึงเอฟเฟ็กต์ที่ค่อนข้าง "สำคัญ" หรือ "ใกล้ความสำคัญ" ก็ไม่สมเหตุสมผลนักเพราะคุณเลือกเกณฑ์นี้ที่ 0.05 หากคุณตีความตรรกะของการทดสอบอย่างมีนัยสำคัญอย่างแท้จริงทุกอย่างที่ใหญ่กว่า 0.05 นั้นไม่สำคัญ

ฉันยอมรับว่าคำเช่น "ความสำคัญใกล้เข้ามา" มักจะถูกนำมาใช้เพื่อเพิ่มโอกาสในการตีพิมพ์ อย่างไรก็ตามฉันไม่คิดว่าผู้เขียนสามารถถูกตำหนิได้เพราะวัฒนธรรมการตีพิมพ์ในปัจจุบันในบางศาสตร์ยังคงต้องอาศัย "จอกศักดิ์สิทธิ์" อย่างหนัก 0.05

บางส่วนของปัญหาเหล่านี้จะกล่าวถึงใน:

Gigerenzer, G. (2004) สถิติไม่สนใจ วารสารเศรษฐศาสตร์สังคม, 33 (5), 587-606

Royall, R. (1997) หลักฐานทางสถิติ: กระบวนทัศน์ความน่าจะเป็น (ฉบับที่ 71) กด CRC


1
คุณกำลังผสมผสานปรัชญาวิทยาศาสตร์ชาวประมงกับแนวทางของ Neyman / Pearson ถ้าคุณเพิ่มระดับอัลฟาเข้ากับการทดสอบความสำคัญของฟิชเชอร์
RBirkelbach

5

ความชันลื่นนี้โทรกลับไปยังเฟรมเวิร์ก vs vs Neyman / Pearson สำหรับการทดสอบนัยสำคัญ null-hypothesis (NHST) ในอีกด้านหนึ่งเราต้องการทำการประเมินเชิงปริมาณว่าผลลัพธ์ไม่น่าจะอยู่ภายใต้สมมติฐานว่าง (เช่นขนาดของผลกระทบ) ในอีกด้านหนึ่งในตอนท้ายของวันที่คุณต้องการการตัดสินใจที่ไม่ต่อเนื่องว่าผลลัพธ์ของคุณเป็นหรือไม่น่าจะเกิดจากโอกาสเพียงอย่างเดียว สิ่งที่เราได้มาด้วยคือวิธีการไฮบริดที่ไม่พอใจอย่างมาก

ในสาขาวิชาส่วนใหญ่ค่า p ทั่วไปสำหรับนัยสำคัญตั้งไว้ที่ 0.05 แต่ไม่มีเหตุผลว่าทำไมต้องเป็นเช่นนี้ เมื่อฉันตรวจสอบกระดาษฉันไม่มีปัญหากับผู้เขียนที่เรียก 0.06 สำคัญหรือแม้แต่ 0.07 โดยมีเงื่อนไขว่าวิธีการเสียงและภาพรวมทั้งหมดรวมถึงการวิเคราะห์ตัวเลขและอื่น ๆ ทั้งหมดบอกเล่าเรื่องราวที่สอดคล้องและน่าเชื่อถือ จุดที่คุณพบปัญหาคือเมื่อผู้เขียนพยายามทำเรื่องเล็ก ๆ น้อย ๆ ด้วยเอฟเฟกต์ขนาดเล็ก ในทางกลับกันฉันอาจไม่เชื่ออย่างเต็มที่ว่าการทดสอบนั้นมีความหมายในทางปฏิบัติแม้ว่าจะผ่านการทดสอบอย่างมีนัยสำคัญ p <0.05 ก็ตาม เพื่อนร่วมงานของฉันเคยพูดว่า: "สถิติของคุณควรสำรองข้อมูลที่ชัดเจนในร่างของคุณ"

ทั้งหมดที่กล่าวมาฉันคิดว่า Vasilev นั้นถูกต้อง เมื่อพิจารณาจากระบบสิ่งพิมพ์ที่เสียคุณต้องรวมค่า p ไว้แล้วดังนั้นคุณต้องใช้คำว่า "สำคัญ" อย่างจริงจังแม้ว่าจะต้องใช้คำคุณศัพท์เช่น "เล็กน้อย" (ซึ่งฉันชอบ) คุณสามารถต่อสู้กับมันได้ในการตรวจสอบโดยเพื่อน แต่คุณต้องไปที่นั่นก่อน


5

ความแตกต่างระหว่างค่า p สองค่าโดยทั่วไปนั้นไม่สำคัญ ดังนั้นไม่สำคัญว่าค่า p ของคุณคือ 0.05, 0.049, 0.051 ...

เกี่ยวกับค่า p เป็นค่าของความแข็งแกร่งของการเชื่อมโยง: ค่า p ไม่ได้เป็นการวัดความแข็งแกร่งโดยตรง p-value คือความน่าจะเป็นในการค้นหาข้อมูลสุดขีดหรือสุดขีดกว่าที่คุณสังเกตเห็นเนื่องจากพารามิเตอร์ถูกตั้งสมมติฐานเป็น 0 (ถ้าใครสนใจสมมติฐานว่าง - ดูความคิดเห็นของ Nick Cox) อย่างไรก็ตามนี่ไม่ใช่ปริมาณที่นักวิจัยสนใจนักวิจัยหลายคนค่อนข้างสนใจที่จะตอบคำถามเช่น "ความน่าจะเป็นที่พารามิเตอร์จะมีค่ามากกว่าค่าจุดตัดที่เลือกคืออะไร" หากนี่คือสิ่งที่คุณสนใจคุณจะต้องรวมข้อมูลก่อนหน้าเพิ่มเติมในแบบจำลองของคุณ


6
ฉันเห็นด้วยกับจิตวิญญาณของสิ่งนี้ แต่สิ่งเล็ก ๆ น้อย ๆ เช่นนี้ก็ต้องการความระมัดระวังอย่างเต็มที่ "กำหนดพารามิเตอร์จะถือว่าเป็น 0": บ่อยครั้ง แต่ไม่เสมอไป สามารถคำนวณค่า P สำหรับสมมติฐานอื่นได้เช่นกัน นอกจากนี้สำหรับ "สันนิษฐาน" อ่าน "ตั้งสมมติฐาน"
Nick Cox

คุณมีสิทธิ์โดยสิ้นเชิง - ฉันจะแก้ไขคำตอบของฉัน!
RBirkelbach

3

พี<αพี>α αสำหรับ "ผู้ยึดครอง" เช่น "เกือบสำคัญ" ก็ไม่สมเหตุสมผล แต่มันก็ถูกต้องสมบูรณ์แบบที่จะคิดค่า p ซึ่งเป็นการวัดความแข็งแกร่งของการสนับสนุนอย่างต่อเนื่อง(ไม่ใช่ความแข็งแกร่งของผลกระทบแน่นอน) สำหรับ "continualist" เช่น "เกือบสำคัญ" เป็นวิธีที่สมเหตุสมผลในการอธิบายผลลัพธ์ที่มีค่า p ปานกลาง ปัญหาเกิดขึ้นเมื่อผู้คนผสมผสานปรัชญาทั้งสองนี้ - หรือแย่กว่านั้นคือไม่รู้ว่าทั้งสองมีอยู่จริง (โดยวิธี - ผู้คนมักจะคิดแผนที่เหล่านี้อย่างละเอียดบน Neyman / Pearson และฟิชเชอร์ แต่พวกเขาทำไม่ได้ด้วยเหตุนี้คำเงอะงะที่ฉันยอมรับสำหรับพวกเขา) รายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ในบล็อกโพสต์ในหัวข้อนี้ที่นี่:https://scientistseessquirrel.wordpress.com/2015/11/16/is-nearly-significant-ridiculous/


1

ฉันมักจะคิดว่าการพูดอะไรบางอย่างที่มีนัยสำคัญทางสถิติเกือบจะไม่ถูกต้องจากมุมมองทางเทคนิค เมื่อคุณตั้งค่าระดับความอดทนของคุณแล้วการทดสอบนัยสำคัญทางสถิติจะถูกตั้งค่า คุณต้องกลับไปที่แนวคิดของการสุ่มตัวอย่างการแจกแจง หากระดับความอดทนของคุณคือ 0.05 และคุณได้รับ p-value 0.053 มันก็เป็นไปได้โดยบังเอิญที่ตัวอย่างที่ใช้ให้ผลทางสถิตินั้น คุณอาจได้รับอีกตัวอย่างที่อาจไม่ให้ผลลัพธ์เดียวกัน - ฉันเชื่อว่าความน่าจะเป็นที่เกิดขึ้นนั้นขึ้นอยู่กับระดับความอดทนที่ตั้งไว้และไม่ได้อยู่ในสถิติตัวอย่าง จำไว้ว่าคุณกำลังทดสอบตัวอย่างกับพารามิเตอร์ประชากรและกลุ่มตัวอย่างมีการแจกแจงตัวอย่างของตนเอง ดังนั้นในความคิดของฉันบางสิ่งบางอย่างมีนัยสำคัญทางสถิติหรือไม่


0

[0,1]H0พี>α

H1

ดูตัวอย่างวิกิพีเดีย


ฉันไม่ค่อยติดตามคุณ ใช่ในการแจกแจงแบบต่อเนื่องความน่าจะเป็นที่ได้รับผลลัพธ์เท่ากับ 0.051 นั้นเท่ากับความเป็นไปได้ที่จะได้รับผลที่แน่นอน 1 - มันเป็นศูนย์ แต่การทดสอบสมมติฐานตรวจสอบความน่าจะเป็นที่จะเห็นคุณค่าอย่างน้อยที่สุดเท่าที่สังเกตได้ คุณจะพบค่า p อย่างน้อยที่สุดเท่าที่ 1 แต่จะมีโอกาสน้อยกว่าที่จะเห็นค่า p มากสุดที่ 0.051 อะไรทำให้ความแตกต่างนั้น "ไร้ความหมาย"?
นิวเคลียร์วัง

ภายใต้ค่า Null มีความเป็นไปได้ที่จะสังเกตค่า p ในช่วงเวลา [0.05,0.051] เนื่องจากมันจะสังเกตค่า p ในช่วง [0.999,1] การสังเกตค่า p ใกล้เคียงกับขีด จำกัด นั้นไม่ได้เป็นหลักฐานเพิ่มเติมต่อ 0 ขณะที่สังเกตค่า p อื่น ๆ นอกเขตการปฏิเสธ
snaut

ค่าโทร ap บางอย่างที่มีนัยสำคัญ 0.05 ส่วนอื่น ๆ ใช้ 0.01 หรือ 0.1 เป็นเกณฑ์ ดังนั้นในบรรดานักวิจัย 3 คนที่ทำการวิเคราะห์แบบเดียวกันและหาค่า p-0.03 ทั้งสองอาจเรียกมันว่าสำคัญและอาจไม่ได้ หากพวกเขาทั้งหมดพบค่า p-0.91 จะไม่มีใครเรียกมันว่าสำคัญ ค่า p ใกล้เคียงกับค่าเฉลี่ยหมายความว่าบุคคลจำนวนมากจะเห็นว่ามีหลักฐานเพียงพอที่จะปฏิเสธค่าว่าง ฉันไม่เห็นว่าทำไม p = 0.051 และ p = 1 ควรแยกไม่ออกในแง่ของการสนับสนุน H1 - บางคนจะสนับสนุน H1 ด้วย p = 0.051 อย่างสมเหตุสมผล ไม่มีใครจะทำเช่นนั้นกับ p = 1
นิวเคลียร์วัง
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.