การตีความผลลัพธ์ที่ไม่สำคัญว่าเป็น“ แนวโน้ม”


16

เมื่อเร็ว ๆ นี้เพื่อนร่วมงานสองคนต่างใช้ข้อโต้แย้งเกี่ยวกับความแตกต่างระหว่างเงื่อนไขที่ดูเหมือนว่าไม่ถูกต้องสำหรับฉัน เพื่อนร่วมงานทั้งสองคนนี้ใช้สถิติ แต่พวกเขาไม่ใช่นักสถิติ ฉันเป็นสามเณรในสถิติ

ในทั้งสองกรณีฉันเป็นที่ถกเถียงกันอยู่ว่าเนื่องจากไม่มีความแตกต่างอย่างมีนัยสำคัญระหว่างสองเงื่อนไขในการทดลองมันไม่ถูกต้องที่จะเรียกร้องทั่วไปเกี่ยวกับกลุ่มเหล่านี้เกี่ยวกับการจัดการ โปรดทราบว่า "การอ้างสิทธิ์ทั่วไป" หมายถึงบางสิ่งบางอย่างเช่นการเขียน: "กลุ่ม A ที่ใช้ X บ่อยกว่ากลุ่ม B"

เพื่อนร่วมงานของฉันตอบโต้ด้วย: "แม้ว่าจะไม่มีความแตกต่างอย่างมีนัยสำคัญ แต่แนวโน้มยังคงมีอยู่" และ "แม้ว่าจะไม่มีความแตกต่างอย่างมีนัยสำคัญ แต่ก็ยังคงมีความแตกต่าง" สำหรับฉันเสียงทั้งสองนี้เหมือนกับการพูดกำกวมคือพวกเขาเปลี่ยนความหมายของ "ความแตกต่าง" จาก: "ความแตกต่างที่น่าจะเป็นผลมาจากสิ่งอื่นที่ไม่ใช่โอกาส" (เช่นนัยสำคัญทางสถิติ) เป็น "สิ่งใด ๆ ที่ไม่ใช่ - ศูนย์แตกต่างในการวัดระหว่างกลุ่ม "

คำตอบของเพื่อนร่วมงานของฉันถูกต้องหรือไม่? ฉันไม่ได้ใช้มันกับพวกเขาเพราะพวกเขาอยู่เหนือกว่าฉัน


ฉันพบบทความเหล่านี้มีประโยชน์ยังไม่สำคัญ และSignficant Marginally
user20637

คำตอบ:


26

นี่เป็นคำถามที่ยอดเยี่ยม คำตอบนั้นขึ้นอยู่กับบริบทเป็นอย่างมาก

โดยทั่วไปฉันจะบอกว่าคุณพูดถูก : การอ้างสิทธิ์โดยไม่มีเงื่อนไขเช่น "กลุ่ม A ที่ใช้ X บ่อยกว่ากลุ่ม B" นั้นทำให้เข้าใจผิด มันจะเป็นการดีกว่าถ้าจะพูดอะไรทำนองนี้

ในกลุ่มการทดสอบของเรา A ใช้ X บ่อยกว่ากลุ่ม B แต่เราไม่แน่ใจว่ามันจะเกิดขึ้นได้อย่างไรในประชากรทั่วไป

หรือ

แม้ว่ากลุ่ม A ใช้ X 13% บ่อยกว่ากลุ่ม B ในการทดลองของเรา แต่การประมาณความแตกต่างในประชากรทั่วไปของเรายังไม่ชัดเจน : ค่าที่เป็นไปได้มีค่าตั้งแต่ A โดยใช้ X 5% น้อยกว่ากลุ่ม B ถึง A โดยใช้ X 21% บ่อยกว่ากลุ่ม B

หรือ

กลุ่ม A ใช้ X 13% บ่อยกว่ากลุ่ม B แต่ความแตกต่างนั้นไม่มีนัยสำคัญทางสถิติ (95% CI -5% ถึง 21%; p = 0.75)

ในทางตรงกันข้าม: เพื่อนร่วมงานของคุณถูกต้องว่าในการทดลองนี้กลุ่ม A ใช้ X บ่อยกว่ากลุ่ม B อย่างไรก็ตามผู้คนไม่ค่อยใส่ใจกับผู้เข้าร่วมในการทดลองหนึ่ง ๆ พวกเขาต้องการทราบว่าผลลัพธ์ของคุณจะทำให้ประชากรทั่วไปมีขนาดใหญ่ขึ้นอย่างไรและในกรณีนี้คำตอบทั่วไปคือคุณไม่สามารถพูดด้วยความมั่นใจได้ว่ากลุ่มที่เลือกแบบสุ่มจะใช้ X มากหรือน้อยกว่ากลุ่มที่สุ่มเลือก B

หากคุณต้องการเลือกในวันนี้เกี่ยวกับว่าจะใช้การรักษาหรือการรักษา B เพื่อเพิ่มการใช้ X ในกรณีที่ไม่มีข้อมูลอื่น ๆ หรือความแตกต่างในค่าใช้จ่ายอื่น ๆ แล้วการเลือก A จะเป็นทางออกที่ดีที่สุดของคุณ แต่ถ้าคุณต้องการความสะดวกสบายที่คุณอาจเลือกถูกต้องคุณจะต้องการข้อมูลเพิ่มเติม

โปรดทราบว่าคุณไม่ควรพูดว่า "ไม่มีความแตกต่างระหว่างกลุ่ม A และกลุ่ม B ในการใช้ X" หรือ "กลุ่ม A และกลุ่ม B ใช้ X ในจำนวนเดียวกัน" สิ่งนี้เป็นจริงไม่ได้มีส่วนร่วมในการทดสอบของคุณ (ที่ใช้ A มากขึ้น X 13%) หรือในประชากรทั่วไป ในบริบทโลกแห่งความเป็นจริงส่วนใหญ่คุณรู้ว่าต้องมีผลกระทบบางอย่าง (ไม่ว่าจะเล็กน้อย) ของ A vs. B; คุณไม่ทราบทิศทางที่จะไป


5
การตอบสนองที่สวยงามเบ็น! ฉันสงสัยว่าคำสั่งตัวอย่างที่สองของคุณสามารถแก้ไขเพื่อความชัดเจนเพื่อสะท้อนส่วนสำคัญของคำสั่งตัวอย่างแรก: "แม้ว่ากลุ่ม A ใช้ X 13% บ่อยกว่ากลุ่ม B ในค่าประสบการณ์ของเรา ความแตกต่างในการใช้ X ระหว่างกลุ่มในทั่วไป จำนวนประชากรไม่ชัดเจน : ช่วงที่เป็นไปได้ของความแตกต่างนั้นเริ่มจาก A โดยใช้ X 5% น้อยกว่ากลุ่ม B ถึง A โดยใช้ X 21% บ่อยกว่ากลุ่ม B
Isabella Ghement

3
ขอบคุณจดทะเบียนบางส่วน (พยายามที่จะสมดุลความกะทัดรัด / ความคมชัดและความถูกต้อง ... )
เบน Bolker

8
+1 ฉันคิดว่าหลายคนไม่เข้าใจว่าหากไม่มีหลักฐานทางสถิติความแตกต่างที่สังเกตอาจเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่เกิดขึ้นกับประชากร!
เดฟ

@ เดฟ: แม้ว่าการปรากฏตัวของ "หลักฐานทางสถิติ" (p- ค่านัยสำคัญทางสถิติ?) "ความแตกต่างที่สังเกตอาจเป็นสิ่งที่ตรงกันข้ามกับสิ่งที่เกิดขึ้นกับประชากร"
boscovich

@ boscovich แน่นอนว่าฉันกำลังพูดถึงสัมบูรณ์เมื่อเรากำลังทำสถิติ แต่ฉันคิดว่ามันเป็นค่า p ที่ไม่มีนัยสำคัญซึ่งหมายความว่าคุณยังไม่รู้ว่าเกิดอะไรขึ้นกับประชากร อย่างน้อยด้วยค่า p ที่มีนัยสำคัญคุณถึงเกณฑ์หลักฐานที่กำหนดไว้แล้วเพื่อแนะนำว่าคุณรู้อะไรบางอย่าง แต่แน่นอนเป็นไปได้ที่จะได้รับค่า p สำคัญเมื่อมีการระบุทิศทางผิด ข้อผิดพลาดนั้นควรเกิดขึ้นเป็นครั้งคราว
เดฟ

3

นั่นเป็นคำถามที่ยาก!

5% พี

H0ABXY H0พีพีH0 เป็นจริง (เช่นไม่มีแนวโน้ม)

พีH0H0พีH0

พี23%23%23%H0=0.5% พี-

XβH0: β=0β0

β=0

4%

ฉันหวังว่าคำอธิบายที่สั้นเกินไปนี้จะช่วยคุณเรียงลำดับความคิดของคุณ สรุปว่าคุณพูดถูกจริงๆ! เราไม่ควรกรอกรายงานของเราไม่ว่าจะเพื่อการวิจัยธุรกิจหรืออะไรก็ตามด้วยการอ้างสิทธิ์ที่ได้รับการสนับสนุนจากหลักฐานเพียงเล็กน้อย หากคุณคิดว่ามีแนวโน้มจริง ๆ แต่คุณไม่ได้มีนัยสำคัญทางสถิติให้ลองทำการทดสอบอีกครั้งด้วยข้อมูลเพิ่มเติม!


1
+1 สำหรับการชี้ให้เห็นว่าเกณฑ์ความสำคัญใด ๆเป็นกฎเกณฑ์โดยพลการ (และโดยนัยมันเป็นไปไม่ได้ที่จะสรุปการอ้างสิทธิ์แบบสัมบูรณ์เกี่ยวกับประชากรทั่วไปจากผลลัพธ์ในตัวอย่าง
ปีเตอร์ - Reinstate Monica

0

ผลกระทบที่สำคัญหมายถึงการที่คุณวัดความผิดปกติที่ไม่น่าจะเกิดขึ้น และเป็นผลให้มันต้องสงสัยด้วยความน่าจะเป็นสูง (แม้ว่าความน่าจะเป็นนี้ไม่เท่ากับ p-value และยังขึ้นอยู่กับความเชื่อก่อนหน้า)

ขึ้นอยู่กับคุณภาพของการทดสอบคุณสามารถวัดขนาดเอฟเฟกต์เดียวกันแต่อาจไม่ใช่ความผิดปกติ (ไม่ใช่ผลลัพธ์ที่ไม่น่าจะเกิดขึ้นหากสมมติฐานว่างจะเป็นจริง)

เมื่อคุณสังเกตถึงผลกระทบ แต่มันก็ไม่ได้มีนัยสำคัญดังนั้นแน่นอนว่ามัน (ผลกระทบ) ยังคงอยู่ที่นั่น แต่มันก็ไม่สำคัญ (การวัดไม่ได้บ่งชี้ว่าสมมติฐานว่างควรถูกสงสัย / ปฏิเสธด้วยความน่าจะเป็นสูง) หมายความว่าคุณควรปรับปรุงการทดสอบของคุณรวบรวมข้อมูลมากขึ้นเพื่อให้แน่ใจมากขึ้น

ดังนั้นแทนที่จะใช้ dichotomy effect กับ no-effect คุณควรเลือกสี่หมวดหมู่ต่อไปนี้:

สี่ประเภท

ภาพจากhttps://en.wikipedia.org/wiki/Equivalence_testอธิบายขั้นตอนการทดสอบแบบสองด้าน (TOST)

คุณดูเหมือนจะอยู่ในหมวดหมู่ D การทดสอบนั้นไม่สามารถสรุปได้ เพื่อนร่วมงานของคุณอาจผิดที่จะบอกว่ามีผลกระทบ อย่างไรก็ตามมันผิดพอ ๆ กันที่จะบอกว่าไม่มีผลกระทบ!


พี

@ David ฉันเห็นด้วยกับคุณอย่างสมบูรณ์ว่า p-value เป็นตัวชี้วัดอย่างแม่นยำมากขึ้นสำหรับ 'ความน่าจะเป็นที่เราทำผิดพลาดโดยมีเงื่อนไขว่าสมมติฐานว่างเปล่าเป็นจริง' (หรือความน่าจะเป็นที่จะเห็นผลลัพธ์ที่รุนแรงเช่นนี้) แสดง 'ความน่าจะเป็นที่สมมติฐานว่างเป็นโมฆะ' อย่างไรก็ตามฉันรู้สึกว่าค่า p ไม่ได้มีไว้เพื่อใช้ในความหมาย 'ทางการ' นี้ p-value ใช้เพื่อแสดงความสงสัยในสมมติฐานว่างเพื่อแสดงว่าผลลัพธ์บ่งชี้ความผิดปกติและความผิดปกติควรทำให้เราสงสัยว่าเป็นโมฆะ ....
Sextus Empiricus

.... ในกรณีของคุณเมื่อคุณแสดงให้เห็นถึงการท้าทายผลเป็นโมฆะ (ท้าทายความคิดที่ว่าใครไม่สามารถทำนายเหรียญ) โดยการให้กรณีที่หายาก (เช่นเดียวกับผู้หญิงชิมชา) แล้วเราควรมีข้อสงสัยในโมฆะ สมมติฐาน. ในทางปฏิบัติเราจะต้องตั้งค่า p ที่เหมาะสมสำหรับเรื่องนี้ (เพราะจริงๆแล้วอาจจะท้าทายโมฆะโดยโอกาสเท่านั้น) และฉันจะไม่ใช้ระดับ 1% ความน่าจะเป็นสูงที่จะสงสัยว่าโมฆะไม่ควรถูกบรรจุแบบหนึ่งต่อหนึ่งด้วยค่า p (เนื่องจากความน่าจะเป็นนั้นเป็นแนวคิดแบบเบย์มากกว่า)
Sextus Empiricus

ฉันได้ดัดแปลงข้อความเพื่อนำการตีความที่ผิดนี้ไปใช้
Sextus Empiricus

0

ดูเหมือนว่าพวกเขากำลังโต้เถียง p-value กับคำจำกัดความของ "Trend"

หากคุณพล็อตข้อมูลออกมาในแผนภูมิที่ทำงานอยู่คุณอาจเห็นแนวโน้ม ... จุดของการพล็อตที่แสดงแนวโน้มที่เพิ่มขึ้นหรือลดลงตามกาลเวลา

แต่เมื่อคุณทำสถิติเกี่ยวกับมัน .. ค่า p แนะนำมันไม่สำคัญ

สำหรับค่า p จะแสดงนัยสำคัญเล็กน้อย แต่สำหรับพวกเขาเพื่อดูแนวโน้ม / เรียกใช้ในชุดข้อมูล ... ที่จะต้องมีแนวโน้มเล็กน้อยมาก

ดังนั้นถ้าเป็นกรณีนี้ฉันจะถอยกลับไปที่ค่า p-.. .. IE: โอเคใช่มีแนวโน้ม / เรียกใช้ในข้อมูล .. แต่มันก็เล็กน้อยและไม่มีนัยสำคัญที่สถิติแนะนำว่ามันไม่คุ้มค่าที่จะดำเนินการต่อไป การวิเคราะห์.

แนวโน้มที่ไม่มีนัยสำคัญคือสิ่งที่อาจเกิดจากอคติบางอย่างในการวิจัย .. บางทีอาจเป็นสิ่งที่เล็กน้อยมาก .. บางสิ่งที่อาจเกิดขึ้นเพียงครั้งเดียวในการทดลองที่เกิดขึ้นเพื่อสร้างแนวโน้มเล็กน้อย

ถ้าฉันเป็นผู้จัดการของกลุ่มฉันจะบอกให้พวกเขาหยุดเสียเวลาและเงินที่ขุดไปสู่แนวโน้มที่ไม่มีนัยสำคัญและมองหาคนที่มีความสำคัญมากกว่า


0

ดูเหมือนว่าในกรณีนี้พวกเขามีเหตุผลเล็กน้อยสำหรับการเรียกร้องของพวกเขาและเป็นเพียงการใช้สถิติในทางที่ผิดเพื่อให้ได้ข้อสรุปที่พวกเขามีอยู่แล้ว แต่ก็มีบางครั้งที่มันโอเคที่จะไม่เข้มงวดกับการตัด p-val (วิธีการใช้นัยสำคัญทางสถิติและการลดค่า pval) เป็นการถกเถียงกันอย่างรุนแรงตั้งแต่ Fisher, Neyman และ Pearson ได้วางรากฐานของการทดสอบทางสถิติเป็นครั้งแรก

สมมติว่าคุณกำลังสร้างแบบจำลองและคุณกำลังตัดสินใจว่าจะรวมตัวแปรใดบ้าง คุณรวบรวมข้อมูลเล็กน้อยเพื่อทำการตรวจสอบเบื้องต้นเกี่ยวกับตัวแปรที่อาจเกิดขึ้น ขณะนี้มีตัวแปรตัวเดียวที่ทีมธุรกิจสนใจจริงๆ แต่การตรวจสอบเบื้องต้นของคุณแสดงให้เห็นว่าตัวแปรนั้นไม่มีนัยสำคัญทางสถิติ อย่างไรก็ตาม 'ทิศทาง' ของตัวแปรนั้นตรงกับสิ่งที่ทีมธุรกิจคาดหวังและแม้ว่าจะไม่ตรงตามเกณฑ์ที่มีนัยสำคัญ แต่ก็ใกล้เคียง บางทีมันอาจสงสัยว่ามีความสัมพันธ์เชิงบวกกับผลลัพธ์และคุณมีสัมประสิทธิ์เบต้าที่เป็นบวก แต่ pval นั้นอยู่เหนือการตัดออกเล็กน้อย. 05

ในกรณีนี้คุณอาจดำเนินการต่อและรวมไว้ มันเป็นสถิติแบบเบย์แบบไม่เป็นทางการ - มีความเชื่อมาก่อนว่ามันเป็นตัวแปรที่มีประโยชน์และการตรวจสอบเบื้องต้นแสดงให้เห็นว่ามีหลักฐานบางอย่างในทิศทางนั้น (แต่ไม่ใช่หลักฐานที่มีนัยสำคัญทางสถิติ!) ดังนั้นคุณจึงให้ประโยชน์ และเก็บไว้ในรูปแบบ บางทีอาจมีข้อมูลมากขึ้นซึ่งจะเห็นได้ชัดว่ามีความสัมพันธ์กับผลของความสนใจมากขึ้น

อีกตัวอย่างหนึ่งอาจเป็นที่ที่คุณกำลังสร้างแบบจำลองใหม่และคุณดูตัวแปรที่ใช้ในรุ่นก่อนหน้านี้ - คุณอาจรวมตัวแปรส่วนเพิ่ม (หนึ่งที่อยู่ในจุดสำคัญ) เพื่อรักษาความต่อเนื่องจากแบบจำลอง เพื่อรูปแบบ

โดยทั่วไปขึ้นอยู่กับสิ่งที่คุณทำมีเหตุผลที่จะเข้มงวดมากขึ้นเกี่ยวกับสิ่งต่าง ๆ เหล่านี้

ในอีกทางหนึ่งก็เป็นสิ่งสำคัญที่ต้องจำไว้ว่านัยสำคัญทางสถิติไม่จำเป็นต้องมีนัยสำคัญในทางปฏิบัติ! จำไว้ว่าหัวใจของทั้งหมดนี้คือขนาดตัวอย่าง รวบรวมข้อมูลเพียงพอและข้อผิดพลาดมาตรฐานของการประมาณจะลดลงเหลือ 0 ซึ่งจะสร้างความแตกต่างไม่ว่าจะเล็กเพียงใดก็ตาม 'มีนัยสำคัญทางสถิติ' แม้ว่าความแตกต่างนั้นอาจไม่ได้มีค่าอะไรในโลกแห่งความจริงก็ตาม ตัวอย่างเช่นสมมติว่าความน่าจะเป็นของการลงจอดเหรียญเฉพาะบนหัวคือ. 500000000000001 ซึ่งหมายความว่าในทางทฤษฎีคุณสามารถออกแบบการทดลองซึ่งสรุปได้ว่าเหรียญไม่ยุติธรรม แต่สำหรับทุกเจตนาและจุดประสงค์เหรียญจะถือว่าเป็นเหรียญที่ยุติธรรม

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.