หมายถึงข้อผิดพลาดมาตรฐาน 2.04? วิธีการที่แตกต่างกันอย่างมีนัยสำคัญเมื่อช่วงความเชื่อมั่นที่ทับซ้อนกันกันอย่างแพร่หลาย?


10

ภาพด้านล่างเป็นจากบทความนี้ในวิทยาศาสตร์ทางจิตวิทยา เพื่อนร่วมงานชี้ให้เห็นสิ่งผิดปกติสองอย่างเกี่ยวกับเรื่องนี้:

  1. ตามคำบรรยายภาพแถบข้อผิดพลาดแสดง "ข้อผิดพลาดมาตรฐาน± 2.04, ช่วงความมั่นใจ 95%" ฉันเคยเห็นเพียง± 1.96 SE ใช้สำหรับ 95% CI และฉันไม่พบอะไรเกี่ยวกับ 2.04 SE ที่ถูกใช้เพื่อวัตถุประสงค์ใด ๆ 2.04 SE มีความหมายที่ยอมรับบ้างไหม?
  2. ข้อความระบุว่าการเปรียบเทียบแบบคู่ตามแผนพบว่ามีความแตกต่างอย่างมีนัยสำคัญสำหรับขนาดเฉลี่ยเริ่มต้นในข้อผิดพลาดเทียบกับการทดลองที่คาดการณ์ได้ถูกต้อง (t (30) = 2.51, p <.01) และข้อผิดพลาดเทียบกับ <.01) (การทดสอบ F ของรถโดยสารก็มีนัยสำคัญเช่นกันที่ p <.05) อย่างไรก็ตามกราฟแสดงแถบข้อผิดพลาดสำหรับทั้งสามเงื่อนไขซ้อนกันอย่างมาก หากช่วงเวลา± 2.04 SE ทับกันค่าจะแตกต่างอย่างมีนัยสำคัญที่ p <.05 อย่างไร การทับซ้อนมีขนาดใหญ่พอที่ฉันสมมติว่าช่วงเวลา± 1.96 SE ยังทับซ้อนกัน

กราฟแท่งแสดงแถบข้อผิดพลาด 2.04 SE


1
คำตอบที่ดี ฉันอยากจะเน้นย้ำว่า (ตามที่ whuber ได้ชี้ให้เห็นแล้ว) การเปรียบเทียบช่วงความมั่นใจ 95% นั้นไม่เหมือนกับการทดสอบทางสถิติที่ระดับนัยสำคัญ 0.05 มีเอกสารหลักสูตรที่เกี่ยวกับเรื่องนี้ หากช่วงความเชื่อมั่นเป็นเพียงสถิติที่มีให้Payton และคณะแนะนำให้ใช้ช่วงเวลา 85% สำหรับระดับนัยสำคัญ 0.05 สำหรับข้อมูล Gaussian พวกเขาปฏิบัติตามในการทำงานของพวกเขาที่นี่
Martin Berglund

1
ขอบคุณ @ มาร์ติน หากต้องการปิดลูป: แม้ว่าฉันจะไม่ได้ดูกระดาษPayton และคณะแต่พื้นฐานของ 85% นั้นชัดเจน: ค่า z ที่สอดคล้องกับ 84% เมื่อยกกำลังสองเท่ากับ2; การเพิ่มสองสิ่งเหล่านี้ให้4; รากที่สองของมันคือ2ซึ่งค่อนข้างค่า z ที่สอดคล้องกับช่วงเวลา 95% ฉันคิดว่าเพย์ตันปัดเศษขึ้น 84% เป็น 85% กล่าวอีกนัยหนึ่งข้อเสนอแนะของพวกเขา (แต่ได้มา) สามารถอธิบายได้ด้วยการวิเคราะห์ที่ฉันให้ไว้
whuber

@MartinBerglund และ whuber เข้ามาตอบคำถามของคุณเมื่อสงสัยว่าการคำนวณอิสระของฉันที่ 83.4% ช่วงความเชื่อมั่นสำหรับการทดสอบทางสถิติที่ระดับ 0.05 เป็นของจริงหรือไม่! ขอบคุณสำหรับการอ้างอิงกระดาษมีประโยชน์มาก
ละคร

คำตอบ:


11
  1. 2.04เป็นตัวคูณที่จะใช้กับการแจกแจงแบบนักเรียนด้วยความอิสระ 31 องศา ใบเสนอราคาแนะนำ30 องศาอิสระมีความเหมาะสมซึ่งในกรณีนี้ตัวคูณที่ถูกต้องคือ 2.0422722.04.

  2. หมายถึงมีการเปรียบเทียบในแง่ของข้อผิดพลาดมาตรฐาน ข้อผิดพลาดมาตรฐานมักจะเป็น1/n คูณค่าเบี่ยงเบนมาตรฐานโดยที่ n (น่าจะเป็นรอบ ๆ 30+1=31นี่คือขนาดตัวอย่าง หากคำอธิบายภาพถูกต้องในการเรียกบาร์เหล่านี้ "ข้อผิดพลาดมาตรฐาน" ดังนั้นค่าเบี่ยงเบนมาตรฐานจะต้องเป็นอย่างน้อย315.5 คูณสูงกว่าค่าโดยประมาณ 6ตามที่ปรากฏ. ชุดข้อมูลของ31 ค่าบวกกับค่าเบี่ยงเบนมาตรฐานของ 6×5.5=33 และค่าเฉลี่ยระหว่าง 14 และ 18 จะต้องมีค่ามากที่สุดอยู่ใกล้ 0และจำนวนมากของค่าขนาดใหญ่มหันต์ซึ่งดูเหมือนไม่น่าเป็นไปได้ (ถ้านี่เป็นเช่นนั้นแล้วการวิเคราะห์ทั้งหมดขึ้นอยู่กับสถิติเสื้อนักศึกษาจะไม่ถูกต้องอยู่แล้ว.) เราควรจะสรุปว่าตัวเลขน่าจะแสดงให้เห็นว่าการเบี่ยงเบนมาตรฐานข้อผิดพลาดที่ไม่ได้มาตรฐาน

  3. การเปรียบเทียบวิธีการไม่ได้ขึ้นอยู่กับช่วงเวลาที่ทับซ้อนกัน (หรือขาด) ของความมั่นใจ CIs 95% สองรายการสามารถซ้อนทับกัน แต่ยังคงสามารถบ่งชี้ถึงความแตกต่างที่สำคัญอย่างมาก เหตุผลก็คือว่าข้อผิดพลาดมาตรฐานของความแตกต่างใน ( อิสระ ) หมายถึงอย่างน้อยประมาณรากที่สองของผลรวมของกำลังสองของข้อผิดพลาดมาตรฐานของวิธีการ ตัวอย่างเช่นหากข้อผิดพลาดมาตรฐานของค่าเฉลี่ยของ14 เท่ากับ 1 และข้อผิดพลาดมาตรฐานของค่าเฉลี่ยของ 17 เท่ากับ 1จากนั้น CI ของค่าเฉลี่ยแรก (โดยใช้หลายค่า 2.04) จะขยายจาก 11.92 ถึง 16.08 และ CI ของวินาทีจะขยายจาก 14.92 ถึง 19.03มีการทับซ้อนกันอย่างมาก อย่างไรก็ตาม SE ของความแตกต่างจะเท่ากัน12+121.41. ความแตกต่างของวิธีการ1714=3มีค่ามากกว่า 2.04 คูณค่านี้: มันสำคัญ

  4. สิ่งเหล่านี้เป็นการเปรียบเทียบแบบคู่ ค่าแต่ละค่าสามารถแสดงความแปรปรวนได้มากในขณะที่ความแตกต่างอาจมีความสอดคล้องสูง ตัวอย่างเช่นชุดของคู่ชอบ(14,14.01), (15,15.01), (16,16.01), (17,17.01)ฯลฯ แสดงการเปลี่ยนแปลงในแต่ละองค์ประกอบ แต่ความแตกต่างมีความสม่ำเสมอ 0.01. แม้ว่าความแตกต่างนี้จะมีขนาดเล็กเมื่อเทียบกับองค์ประกอบใดส่วนประกอบหนึ่งความสอดคล้องของมันแสดงให้เห็นว่ามันมีนัยสำคัญทางสถิติ


ขอบคุณมาก. บทความไม่ได้ระบุไว้ทุกที่ที่การทดสอบแบบโพสต์เฉพาะกิจถูกเปรียบเทียบแบบคู่ระหว่างการตอบสนองของผู้เข้าร่วมในการทดลองทั้งสองประเภทและดังนั้นฉันจึงข้ามไปยังข้อสรุปที่พวกเขาปฏิบัติกับมันเป็นการเปรียบเทียบระหว่างเรื่อง (แม้ว่าจะเป็น เหมาะสมน้อยลงและมีประสิทธิภาพน้อยลง) ฉันคิดว่าคุณต้องพูดถูกและพวกเขาก็ทำการทดสอบที่ละเอียดอ่อนกว่า (และยากกว่าในการเขียนกราฟ) สำหรับจุดที่ 3 การตอบสนองของฉันเท่านั้นคือว่าผมอย่างชัดเจนต้องเรียนรู้สถิติบางอย่าง ...
octern

ฉันหยิบวลีหนึ่งขึ้นมาในคำถามของคุณ แม้ว่าส่วนที่เหลือของผลลัพธ์ที่คุณอ้างจะแนะนำว่าไม่ใช่การเปรียบเทียบแบบเป็นคู่ แต่น่าจะมาจากการคำนวณที่คล้ายกับในจุดที่ 3 ของคำตอบของฉัน
whuber

สิ่งที่ฉันหมายถึงคือพวกเขาทำแบบทดสอบหลังการเปรียบเทียบสองในสามเงื่อนไขต่อกันโดยตรงแทนที่จะทำแบบทดสอบรถโดยสารที่เปรียบเทียบทั้ง 3 เงื่อนไข ขออภัยเกี่ยวกับความสับสน แต่ตอนนี้ที่ฉันดูฉันคิดว่าคุณถูกต้องแล้ว วิธีที่พวกเขารายงานสถิติการทดสอบรถโดยสารF(2,60)=5.64, p<.05หมายความว่ามันเป็นการทดสอบซ้ำหลายครั้งและดังนั้นการทดสอบหลังจบก็น่าจะเป็นเช่นกัน
ตุลาคม

ขอบคุณสำหรับคำตอบที่ดี "เหตุผลก็คือว่าข้อผิดพลาดมาตรฐานของความแตกต่างใน (อิสระ) หมายถึงอย่างน้อยประมาณรากที่สองของผลรวมของกำลังสองของข้อผิดพลาดมาตรฐานของวิธีการ" ฉันกำลังมองหาข้อมูลอ้างอิงซึ่งพูดถึงเรื่องนี้ แต่ไม่สามารถหาได้ ฉันขอขอบคุณแนวทางบางอย่างในเรื่องนี้ อาจมีคนช่วยฉันออกมา?
โยฮันเนส

@ Johannes สแควร์ของ SE เป็นสัดส่วนกับความแปรปรวนของค่าเฉลี่ยตัวอย่าง (ค่าคงที่ของสัดส่วนขึ้นอยู่กับคำจำกัดความและอาจแตกต่างกันเล็กน้อยตามขนาดตัวอย่าง) อิสรภาพหมายถึงความแปรปรวนของการกระจายตัวตัวอย่างของความแตกต่างของค่าเฉลี่ยคือผลรวมของกำลังสองของ SE
whuber

3

ส่วนหนึ่งของความสับสนที่นี่คือการแสดงข้อมูลที่สับสน ดูเหมือนว่าจะเป็นการออกแบบมาตรการซ้ำ ๆ แต่แถบข้อผิดพลาดเป็นช่วงความมั่นใจว่าค่าเฉลี่ยที่แท้จริงนั้นดีเพียงใด วัตถุประสงค์หลักของการวัดซ้ำคือการหลีกเลี่ยงการรวบรวมข้อมูลเพียงพอที่จะได้รับการประเมินคุณภาพของค่าเฉลี่ยดิบ ดังนั้นแถบข้อผิดพลาดเช่นที่นำเสนอนั้นแทบไม่มีความเกี่ยวข้องกับเรื่องราวที่ถูกบอกเล่า มูลค่าของผลประโยชน์ที่สำคัญคือผลกระทบ ด้วยจุดประสงค์ของกราฟที่จะเน้นจุดหลักของเรื่องการสร้างกราฟเอฟเฟกต์และช่วงความมั่นใจจะเหมาะสมกว่า


ขอบคุณ! ฉันดิ้นรนนิดหน่อยเพื่ออธิบายว่าทำไมกราฟดูเหมือนไม่ได้แสดงถึงการวิเคราะห์
ตุลาคม
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.