SD มีขนาดใหญ่กว่าขนาดเฉลี่ย, ไม่ใช่แบบลบ


9

ฉันได้รับบทความรายงานการศึกษาที่คล้ายกับห้องแล็บที่ฉันต้องการเรียกใช้ แต่ฉันสังเกตเห็นว่าสำหรับตัวแปรที่น่าสนใจระยะเวลาเอกสารความปลอดภัยมีขนาดใหญ่กว่าค่าเฉลี่ย ... เนื่องจากนี่คือระยะเวลาที่วัดได้ในหน่วยนาทีมันจะไม่มีทางลบและสิ่งนี้ดูแปลกสำหรับฉัน เรื่องนี้เกิดขึ้นใน 2 รายงานการศึกษาด้านล่างเป็นหนึ่ง

ยิ่งไปกว่านั้นนี่คือการออกแบบผสม ควบคุมการรักษา (ระหว่างกลุ่ม) และเวลา 1, เวลา 2, เวลา 3 (วัดซ้ำ) นี่คือค่าเฉลี่ย (SDs), N> 200

                       Time1                Time2                  Time3 
Control               15.1 (14.6)          14.4 (14.8)            13.3 (15.7)
Treatment             14.8 (13.2)          10.0 (12.2)            8.2 (9.9)

... พวกเขาใช้ ANOVA และรายงาน p <.001

ฉันถูกขอให้ใช้สิ่งนี้เป็นพื้นฐานสำหรับการวิเคราะห์พลังงานเพื่อกำหนดขนาดตัวอย่างสำหรับการศึกษาของเรา ฉันค่อนข้างแน่ใจว่าสิ่งนี้บ่งชี้ว่าข้อมูลไม่ปกติหรือมีค่าผิดปกติและฉันรู้สึกไม่สะดวกใจที่จะกำหนดขนาดตัวอย่างตามสิ่งนี้ ฉันเพิ่งจะออกจากฐาน?


คุณแน่ใจหรือว่าเป็น SD และไม่ใช่ช่วงความมั่นใจ 95% ซึ่งอาจมากกว่า 3 * SD ดูเหมือนว่า SD เหล่านั้นมีขนาดใกล้เคียงกับค่าเฉลี่ย เป็นการยากที่จะบอกว่าขนาดตัวอย่างเป็นอย่างไรเพราะเราไม่รู้ว่าเอฟเฟกต์ใดรวมอยู่ในข้อผิดพลาดเหล่านั้นหรือแม้แต่สถิติ หากเป็นเพียงการนับสถิติเช่นการแจกแจงปัวซงรวมค่าเฉลี่ยใน SD ควรเป็น 1 / Sqrt (N) อย่างไรก็ตามนั่นหมายความว่า N = 1 (หรือน้อยที่สุด) คุณช่วยให้ข้อมูลเพิ่มเติมกับเราเกี่ยวกับสถิติเหล่านี้ได้อย่างไร
Dave31415

นอกจากนี้การแจกแจงแบบปกติมีค่าเฉลี่ยและ SD ที่เป็นอิสระจากกันอย่างสมบูรณ์ ฉันคิดว่าบางทีคุณหมายถึงการกระจาย Poisson
Dave31415

2
ด้วยระยะเวลาที่ไม่เป็นลบฉันมักจะคาดหวังว่าการแจกแจงแบบเบ้ เอกสารความปลอดภัยเทียบเคียงกับค่าเฉลี่ยนั้นเป็นไปได้อย่างสมบูรณ์และไม่น่าแปลกใจเลย การกระจายแบบใดที่ถือว่าดีที่สุดสำหรับการคำนวณอื่น ๆ ไม่สามารถให้คำแนะนำได้หากไม่มีข้อมูลเพิ่มเติม แต่ฉันจะไม่เลือกปัวซองว่าเป็นการคาดเดาครั้งแรกของฉัน
Nick Cox

ในฐานะที่เป็น @NickCox หมายเหตุ w / ระยะเวลาฉันจะแปลกใจถ้า SD ไม่ใหญ่กว่าค่าเฉลี่ย (ถ้าไม่มีการเซ็นเซอร์) คุณอาจพิจารณาการกระจาย Weibull การวิเคราะห์พลังงานอาจจะต้องเป็นแบบจำลอง ในบันทึกอื่นฉันจะเดาว่า ANOVA นั้นเป็นข้อมูลที่ไม่ถูกต้องเช่นนั้น
gung - Reinstate Monica

1
สำหรับชุดข้อมูลของตัวเลขที่ไม่ใช่ค่าลบค่าสัมประสิทธิ์ของการเปลี่ยนแปลง - อัตราส่วนของค่าเบี่ยงเบนมาตรฐานต่อค่าเฉลี่ย - สามารถใช้กับค่าที่มีขนาดใหญ่เท่ากับโดยมีค่าสูงสุดเกิดขึ้นในกรณีที่รุนแรง เมื่อตัวเลขทั้งหมดเป็นยกเว้นหนึ่ง (ดูคำถามนี้สำหรับรายละเอียด) ดังนั้นค่าเบี่ยงเบนมาตรฐานที่สูงกว่าค่าเฉลี่ยไม่ควรถูกมองว่าเป็นกรณีพิเศษที่ต้องอธิบายให้มาก nO(n)0
Dilip Sarwate

คำตอบ:


5

เป็นไปได้อย่างง่ายดายที่ค่าเบี่ยงเบนมาตรฐานจะสูงกว่าค่าเฉลี่ยด้วยข้อมูลที่ไม่เป็นลบหรือเป็นบวกอย่างเคร่งครัด

ฉันจะอธิบายกรณีของข้อมูลของคุณว่าค่าเบี่ยงเบนมาตรฐานใกล้เคียงกับค่าเฉลี่ย (ไม่ใช่ทุกค่าที่มีขนาดใหญ่กว่าและค่าที่ใกล้เคียงกว่าโดยทั่วไป) สำหรับข้อมูลที่ไม่เป็นลบมันค่อนข้างชัดเจนว่าข้อมูลนั้นเอียง (ตัวอย่างเช่นการแจกแจงแกมม่าที่มีสัมประสิทธิ์การเปลี่ยนแปลง = 1 จะเป็นการแจกแจงแบบเอ็กซ์โพเนนเชียลดังนั้นถ้าข้อมูลเป็นแกมม่า

อย่างไรก็ตามด้วยขนาดของกลุ่มตัวอย่างนั้น ANOVA อาจไม่ได้รับผลกระทบอย่างมากจากสิ่งนั้น ความไม่แน่นอนในการประมาณค่าความแปรปรวนแบบรวมจะค่อนข้างเล็กดังนั้นเราอาจพิจารณาว่าระหว่าง CLT (สำหรับค่าเฉลี่ย) กับทฤษฎีบทของ Slutsky (สำหรับการประมาณค่าความแปรปรวนของตัวส่วน) ANOVA อาจทำงานได้ดีพอสมควรเนื่องจากคุณ จะมีไคม์สแควร์แบบ asymptotic ซึ่ง ANOVA-F ที่มีตัวส่วนใหญ่ - องศา - อิสระจะเป็นการประมาณที่ดี (เช่นควรมีระดับความทนทานที่สมเหตุสมผลและเนื่องจากวิธีการไม่ได้อยู่ไกลจากค่าคงที่มากเกินไปพลังจึงไม่ควรได้รับผลกระทบอย่างรุนแรงจากความแตกต่างของ heteroskedasticity)

ที่กล่าวว่าหากการศึกษาของคุณจะมีขนาดตัวอย่างเล็กกว่าคุณอาจจะดูดีกว่าที่จะใช้แบบทดสอบอื่น (อาจเป็นการทดสอบการเปลี่ยนรูปหรืออีกแบบหนึ่งที่เหมาะสมกับข้อมูลที่เบ้บางทีอาจเป็นแบบอิง GLM) การเปลี่ยนแปลงในการทดสอบอาจต้องใช้ขนาดตัวอย่างที่ค่อนข้างใหญ่กว่าที่คุณจะได้รับสำหรับ ANOVA แบบตรง

ด้วยข้อมูลดั้งเดิมคุณสามารถทำการวิเคราะห์พลังงานภายใต้รูปแบบ / การวิเคราะห์ที่เหมาะสม แม้แต่ในกรณีที่ไม่มีข้อมูลดั้งเดิมเราสามารถตั้งสมมติฐานได้อย่างน่าเชื่อถือมากขึ้นเกี่ยวกับการแจกแจง (อาจจะหลากหลาย) และตรวจสอบเส้นโค้งพลังงานทั้งหมด (หรือมากกว่าเพียงแค่อัตราความผิดพลาดประเภทที่ 1 เป็นที่น่าสนใจ) สามารถใช้สมมติฐานที่สมเหตุสมผลหลากหลายซึ่งให้ความคิดว่าอำนาจใดที่จะบรรลุภายใต้สถานการณ์ที่เป็นไปได้และขนาดของกลุ่มตัวอย่างที่ใหญ่กว่านั้นอาจจำเป็นต้องใช้


4

คุณถูกต้องในการสรุปว่าข้อมูลไม่ปกติ หากข้อมูลเป็นเรื่องปกติเราคาดว่าประมาณ 16% ของการสังเกตจะน้อยกว่าค่าเฉลี่ยลบค่าเบี่ยงเบนมาตรฐาน ด้วย SD ที่มีขนาดใหญ่กว่าค่าเฉลี่ยหมายเลขนี้เป็นค่าลบและคุณระบุว่าไม่สามารถมีตัวเลขติดลบได้ดังนั้นสิ่งที่คุณเห็นไม่สอดคล้องกับข้อมูลที่แจกจ่ายแบบปกติ ค่า SD เป็นไปได้ แต่เฉพาะในกรณีที่การแจกแจงเบ้ถูกต้องมาก (ซึ่งเป็นเรื่องปกติในระยะเวลา)

ฉันยอมรับว่าการเลือกขนาดตัวอย่างตามข้อมูลที่สมมติว่าเป็นเรื่องปกติไม่ใช่ความคิดที่ดี แต่ถ้าคุณสามารถหาข้อมูลเพิ่มเติมเกี่ยวกับกระบวนการและหาการแจกแจงแบบเบ้ขวา (การกระจายแกมม่าเป็นความเป็นไปได้เพียงอย่างเดียว) นั่นคือสมมติฐานที่สมเหตุสมผล จากนั้นคุณสามารถใช้สิ่งนั้นเพื่อช่วยกำหนดขนาดตัวอย่าง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.