พล็อต QQ ดูปกติ แต่การทดสอบของ Shapiro-Wilk บอกเป็นอย่างอื่น

ใน R ฉันมีตัวอย่างของการวัด 348 รายการและต้องการทราบว่าฉันสามารถสันนิษฐานได้ว่าการกระจายนั้นปกติสำหรับการทดสอบในอนาคต

โดยพื้นฐานแล้วทำตามคำตอบสแต็คอื่นฉันกำลังดูพล็อตความหนาแน่นและพล็อต QQ ด้วย:

plot(density(Clinical$cancer_age))

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

ฉันไม่มีประสบการณ์ที่ดีในด้านสถิติ แต่พวกเขาดูเหมือนตัวอย่างของการแจกแจงแบบปกติที่ฉันเคยเห็น

จากนั้นฉันก็ทำการทดสอบ Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

ถ้าฉันตีความอย่างถูกต้องมันจะบอกฉันว่ามันปลอดภัยที่จะปฏิเสธสมมติฐานว่างซึ่งก็คือการแจกแจงเป็นเรื่องปกติ

อย่างไรก็ตามฉันได้พบกับโพสต์สแต็คสองโพสต์ ( ที่นี่และที่นี่ ) ซึ่งบ่อนทำลายประโยชน์ของการทดสอบนี้อย่างมาก ดูเหมือนว่าถ้ากลุ่มตัวอย่างมีขนาดใหญ่ (มีการพิจารณาว่าใหญ่เป็น 348 หรือไม่) มันจะพูดเสมอว่าการแจกแจงไม่ปกติ

ฉันจะตีความทั้งหมดนั้นได้อย่างไร ฉันควรติดกับพล็อต QQ และถือว่าการกระจายของฉันเป็นเรื่องปกติหรือไม่?

r normal-distribution

— francoiskroll
แหล่งที่มา

พล็อต qq ดูเหมือนว่าจะแสดงการออกเดินทางจากปกติในก้อย นอกจากนี้การทดสอบความมีประโยชน์ของความพอดีจะปฏิเสธในตัวอย่างที่มีขนาดใหญ่มากเพราะจะมีขนาดเล็กที่ออกจากปกติที่ตรวจพบ .. มันไม่ใช่คำวิจารณ์ของการทดสอบ Shapiro - Wilk แต่เป็นคุณสมบัติของการทดสอบเพื่อความดีพอดี

— Michael R. Chernick

ทำไมการสมมติว่าการแจกแจงแบบปกติมีความสำคัญต่อคุณ? คุณตั้งใจจะทำอะไรตามสมมติฐานนั้น

— Roland

เพียงเพื่อเพิ่มความคิดเห็นของ Roland - การทดสอบจำนวนมากที่ถือว่าการแจกแจงแบบปกติอย่างเป็นทางการนั้นค่อนข้างแข็งแกร่งภายใต้การออกเล็กน้อยจากภาวะปกติ (เช่นเนื่องจากการกระจายของสถิติการทดสอบนั้นถูกต้องเชิงเส้นกำกับ) หากคุณสามารถทำอย่างละเอียดเกี่ยวกับสิ่งที่คุณตั้งใจจะทำคุณอาจได้รับคำตอบที่เป็นประโยชน์

— P.Windridge

@ mdewey สังเกตที่คมชัด! มันไม่ได้เป็นอายุที่อุบัติการณ์ แต่ "อายุ" ของเนื้องอกที่วัดโดย DNA methylation

— francoiskroll

ฉันคิดว่ามันจะคุ้มค่าที่จะตรวจสอบการสังเกตการณ์จำนวนมากเพียงเล็กน้อยเพื่อตรวจสอบว่าพวกเขาเป็นข้อผิดพลาดในการวัดหรือไม่

— mdewey

คำตอบ:

คุณไม่มีปัญหาที่นี่ ข้อมูลของคุณไม่ปกติเล็กน้อยแต่เป็นเรื่องปกติที่ไม่ควรมีปัญหาใด ๆ นักวิจัยหลายคนทำการทดสอบทางสถิติโดยสมมติว่าเกณฑ์ปกติมีข้อมูลน้อยกว่าปกติมาก

ฉันจะเชื่อสายตาของคุณ ความหนาแน่นและแผนการแปลง QQ ดูสมเหตุสมผลแม้จะมีความเบ้บวกเล็กน้อยที่หาง ในความคิดของฉันคุณไม่จำเป็นต้องกังวลเกี่ยวกับการไม่ปกติสำหรับข้อมูลเหล่านี้

คุณมี N ประมาณ 350 และค่า p จะขึ้นอยู่กับขนาดตัวอย่างมาก ด้วยตัวอย่างขนาดใหญ่เกือบทุกสิ่งสามารถมีความหมาย สิ่งนี้ถูกกล่าวถึงที่นี่

มีคำตอบที่น่าเหลือเชื่อบางประการเกี่ยวกับโพสต์ที่ได้รับความนิยมอย่างมากซึ่งโดยทั่วไปแล้วมาถึงข้อสรุปว่าการทดสอบนัยสำคัญเชิงลบสำหรับสมมติฐานที่ไม่มีกฎเกณฑ์คือ"ไร้ประโยชน์เป็นหลัก" คำตอบที่ได้รับการยอมรับในการโพสต์นั้นเป็นการสาธิตที่ยอดเยี่ยมที่แม้ว่าข้อมูลจะถูกสร้างขึ้นจากกระบวนการแบบเกาส์เซียนขนาดตัวอย่างที่สูงเพียงพอทำให้การทดสอบไม่ปกติ

ขออภัยฉันตระหนักว่าฉันเชื่อมโยงกับโพสต์ที่คุณพูดถึงในคำถามเดิมของคุณ ข้อสรุปของฉันยังคงมีอยู่แม้ว่า: ข้อมูลของคุณไม่ผิดปกติซึ่งควรมีปัญหา

— มาร์คไวท์
แหล่งที่มา

เพียงเพราะผู้ค้นหาบางคนเลอะเทอะมากไม่ได้หมายความว่าคุณจะเลอะเทอะไปหน่อย :) อย่างไรก็ตามฉันเห็นด้วยกับการทดสอบทางสถิติหลายอย่างที่เป็นทางการอย่างเป็นทางการว่าทนต่อสิ่งที่คุณป้อน

— P.Windridge

"เพียงเพราะบางคนผู้ค้นหาเลอะเทอะมากไม่ได้หมายความว่าคุณจะเลอะเทอะนิดหน่อย :)" จุดประสงค์; นั่นเป็นข้อโต้แย้งที่ไม่ดีในส่วนของฉัน "อย่างไรก็ตามฉันเห็นด้วยกับการทดสอบทางสถิติจำนวนมากที่สันนิษฐานว่าเป็นเรื่องธรรมดาจริง ๆ แล้วค่อนข้างทนกับสิ่งที่คุณป้อน" ใช่แน่นอน. ศาสตราจารย์ควอนตัมคนใดที่ฉันเคยดูแปลง QQ แบบนี้แล้วพูดว่า "ใช่ก็ไม่เป็นไร"

— Mark White

การกระจายของคุณไม่ปกติ ดูหาง (หรือขาดมัน) ด้านล่างเป็นสิ่งที่คุณคาดหวังจากพล็อต QQ ปกติ

อ้างถึงโพสต์นี้เกี่ยวกับวิธีการตีความแปลง QQ ต่างๆ

โปรดทราบว่าในขณะที่การแจกจ่ายอาจไม่ปกติในทางเทคนิค แต่อาจเป็นเรื่องปกติที่จะมีคุณสมบัติเพียงพอสำหรับอัลกอริทึมที่ต้องใช้สภาวะปกติ

— แก้ไข
แหล่งที่มา

คุณกำลังพูดถึงอะไรฉันวิ่งตัวอย่างรูปแบบคิวคิวปกติ 9 รูปแบบโดยตรงจากการแจกแจงแบบปกติโดยใช้รหัส set.seed (100) par (mfrow = c (3,3)) สำหรับ (i ใน 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} และ plot (3,2) ดูคล้ายกับสถานการณ์ของ OP

— Josh

โดยทั่วไปแล้วคุณไม่ต้องการมุ่งเน้นไปที่ส่วนท้ายเพราะส่วนใหญ่จะเป็นเรื่องแปลก แต่หางที่ไม่ดีมากจะให้ผลลัพธ์ที่แย่ คุณต้องการที่จะมุ่งเน้นไปที่กลางจริงๆ

— Josh

คุณไม่ถูกต้องจอช โปรดยื่นอุทธรณ์ต่อการทดสอบปกติเพื่อตรวจสอบว่าสมมติฐานว่างของสภาวะปกติถูกปฏิเสธหรือไม่

— แก้ไขใหม่

คุณถูก. ตอนแรกฉันอ่านโพสต์ของคุณเนื่องจากแผนการคิวไม่ปกติพอและฉันขอโทษ

— Josh

@Josh กึ่งกลางของการกระจายแทบจะไม่สำคัญกับการทดสอบสมมติฐาน มันเป็นหางที่สำคัญ คุณย้อนกลับไป

— gung - Reinstate Monica