ฉันควรตรวจสอบความเป็นมาตรฐานอย่างไร: ข้อมูลดิบหรือสิ่งตกค้าง


27

ฉันได้เรียนรู้ว่าฉันต้องทดสอบความเป็นปกติไม่ใช่ข้อมูลดิบ แต่เป็นของที่เหลืออยู่ ฉันควรคำนวณส่วนที่เหลือแล้วทำการทดสอบ W ของ Shapiro – Wilk หรือไม่

เศษที่เหลือคำนวณเป็น:หรือไม่Xiค่าเฉลี่ย

โปรดดูคำถามก่อนหน้านี้สำหรับข้อมูลและการออกแบบของฉัน


คุณกำลังทำสิ่งนี้โดยใช้ซอฟต์แวร์ (และถ้าเป็นเช่นนั้นซอฟต์แวร์ใด) หรือคุณพยายามทำการคำนวณด้วยมือ?
Chris Simokat

@ Chris Simokat: ฉันพยายามที่จะทำเช่นนี้กับ R และ Statistica ...
สแตน

3
คำถามนี้อาจเป็นที่สนใจ: สิ่งที่ถ้าเหลือ - เป็น - ปกติกระจาย - แต่ - y - ไม่ - ; นอกจากนี้ยังครอบคลุมถึงประเด็นที่ว่าต้องมีความเป็นมาตรฐานของข้อมูลดิบหรือของเหลือใช้
gung - Reinstate Monica

1
ขออภัยฉันไม่เข้าใจพอที่จะรู้วิธีการทำสิ่งนี้โดยอัตโนมัติในสถานการณ์ที่แตกต่างกัน อย่างไรก็ตามเมื่อคุณเรียกใช้การถดถอยคุณควรจะสามารถบันทึกส่วนที่เหลือไปยังชุดข้อมูลเอาท์พุทและสามารถทำ qq-plot ได้
gung - Reinstate Monica

1
ข้อมูลที่ดีโดยชาวกะเหรี่ยงเกรซมาร์ติน: นี้และนี้
สแตน

คำตอบ:


37

ทำไมคุณต้องทดสอบความเป็นปกติ?

สมมติฐานมาตรฐานในการถดถอยเชิงเส้นคือส่วนที่เหลือทางทฤษฎีมีความเป็นอิสระและกระจายตามปกติ ค่าสังเกตที่เหลืออยู่เป็นค่าประมาณของค่าทางทฤษฎี แต่ไม่ได้เป็นอิสระ (มีการแปลงค่าส่วนที่เหลือซึ่งทำให้ค่าการพึ่งพาบางส่วนหายไป แต่ยังคงให้ค่าประมาณค่าส่วนที่เหลือจริงเท่านั้น) ดังนั้นการทดสอบค่าตกค้างที่สังเกตได้ไม่ได้รับประกันว่าค่าตกค้างทางทฤษฎีจะตรงกับ

ถ้าส่วนที่เหลือตามทฤษฎีไม่ได้กระจายตามปกติอย่างแน่นอน แต่ขนาดตัวอย่างมีขนาดใหญ่พอแล้วทฤษฎีลิมิต จำกัด กล่าวว่าการอนุมานปกติ (การทดสอบและช่วงความเชื่อมั่น แต่ไม่จำเป็นต้องทำนายช่วงเวลา) ตามสมมติฐานของภาวะปกติจะยังคงถูกต้องโดยประมาณ .

นอกจากนี้โปรดทราบว่าการทดสอบความเป็นปกติคือการทดสอบออกกฎพวกเขาสามารถบอกคุณได้ว่าข้อมูลไม่น่าจะมาจากการแจกแจงแบบปกติ แต่ถ้าการทดสอบไม่สำคัญที่ไม่ได้หมายความว่าข้อมูลมาจากการแจกแจงแบบปกติก็อาจหมายความว่าคุณไม่มีพลังมากพอที่จะเห็นความแตกต่าง ขนาดตัวอย่างที่ใหญ่ขึ้นนั้นให้พลังมากขึ้นในการตรวจจับความไม่ปกติ แต่ตัวอย่างที่ใหญ่กว่าและ CLT นั้นหมายความว่าการไม่ได้มาตรฐานนั้นมีความสำคัญน้อยที่สุด ดังนั้นสำหรับกลุ่มตัวอย่างขนาดเล็กข้อสันนิษฐานของภาวะปกติจึงมีความสำคัญ แต่การทดสอบนั้นไม่มีความหมายสำหรับขนาดตัวอย่างขนาดใหญ่การทดสอบอาจมีความแม่นยำมากขึ้น แต่คำถามของภาวะปกตินั้นแน่นอนจะไม่มีความหมาย

ดังนั้นการรวมทั้งหมดข้างต้นสิ่งที่สำคัญกว่าการทดสอบความเป็นบรรทัดฐานที่แน่นอนคือความเข้าใจในวิทยาศาสตร์หลังข้อมูลเพื่อดูว่าประชากรอยู่ใกล้เพียงพอหรือไม่ กราฟเช่น qqplots สามารถวินิจฉัยได้ดี แต่จำเป็นต้องมีความเข้าใจในวิทยาศาสตร์ด้วยเช่นกัน หากมีความกังวลว่ามีความเบ้หรือศักยภาพมากเกินไปสำหรับผู้ผิดกฎหมายวิธีการที่ไม่ใช้พารามิเตอร์จะมีให้ซึ่งไม่จำเป็นต้องมีข้อสันนิษฐานทั่วไป


6
เพื่อตอบคำถามในบรรทัดแรก: เกณฑ์ปกติโดยประมาณเป็นสิ่งสำคัญสำหรับการใช้การทดสอบ F ใน ANOVA และสำหรับการสร้างข้อ จำกัด ความมั่นใจรอบความแปรปรวน (+1) สำหรับความคิดที่ดี
whuber

4
@ โฮ่, ใช่ปกติประมาณเป็นสิ่งสำคัญ แต่การทดสอบทดสอบปกติแน่นอนไม่ประมาณ และสำหรับกลุ่มตัวอย่างขนาดใหญ่ที่ไม่จำเป็นต้องอยู่ใกล้เคียงโดยประมาณ (ซึ่งการทดสอบมักจะถูกปฏิเสธ) พล็อตที่ดีและความรู้ทางวิทยาศาสตร์ที่ผลิตข้อมูลนั้นมีประโยชน์มากกว่าการทดสอบเชิงบรรทัดฐานอย่างเป็นทางการหากคุณพิสูจน์ด้วยการใช้การทดสอบ F (หรือการอนุมานตามปกติอื่น ๆ )
เกร็กสโนว์

Greg, ตกลงฉันจะทำการจัดจำหน่ายที่เหมาะสมและดูข้อมูลของฉันมาจาก, บอกว่า, การแจกแจงแบบเบต้าหรือแกมมาและฉันควรทำอย่างไร? ANOVA ที่ถือว่าเป็นกฎหมายแบบเกาส์
สแตน

2
(+1) สิ่งนี้ทำได้ดียกเว้นในตอนท้าย คุณไม่จำเป็นต้องเลือกระหว่าง (a) การถดถอยโดยอิงตามสมมติฐานปกติและ (b) กระบวนการที่ไม่ใช่พารามิเตอร์ การแปลงก่อนการถดถอยและ / หรือตัวแบบเชิงเส้นแบบทั่วไปเป็นเพียงสองตัวเลือกหลัก ฉันรู้ว่าคุณไม่ได้พยายามที่นี่เพื่อสรุปทั้งหมดเกี่ยวกับการสร้างแบบจำลองทางสถิติ แต่ส่วนสุดท้ายสามารถขยายได้เล็กน้อย
Nick Cox

ดังนั้นในที่สุดในการถดถอยเชิงเส้นเราควรทดสอบความปกติของข้อมูลดิบหรือความปกติของเศษเหลือ
vasili111

7

การคำนวณแบบเกาส์หมายถึงเศษเหลือจากแบบจำลอง ไม่มีข้อสมมติฐานที่จำเป็นเกี่ยวกับข้อมูลต้นฉบับ ในกรณีที่มีการกระจายการขายเบียร์รายวัน ป้อนคำอธิบายรูปภาพที่นี่หลังจากรูปแบบที่เหมาะสมจับวันของสัปดาห์ผลวันหยุด / เหตุการณ์ระดับกะ / แนวโน้มเวลาที่เราได้รับป้อนคำอธิบายรูปภาพที่นี่


ขอบคุณสำหรับการตอบกลับของคุณ. คุณต้องการบอกว่าเราสามารถแปลงข้อมูลของเราเป็นการกระจายแบบเกาส์เซียน ... ?
สแตน

3
สแตนบทบาทของการสร้างแบบจำลองคือการทำสิ่งที่สามารถอนุมานได้และทดสอบสมมติฐาน
IrishStat

6

ก่อนอื่นคุณสามารถ "eyeball it" โดยใช้QQ-plotเพื่อรับความรู้สึกทั่วไปที่นี่คือวิธีสร้างหนึ่งใน R

ตามคู่มือ Rคุณสามารถป้อนข้อมูลเวกเตอร์ข้อมูลของคุณลงในฟังก์ชัน shapiro.test () ได้โดยตรง

หากคุณต้องการคำนวณเศษซากด้วยตัวเองใช่ว่ามีการคำนวณเศษซากแต่ละส่วนด้วยวิธีนั้นเหนือชุดการสังเกตของคุณ ท่านสามารถดูรายละเอียดเพิ่มเติมเกี่ยวกับเรื่องนี้ที่นี่


ดังนั้นเท่าที่ฉันเข้าใจวิธีการตามปกติจริง ๆ แล้วตรวจสอบปกติของส่วนที่เหลือของข้อมูลดิบของเรา พวกเขาทำสิ่งนั้นโดยอัตโนมัติและเราไม่ควรคำนวณสิ่งตกค้างและทดสอบพวกมัน และในการพูดในชีวิตประจำวันเรามักจะเปลี่ยนเป็น "ปกติแล้วข้อมูลของฉันจะถูกกระจาย" โดยถือว่าส่วนที่เหลือของข้อมูลของฉันเป็น "ปกติ" โปรดแก้ไขฉันด้วย
สแตน

6
ฉันไม่เห็นด้วยกับจุดสุดท้ายของคุณ คนที่พูดว่าข้อมูลของฉันมีการเผยแพร่ตามปกติมักจะไม่อ้างอิงถึงส่วนที่เหลือ ฉันคิดว่าผู้คนพูดอย่างนั้นเพราะพวกเขาคิดว่ากระบวนการทางสถิติทุกอย่างต้องการข้อมูลทั้งหมดให้เป็นปกติ
เกลน

@Glen พูดตรงไปตรงมาฉัน (ตู่) คิดเหมือนกัน ... ฉันไม่เข้าใจ (นี่คือปัญหาของฉัน) ถ้าฉันมีแกมมาหรือเบต้าหรือข้อมูลอะไรก็ตามที่ฉันควรจะทำสถิติการกระจายพวกเขาเช่นเดียวกับพวกเขาเป็นปกติ กระจายแม้จะมีการกระจายที่แท้จริง / ธรรมชาติของพวกเขา? และความจริงของการแจกแจงนั้นมีไว้เพื่อบ่งชี้เท่านั้น? ผมเคยรู้จักกันเท่านั้นเสียนกระจายก่อนที่เว็บไซต์นี้ ...
สแตน
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.