จะตรวจสอบการแจกแจงปกติโดยใช้ Excel สำหรับทำการทดสอบแบบทดสอบได้อย่างไร


21

ฉันต้องการทราบวิธีการตรวจสอบข้อมูลการตั้งค่าสำหรับภาวะปกติใน Excel เพียงเพื่อตรวจสอบว่ามีความต้องการสำหรับการใช้ t-test ถูกพบ

สำหรับหางด้านขวาเหมาะสมหรือไม่ที่จะคำนวณค่าเฉลี่ยและส่วนเบี่ยงเบนมาตรฐานเพิ่ม 1, 2 และ 3 ส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ยเพื่อสร้างช่วงจากนั้นเปรียบเทียบกับค่าปกติปกติ 68/95 / 99.7 สำหรับการกระจายปกติ ฟังก์ชัน norm.dist ใน excel เพื่อทดสอบค่าเบี่ยงเบนมาตรฐานแต่ละรายการ

หรือมีวิธีที่ดีกว่าในการทดสอบความเป็นปกติ?


คำตอบ:


15

คุณมีความคิดที่ถูกต้อง สิ่งนี้สามารถทำได้อย่างเป็นระบบครอบคลุมและมีการคำนวณที่ค่อนข้างง่าย กราฟของผลลัพธ์เรียกว่าพล็อตความน่าจะเป็นปกติ (หรือบางครั้งก็เป็นพล็อต PP) จากนั้นคุณสามารถดูมากรายละเอียดมากขึ้นกว่าที่ปรากฏในการรับรองกราฟิกอื่น ๆ โดยเฉพาะอย่างยิ่งhistogramsและมีการปฏิบัติน้อยคุณยังสามารถเรียนรู้ที่จะกำหนดวิธีการที่จะใหม่แสดงข้อมูลของคุณจะทำให้พวกเขาใกล้ชิดกับปกติในสถานการณ์ที่ว่าคือการรับประกัน

นี่คือตัวอย่าง:

สเปรดชีตที่มีพล็อตความน่าจะเป็น

ข้อมูลอยู่ในคอลัมน์A(และตั้งชื่อData) ส่วนที่เหลือเป็นการคำนวณทั้งหมดแม้ว่าคุณจะสามารถควบคุมค่า "อันดับบานพับ" ที่ใช้เพื่อให้พอดีกับบรรทัดอ้างอิงกับพล็อต

พล็อตนี้เป็น scatterplot เปรียบเทียบข้อมูลกับค่าที่จะบรรลุโดยตัวเลขที่วาดขึ้นอย่างอิสระจากการแจกแจงแบบปกติมาตรฐาน เมื่อจุดที่เรียงกันตามแนวทแยงมุมพวกเขาอยู่ใกล้กับปกติ การออกจากแนวนอน (ตามแกนข้อมูล) บ่งชี้การออกจากภาวะปกติ ในตัวอย่างนี้คะแนนจะอยู่ใกล้กับเส้นอ้างอิงอย่างน่าทึ่ง การออกเดินทางครั้งใหญ่ที่สุดเกิดขึ้นที่มูลค่าสูงสุดซึ่งอยู่ที่ประมาณ1.5หน่วยทางด้านซ้ายของบรรทัด ดังนั้นเราจะเห็นได้อย่างรวดเร็วว่าข้อมูลเหล่านี้ใกล้เคียงกับการกระจายแบบปกติ แต่อาจมีหางขวา "แสง" เล็กน้อย นี่เป็นสิ่งที่สมบูรณ์แบบสำหรับการใช้การทดสอบ t

ค่าการเปรียบเทียบบนแกนตั้งจะคำนวณในสองขั้นตอน ก่อนอื่นค่าข้อมูลแต่ละค่าจะถูกจัดอันดับจาก1ถึงnจำนวนของข้อมูล (แสดงในCountฟิลด์ในเซลล์F2) เหล่านี้จะถูกแปลงเป็นสัดส่วนกับค่าในช่วง0ไป11สูตรที่ดีในการใช้งาน (ยศ-1/6)/(n+2/3). (ดูhttp://www.quantdec.com/envstats/notes/class_02/characterizing_distribution.htmสำหรับที่มาจาก) จากนั้นค่าเหล่านี้จะถูกแปลงเป็นค่าปกติมาตรฐานผ่านทางNormSInvฟังก์ชัน ค่าเหล่านี้จะปรากฏในNormal scoreคอลัมน์ พล็อตที่อยู่ทางขวาคือ XY scatterplotplot Normal Scoreกับข้อมูล (ในการอ้างอิงบางอย่างคุณจะเห็นการแปลงของพล็อตนี้ซึ่งอาจดูเป็นธรรมชาติมากกว่า แต่ Excel ต้องการวางคอลัมน์ซ้ายสุดบนแกนนอนและคอลัมน์ขวาสุดบนแกนตั้งดังนั้นฉันจึงปล่อยให้มันทำตามที่ชอบ )

สเปรดชีต: การคำนวณคะแนนปกติ

(อย่างที่คุณเห็นฉันจำลองข้อมูลเหล่านี้ด้วยการสุ่มอย่างอิสระจากการแจกแจงแบบปกติที่มีค่าเฉลี่ย5และค่าเบี่ยงเบนมาตรฐาน2ดังนั้นจึงไม่น่าแปลกใจที่พล็อตความน่าจะเป็นดูดีมาก ๆ ) มีเพียงสองสูตรเท่านั้น ที่คุณเผยแพร่ลงไปตรงกับข้อมูลที่พวกเขาปรากฏในเซลล์B2:C2และพึ่งพาค่าคำนวณในเซลล์Count F2นั่นคือทั้งหมดที่มีให้มันนอกเหนือจากการวางแผน

ส่วนที่เหลือของแผ่นงานนี้ไม่จำเป็น แต่มันมีประโยชน์สำหรับการตัดสินพล็อต: มันมีการประมาณการที่แข็งแกร่งของสายอ้างอิง ทำได้โดยเลือกสองจุดที่เท่ากันจากด้านซ้ายและด้านขวาของพล็อตและเชื่อมต่อกับเส้น ในตัวอย่างคะแนนเหล่านี้เป็นอันดับต่ำสุดและสามที่สูงที่สุดตามที่กำหนดโดย3ในHinge Rankเซลล์, F3. เป็นโบนัสความชันและจุดตัดของมันคือการประมาณค่าเบี่ยงเบนมาตรฐานและค่าเฉลี่ยของข้อมูลตามลำดับ

พล็อตเส้นอ้างอิงที่สองจุดที่รุนแรงจะมีการคำนวณและเพิ่มให้กับพล็อต: การคำนวณของพวกเขาเกิดขึ้นในคอลัมน์I:Jป้ายและXY

สเปรดชีต: การคำนวณบรรทัดอ้างอิง


สำหรับสูตรใน Col B คุณจะอธิบายเหตุผลที่เพิ่ม 1 และหารด้วย 6 และ 3 (“ + 1/6” และ“ + 1/3”) หรือไม่ นอกจากนี้ยังมีเหตุผลที่คุณเลือกหารด้วย 6 ในเซลล์อันดับบานพับหรือไม่

1/6100×1/6100×5/601/21/40.16

สูตร (อันดับที่ 1/6) / (n + 1/3) ดูเหมือนจะไม่สมมาตรอย่างที่เราคาดไว้ เช่นกับการสังเกตระดับกลางของ 3 อันดับคือ 2 และนี่จะแนะนำเปอร์เซ็นต์ที่สอดคล้องกันของ 0.65 มากกว่าสิ่งที่ดูเหมือนจะเป็นธรรมชาติที่จะใช้สำหรับการสังเกตระดับกลาง (0.5) ฉันคิดถึงบางสิ่งที่ชัดเจนหรือไม่? [ฉันเคยเห็น Tukey ใช้สูตรที่แตกต่างกันไม่กี่แห่งในที่ต่างๆรวมถึง (i-1/3) / (n + 1/3) สูตรที่ลิงก์ของคุณสอดคล้องกับรูปแบบทั่วไป (ia) / (n + 1-2a) แต่สูตรที่คุณให้ไว้ในคำตอบของคุณไม่ได้]
Glen_b

R-an+1-2a
R1na011/6(R-1/6)/(n+2/3)a=1/3
whuber

5

คุณสามารถพล็อตกราฟแสดงความถี่โดยใช้ toolpack การวิเคราะห์ข้อมูลใน Excel วิธีการแบบกราฟิกมีแนวโน้มที่จะสื่อสารระดับของความไม่ปกติซึ่งมักจะเกี่ยวข้องกับการทดสอบสมมติฐานมากกว่า (ดูการอภิปรายเรื่องความเป็นปกติ )

ชุดเครื่องมือวิเคราะห์ข้อมูลใน Excel จะให้ความเบ้และความคลั่งไคล้คุณหากคุณขอสถิติเชิงพรรณนาและเลือกตัวเลือก "สรุปสถิติ" ตัวอย่างเช่นคุณอาจพิจารณาถึงค่าความเบ้สูงกว่าบวกหรือลบอย่างใดอย่างหนึ่งเป็นรูปแบบของการไม่ได้มาตรฐาน

ที่กล่าวว่าสมมติฐานที่มีการทดสอบ t- คือส่วนที่เหลือมีการกระจายตามปกติและไม่ตัวแปร นอกจากนี้พวกเขายังค่อนข้างแข็งแกร่งเช่นนี้ถึงแม้จะมีจำนวนไม่มากพอสมควร แต่ค่า p ก็ยังคงใช้ได้


4

คำถามนี้มีขอบเขตของทฤษฎีสถิติเช่นกัน - การทดสอบความเป็นมาตรฐานที่มีข้อมูล จำกัด อาจเป็นปัญหาได้ (แม้ว่าเราจะทำสิ่งนี้เป็นครั้งคราว)

เป็นอีกทางเลือกหนึ่งที่คุณสามารถดูค่าสัมประสิทธิ์เคิร์ตซีสและความเบ้ จากHahn และ Shapiro: โมเดลเชิงสถิติทางวิศวกรรมมีพื้นหลังบางอย่างเกี่ยวกับคุณสมบัติ Beta1 และ Beta2 (หน้า 42 ถึง 49) และรูปที่ 6-1 ของหน้า 197 ทฤษฎีเพิ่มเติมเบื้องหลังสามารถพบได้ใน Wikipedia (ดูการกระจายแบบ Pearson)

โดยทั่วไปคุณจะต้องคำนวณคุณสมบัติที่เรียกว่า Beta1 และ Beta2 A Beta1 = 0 และ Beta2 = 3 แนะนำว่าชุดข้อมูลเข้าใกล้ความปกติ นี่คือการทดสอบคร่าวๆ แต่ด้วยข้อมูลที่ จำกัด ก็อาจจะเป็นที่ถกเถียงกันอยู่ว่าการทดสอบใด ๆ อาจถูกพิจารณาว่าเป็นการทดสอบที่หยาบ

Beta1 เกี่ยวข้องกับช่วงเวลาที่ 2 และ 3 หรือความแปรปรวนและความเบ้ตามลำดับ ใน Excel เหล่านี้คือ VAR และ SKEW โดยที่ ... คืออาร์เรย์ข้อมูลของคุณสูตรคือ:

Beta1 = SKEW(...)^2/VAR(...)^3

Beta2 เกี่ยวข้องกับช่วงเวลาที่ 2 และ 4 หรือความแปรปรวนและkurtosisตามลำดับ ใน Excel เหล่านี้คือ VAR และ KURT โดยที่ ... คืออาร์เรย์ข้อมูลของคุณสูตรคือ:

Beta2 = KURT(...)/VAR(...)^2

จากนั้นคุณสามารถตรวจสอบสิ่งเหล่านี้กับค่า 0 และ 3 ตามลำดับ สิ่งนี้มีข้อดีของการระบุการกระจายอื่น ๆ (รวมถึงเพียร์สันดิสทริบิวชัน I, I (U), I (J), II, II (U), III, IV, V, VI, VII) ตัวอย่างเช่นการแจกแจงที่ใช้กันทั่วไปจำนวนมากเช่น Uniform, Normal, t, Beta, Gamma, Exponential และ Log-Normal ของนักเรียนสามารถระบุได้จากคุณสมบัติเหล่านี้:

Where:   0 <= Beta1 <= 4
         1 <= Beta2 <= 10 

Uniform:        [0,1.8]                                 [point]
Exponential:    [4,9]                                   [point] 
Normal:         [0,3]                                   [point]
Students-t:     (0,3) to [0,10]                         [line]
Lognormal:      (0,3) to [3.6,10]                       [line]
Gamma:          (0,3) to (4,9)                          [line]
Beta:           (0,3) to (4,9), (0,1.8) to (4,9)        [area]
Beta J:         (0,1.8) to (4,9), (0,1.8) to [4,6*]     [area]
Beta U:         (0,1.8) to (4,6), [0,1] to [4.5)        [area]
Impossible:     (0,1) to (4.5), (0,1) to (4,1]          [area]
Undefined:      (0,3) to (3.6,10), (0,10) to (3.6,10)   [area]

Values of Beta1, Beta2 where brackets mean:

[ ] : includes (closed)
( ) : approaches but does not include (open)
 *  : approximate 

สิ่งเหล่านี้แสดงใน Hahn และ Shapiro รูปที่ 6-1

ได้รับนี่คือการทดสอบคร่าวๆ (มีบางประเด็น) แต่คุณอาจต้องการพิจารณาว่าเป็นการตรวจสอบเบื้องต้นก่อนที่จะไปสู่วิธีการที่เข้มงวดยิ่งขึ้น

นอกจากนี้ยังมีกลไกการปรับแต่งเพื่อการคำนวณของ Beta1 และ Beta2 ที่มีข้อมูล จำกัด - แต่อยู่นอกเหนือโพสต์นี้


วัสดุนี้จำนวนมากสามารถทำงานได้ดีสำหรับชุดข้อมูลขนาดใหญ่และฉันเห็นด้วยกับการประเมินเริ่มต้นของคุณว่าการทดสอบเชิงบรรทัดฐานอาจมีข้อ จำกัด หรือสงสัยกับชุดข้อมูลขนาดเล็ก แต่ด้วยความแปรปรวนอย่างมากของความเบ้และความโด่งก็ดูเหมือนว่าความพยายามใด ๆ ที่จะระบุชนิดของการแจกแจงพื้นฐานตามสถิติเหล่านี้จะยิ่งน่าสงสัยและไม่แน่นอน ดังนั้นวิธีนี้จะไม่ทำให้เข้าใจผิด (ที่ดีที่สุด) แม้เป็นการตรวจสอบเบื้องต้นหรือไม่
whuber

1
อาจเป็นการดีที่สุดที่จะมีคุณสมบัติวิธีการเพิ่มเติม: Hahn และ Shapiro (ตามที่อ้างถึงด้านบน) แนะนำว่าควรใช้ความระมัดระวังโดยเฉพาะอย่างยิ่งเมื่อขนาดตัวอย่างน้อยกว่า 200 - และแนะนำให้ใช้การตรวจสอบเพิ่มเติมเช่นตารางความถี่ ที่เปรียบเทียบการกระจายการติดตั้งกับข้อมูลจริง แต่ในมุมมองของฉันมันเป็นวิธีการที่มีประโยชน์ที่สามารถแนะนำตำแหน่งที่ข้อมูลอาจอยู่ในช่วงคลื่นความถี่ของความเป็นไปได้ ฉันใช้มันกับชุดข้อมูลไม่น้อยกว่า 3,000 คร่าวๆและได้สร้างไว้ในซอฟต์แวร์จำลองคอมพิวเตอร์ซึ่งพิสูจน์แล้วว่ามีประโยชน์
AsymLabs

ฉันเห็นวิธีการของคุณให้ข้อมูลที่เป็นประโยชน์กับชุดข้อมูลที่ 3000 หรือมากกว่า อย่างไรก็ตามจากนั้นไม่จำเป็นต้องทำการทดสอบแบบกระจายเพื่อประเมินความเหมาะสมของการทดสอบค่า t
whuber

ไม่ว่าใครจะมองว่านี่เป็นเทคนิคที่มีประโยชน์อย่างที่ฉันทำหรืออย่างอื่นตามที่เห็นว่าเป็นมุมมองของคุณแต่ทว่ามันเป็นทางเลือกที่รวดเร็วและยาวนาน (โดยเพียร์สัน) ทางเลือกในการทดสอบความเป็นมาตรฐาน บริบทของเธรดนี้ โปรดอย่าเข้าใจฉันผิดฉันรับทราบและเห็นด้วยกับข้อกังวลของคุณ แต่เราทั้งสองจะตกลงกันหรือไม่เราจะไม่ทำเช่นนั้นหากไม่มีข้อมูลก่อนหน้านี้พยายามที่จะพิสูจน์ว่าประชากรทั้งหมดสามารถสร้างแบบจำลองในเกาส์เซียนจากตัวอย่างข้อมูลขนาดเล็กมาก ๆ ได้หรือไม่ เป็นอันตราย
AsymLabs

1
ถูกตัอง. ทั้งหมดที่ฉันพูดคือถ้ามันเป็นอันตรายที่จะลองจากตัวอย่างเล็ก ๆ เพื่อทดสอบว่าประชากรนั้นเป็นเกาส์เซียนแล้วอย่างน้อยก็ต้องเป็นอันตรายอย่างยิ่งที่จะใช้ความเบ้และความโด่งเพื่อระบุว่าการกระจายที่แฝงอยู่นั้นเป็นอย่างไร! ในความเป็นจริงดูเหมือนว่าความพยายามดังกล่าวจะเลวร้ายยิ่งขึ้นเพราะอาศัยสถิติที่ไม่แน่นอนเช่นความรุนแรง แม้ว่าระบบของ Pearson จะเป็นแนวทางที่ทรงพลังเพื่อช่วยให้ผู้ใช้ระบุการกระจายที่เป็นไปได้ แต่ก็ให้ความเข้าใจที่น้อยกว่าการแสดงผลกราฟิกที่ จำกัด เช่นฮิสโทแกรม
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.