จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร


23

ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า)

(ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)


ความคิดเห็นมุมฉากในรายละเอียด: สิ่งที่หน่วย m / ถุงน้ำดี? ดูเหมือนเมตรต่อแกลลอนและฉันก็รู้สึกทึ่ง
Nick Cox

นี่เป็นข้อ จำกัด ที่ร้ายแรงที่กล่องแปลงไม่แสดงความหมายเลย!
Nick Cox

ส่วนเบี่ยงเบนมาตรฐานของข้อมูลของคุณคืออะไร หากค่า 0.487m / gall น้อยกว่าค่าเบี่ยงเบนมาตรฐานของคุณคุณอาจมีเหตุผลที่เชื่อได้ว่าการกระจายตัวของคุณนั้นสมมาตร หากค่านั้นสูงกว่าค่าเบี่ยงเบนมาตรฐานของคุณ (หรือ MAD หรือค่าเบี่ยงเบนใด ๆ ที่คุณดู) อาจตรวจสอบความสมมาตรของการกระจายต่อไปนั่นคือการเสียเวลา
usεr11852พูดว่า Reinstate Monic

1
70,63,56,49,42,35,28,21,14,7,0,1,4,9,16,25,36,49,64,81,100 is จงใจไม่สมมาตร (เครื่องแบบในครึ่งล่าง แต่ไม่ใช่ในครึ่งบน) และพล็อตกล่องจะใส่ค่ามัธยฐาน (เท่ากับค่าเฉลี่ย) ใกล้กับควอไทล์ชั้นบนมากกว่าควอไทล์ต่ำ แต่ยังใกล้ขั้นต่ำกว่าสูงสุด
Henry

@ NickCox มันอาจจะเป็นมิลลิวินาทีด้วยการพิมพ์ผิด นั่นจะเป็นเกือบ 500 gal! หรือน้อยกว่า g's (แน่นอนตามที่ระบุไว้ข้างต้นโดยไม่มีการกระจายขนาดเช่น MAD ไม่มีทางรู้ว่า "สำคัญ")10 - 4μ104
GeoMatt 22

คำตอบ:


29

ไม่ต้องสงสัยเลยว่าคุณได้รับการบอกเล่าเป็นอย่างอื่น แต่ค่าเฉลี่ยค่ามัธยฐานไม่ได้หมายถึงความสมมาตร=

มีการวัดความเบ้ตามค่าเฉลี่ยลบ (ความเพียร์สันครั้งที่สอง) แต่มันอาจเป็น 0 เมื่อการแจกแจงไม่สมมาตร (เหมือนกับการวัดความเบ้ทั่วไป)

ในทำนองเดียวกันความสัมพันธ์ระหว่างค่าเฉลี่ยและค่ามัธยฐานไม่จำเป็นต้องบอกเป็นนัยถึงความสัมพันธ์ที่คล้ายกันระหว่าง midhinge ( ) และค่ามัธยฐาน พวกเขาสามารถแนะนำความเบ้ตรงข้ามหรืออย่างใดอย่างหนึ่งอาจเท่ากับค่ามัธยฐานในขณะที่คนอื่นไม่ได้(Q1+Q3)/2

วิธีหนึ่งในการตรวจสอบความสมมาตรคือการใช้สมมาตรพล็อต *

หากเป็นคำสั่งที่สังเกตจากที่เล็กที่สุดไปหามากที่สุด (ลำดับสถิติ) และคือค่ามัธยฐานจากนั้นเป็นพล็อตสมมาตรกับ ,เทียบกับ , ... และอื่น ๆY(1),Y(2),...,Y(n)MY(n)MMY(1)Y(n1)MMY(2)

* Minitab สามารถทำสิ่งเหล่านั้นได้ ที่จริงฉันยกประเด็นนี้ขึ้นมาเพราะฉันเห็นพวกเขาทำใน Minitab

นี่คือสี่ตัวอย่าง:

Symmetry plots
สมมาตรแปลงของประเภทข้างต้นสำหรับตัวอย่างจากการแจกแจงสี่

(การแจกแจงจริงคือ (จากซ้ายไปขวา, แถวบนสุดก่อน) - Laplace, Gamma (รูปร่าง = 0.8), เบต้า (2,2) และเบต้า (5,2) รหัสนี้คือ Ross Ihaka's จากที่นี่ )

ด้วยตัวอย่างสมมาตรแบบหนักมันมักจะเป็นกรณีที่จุดที่รุนแรงที่สุดอาจอยู่ไกลจากเส้น คุณจะให้ความสนใจน้อยกว่ากับระยะทางจากหนึ่งหรือสองจุดเมื่อคุณอยู่ใกล้ด้านบนขวาของภาพ

แน่นอนว่ามีแผนการอื่น ๆ (ฉันพูดถึงพล็อตแบบสมมาตรไม่ได้มาจากความรู้สึกเฉพาะของการสนับสนุนของเรื่องนั้น แต่เพราะฉันรู้ว่ามันถูกนำไปใช้แล้วใน Minitab) ดังนั้นลองสำรวจคนอื่นบ้าง

นี่คือ skewplots ที่เกี่ยวข้องที่ Nick Cox แนะนำในความคิดเห็น:

Skewness plots
แปลงความเบ้ตามที่ Nick Cox แนะนำในการแสดงความคิดเห็น

ในแปลงเหล่านี้เทรนด์ขึ้นจะบ่งบอกถึงหางขวาที่หนักกว่าปกติและแนวโน้มลดลงจะบ่งชี้ว่าหางซ้ายหนักกว่าหนักกว่าปกติในขณะที่สมมาตรจะแนะนำโดยพล็อตที่ค่อนข้างแบน

Nick แนะนำว่าพล็อตนี้ดีกว่า ฉันมีแนวโน้มที่จะเห็นด้วย; การแปลความหมายของพล็อตดูเหมือนจะง่ายขึ้นเล็กน้อยแม้ว่าข้อมูลในพล็อตที่เกี่ยวข้องมักจะค่อนข้างคล้ายกัน (หลังจากที่คุณลบความชันของหน่วยในเซ็ตแรกคุณจะได้สิ่งที่คล้ายกับเซตที่สอง)

[แน่นอนไม่มีสิ่งใดที่จะบอกเราได้ว่าการกระจายข้อมูลที่ดึงมานั้นมีความสมมาตรจริงๆ เราได้รับการบ่งชี้ว่าตัวอย่างใกล้ถึงสมมาตรอย่างไรและในระดับนั้นเราสามารถตัดสินได้ว่าข้อมูลมีความสอดคล้องอย่างสมเหตุสมผลกับการดึงมาจากประชากรที่มีความสมมาตร]


3
@ user72943 หากคุณพึงพอใจโดยสิ้นเชิงอย่าลืมกลับมาเลือกคำตอบของ Glen_b คุณอาจต้องรอสักครู่เพื่อดูว่ามีคนส่งคำตอบที่ดีกว่านี้หรือไม่ แต่ Glen_b จะได้รับเครดิตเพิ่มถ้าคุณยอมรับคำตอบ
Wayne

3
+

6
(Y(n+1i)+Y(i))/2in/2,n/4,n/8และอื่น ๆ ) ในบางวิธีพล็อตนี้ดีกว่าแปลงสมมาตรตราบเท่าที่มันกรองรายละเอียดที่มากเกินไปและช่วยให้ผู้ชมมุ่งความสนใจไปที่การเปลี่ยนแปลงของความสมมาตร (หรือขาดดังกล่าว) ในขณะที่เคลื่อนไปสู่หาง มันมีประโยชน์เพิ่มเติมของการคำนวณทันทีและง่ายดายเมื่อมีการสรุป n ตัวอักษรอยู่ในมือซึ่งสามารถอ่านได้โดยตรงจากพล็อตก้านและใบ
whuber

1
@ ฉันและฉันกำลังพูดถึงความคิดพื้นฐานเดียวกัน ความแตกต่างคือระหว่างการพล็อตสถิติคำสั่งซื้อที่จับคู่ทั้งหมด (ไม่ใช่ในทางปฏิบัติเบี่ยงเบนมาก) หรือการวางแผนเพียงบาง
Nick Cox

1
การอ้างอิงในstata-journal.com/sjpdf.html?articlenum=gr0003และสำหรับผู้ใช้ Stata ในเอกสารสำหรับskewplot(SSC) แนวคิดกลับไปอย่างน้อยกับข้อเสนอแนะที่เกี่ยวข้องกับ JW Tukey ใน Wilk, MB และ Gnanadesikan, R. 1968 วิธีการวางแผนความน่าจะเป็นสำหรับการวิเคราะห์ข้อมูล Biometrika 55: 1-17
Nick Cox

6

สิ่งที่ง่ายที่สุดคือการคำนวณตัวอย่างเบ้ มีฟังก์ชั่นใน Minitab สำหรับเรื่องนั้น การกระจายแบบสมมาตรจะมีความเบ้เป็นศูนย์ ความเบ้ที่ศูนย์ไม่ได้แปลว่าสมมาตร แต่ในกรณีที่ใช้งานได้จริง

ดังที่ @NickCox ตั้งข้อสังเกตมีความเบ้มากกว่าหนึ่งคำนิยาม ฉันใช้อันที่เข้ากันได้กับ Excelแต่คุณสามารถใช้อันอื่นได้


2
ฉันคิดว่านี่ต้องใช้ตัวสะกด โดยเฉพาะอย่างยิ่งไม่มีสิ่งเช่น "ความเบ้" มีมาตรการมากมายและแม้แต่มาตรการที่ผิดปกติก็มักจะมีประโยชน์หรือน่าสนใจเหมือนกับมาตรการทั่วไป (เช่นช่วงเวลา L) ผู้ที่อยากจะเรื่องมาตรฐานขณะที่สามเป็นวัด (และก็เริ่มต้นของฉันเกินไป) ควรทราบว่าคาร์ลเพียร์สันและสำหรับผู้เขียนอื่น ๆ อีกมากมายในศตวรรษที่ 20, เบ้ได้รับส่วนใหญ่มักจะวัดเทียบกับโหมด
Nick Cox

สัมประสิทธิ์ความเบ้ใด ๆ นอกเหนือจากการขาดพลังงานมากพอที่จะตรวจจับความไม่สมดุล (ตามที่คุณพูดอย่างถูกต้อง) นอกจากนี้ยังทนทุกข์ทรมานจากการเป็น (มาก) ไม่คงทนเพราะมันขึ้นอยู่กับช่วงเวลาตัวอย่างที่สาม ยิ่งไปกว่านั้นเนื่องจากสมมาตรสามารถถูกละเมิดได้หลายวิธี (และน่าสนใจ) การหาลักษณะเฉพาะเชิงตัวเลขของสมมาตรจึงเป็นสิ่งที่ไม่สามารถใช้แทนการวินิจฉัยเชิงกราฟที่สมบูรณ์ยิ่งขึ้นซึ่งอธิบายไว้ในเอกสารวิเคราะห์ข้อมูลเชิงสำรวจ
whuber

1

จัดศูนย์ข้อมูลของคุณให้เป็นศูนย์โดยการลบค่าเฉลี่ยตัวอย่างออก ตอนนี้แบ่งข้อมูลของคุณออกเป็นสองส่วนคือลบและบวก รับค่าสัมบูรณ์ของจุดข้อมูลเชิงลบ ตอนนี้ทำการทดสอบ Kolmogorov-Smirnov สองตัวอย่างโดยการเปรียบเทียบทั้งสองพาร์ติชัน ทำให้ข้อสรุปของคุณขึ้นอยู่กับค่า p


0

นำการสังเกตของคุณเรียงลำดับตามค่าที่เพิ่มขึ้นในหนึ่งคอลัมน์จากนั้นนำไปเรียงในการลดค่าในคอลัมน์อื่น
จากนั้นคำนวณค่าสัมประสิทธิ์สหสัมพันธ์ (เรียกมันว่า Rm) ระหว่างสองคอลัมน์นี้
คำนวณดัชนี chiral: CHI = (1 + Rm) / 2
CHI รับค่าในช่วงเวลา [0..1]
CHI เป็นโมฆะถ้าและเฉพาะในกรณีที่ตัวอย่างของคุณมีการกระจายแบบสมมาตร
ไม่ต้องการช่วงเวลาที่สาม
ทฤษฎี:
http://petitjeanmichel.free.fr/itoweb.petitjean.skewness.html
http://petitjeanmichel.free.fr/itoweb.petitjean.html
(เอกสารส่วนใหญ่ที่อ้างถึงในสองหน้านี้สามารถดาวน์โหลดได้ใน pdf)
หวังว่ามัน ช่วยแม้กระทั่งเมื่อเร็ว ๆ นี้


Rm จะไม่สัมพันธ์กันใช่มั้ย ฉันไม่เห็นว่า CHI จะเป็น 1 ได้อย่างไรถ้า Rm เป็น 1 แต่เนื่องจาก col1 ถูกเรียงเพิ่มขึ้น & col2 ถูกเรียงลดลง RM <= 0 หมายถึง CHI จะใช้ค่าใน [0, .5] ฉันพลาดอะไรไปรึเปล่า?
gung - Reinstate Monica

ใช่ Rm ไม่สามารถเป็นค่าบวกและ CHI ต้องไม่เกิน 1/2 สำหรับการแจกแจงของตัวแปรสุ่มที่รับค่าบนเส้นจริง อันที่จริงขอบเขตบน 1 นั้นมาจากทฤษฎีทั่วไปที่แนะนำดัชนี chiral มันสมเหตุสมผลสำหรับการแจกแจงของตัวแปรสุ่มที่รับค่าในพื้นที่ทั่วไปมากกว่า ทฤษฎีนี้ไม่ได้อยู่ในขอบเขตของการอภิปรายในปัจจุบัน แต่มีการนำเสนอในหน้าเว็บสองหน้าที่ฉันกล่าวถึงก่อนหน้านี้
Petitjean

โปรดลงทะเบียน & / หรือรวมบัญชีของคุณ (คุณสามารถหาข้อมูลเกี่ยวกับวิธีการทำสิ่งนี้ได้ในส่วนบัญชีของฉันในศูนย์ช่วยเหลือของเรา) จากนั้นคุณจะสามารถแก้ไขและแสดงความคิดเห็นในคำถามของคุณเอง
gung - Reinstate Monica
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.