พล็อต QQ เชิงปริมาณ


10

qq-plot สามารถใช้เพื่อให้เห็นภาพว่าการแจกแจงสองแบบที่เหมือนกันนั้นมีความคล้ายคลึงกันอย่างไร (เช่นการแสดงภาพความคล้ายคลึงกันของการแจกแจงกับการแจกแจงแบบปกติ มีสถิติใดบ้างที่สร้างจุดประสงค์และการวัดเชิงตัวเลขที่แสดงถึงความคล้ายคลึงกันมากกว่า (ควรอยู่ในรูปแบบปกติ (0 <= x <= 1)) ค่าสัมประสิทธิ์ Gini เป็นตัวอย่างที่ใช้ในเศรษฐศาสตร์เมื่อทำงานกับเส้นโค้ง Lorenz; มีบางอย่างสำหรับแผนการ QQ

คำตอบ:


8

อย่างที่ฉันพูดเพื่อตอบความคิดเห็นของคุณในคำถามก่อนหน้านี้ลองดูการทดสอบ Kolmogorov-Smirnov มันใช้ระยะทางสัมบูรณ์สูงสุดระหว่างสองฟังก์ชันการแจกแจงสะสม (หรือคิดเป็นระยะทางสัมบูรณ์สูงสุดของเส้นโค้งในพล็อต QQ จากเส้น 45 องศา) เป็นสถิติ การทดสอบ KS สามารถพบได้ใน R โดยใช้คำสั่งks.test()ในไลบรารี 'stats' นี่คือข้อมูลเพิ่มเติมเกี่ยวกับการใช้ R


โปรดทราบว่า (เท่าที่ฉันเข้าใจ) การทดสอบ KS นั้นใช้สำหรับทดสอบข้อมูลเชิงประจักษ์กับการแจกแจงเบื้องต้น ไม่เหมาะสมสำหรับการเปรียบเทียบการแจกแจงเชิงประจักษ์สองแบบและไม่เหมาะสมที่จะเปรียบเทียบข้อมูลเชิงประจักษ์กับการแจกแจงแบบนิรนัยซึ่งค่าพารามิเตอร์ถูกประเมินจากข้อมูลเชิงประจักษ์
Mike Lawrence

4
@ ไมค์คุณสามารถใช้การทดสอบ KS เพื่อเปรียบเทียบการแจกแจงสองอย่างที่ได้จากการทดลองดูที่คำตอบก่อนหน้าของชาร์ลีและความคิดเห็นstats.stackexchange.com/questions/2918/lorenz-curve-qq-plot/…
Andy W

@Andy, Ah, ฉันเอาจุด 3 จากitl.nist.gov/div898/handbook/eda/section3/eda35g.htmว่ามีข้อพิสูจน์ที่คุณไม่สามารถเปรียบเทียบ CDF เชิงประจักษ์สอง แต่ฉันเห็นว่าสมมติฐานของฉันไม่ได้ จัดสรร เป็นการดีที่จะรู้ขอบคุณ!
Mike Lawrence

2
แต่จุดที่ 3 ไม่ได้หมายความว่าคุณไม่สามารถใช้ในการทดสอบ KS ว่าข้อมูลของคุณมาจากการแจกแจงแบบปกติที่มีค่าเฉลี่ยและ SD ประมาณจากข้อมูล นี่เป็นข้อผิดพลาดที่เป็นที่นิยมในหมู่นักเรียนจิตวิทยาที่ฉันพบ
Stephan Kolassa

1
(+1) แง่มุมที่เหนือกว่าของคำตอบนี้คือสถิติ KS สามารถอ่านได้โดยตรงจากพล็อต QQ
whuber

2

เมื่อเร็ว ๆ นี้ฉันใช้ความสัมพันธ์ระหว่าง CDF เชิงประจักษ์กับ CDF ที่ติดตั้งเพื่อหาค่าความดีแบบพอดีและฉันสงสัยว่าวิธีนี้อาจมีประโยชน์ในกรณีปัจจุบันซึ่งฉันเข้าใจว่ามันเกี่ยวข้องกับการเปรียบเทียบชุดข้อมูลเชิงประจักษ์สองชุด การแก้ไขอาจจำเป็นถ้ามีจำนวนการสังเกตที่แตกต่างกันระหว่างชุด


กระดาษของคุณรวมถึงตัวเลขที่ดีมาก :)
CHL

@chi: พวกเขาทั้งหมดถูกสร้างขึ้นใน R โดยใช้ ggplot2 มันเป็นระบบการผลิตกราฟิกที่ยอดเยี่ยม!
Mike Lawrence

คุณหมายถึงอะไรกับการติดตั้ง CDF?
Ampleforth

@ Ampleforth ในบทความนั้นฉันพอดีกับการแจกแจงกับข้อมูลเชิงประจักษ์ดังนั้นโดย "fitted CDF" ฉันหมายถึง CDF เชิงทฤษฎีของการกระจายที่พอดี ขออภัยฉันเห็นว่าฉันชัดเจนยิ่งขึ้นได้อย่างไร!
Mike Lawrence

โอ้โปรดอย่าขอโทษ การขาดสถิติของฉันค่อนข้างใหญ่และนั่นเป็นปัญหาเดียวที่นี่;) นอกจากนี้ฉันไม่ได้อ่านรายงานของคุณ แต่เพียงมองผ่านกราฟของคุณที่ฉันชอบจริงๆ
Ampleforth

1

ฉันจะบอกว่าวิธีที่นิยมมากขึ้นหรือน้อยลงในการเปรียบเทียบการแจกแจงสองแบบคือการทดสอบไคสแควร์ แม้ว่าสถิติจะไม่ได้รับการปรับให้เป็นมาตรฐานและขึ้นอยู่กับว่าคุณเลือกถังขยะอย่างไร แน่นอนว่าจุดสุดท้ายสามารถมองได้ว่าเป็นคุณลักษณะไม่ใช่ข้อผิดพลาด: การเลือกถังขยะอย่างเหมาะสมช่วยให้คุณมองอย่างใกล้ชิดมากขึ้นสำหรับความคล้ายคลึงกันในก้อยมากกว่าในช่วงกลางของการแจกแจง


1

การวัดโดยตรงของ "ความใกล้ชิด" ต่อความเป็นเส้นตรงในพล็อต QQ จะเป็นสถิติการทดสอบของ Shapiro-Francia (ซึ่งสัมพันธ์อย่างใกล้ชิดกับ Shapiro-Wilk ที่รู้จักกันดีกว่า

สถิติของชาปิโร - ฟรังเซียคือความสัมพันธ์กำลังสองระหว่างค่าข้อมูลที่สั่งและสถิติการสั่งซื้อปกติที่คาดไว้ (บางครั้งระบุว่า "เชิงทฤษฎีเชิงปริมาณ") - นั่นคือมันควรจะเป็นความสัมพันธ์ที่คุณเห็นในพล็อต วัดสรุป

(The Shapiro-Wilk นั้นคล้ายกัน แต่คำนึงถึงความสัมพันธ์ระหว่างสถิติการสั่งซื้อมันมีการตีความที่คล้ายกันกับ Shapiro-Francia และมีประโยชน์พอ ๆ กันกับบทสรุปของพล็อต QQ)

ไม่ว่าจะด้วยวิธีใดสำหรับการสรุปหมายเลขเดียวของสิ่งที่พล็อต QQ แสดงหนึ่งในนั้นอาจเป็นวิธีที่เหมาะสมในการสรุปพล็อต

1-W'

n1-W')nn(1-W')nnnเข้าสู่ระบบ(n)เข้าสู่ระบบ(n)n

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.