พล็อต QQ ใน Python


11

ฉันสร้างพล็อต qq โดยใช้รหัสต่อไปนี้ ฉันรู้ว่าพล็อต qq ใช้เพื่อตรวจสอบว่ามีการเผยแพร่ข้อมูลตามปกติหรือไม่ คำถามของฉันคือสิ่งที่ป้ายแกน x และ y ระบุในพล็อต qq และค่า r กำลังสองที่ระบุคืออะไร?

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

ป้อนคำอธิบายรูปภาพที่นี่

ฉันรู้แล้วว่ามีการอภิปรายเกี่ยวกับเรื่องqqแต่ฉันไม่เข้าใจแนวคิดของการสนทนา


4
นี่ใกล้เคียงกับการทำซ้ำของเธรดที่เชื่อมโยง - Python vs R ไม่ใช่ความแตกต่างที่สำคัญที่นี่ - แต่ลักษณะของนั้นใหม่ มันอาจเป็นความคิดที่ดีสำหรับคำถามและคำตอบที่จะให้ความสำคัญกับเรื่องนั้นมากขึ้นเพื่อหลีกเลี่ยงความซ้ำซ้อน (ฉันสงสัยว่ามีแนวโน้มที่จะเข้าใจผิดหรือไม่เพราะถึงแม้จะมีขนาดที่ไม่ดีความลาดชันด้านบนที่หลีกเลี่ยงไม่ได้ในแผน QQ หมายความว่าเราคาดว่าจะค่อนข้างใหญ่กว่าศูนย์ดังนั้นค่าที่อาจน่าประทับใจ การวิเคราะห์อาจไม่น่าประทับใจนักที่นี่)R 2 R 2R2R2R2
Silverfish

@Silverfish ฉันจะไม่พบว่าเป็นประโยชน์หรือคุ้มค่าที่จะมุ่งเน้นไปที่{2} QQ แปลงมักจะเห็น , ไม่ได้รายงานเพียงกับตารางของหมื่นคนให้ค่า ตราบใดที่มีการสร้างภาพข้อมูลทำไมถึงลดจำนวนลงเป็นตัวเลขเดียว? หากพล็อต QQ มีลักษณะ "ไม่ดี" แต่จะมีลักษณะ "ดี" คุณยังคงอ้างว่าเป็นเรื่องปกติ แพ็คเกจที่ดีที่สุดไม่ได้จัดเตรียมไว้สำหรับเหตุผลนี้ อาร์กิวเมนต์นี้ ได้แก่ เมื่อเทียบกับช่วงเวลาที่แม้จะมีชื่อที่น่ารัก: สี่อินส์ R 2 R 2 R 2R2R2R2R2
Mike Williamson

@ MikeWilliamson ฉันยอมรับว่าไม่น่าจะพิสูจน์ได้ว่ามีประโยชน์เป็นพิเศษ (นี่เป็นส่วนหนึ่งของประเด็นของฉันแม้ว่าฉันอาจแสดงได้ไม่ดีก็ตาม) ประเด็นหลักของฉันคือว่า "วิธีตีความ QQ-plot" ได้มีการพูดคุยกันที่นี่ตามคำถามแล้ว - เหตุผลเดียวที่เธรดนี้ไม่ควรถูกปิดเพราะซ้ำซ้อนคือเคียวรีเกี่ยวกับดังนั้นจริงๆ ควรจะกล่าวถึงในคำตอบที่นี่ (แม้ว่าจะบอกว่ามันไม่มีประโยชน์!)R 2R2R2
Silverfish

คุณแน่ใจหรือไม่ว่าคุณวางแผนลงจุด QQ help(probplot)สถานะ: probplotสร้างพล็อตความน่าจะเป็นซึ่งไม่ควรสับสนกับ QQ หรือพล็อต PP
abukaj

คำตอบ:


10

คำตอบของ Macond นั้นถูกต้อง แต่จากโพสต์ดั้งเดิมฉันคิดว่ามันอาจจะมีประโยชน์ในการทำให้ verbiage ง่ายขึ้นเล็กน้อย

QQ พล็อตย่อมาจาก"quantile-quantile พล็อต"

มันเป็นพล็อตที่แกนเป็นผู้เปลี่ยนจุดมุ่งหมายในการสั่งซื้อเพื่อให้เป็นปกติ (หรือเสียน) กระจายปรากฏเป็นเส้นตรง กล่าวอีกนัยหนึ่งการกระจายตัวแบบปกติอย่างสมบูรณ์แบบจะเป็นไปตามเส้นที่มีความชัน = 1 และสกัดกั้น = 0

ดังนั้นหากพล็อตไม่ปรากฏว่าเป็น - ประมาณ - เป็นเส้นตรงดังนั้นการแจกแจงพื้นฐานไม่ปกติ ถ้ามันโค้งขึ้นแสดงว่ามีค่า "high flyer" มากกว่าที่คาดไว้ (ลิงก์แสดงตัวอย่างเพิ่มเติม)


  1. ป้ายกำกับ x & y แสดงถึงอะไร?

วอนตัมเชิงทฤษฎีถูกวางตามแนวแกน x นั่นคือแกน x ไม่ใช่ข้อมูลของคุณมันเป็นเพียงความคาดหวังว่าข้อมูลของคุณควรอยู่ที่ไหนหากเป็นเรื่องปกติ

ข้อมูลจริงเป็นพล็อตพร้อมแกน y

ค่าเป็นส่วนเบี่ยงเบนมาตรฐานจากค่าเฉลี่ย ดังนั้น0ค่าเฉลี่ยของข้อมูล1คือ 1 ส่วนเบี่ยงเบนมาตรฐานด้านบนเป็นต้นซึ่งหมายความว่าตัวอย่างเช่น68.27%ข้อมูลทั้งหมดของคุณควรอยู่ระหว่าง -1 และ 1 หากคุณมีการแจกแจงแบบปกติ

  1. ค่าหมายถึงอะไรR2

ค่าไม่มีประโยชน์อย่างยิ่งสำหรับพล็อตประเภทนี้ โดยทั่วไปแล้วจะใช้เพื่อพิจารณาว่าตัวแปรหนึ่งขึ้นอยู่กับตัวแปรอื่นหรือไม่ ทีนี้คุณกำลังเปรียบเทียบค่าทางทฤษฎีกับค่าจริง ดังนั้นจึงมีจำเป็นต้องจะเป็นบางจัดเรียงของ 2 (เช่นแม้การกระจายแบบสุ่มจะมีค่าอยู่พอสมควร) R 2 R 2 R 2R2R2R2R2


สุดท้ายมีพล็อตที่คล้ายกันที่ไม่ค่อยได้ใช้ที่เรียกว่าพล็อตได้ pp พล็อตนี้มีประโยชน์มากขึ้นถ้าคุณสนใจที่จะเน้นว่าข้อมูลจำนวนมากอยู่ที่ใดแทนที่จะเป็นสุดขั้ว


1
คำเบ้ ไม่ได้เป็นทางเลือกที่ดีที่สุดที่นี่: ผมว่าเปลี่ยน
Nick Cox

คำอธิบายที่ดี คุณช่วยอธิบายวิธีสร้างแกน x (ค่าที่คาดหวัง) ได้อย่างไร
Vivek Ananthan

1

แกน Y แสดงค่าของการแจกแจงที่สังเกตได้และแกน X ค่าของการกระจายเชิงทฤษฎี

แต่ละจุดเป็นควอนตัม สมมติว่าหากมี 100 คะแนนในพล็อตจุดแรก (จุดที่ด้านซ้ายล่าง) บ่งชี้ขอบเขตบนสำหรับช่วงเวลาและเมื่อสั่งจากน้อยที่สุดไปหามากที่สุด 1 เปอร์เซ็นต์เล็กที่สุดของจุดข้อมูลของ การกระจายที่สอดคล้องกันยังคงอยู่ในช่วงเวลานี้ ในทำนองเดียวกันจุดที่ 2 คือขอบเขตบนของช่วงเวลาโดยที่จุดข้อมูลที่เล็กที่สุด 2 เปอร์เซ็นต์จากการกระจายนั้นอยู่ นี่คือแนวคิดของควอไทล์ แต่มันไม่ จำกัด เฉพาะกรณีที่มี 100 ช่วงเวลามันเป็นแนวคิดทั่วไปและคุณสามารถมีช่วงเวลามากที่สุดเท่าที่จะเป็นไปได้จากนั้นคุณจะมีปริมาณที่อธิบายขอบเขตของช่วงเวลา

สิ่งที่พิเศษเกี่ยวกับพล็อตนี้คือตำแหน่งของจุดแต่ละจุดจะกำหนดมูลค่าที่แท้จริงของควอนไทด์ที่กำหนดในการแจกแจงทั้งสองเป็นค่าที่สอดคล้องกันบนแกน ลองคิดว่าถ้ามี 100 คะแนนดังกล่าว (quantiles) อีกครั้งพล็อตนี้บอกว่าจุดข้อมูลที่เล็กที่สุด 1 เปอร์เซ็นต์จากการแจกแจงที่สังเกตได้นั้นอยู่ระหว่าง ( , -3.5] และยังน้อย 1 เปอร์เซ็นต์ของจุดข้อมูลจากการกระจายเชิงทฤษฎี ( , -3.2] ด้วยวิธีนี้คุณสามารถดูตำแหน่งของตำแหน่งแต่ละช่วงของขอบเขตในการแจกแจงทั้งสอง-

ฉันใช้จุดข้อมูลตลอดทั้งคำตอบเช่นจุดข้อมูลที่สั่ง ฯลฯ สิ่งนี้หมายถึงการกระจายแบบไม่ต่อเนื่อง แต่แนวคิดสามารถนำมาใช้เพื่อการกระจายอย่างต่อเนื่อง

R 2R2เป็นการวัดความดีของจุดที่เหมาะสมกับเส้นสีแดง หากแกนทั้งสองมีการกระจายตัวเท่ากันคะแนนทั้งหมดจะอยู่ในบรรทัดอย่างแน่นอนและจะเท่ากับ 1 คุณสามารถเรียนรู้เพิ่มเติมเกี่ยวกับมันในข้อความใด ๆ ที่อธิบายการถดถอยเชิงเส้นR2


3
ข้อความเกี่ยวกับการถดถอยเชิงเส้นจะไม่อธิบายแม้ว่าจะตีความเมื่อคะแนนถูก จำกัด อย่างรุนแรงเช่นเดียวกับข้อความในพล็อต QQ! โดยเฉพาะอย่างยิ่งจุดบนพล็อต QQ จะต้องไม่ลดความซ้ำซากจำเจ สิ่งนี้บังคับให้สูงเป็นพิเศษไม่ว่าจะเกิดอะไรขึ้น R 2R2R2
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.