PP-แปลงเทียบกับ QQ-แปลง


39

อะไรคือความแตกต่างระหว่างแปลงความน่าจะเป็น, PP- แปลงและ QQ- แปลงเมื่อพยายามวิเคราะห์การกระจายการพอดีกับข้อมูล?


4
ดูเหมือนว่าวิกิพีเดียสามารถช่วยคุณได้ในเรื่องนี้: เรื่องความน่าจะเป็น QQ พล็อต , พล็อต PP หากคุณมีคำถามเพิ่มเติมกรุณาชี้แจง!
vector07

ขอบคุณฉันคิดว่าฉันได้รับพล็อต PP และความน่าจะเป็นที่สับสน!
kay

คำตอบ:


41

ในฐานะที่เป็น @ vector07 บันทึก , พล็อตน่าจะเป็นประเภทนามธรรมมากขึ้นซึ่ง PP-แปลง QQ และแปลงเป็นสมาชิก ดังนั้นฉันจะหารือเกี่ยวกับความแตกต่างระหว่างสองหลัง วิธีที่ดีที่สุดในการทำความเข้าใจความแตกต่างคือการคิดเกี่ยวกับวิธีการสร้างและเพื่อให้เข้าใจว่าคุณจำเป็นต้องรับรู้ถึงความแตกต่างระหว่างปริมาณของการแจกแจงและสัดส่วนของการกระจายที่คุณได้ผ่านไปเมื่อถึงปริมาณที่กำหนด คุณสามารถดูความสัมพันธ์ระหว่างสิ่งเหล่านี้ได้ด้วยการพล็อตฟังก์ชันการแจกแจงสะสม (CDF) ของการแจกแจง ตัวอย่างเช่นพิจารณาการแจกแจงแบบปกติมาตรฐาน:

ป้อนคำอธิบายรูปภาพที่นี่

เราเห็นว่าประมาณ 68% ของแกน y (ภูมิภาคระหว่างเส้นสีแดง) ตรงกับ 1/3 ของแกน x (พื้นที่ระหว่างเส้นสีฟ้า) นั่นหมายความว่าเมื่อเราใช้สัดส่วนของการกระจายเราได้ผ่านการประเมินการแข่งขันระหว่างการแจกแจงสองครั้ง (เช่นเราใช้ pp-plot) เราจะได้รับการแก้ไขจำนวนมากในจุดศูนย์กลางของการกระจาย แต่น้อยที่ หาง ในทางกลับกันเมื่อเราใช้ quantiles เพื่อประเมินการจับคู่ระหว่างการแจกแจงสองแบบ (เช่นเราใช้ qq-plot) เราจะได้ความละเอียดที่หางที่ดี แต่อยู่ตรงกลางน้อยกว่า (เนื่องจากนักวิเคราะห์ข้อมูลมักกังวลเกี่ยวกับก้อยของการแจกแจงซึ่งจะมีผลต่อการอนุมานตัวอย่างเช่น qq-plots เป็นเรื่องธรรมดามากกว่า pp-plots)

เพื่อดูข้อเท็จจริงเหล่านี้ในทางปฏิบัติฉันจะเดินผ่านการสร้าง pp-plot และ qq-plot (ฉันยังเดินผ่านการสร้าง qq-plot ด้วยวาจา / ช้ากว่าที่นี่: QQ-plot ไม่ตรงกับฮิสโตแกรม ) ฉันไม่รู้ว่าคุณใช้ R หรือไม่ แต่หวังว่ามันจะอธิบายตัวเองได้:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

ป้อนคำอธิบายรูปภาพที่นี่

น่าเสียดายที่แผนการเหล่านี้ไม่โดดเด่นมากเนื่องจากมีข้อมูลน้อยและเรากำลังเปรียบเทียบปกติจริงกับการแจกแจงเชิงทฤษฎีที่ถูกต้องดังนั้นจึงไม่มีอะไรพิเศษที่จะเห็นในจุดศูนย์กลางหรือส่วนท้ายของการแจกแจง เพื่อแสดงให้เห็นถึงความแตกต่างเหล่านี้ได้ดีขึ้นฉันวางแผนการแจกแจงแบบ t (fat-tailed) ที่มีอิสระ 4 องศาและการกระจายแบบ bi-modal ด้านล่าง หางไขมันมีความโดดเด่นกว่ามากใน qq-plot ในขณะที่ bi-modality มีความโดดเด่นมากกว่าใน pp-plot

ป้อนคำอธิบายรูปภาพที่นี่ ป้อนคำอธิบายรูปภาพที่นี่


14
@AleksandrH เราขอขอบคุณความกังวลของคุณสำหรับนักเรียนอย่างแท้จริง ข้อสันนิษฐานโดยนัยของคุณว่าเว็บไซต์นี้มีไว้สำหรับนักเรียนที่ยังใหม่ต่อสถิติไม่ถูกต้อง และความไม่แน่ใจของคุณที่ว่า "คำตอบที่เป็นคำพูด" นั้นไม่เหมาะสมสำหรับนักเรียนเพียง แต่ไม่ได้ขึ้นอยู่กับความเป็นจริงเพราะคำตอบ "คำพูด" จำนวนมากในเว็บไซต์นี้จะยืนยันได้ วิธีที่สร้างสรรค์มากขึ้นในการแสดงการร้องเรียนของคุณคือตัวอย่าง: แสดงให้เราเห็นถึงวิธีการปรับปรุงการตอบสนองของเราและสร้างแรงบันดาลใจให้เราเลียนแบบคุณโดยการโพสต์คำตอบที่นี่ซึ่งตรงกับมาตรฐานของคุณ
whuber

12

นี่คือคำจำกัดความจากv8doc.sas.com :

พล็อต PP เปรียบเทียบฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ของชุดข้อมูลกับฟังก์ชันการแจกแจงเชิงทฤษฎีที่ระบุ F (·) พล็อต QQ เปรียบเทียบปริมาณของการแจกแจงข้อมูลกับปริมาณของการแจกแจงเชิงทฤษฎีที่ได้มาตรฐานจากตระกูลการแจกแจงที่ระบุ

ในข้อความพวกเขายังพูดถึง:

  • ความแตกต่างเกี่ยวกับวิธีการแปลง PP และ QQ แปลงถูกสร้างและตีความ
  • ข้อดีของการใช้อย่างใดอย่างหนึ่งเกี่ยวกับการเปรียบเทียบการแจกแจงเชิงประจักษ์และเชิงทฤษฎี

เอกสารอ้างอิง :

SAS Institute Inc. , SAS OnlineDoc®, เวอร์ชัน 8, Cary, NC: SAS Institute Inc. , 1999

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.