อะไรคือความแตกต่างระหว่างแปลงความน่าจะเป็น, PP- แปลงและ QQ- แปลงเมื่อพยายามวิเคราะห์การกระจายการพอดีกับข้อมูล?
อะไรคือความแตกต่างระหว่างแปลงความน่าจะเป็น, PP- แปลงและ QQ- แปลงเมื่อพยายามวิเคราะห์การกระจายการพอดีกับข้อมูล?
คำตอบ:
ในฐานะที่เป็น @ vector07 บันทึก , พล็อตน่าจะเป็นประเภทนามธรรมมากขึ้นซึ่ง PP-แปลง QQ และแปลงเป็นสมาชิก ดังนั้นฉันจะหารือเกี่ยวกับความแตกต่างระหว่างสองหลัง วิธีที่ดีที่สุดในการทำความเข้าใจความแตกต่างคือการคิดเกี่ยวกับวิธีการสร้างและเพื่อให้เข้าใจว่าคุณจำเป็นต้องรับรู้ถึงความแตกต่างระหว่างปริมาณของการแจกแจงและสัดส่วนของการกระจายที่คุณได้ผ่านไปเมื่อถึงปริมาณที่กำหนด คุณสามารถดูความสัมพันธ์ระหว่างสิ่งเหล่านี้ได้ด้วยการพล็อตฟังก์ชันการแจกแจงสะสม (CDF) ของการแจกแจง ตัวอย่างเช่นพิจารณาการแจกแจงแบบปกติมาตรฐาน:
เราเห็นว่าประมาณ 68% ของแกน y (ภูมิภาคระหว่างเส้นสีแดง) ตรงกับ 1/3 ของแกน x (พื้นที่ระหว่างเส้นสีฟ้า) นั่นหมายความว่าเมื่อเราใช้สัดส่วนของการกระจายเราได้ผ่านการประเมินการแข่งขันระหว่างการแจกแจงสองครั้ง (เช่นเราใช้ pp-plot) เราจะได้รับการแก้ไขจำนวนมากในจุดศูนย์กลางของการกระจาย แต่น้อยที่ หาง ในทางกลับกันเมื่อเราใช้ quantiles เพื่อประเมินการจับคู่ระหว่างการแจกแจงสองแบบ (เช่นเราใช้ qq-plot) เราจะได้ความละเอียดที่หางที่ดี แต่อยู่ตรงกลางน้อยกว่า (เนื่องจากนักวิเคราะห์ข้อมูลมักกังวลเกี่ยวกับก้อยของการแจกแจงซึ่งจะมีผลต่อการอนุมานตัวอย่างเช่น qq-plots เป็นเรื่องธรรมดามากกว่า pp-plots)
เพื่อดูข้อเท็จจริงเหล่านี้ในทางปฏิบัติฉันจะเดินผ่านการสร้าง pp-plot และ qq-plot (ฉันยังเดินผ่านการสร้าง qq-plot ด้วยวาจา / ช้ากว่าที่นี่: QQ-plot ไม่ตรงกับฮิสโตแกรม ) ฉันไม่รู้ว่าคุณใช้ R หรือไม่ แต่หวังว่ามันจะอธิบายตัวเองได้:
set.seed(1) # this makes the example exactly reproducible
N = 10 # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1)) # from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x)) # here I calculate the probabilities associated
# w/ these data if they came from a normal
# distribution w/ the same mean & SD
# I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x)) # this calculates the quantiles (ie
# z-scores) associated w/ the props
my.data = data.frame(x=x, props=props, # here I bundle them together
normal.proportions=n.props,
normal.quantiles=n.quantiles)
round(my.data, digits=3) # & display them w/ 3 decimal places
# x props normal.proportions normal.quantiles
# 1 -0.836 0.091 0.108 -0.910
# 2 -0.820 0.182 0.111 -0.577
# 3 -0.626 0.273 0.166 -0.340
# 4 -0.305 0.364 0.288 -0.140
# 5 0.184 0.455 0.526 0.043
# 6 0.330 0.545 0.600 0.221
# 7 0.487 0.636 0.675 0.404
# 8 0.576 0.727 0.715 0.604
# 9 0.738 0.818 0.781 0.841
# 10 1.595 0.909 0.970 1.174
น่าเสียดายที่แผนการเหล่านี้ไม่โดดเด่นมากเนื่องจากมีข้อมูลน้อยและเรากำลังเปรียบเทียบปกติจริงกับการแจกแจงเชิงทฤษฎีที่ถูกต้องดังนั้นจึงไม่มีอะไรพิเศษที่จะเห็นในจุดศูนย์กลางหรือส่วนท้ายของการแจกแจง เพื่อแสดงให้เห็นถึงความแตกต่างเหล่านี้ได้ดีขึ้นฉันวางแผนการแจกแจงแบบ t (fat-tailed) ที่มีอิสระ 4 องศาและการกระจายแบบ bi-modal ด้านล่าง หางไขมันมีความโดดเด่นกว่ามากใน qq-plot ในขณะที่ bi-modality มีความโดดเด่นมากกว่าใน pp-plot
นี่คือคำจำกัดความจากv8doc.sas.com :
พล็อต PP เปรียบเทียบฟังก์ชันการแจกแจงสะสมเชิงประจักษ์ของชุดข้อมูลกับฟังก์ชันการแจกแจงเชิงทฤษฎีที่ระบุ F (·) พล็อต QQ เปรียบเทียบปริมาณของการแจกแจงข้อมูลกับปริมาณของการแจกแจงเชิงทฤษฎีที่ได้มาตรฐานจากตระกูลการแจกแจงที่ระบุ
ในข้อความพวกเขายังพูดถึง:
เอกสารอ้างอิง :
SAS Institute Inc. , SAS OnlineDoc®, เวอร์ชัน 8, Cary, NC: SAS Institute Inc. , 1999