คำถามติดแท็ก qq-plot

พล็อต qq (หรือพล็อตควอนไทล์เชิงควอนไทล์) คือ scatterplot ของควอนไทล์ของการแจกแจงสองแบบ พล็อต QQ มีประโยชน์สำหรับการเปรียบเทียบการแจกแจง

4
วิธีตีความพล็อต QQ
ฉันกำลังทำงานกับชุดข้อมูลขนาดเล็ก (21 ข้อสังเกต) และมีพล็อต QQ ปกติต่อไปนี้ใน R: เมื่อเห็นว่าพล็อตไม่รองรับความเป็นมาตรฐานฉันจะสรุปอะไรเกี่ยวกับการแจกแจงพื้นฐาน สำหรับฉันแล้วดูเหมือนว่าการแจกแจงที่เบ้ไปทางขวาจะเหมาะกว่าดีกว่าใช่มั้ย นอกจากนี้เราสามารถสรุปอะไรอีกจากข้อมูล

5
การตีความ QQplot - มีกฎของหัวแม่มือในการตัดสินใจที่ไม่ปกติหรือไม่?
ฉันได้อ่านเธรดบน QQplots เพียงพอที่นี่เพื่อทำความเข้าใจว่า QQplot สามารถให้ข้อมูลได้มากกว่าการทดสอบตามปกติอื่น ๆ อย่างไรก็ตามฉันไม่มีประสบการณ์กับการตีความ QQplots ฉันเที่ยวมาก ฉันพบกราฟจำนวนมากของ QQplots ที่ไม่ปกติ แต่ไม่มีกฎที่ชัดเจนเกี่ยวกับวิธีการตีความพวกเขานอกเหนือจากสิ่งที่ดูเหมือนว่าจะเป็นการเปรียบเทียบกับการแจกแจงแบบรู้พร้อมกับ "ความรู้สึกทางเดิน" ฉันต้องการทราบว่าคุณมีกฎ (หรือที่คุณรู้) กฎง่ายๆที่จะช่วยให้คุณตัดสินใจไม่ปกติ คำถามนี้เกิดขึ้นเมื่อฉันเห็นกราฟทั้งสองนี้: ฉันเข้าใจว่าการตัดสินใจที่ไม่เป็นมาตรฐานนั้นขึ้นอยู่กับข้อมูลและสิ่งที่ฉันต้องการจะทำกับพวกเขา อย่างไรก็ตามคำถามของฉันคือ: โดยทั่วไปแล้วการสังเกตที่ออกจากเส้นตรงเมื่อใดจะมีหลักฐานมากพอที่จะทำให้การประมาณค่าปกติไม่มีเหตุผล? สำหรับสิ่งที่คุ้มค่าการทดสอบชาปิโร - วิลค์ล้มเหลวในการปฏิเสธสมมติฐานที่ไม่เป็นมาตรฐานในทั้งสองกรณี

5
R - QQPlot: วิธีการดูว่ามีการกระจายข้อมูลตามปกติ
ฉันได้วางแผนเรื่องนี้หลังจากที่ฉันทำการทดสอบตามปกติ การทดสอบแสดงให้เห็นว่ามีโอกาสที่ประชากรจะกระจายตัวตามปกติ อย่างไรก็ตามวิธีดู "พฤติกรรม" นี้ในพล็อตนี้ UPDATE ฮิสโตแกรมอย่างง่ายของข้อมูล: UPDATE การทดสอบของ Shapiro-Wilk พูดว่า:


2
การตีความพล็อต (glm.model)
ใครช่วยบอกฉันได้ว่าจะตีความ 'ส่วนที่เหลือเทียบพอดี', 'ปกติ q-q', 'มาตราส่วนที่ตั้ง' และ 'ส่วนที่เหลือเทียบกับความสามารถในการแปลง'? ฉันกำลังจัดวาง GLM แบบทวินามให้เหมาะสมแล้วบันทึกและวางแผนใหม่

4
จะทราบได้อย่างไรว่าการกระจายข้อมูลของฉันสมมาตร
ฉันรู้ว่าถ้าค่ามัธยฐานและค่าเฉลี่ยเท่ากันโดยประมาณนี่หมายความว่ามีการกระจายแบบสมมาตร แต่ในกรณีนี้ฉันไม่แน่ใจ ค่าเฉลี่ยและค่ามัธยฐานค่อนข้างใกล้เคียง (เพียง 0.487m / ความแตกต่างของถุงน้ำดี) ซึ่งจะทำให้ฉันบอกว่ามีการกระจายแบบสมมาตร แต่เมื่อมองที่กล่องสี่เหลี่ยมดูเหมือนว่ามันจะเป็นเชิงบวกเล็กน้อย (ค่ามัธยฐานนั้นใกล้เคียงกับไตรมาสที่ 1 โดยค่า) (ฉันใช้ Minitab หากคุณมีคำแนะนำเฉพาะสำหรับซอฟต์แวร์ชิ้นนี้)

3
ประโยชน์ของการใช้ QQ-plot บนฮิสโทแกรม
ในความคิดเห็นนี้ Nick Cox เขียนว่า: การเข้าเรียนเป็นวิธีโบราณ แม้ว่าฮิสโทแกรมจะมีประโยชน์ แต่ซอฟต์แวร์ทางสถิติที่ทันสมัยช่วยให้ง่ายขึ้นรวมถึงแนะนำให้กระจายข้อมูลดิบให้เหมาะสม Binning เพียงแค่โยนรายละเอียดออกไปซึ่งมีความสำคัญในการพิจารณาว่าการแจกแจงแบบใดที่เป็นไปได้ บริบทของความคิดเห็นนี้แสดงให้เห็นว่าการใช้ QQ-plots เป็นทางเลือกในการประเมินความเหมาะสม คำสั่งฟังดูน่าเชื่อถือมาก แต่ฉันต้องการทราบเกี่ยวกับข้อมูลอ้างอิงที่เชื่อถือได้ซึ่งสนับสนุนข้อความนี้ มีกระดาษบ้างไหมที่ทำการตรวจสอบข้อเท็จจริงนี้อย่างละเอียดมากขึ้นนอกเหนือจาก“ ความเรียบง่ายนี่ฟังดูชัดเจน” หรือไม่? มีการเปรียบเทียบผลลัพธ์ที่เป็นระบบจริงหรือชอบอะไร ฉันยังต้องการที่จะดูว่าประโยชน์ของการแปลง QQ- มากกว่าฮิสโทแกรมสามารถยืดออกไปยังแอปพลิเคชันอื่น ๆ คำตอบสำหรับคำถามนี้ยอมรับว่า "พล็อต QQ- […] เพียงแค่บอกคุณว่า" มีอะไรผิดปกติ "" ฉันกำลังคิดที่จะใช้มันเป็นเครื่องมือในการระบุโครงสร้างในข้อมูลที่สังเกตได้เมื่อเปรียบเทียบกับตัวแบบโมฆะและสงสัยว่ามีกระบวนการที่กำหนดไว้ใด ๆ ที่จะใช้ QQ-แปลง (หรือข้อมูลพื้นฐาน) ไม่เพียง แต่ตรวจจับได้เท่านั้น โครงสร้างในข้อมูลที่สังเกตได้ การอ้างอิงซึ่งรวมถึงทิศทางนี้จึงมีประโยชน์อย่างยิ่ง

1
การใช้บรรทัดที่สร้างโดย qqline () ใน R คืออะไร?
qqnorm()ฟังก์ชั่น R ผลิตปกติ QQ พล็อตและqqline()เพิ่มสายที่ผ่านควอไทล์แรกและที่สาม จุดกำเนิดของบรรทัดนี้คืออะไร การตรวจสอบสภาพปกติเป็นประโยชน์หรือไม่? นี่ไม่ใช่เส้นคลาสสิค (เส้นทแยงมุมอาจเป็นไปได้หลังจากปรับสเกลเชิงเส้น)Y= xY=xy=x นี่คือตัวอย่าง ครั้งแรกที่ฉันเปรียบเทียบฟังก์ชันการกระจายเชิงประจักษ์ที่มีฟังก์ชั่นการกระจายทางทฤษฎีของ : ตอนนี้ผมพล็อต QQ พล็อตที่มีสายY = μ + σ x ; กราฟนี้มีความสัมพันธ์กับสัดส่วน (ไม่ใช่เชิงเส้น) ของกราฟก่อนหน้า: แต่นี่คือ qq-plot กับ R qqline: กราฟสุดท้ายนี้ไม่แสดงการออกเดินทางเช่นเดียวกับในกราฟแรกยังไม่มีข้อความ( μ^, σ^2)ยังไม่มีข้อความ(μ^,σ^2){\cal N}(\hat\mu,\hat\sigma^2)Y= μ^+ σ^xY=μ^+σ^xy=\hat\mu + \hat\sigma x

4
พื้นฐานสำหรับคำจำกัดความ Box และ Whisker Plot ของค่าผิดปกติคืออะไร?
นิยามมาตรฐานของค่าผิดปกติสำหรับพล็อต Box และ Whisker คือจุดที่อยู่นอกช่วงโดยที่และเป็นควอไทล์ตัวแรกและคือควอไทล์ที่สามของข้อมูล{Q1−1.5IQR,Q3+1.5IQR}{Q1−1.5IQR,Q3+1.5IQR}\left\{Q1-1.5IQR,Q3+1.5IQR\right\}IQR=Q3−Q1IQR=Q3−Q1IQR= Q3-Q1Q1Q1Q1Q3Q3Q3 พื้นฐานสำหรับคำจำกัดความนี้คืออะไร ด้วยคะแนนจำนวนมากแม้การแจกแจงแบบปกติที่สมบูรณ์แบบก็จะส่งกลับค่าผิดปกติ ตัวอย่างเช่นสมมติว่าคุณเริ่มต้นด้วยลำดับ: xseq<-seq(1-.5^1/4000,.5^1/4000, by = -.00025) ลำดับนี้สร้างการจัดอันดับเปอร์เซ็นต์ของข้อมูล 4,000 จุด การทดสอบภาวะปกติสำหรับqnormผลลัพธ์ในซีรี่ส์นี้: shapiro.test(qnorm(xseq)) Shapiro-Wilk normality test data: qnorm(xseq) W = 0.99999, p-value = 1 ad.test(qnorm(xseq)) Anderson-Darling normality test data: qnorm(xseq) A = 0.00044273, p-value = 1 ผลลัพธ์เป็นไปตามที่คาดไว้: ปกติของการแจกแจงแบบปกติเป็นเรื่องปกติ การสร้างการสร้างข้อมูลแบบตรงqqnorm(qnorm(xseq))(ตามที่คาดไว้): หาก boxplot ของข้อมูลเดียวกันถูกสร้างขึ้นboxplot(qnorm(xseq))ให้สร้างผลลัพธ์: Boxplot แตกต่างshapiro.test, ad.testหรือ …

2
วิธีตีความ QQ-plot ของ p-values
ฉันกำลังศึกษาสมาคมโรค GWAS SNP โดยใช้ซอฟต์แวร์ที่เรียกว่า plink ( http://pngu.mgh.harvard.edu/~purcell/plink/download.shtml ) ด้วยผลลัพธ์การเชื่อมโยงฉันได้รับค่า p สำหรับ SNP ทั้งหมดที่วิเคราะห์ ตอนนี้ฉันใช้ QQ-plot ของค่า p เหล่านั้นเพื่อแสดงว่าค่า p ต่ำมากแตกต่างจากการกระจายค่า p-value ที่คาดหวัง (การกระจายแบบสม่ำเสมอ) หากค่า p เบี่ยงเบนจากการแจกแจงที่คาดหวังหนึ่ง "อาจ" เรียกว่าค่า p สำหรับค่านัยสำคัญทางสถิติ อย่างที่คุณเห็นใน QQ-plot ตรงปลายหางด้านบน 4 จุดสุดท้ายนั้นค่อนข้างยากที่จะตีความ สองจุดสุดท้ายในสีเทาแสดงให้เห็นว่าค่า p เหล่านั้นอยู่ในการกระจายที่คาดหวังของค่า p ในขณะที่อีกสองไม่ได้ ทีนี้วิธีการตีความสิ่งนี้จุดสองจุดสุดท้ายมีค่า p ต่ำกว่าแต่ไม่ใช่ "นัยสำคัญ" ตาม QQ-plot ในขณะที่อีกสองจุดที่มีค่า p สูงกว่าคือ "สำคัญ"? …
17 qq-plot 

4
ซึ่งเชื่อว่า: ทดสอบ Kolmogorov-Smirnov หรือพล็อต QQ?
ฉันพยายามที่จะตรวจสอบว่าชุดข้อมูลของฉันของข้อมูลอย่างต่อเนื่องเป็นไปตามการกระจายแกมม่าที่มีพารามิเตอร์รูปร่าง 1.7 และอัตรา= 0.000063====== ปัญหาคือเมื่อฉันใช้ R เพื่อสร้างพล็อต QQ ของชุดข้อมูลของฉันกับแกมมาทฤษฎีการกระจาย (1.7 0.000063) ผมได้รับการพล็อตที่แสดงให้เห็นว่าข้อมูลเชิงประจักษ์ ๆ เห็นด้วยกับการกระจายรังสีแกมมาที่ สิ่งเดียวกันนี้เกิดขึ้นกับพล็อต ECDFxxx แต่เมื่อฉันเรียกใช้การทดสอบ Kolmogorov-Smirnov มันทำให้ฉันมีขนาดเล็กเกินสมควร -value ของ\%&lt; 1 %ppp&lt;1%&lt;1%<1\% ฉันควรเลือกที่จะเชื่อ เอาต์พุตกราฟิกหรือผลลัพธ์จากการทดสอบ KS หรือไม่

3
การแจกจ่ายของฉันเป็นเรื่องปกติ การทดสอบ Kolmogorov-Smirnov ไม่เห็นด้วย
ฉันมีปัญหากับค่าปกติของข้อมูลบางอย่างที่ฉันมี: ฉันได้ทำการทดสอบ Kolmogorov ซึ่งบอกว่ามันไม่ปกติกับ p = .0000 ฉันไม่เข้าใจ: ความเบ้ของการกระจายของฉัน = -. 497 และ kurtosis = -0,024 นี่คือพล็อตเรื่องการกระจายตัวของฉันซึ่งดูธรรมดามาก ... (ฉันมีสามคะแนนและแต่ละคะแนนนี้ไม่ปกติกับค่า p ที่สำคัญสำหรับการทดสอบ Kolmogorov ... ฉันไม่เข้าใจจริงๆ)

1
แถบความเชื่อมั่นสำหรับสาย QQ
คำถามนี้ไม่เกี่ยวข้องโดยเฉพาะRแต่ฉันเลือกที่จะใช้Rเพื่ออธิบาย พิจารณารหัสสำหรับการสร้างวงความเชื่อมั่นรอบ a (ปกติ) qq-line: library(car) library(MASS) b0&lt;-lm(deaths~.,data=road) qqPlot(b0$resid,pch=16,line="robust") ฉันกำลังมองหาคำอธิบายของ (หรือทางเลือกลิงก์ไปยังเอกสาร / เอกสารออนไลน์อธิบาย) วิธีสร้างวงความมั่นใจเหล่านี้ (ฉันได้เห็นการอ้างอิงถึง Fox 2002 ในไฟล์ช่วยเหลือของ R แต่น่าเสียดายที่ฉันไม่มีสิ่งนี้ หนังสือมีประโยชน์) คำถามของฉันจะทำให้ชัดเจนยิ่งขึ้นด้วยตัวอย่าง นี่คือวิธีRคำนวณ CI ของเหล่านี้ (ฉันย่อ / ย่อรหัสที่ใช้car::qqPlot) x&lt;-b0$resid good&lt;-!is.na(x) ord&lt;-order(x[good]) ord.x&lt;-x[good][ord] n&lt;-length(ord.x) P&lt;-ppoints(n) z&lt;-qnorm(P) plot(z,ord.x,type="n") coef&lt;-coef(rlm(ord.x~z)) a&lt;-coef[1] b&lt;-coef[2] abline(a,b,col="red",lwd=2) conf&lt;-0.95 zz&lt;-qnorm(1-(1-conf)/2) SE&lt;-(b/dnorm(z))*sqrt(P*(1-P)/n) #[WHY?] fit.value&lt;-a+b*z upper&lt;-fit.value+zz*SE lower&lt;-fit.value-zz*SE lines(z,upper,lty=2,lwd=2,col="red") lines(z,lower,lty=2,lwd=2,col="red") คำถามคืออะไรคือเหตุผลสำหรับสูตรที่ใช้ในการคำนวณ …

5
ลบจุดที่ไม่เกี่ยวข้องใกล้กับจุดศูนย์กลางของ QQ-plot
ฉันพยายามพล็อต QQ-plot ด้วยชุดข้อมูลสองชุดประมาณ 1.2 ล้านจุดใน R (ใช้ qqplot และป้อนข้อมูลลงใน ggplot2) การคำนวณนั้นง่ายพอ แต่กราฟผลลัพธ์นั้นโหลดช้าอย่างเจ็บปวดเนื่องจากมีหลายจุด ฉันได้ลองใช้การประมาณเชิงเส้นเพื่อลดจำนวนคะแนนเป็น 10,000 (นี่คือสิ่งที่ฟังก์ชั่น qqplot ทำอยู่แล้วถ้าหนึ่งในชุดข้อมูลของคุณมีขนาดใหญ่กว่าอีกชุดหนึ่ง) แต่คุณสูญเสียรายละเอียดจำนวนมากในหาง จุดข้อมูลส่วนใหญ่ที่อยู่ตรงกลางนั้นไร้ประโยชน์ - มันซ้อนทับกันมากจนอาจมีประมาณ 100 ต่อพิกเซล มีวิธีง่ายๆในการลบข้อมูลที่อยู่ใกล้กันเกินไปโดยไม่ปล่อยข้อมูลที่กระจัดกระจายไปทางหางหรือไม่?

3
วิธีเปลี่ยนการกระจายเลปโตคอตติกไปสู่ภาวะปกติ?
สมมติว่าฉันมีตัวแปร leptokurtic ที่ฉันต้องการเปลี่ยนเป็นค่าปกติ การเปลี่ยนแปลงอะไรที่ทำให้งานนี้สำเร็จ ฉันตระหนักดีว่าการแปลงข้อมูลอาจไม่เป็นที่ต้องการเสมอไป แต่เป็นการศึกษาเชิงวิชาการสมมติว่าฉันต้องการที่จะ "ตอก" ข้อมูลลงในแบบปกติ นอกจากนี้ดังที่คุณสามารถบอกได้จากพล็อตค่าทั้งหมดเป็นค่าบวกอย่างเคร่งครัด ฉันได้ลองใช้การเปลี่ยนแปลงที่หลากหลาย (สิ่งที่ฉันเคยเห็นมาก่อนรวมถึง, ฯลฯ ) แต่ไม่มีใครทำงานได้ดีเป็นพิเศษ มีการเปลี่ยนแปลงที่รู้จักกันดีในการทำให้การกระจายตัวของเลปโตไคโตริกเป็นปกติมากขึ้นหรือไม่?1X, X--√, Asinh ( X)1X,X,asinh(X)\frac 1 X,\sqrt X,\text{asinh}(X) ดูตัวอย่างพล็อต QQ ปกติด้านล่าง:

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.