พล็อต QQ ไม่ตรงกับฮิสโตแกรม


12

ฉันมีฮิสโตแกรมความหนาแน่นของเคอร์เนลและการกระจายผลตอบแทนทางการเงินแบบปกติที่ติดตั้งไว้ซึ่งเปลี่ยนเป็นความสูญเสีย (สัญญาณเปลี่ยน) และพล็อต QQ ปกติของข้อมูลเหล่านี้:

http://tinypic.com/r/34ocwvr/6

พล็อต QQ แสดงให้เห็นชัดเจนว่าก้อยไม่ได้ติดตั้งอย่างถูกต้อง แต่ถ้าฉันดูฮิสโตแกรมและการกระจายแบบปกติที่ติดตั้ง (สีฟ้า) แม้ค่ารอบ 0.0 จะไม่ถูกต้อง ดังนั้นพล็อต QQ แสดงให้เห็นว่ามีเพียงหางที่ไม่เหมาะสม แต่เห็นได้ชัดว่าการกระจายทั้งหมดไม่ได้ติดตั้งอย่างถูกต้อง ทำไมสิ่งนี้ถึงไม่ปรากฏในพล็อต QQ?


10
เส้นโค้งสีน้ำเงินด้านซ้ายตรงกับเส้นสมมุติที่ว่า "เหมาะสมที่สุด" ทางด้านขวา เส้นด้านขวาไม่ใช่เส้นที่เหมาะสมที่สุด: มันคือเส้นที่เหมาะที่สุดกับค่ากลางในการแจกแจง หากคุณใส่ "เส้นโค้งระฆัง" ตรงกลางสองในสามของฮิสโตแกรมแทนที่จะเป็นทุกอย่างเส้นโค้งนั้นจะเข้ามาใกล้กับจุดสูงสุดและด้านที่ลาดชัน แต่ก็ไกล ต่ำเกินไปที่ไหล่และหาง นั่นคือสิ่งที่บรรทัดในพล็อต qq แสดงเช่นกันแผนการเหล่านั้นอยู่ในข้อตกลงที่สมบูรณ์แบบ มันเป็นความลงตัวที่แตกต่าง
whuber

คำตอบ:


11

+1 ถึง @NickSabbe สำหรับ 'พล็อตเพิ่งบอกคุณว่า "มีบางอย่างผิดปกติ" ซึ่งมักจะเป็นวิธีที่ดีที่สุดในการใช้ qq-plot (เพราะอาจเข้าใจได้ยากว่าจะตีความอย่างไร) อย่างไรก็ตามมีความเป็นไปได้ที่จะเรียนรู้วิธีตีความ qq-plot โดยคิดว่าจะทำอย่างไร

คุณจะเริ่มต้นด้วยการเรียงลำดับข้อมูลของคุณจากนั้นคุณจะนับจำนวนขึ้นจากค่าต่ำสุดที่ให้แต่ละค่าเป็นเปอร์เซ็นต์เท่ากัน ตัวอย่างเช่นหากคุณมีจุดข้อมูล 20 จุดเมื่อคุณนับคะแนนแรก (ขั้นต่ำ) คุณจะพูดกับตัวเองว่า 'ฉันนับ 5% ของข้อมูลของฉัน' คุณจะทำตามขั้นตอนนี้จนกว่าจะถึงจุดสิ้นสุดซึ่งเป็นจุดที่คุณได้ผ่าน 100% ของข้อมูลของคุณ ค่าร้อยละเหล่านี้สามารถนำมาเปรียบเทียบกับค่าร้อยละเดียวกันจากปกติทฤษฏีที่สอดคล้องกัน (เช่นปกติที่มีค่าเฉลี่ยและ SD เดียวกัน)

เมื่อคุณพล็อตเรื่องเหล่านี้คุณจะพบว่าคุณมีปัญหากับค่าสุดท้ายซึ่งก็คือ 100% เพราะเมื่อคุณผ่าน 100% ของค่าทางทฤษฎีคุณก็จะ 'ไม่มี' ปัญหานี้ได้รับการจัดการโดยการเพิ่มค่าคงที่เล็ก ๆ ให้กับตัวหารของแต่ละจุดในข้อมูลของคุณก่อนที่จะคำนวณเปอร์เซ็นต์ ค่าทั่วไปจะเพิ่ม 1 ให้กับส่วน; ตัวอย่างเช่นคุณจะเรียกจุดข้อมูล 1 (จาก 20) ของคุณ 1 / (20 + 1) = 5% และสุดท้ายของคุณจะเป็น 20 / (20 + 1) = 95% ทีนี้ถ้าคุณพล็อตจุดเหล่านี้เทียบกับทฤษฏีทางทฤษฎีที่สอดคล้องกันคุณจะได้pp-plot(สำหรับการวางแผนความน่าจะเป็นกับความน่าจะเป็น) เนื้อเรื่องดังกล่าวส่วนใหญ่จะแสดงความเบี่ยงเบนระหว่างการแจกแจงของคุณกับการแจกแจงแบบปกติที่กึ่งกลางการแจกแจง เนื่องจาก 68% ของการแจกแจงแบบปกติอยู่ภายใน +/- 1 SD ดังนั้นหน้าแปลง PP จึงมีความละเอียดที่ยอดเยี่ยมและความละเอียดต่ำ (สำหรับข้อมูลเพิ่มเติมในจุดนี้มันอาจช่วยอ่านคำตอบของฉันที่นี่: PP-แปลงเทียบกับ QQ-แปลง .)

บ่อยครั้งที่เรากังวลมากที่สุดเกี่ยวกับสิ่งที่เกิดขึ้นในการกระจายของเรา เพื่อให้ได้ความละเอียดที่ดีกว่ามี (และความละเอียดจึงแย่ลงในช่วงกลาง) เราสามารถสร้างQQ พล็อตแทน เราทำสิ่งนี้โดยนำความน่าจะเป็นของพวกเราแล้วส่งผ่านการกระจายของ CDF แบบปกติ (นี่ก็เหมือนกับการอ่านตาราง z ที่ด้านหลังของหนังสือสถิติย้อนหลัง - คุณอ่านในความน่าจะเป็นและอ่าน z- คะแนน). ผลการดำเนินงานนี้เป็นสองชุดของquantilesซึ่งสามารถพล็อตกับแต่ละอื่น ๆ ในทำนองเดียวกัน

@whuber ถูกต้องว่าเส้นอ้างอิงนั้นถูกพล็อตหลังจากนั้น (โดยทั่วไป) โดยการหาเส้นที่เหมาะสมที่สุดผ่านจุดกึ่งกลาง 50% ของคะแนน (เช่นจากควอไทล์แรกถึงสาม) สิ่งนี้ทำเพื่อให้พล็อตอ่านง่ายขึ้น เมื่อใช้บรรทัดนี้คุณสามารถตีความพล็อตเป็นการแสดงให้คุณเห็นว่าควอนไทล์ของการกระจายของคุณนั้นเปลี่ยนไปจากปกติจริงหรือไม่เมื่อคุณย้ายไปที่ก้อย (โปรดสังเกตว่าตำแหน่งของจุดที่ไกลออกไปจากจุดศูนย์กลางนั้นไม่ได้เป็นอิสระจากสิ่งที่อยู่ใกล้ยิ่งกว่านั้นดังนั้นความจริงที่ว่าในฮิสโตแกรมที่เฉพาะเจาะจงของคุณหางดูเหมือนว่าจะมารวมกันหลังจากมี 'ไหล่' แตกต่างกัน ตอนนี้เหมือนกันอีกครั้ง)

คุณสามารถตีความ qq-plot เชิงวิเคราะห์โดยพิจารณาค่าที่อ่านจากแกนเปรียบเทียบกับจุดที่กำหนด หากข้อมูลได้รับการอธิบายอย่างดีจากการแจกแจงปกติค่าควรจะเหมือนกัน ตัวอย่างเช่นใช้จุดสุดยอดที่มุมล่างซ้ายสุด: ค่าของมันอยู่ที่ใดที่หนึ่งในอดีตแต่ค่าของมันเป็นเพียงอดีตที่ผ่านมาเล็กน้อยดังนั้นมันจึงอยู่ไกลเกินกว่าที่ควรจะเป็น โดยทั่วไปรูบริกแบบง่าย ๆ ในการตีความคิวคิว - พล็อตก็คือถ้าหางที่ได้รับบิดออกจากทวนเข็มนาฬิกาจากเส้นอ้างอิงมีข้อมูลเพิ่มเติมในหางของการแจกแจงของคุณมากกว่าในทฤษฎีปกติและถ้าหางบิดตามเข็มนาฬิกา เป็นน้อย- 3 y - .2x3y.2ข้อมูลในส่วนท้ายของการกระจายของคุณมากกว่าในทางทฤษฎีตามปกติ ในคำอื่น ๆ :

  • ถ้าหางทั้งสองบิดทวนเข็มนาฬิกาคุณมีหางหนา ( leptokurtosis )
  • ถ้าหางทั้งสองบิดตามเข็มนาฬิกาคุณจะมีหางแสง (platykurtosis)
  • ถ้าหางขวาของคุณบิดทวนเข็มนาฬิกาและหางซ้ายบิดตามเข็มนาฬิกาคุณจะเอียงขวา
  • หากหางซ้ายของคุณบิดทวนเข็มนาฬิกาและหางขวาของคุณบิดตามเข็มนาฬิกาคุณก็เอียงซ้าย

ฉันพบรูบริกดังกล่าวน้อยกว่าที่พอใจ หนึ่งคือพวกเขาไม่ได้เชื่อมต่อโดยตรงกับหลักการที่อยู่เบื้องหลังพล็อต: พวกเขาจะต้องจดจำแยกต่างหาก (และอาจสับสนโดยหน่วยความจำที่ผิดพลาด) อีกอย่าง (ในกรณีนี้) คือมันซับซ้อนเกินไปที่จะมีประโยชน์อย่างน่าเชื่อถือ อีกวิธีหนึ่งคือการที่ไม่มีมาตรฐานในการวาดพล็อตดังกล่าวสามารถทำให้วิธีนี้ไม่ถูกต้องเมื่อนำไปใช้กับพล็อต qq ที่ทำโดยขั้นตอนที่แตกต่างกัน แต่แปลง QQ จะง่ายต่อการตีความ: เห็นความพยายามของฉันที่คำอธิบายลงครึ่งหนึ่งquantdec.com/envstats/notes/class_03/probability.htm
whuber

5

พูดง่ายๆ: QQ-plot แสดงการจัดอันดับในการกระจายเชิงประจักษ์เปรียบเทียบกับการกระจายที่คาดไว้ ในกรณีของคุณ (และนี่คือกรณีที่ค่อนข้างบ่อย; ด้วยการแจกแจงแบบสมมาตรเสมอ) อันดับที่อยู่ตรงกลางจะคล้ายกันระหว่างที่คาดหวังและเชิงประจักษ์ดังนั้น QQ-plot อยู่ใกล้กับบรรทัดนั้น

มันไม่ตรงไปตรงมาที่จะระบุการสังเกต "แปลก" ตามตำแหน่งของพวกเขาใน QQ-plot: พล็อตเพิ่งบอกคุณว่า "มีบางอย่างผิดปกติ" และถ้าคุณรู้เพิ่มเติมเกี่ยวกับข้อมูล / การกระจายคุณอาจพบ ปัญหาอยู่ที่ไหน


1
ฉันจะรักษาข้อสรุปที่ตรงกันข้าม Nick: พล็อต qq ทำให้ง่ายต่อการระบุและประเมินผล "แปลก" เมื่อเทียบกับเนื้อหาของข้อมูลในขณะที่ฮิสโตแกรมมีแนวโน้มที่จะคลุมเครือมากที่พล็อต qq เปิดเผย ปัญหาที่นี่ไม่ได้เป็นว่าพล็อต qq ใกล้เคียงกับบรรทัดหรือไม่: เกี่ยวข้องกับซอฟต์แวร์ที่เลือกโดยใช้เป็นข้อมูลอ้างอิงสำหรับพล็อต! (ฉันสงสัยว่าRมันพอดีกับเปอร์เซนต์ปานกลางเช่นควอไทล์ในขณะที่ความพอดีกับฮิสโตแกรมนั้นขึ้นอยู่กับช่วงเวลาที่ตรงกัน)
whuber

1
@whuber: โดยส่วนตัวแล้วฉันชอบที่จะเห็นทั้งสองถ้าเป็นไปได้ (ส่วนใหญ่เนื่องจากฉัน "อ่าน" ฮิสโทแกรมง่ายกว่า QQ-แปลง) แต่คุณพูดถูกและฉันยืนแก้ไข
Nick Sabbe

และคุณค่อนข้างถูกต้องว่าทั้งสองเทคนิคเสริมกัน ยกตัวอย่างเช่น bimodality มีแนวโน้มที่จะง่ายต่อการตรวจจับ (และปริมาณ) ในฮิสโตแกรมมากกว่าใน qq plot ฉันเชื่อว่าด้วยการฝึกฝนทั้งกราฟฮิสโตแกรมและแปลง qq นั้นง่ายต่อการอ่าน แปลง QQ อาจใช้เวลานานในการเรียนรู้เพียงเล็กน้อยเนื่องจากไม่มีรูปแบบมาตรฐานของการนำเสนอ: คุณต้องตรวจสอบว่าแกนใดเป็นค่าและ quantile ใดและบางครั้ง quantiles จะถูกแปลงเป็น "ค่าเทียบเท่า" (แทน เป็นมาตรฐาน)
whuber
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.