ประโยชน์ของการใช้ QQ-plot บนฮิสโทแกรม


22

ในความคิดเห็นนี้ Nick Cox เขียนว่า:

การเข้าเรียนเป็นวิธีโบราณ แม้ว่าฮิสโทแกรมจะมีประโยชน์ แต่ซอฟต์แวร์ทางสถิติที่ทันสมัยช่วยให้ง่ายขึ้นรวมถึงแนะนำให้กระจายข้อมูลดิบให้เหมาะสม Binning เพียงแค่โยนรายละเอียดออกไปซึ่งมีความสำคัญในการพิจารณาว่าการแจกแจงแบบใดที่เป็นไปได้

บริบทของความคิดเห็นนี้แสดงให้เห็นว่าการใช้ QQ-plots เป็นทางเลือกในการประเมินความเหมาะสม คำสั่งฟังดูน่าเชื่อถือมาก แต่ฉันต้องการทราบเกี่ยวกับข้อมูลอ้างอิงที่เชื่อถือได้ซึ่งสนับสนุนข้อความนี้ มีกระดาษบ้างไหมที่ทำการตรวจสอบข้อเท็จจริงนี้อย่างละเอียดมากขึ้นนอกเหนือจาก“ ความเรียบง่ายนี่ฟังดูชัดเจน” หรือไม่? มีการเปรียบเทียบผลลัพธ์ที่เป็นระบบจริงหรือชอบอะไร

ฉันยังต้องการที่จะดูว่าประโยชน์ของการแปลง QQ- มากกว่าฮิสโทแกรมสามารถยืดออกไปยังแอปพลิเคชันอื่น ๆ คำตอบสำหรับคำถามนี้ยอมรับว่า "พล็อต QQ- […] เพียงแค่บอกคุณว่า" มีอะไรผิดปกติ "" ฉันกำลังคิดที่จะใช้มันเป็นเครื่องมือในการระบุโครงสร้างในข้อมูลที่สังเกตได้เมื่อเปรียบเทียบกับตัวแบบโมฆะและสงสัยว่ามีกระบวนการที่กำหนดไว้ใด ๆ ที่จะใช้ QQ-แปลง (หรือข้อมูลพื้นฐาน) ไม่เพียง แต่ตรวจจับได้เท่านั้น โครงสร้างในข้อมูลที่สังเกตได้ การอ้างอิงซึ่งรวมถึงทิศทางนี้จึงมีประโยชน์อย่างยิ่ง


4
stats.stackexchange.com/questions/51718/…ตอบคำถามครึ่งหนึ่งไปแล้วนั่นคือสาเหตุที่ฮิสโทแกรมหลีกเลี่ยงได้ดีที่สุดไม่ว่าคุณจะแทนที่ด้วยฮิสโตแกรม
Gala

คำตอบ:


25

กระดาษมาตรฐานที่นี่คือ

Wilk, MB และ R. Gnanadesikan พ.ศ. 2511 วิธีการวางแผนความน่าจะเป็นสำหรับการวิเคราะห์ข้อมูล Biometrika 55: 1-17

และมันยังคงอ่านและอ่านซ้ำ ๆ

การรักษาที่ชัดเจนพร้อมตัวอย่างที่ดีมากมายได้รับจาก

คลีฟแลนด์ WS 2536 แสดงข้อมูล การประชุมสุดยอดนิวเจอร์ซีย์: โฮบาร์ตกด

และเป็นมูลค่าการกล่าวขวัญเบื้องต้นเพิ่มเติม

คลีฟแลนด์ WS 2537 องค์ประกอบของกราฟข้อมูล การประชุมสุดยอดนิวเจอร์ซีย์: โฮบาร์ตกด

ข้อความอื่น ๆ ที่มีการเปิดเผยอย่างมีเหตุผลต่อวิธีการนี้ ได้แก่

Davison, AC 2003 แบบจำลองทางสถิติ Cambridge: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

ข้าว, JA 2007. สถิติคณิตศาสตร์และการวิเคราะห์ข้อมูล เบลมอนต์แคลิฟอร์เนีย: Duxbury

นอกจากนั้นฉันไม่รู้อะไรเลยว่าเป็นสิ่งที่คุณถาม เมื่อคุณได้เห็นจุดของควอนไทล์ควอนไทล์การแสดงรายละเอียดว่าฮิสโทแกรมเป็นทางเลือกอัตราที่สองดูเหมือนจะไม่น่าสนใจและไม่มีประโยชน์เหมือนการยิงปลาในถัง

แต่ฉันจะสรุปแบบนี้:

  1. Binning ระงับรายละเอียดและรายละเอียดมักมีความสำคัญ สิ่งนี้สามารถใช้ได้ไม่เพียง แต่กับสิ่งที่เกิดขึ้นในก้อยเท่านั้น แต่ยังรวมถึงสิ่งที่เกิดขึ้นตรงกลางด้วย ยกตัวอย่างเช่นความละเอียดหรือ multimodality อาจมีความสำคัญเช่นเดียวกับความเบ้หรือน้ำหนักหาง

  2. Binning ต้องการการตัดสินใจเกี่ยวกับต้นกำเนิดของ bin และความกว้างของ bin ซึ่งอาจส่งผลต่อลักษณะที่ปรากฏของฮิสโตแกรมอย่างมากดังนั้นจึงยากที่จะเห็นว่าอะไรคือของจริงและอะไรคือผลข้างเคียงของตัวเลือก หากซอฟต์แวร์ของคุณทำให้การตัดสินใจเหล่านี้สำหรับคุณปัญหายังคงอยู่ (ตัวอย่างเช่นตัวเลือกถังเริ่มต้นมักได้รับการออกแบบเพื่อให้คุณไม่ใช้ "ถังขยะมากเกินไป" เช่นด้วยแรงจูงใจในการปรับให้เรียบเล็กน้อย

  3. ปัญหาด้านกราฟิกและจิตวิทยาของการเปรียบเทียบฮิสโทแกรมสองรายการนั้นมีความซับซ้อนกว่าในการตัดสินความพอดีของชุดของคะแนนกับเส้นตรง

-ค่าเฉลี่ย) / SD หากปริมาณเป็นเพียงสถิติการสั่งซื้อสิ่งที่คุณต้องทำคือการใช้การแปลงเช่นลอการิทึมของค่าสูงสุดนั้นเท่ากับจำนวนลอการิทึมสูงสุดและอื่น ๆ (เล็กน้อยการตอบสนองแบบตรงกันข้ามกลับคำสั่ง) แม้ว่าคุณจะพล็อตปริมาณที่เลือกซึ่งจะขึ้นอยู่กับสถิติการสั่งซื้อสองครั้งโดยปกติพวกเขาจะถูก interpolated ระหว่างสองค่าข้อมูลดั้งเดิมและผลกระทบของการแก้ไขเป็นเรื่องไม่สำคัญ ในทางกลับกันฮิสโทแกรมในบันทึกหรือเครื่องชั่งที่เปลี่ยนรูปแบบอื่น ๆ นั้นต้องการการตัดสินใจใหม่เกี่ยวกับต้นกำเนิดและความกว้างของถังขยะซึ่งไม่ยากโดยเฉพาะ แต่มันไม่สำคัญ มากเหมือนกันสามารถพูดของการประมาณความหนาแน่นเป็นวิธีการสรุปการกระจาย


8

ดูผลงานของ William S. Cleveland

ข้อมูลการแสดงผลอาจเป็นแหล่งข้อมูลเดียวที่ดีที่สุด แต่ยังเห็นหน้าเว็บของเขาโดยเฉพาะบรรณานุกรมและหน้าสำหรับการแสดงข้อมูล (รวมถึงรหัส S + ที่ปรับได้เพื่อใช้ในR)

คลีฟแลนด์มีหลายเหตุผลที่ทำให้แผนการ QQ นั้นดีและทำไมฮิสโตแกรมจึงไม่ดีนัก



7

เมื่อคุณเรียนรู้วิธีใช้งาน QQ แปลงอนุญาตให้คุณระบุความเบ้, ความหนักหน่วง, รูปร่างทั่วไป, ยอดเขาและอื่น ๆ , คุณสมบัติชนิดเดียวกันที่ผู้คนมักใช้ฮิสโทแกรมเพื่อประเมิน

การประมาณความหนาแน่นของเคอร์เนลหรือการประมาณความหนาแน่นของ log-spline สามารถหลีกเลี่ยงปัญหาบางอย่างด้วยฮิสโทแกรมที่งานกาล่าชี้ไปในความคิดเห็น

ลองพิจารณาตัวอย่างนี้จากลิงค์นั้น:

อย่างไรก็ตามหากคุณโชคดีมากคุณอาจพลาดความแตกต่างที่ไม่น่าสงสัยกับฮิสโตแกรมและแม้กระทั่งกับการประมาณการความหนาแน่นที่ราบรื่น (เพราะมันเรียบเป็นธรรมชาติ) แต่มักจะเห็นได้ชัดเจนบน QQ แปลง การประมาณความหนาแน่นที่ราบรื่น - ยกเว้นว่าได้รับการปฏิบัติเป็นพิเศษ - อาจมีปัญหากับตัวแปรที่มีขอบเขต

ฮิสโทแกรมและการประเมินความหนาแน่นที่ราบรื่นนั้นขึ้นอยู่กับการประมาณข้อมูลซึ่งอาจมีประโยชน์ - แต่อาจแนะนำสิ่งประดิษฐ์หรือสิ่งที่บิดเบือนความจริง

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.