ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)
แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย) กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่xxx , yyyพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xxxและสี่แยกyyy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2R2R^2 2 ℓ2ℓ2\ell_2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyyyxxxxxxxxx ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 …