แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย)
กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่ , พร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่และสี่แยก ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์ 2 สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง
EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระ
ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 น่าจะจัดการกับพหุนามได้ดีกว่า ชุดที่ 3 ด้วยวิธีการที่ทนต่อค่าผิดกฎหมาย ( ℓ 1หรือชอบ) เช่นเดียวกับชุดที่ 4 ใคร ๆ อาจสงสัยว่าฟังก์ชั่นค่าใช้จ่ายหรือตัวบ่งชี้ความแตกต่างอื่น ๆ สามารถชำระได้หรืออย่างน้อยก็ปรับปรุงชุดข้อมูล แก้ไข (จากความคิดเห็น OP): บล็อกโพสต์Curious Regressionsระบุว่า:
บังเอิญฉันบอกว่า Frank Anscombe ไม่เคยเปิดเผยว่าเขามากับชุดของข้อมูลเหล่านี้ หากคุณคิดว่าเป็นเรื่องง่ายที่จะได้รับสถิติสรุปทั้งหมดและการถดถอยมีผลเหมือนกันลองดูสิ!
ในชุดข้อมูลที่สร้างขึ้นโดยมีวัตถุประสงค์คล้ายกับชุดของ Anscombeจะมีชุดข้อมูลที่น่าสนใจหลายชุดเช่นฮิสโตแกรมเชิงควอนตัมแบบเดียวกัน ฉันไม่เห็นส่วนผสมของความสัมพันธ์ที่มีความหมายและสถิติแบบผสม
คำถามของฉันคือ: มี bivariate (หรือ trivariate เพื่อให้เห็นภาพ) ชุดข้อมูลที่มีลักษณะเหมือน Anscombe เช่นนั้นนอกเหนือจากการมีสถิติ -type เดียวกัน :
- แปลงของพวกเขาสามารถตีความได้ว่าเป็นความสัมพันธ์ระหว่างและ yราวกับว่ากำลังมองหากฎหมายระหว่างการวัด
- พวกมันมีคุณสมบัติเหมือนกัน (แข็งแกร่งกว่า) คุณสมบัติส่วนเพิ่ม (ค่ามัธยฐานและค่ามัธยฐานของค่าเบี่ยงเบนสัมบูรณ์เดียวกัน),
- พวกเขามีกล่อง bounding เดียวกัน: นาทีเดียวกัน max (และด้วยเหตุนี้ชนิดช่วงกลางและช่วงกลางสถิติ)
ชุดข้อมูลดังกล่าวจะมีบทสรุปเรื่องพล็อตเรื่อง "box-and-whiskers" (พร้อมกับ min, max, median, median absolute deviation / MAD, Mean และ std) ในแต่ละตัวแปรและจะยังคงค่อนข้างแตกต่างกันในการตีความ
มันจะน่าสนใจยิ่งขึ้นถ้าการถดถอยแบบสัมบูรณ์น้อยที่สุดนั้นเหมือนกันสำหรับชุดข้อมูล (แต่บางทีฉันก็ถามมากเกินไป) พวกเขาสามารถใช้เป็นข้อแม้เมื่อพูดถึงการถดถอยที่แข็งแกร่งและไม่เข้มแข็งและช่วยจำคำพูดของ Richard Hamming:
จุดประสงค์ของการคำนวณคือความเข้าใจไม่ใช่ตัวเลข
แก้ไข (จากความคิดเห็น OP) ปัญหาที่คล้ายกันจะได้รับการจัดการในการสร้างข้อมูลด้วยสถิติที่เหมือนกัน แต่กราฟิกที่แตกต่าง Sangit Chatterjee และ Aykut Firata, The American Statistics, 2007 หรือ Cloning data: การสร้างชุดข้อมูลที่มีความถดถอยเชิงเส้นหลายแบบ Aust N.-Z. สถิติ เจ 2552
ใน Chatterjee (2007) จุดประสงค์คือการสร้างคู่นวนิยายด้วยวิธีการเดียวกันและส่วนเบี่ยงเบนมาตรฐานจากชุดข้อมูลเริ่มต้นในขณะที่เพิ่มฟังก์ชั่นวัตถุประสงค์ "ความแตกต่าง / ความแตกต่าง" สูงสุด เนื่องจากฟังก์ชั่นเหล่านี้อาจไม่นูนหรือไม่สามารถหาอนุพันธ์ได้ดังนั้นจึงใช้อัลกอริธึมทางพันธุกรรม (GA) ขั้นตอนสำคัญประกอบด้วยการปรับสภาพของออร์โธซึ่งมีความสอดคล้องกับการรักษาค่าเฉลี่ยและความแปรปรวน (หน่วย -) ตัวเลขของกระดาษ (ครึ่งหนึ่งของเนื้อหากระดาษ) เป็นข้อมูลป้อนเข้าสูงสุดและข้อมูลเอาต์พุต GA ความคิดเห็นของฉันคือเอาท์พุท GA สูญเสียการตีความเชิงสัญชาตญาณดั้งเดิมมากมาย
และในทางเทคนิคค่ามัธยฐานมิได้ระดับกลางจะถูกรักษาไว้และกระดาษที่ไม่ได้พูดถึงขั้นตอนการ renormalization ที่จะรักษา , ℓ 1และℓ ∞สถิติ