ชุดข้อมูล Anscombe ที่มีกล่องและพล็อตมัสสุเดียวกัน (หมายถึง / std / median / MAD / min / max)


21

แก้ไข: เนื่องจากคำถามนี้ได้ขยายออกไปแล้วบทสรุป: การค้นหาชุดข้อมูลที่มีความหมายและตีความได้ที่แตกต่างกันด้วยสถิติแบบผสมที่เหมือนกัน (หมายถึงค่ามัธยฐานค่ากลางและการกระจายตัวที่เกี่ยวข้องและการถดถอย)

กลุ่ม Anscombe (ดูจุดประสงค์ในการแสดงข้อมูลมิติสูง? ) เป็นตัวอย่างที่โด่งดังของชุดข้อมูลสี่x , yพร้อมค่าเฉลี่ยส่วนเบี่ยงเบนมาตรฐาน / ส่วนเบี่ยงเบนมาตรฐานเดียวกัน (บนสี่xและสี่แยกy ) และOLSแบบเชิงเส้นเดียวกันการถดถอยและผลรวมที่เหลือของช่องสี่เหลี่ยมและค่าสัมประสิทธิ์สหสัมพันธ์R2 2 2สถิติชนิด (ขอบและร่วมกัน) จึงเดียวกันในขณะที่ชุดข้อมูลที่แตกต่างกันค่อนข้าง

สี่ของ Anscombe

EDIT (จากความคิดเห็น OP) ปล่อยให้ชุดข้อมูลขนาดเล็กแยกกันให้ฉันเสนอการตีความบางอย่าง ชุดที่ 1 สามารถมองเห็นได้เป็นความสัมพันธ์เชิงเส้นมาตรฐาน (เลียนแบบ, ถูกต้อง) ความสัมพันธ์กับเสียงรบกวนแบบกระจาย ชุดที่ 2 แสดงให้เห็นถึงความสัมพันธ์ที่สะอาดซึ่งอาจเป็นจุดศูนย์กลางของความพอดีระดับสูงกว่า ชุดที่ 3 แสดงให้เห็นถึงการพึ่งพาสถิติเชิงเส้นที่ชัดเจนด้วยหนึ่งในค่าผิดเพี้ยน ชุดที่ 4 เป็นเรื่องยุ่งยากมากขึ้น: ความพยายามในการ "ทำนาย" จากxดูเหมือนว่าจะผิดพลาด การออกแบบของxอาจเผยให้เห็นปรากฏการณ์ฮิสเทรีซิสที่มีค่าไม่เพียงพอ, ผลกระทบเชิงปริมาณ ( xอาจเป็นปริมาณมากเกินไป) หรือผู้ใช้เปลี่ยนตัวแปรตามและอิสระyxxx

ดังนั้นคุณสมบัติสรุปจึงซ่อนพฤติกรรมที่แตกต่างกันมาก ชุดที่ 2 น่าจะจัดการกับพหุนามได้ดีกว่า ชุดที่ 3 ด้วยวิธีการที่ทนต่อค่าผิดกฎหมาย ( 1หรือชอบ) เช่นเดียวกับชุดที่ 4 ใคร ๆ อาจสงสัยว่าฟังก์ชั่นค่าใช้จ่ายหรือตัวบ่งชี้ความแตกต่างอื่น ๆ สามารถชำระได้หรืออย่างน้อยก็ปรับปรุงชุดข้อมูล แก้ไข (จากความคิดเห็น OP): บล็อกโพสต์Curious Regressionsระบุว่า:21

บังเอิญฉันบอกว่า Frank Anscombe ไม่เคยเปิดเผยว่าเขามากับชุดของข้อมูลเหล่านี้ หากคุณคิดว่าเป็นเรื่องง่ายที่จะได้รับสถิติสรุปทั้งหมดและการถดถอยมีผลเหมือนกันลองดูสิ!

ในชุดข้อมูลที่สร้างขึ้นโดยมีวัตถุประสงค์คล้ายกับชุดของ Anscombeจะมีชุดข้อมูลที่น่าสนใจหลายชุดเช่นฮิสโตแกรมเชิงควอนตัมแบบเดียวกัน ฉันไม่เห็นส่วนผสมของความสัมพันธ์ที่มีความหมายและสถิติแบบผสม

คำถามของฉันคือ: มี bivariate (หรือ trivariate เพื่อให้เห็นภาพ) ชุดข้อมูลที่มีลักษณะเหมือน Anscombe เช่นนั้นนอกเหนือจากการมีสถิติ -type เดียวกัน2 :

  • แปลงของพวกเขาสามารถตีความได้ว่าเป็นความสัมพันธ์ระหว่างและ yราวกับว่ากำลังมองหากฎหมายระหว่างการวัดxy
  • พวกมันมีคุณสมบัติเหมือนกัน (แข็งแกร่งกว่า) คุณสมบัติส่วนเพิ่ม (ค่ามัธยฐานและค่ามัธยฐานของค่าเบี่ยงเบนสัมบูรณ์เดียวกัน),1
  • พวกเขามีกล่อง bounding เดียวกัน: นาทีเดียวกัน max (และด้วยเหตุนี้ชนิดช่วงกลางและช่วงกลางสถิติ)

ชุดข้อมูลดังกล่าวจะมีบทสรุปเรื่องพล็อตเรื่อง "box-and-whiskers" (พร้อมกับ min, max, median, median absolute deviation / MAD, Mean และ std) ในแต่ละตัวแปรและจะยังคงค่อนข้างแตกต่างกันในการตีความ

มันจะน่าสนใจยิ่งขึ้นถ้าการถดถอยแบบสัมบูรณ์น้อยที่สุดนั้นเหมือนกันสำหรับชุดข้อมูล (แต่บางทีฉันก็ถามมากเกินไป) พวกเขาสามารถใช้เป็นข้อแม้เมื่อพูดถึงการถดถอยที่แข็งแกร่งและไม่เข้มแข็งและช่วยจำคำพูดของ Richard Hamming:

จุดประสงค์ของการคำนวณคือความเข้าใจไม่ใช่ตัวเลข

แก้ไข (จากความคิดเห็น OP) ปัญหาที่คล้ายกันจะได้รับการจัดการในการสร้างข้อมูลด้วยสถิติที่เหมือนกัน แต่กราฟิกที่แตกต่าง Sangit Chatterjee และ Aykut Firata, The American Statistics, 2007 หรือ Cloning data: การสร้างชุดข้อมูลที่มีความถดถอยเชิงเส้นหลายแบบ Aust N.-Z. สถิติ เจ 2552

ใน Chatterjee (2007) จุดประสงค์คือการสร้างคู่นวนิยายด้วยวิธีการเดียวกันและส่วนเบี่ยงเบนมาตรฐานจากชุดข้อมูลเริ่มต้นในขณะที่เพิ่มฟังก์ชั่นวัตถุประสงค์ "ความแตกต่าง / ความแตกต่าง" สูงสุด เนื่องจากฟังก์ชั่นเหล่านี้อาจไม่นูนหรือไม่สามารถหาอนุพันธ์ได้ดังนั้นจึงใช้อัลกอริธึมทางพันธุกรรม (GA) ขั้นตอนสำคัญประกอบด้วยการปรับสภาพของออร์โธซึ่งมีความสอดคล้องกับการรักษาค่าเฉลี่ยและความแปรปรวน (หน่วย -) ตัวเลขของกระดาษ (ครึ่งหนึ่งของเนื้อหากระดาษ) เป็นข้อมูลป้อนเข้าสูงสุดและข้อมูลเอาต์พุต GA ความคิดเห็นของฉันคือเอาท์พุท GA สูญเสียการตีความเชิงสัญชาตญาณดั้งเดิมมากมาย(x,y)

และในทางเทคนิคค่ามัธยฐานมิได้ระดับกลางจะถูกรักษาไว้และกระดาษที่ไม่ได้พูดถึงขั้นตอนการ renormalization ที่จะรักษา , 1และสถิติ21


3
หากคุณเพียงแค่หลังจากชุดข้อมูลที่ไม่เปลี่ยนแปลงด้วยชุดบ็อกซ์บ็อกซ์เดียวกันฉันก็ให้คำตอบกับคำถามสักครู่โดยอ้างอิงจากการพัฒนาในบทความ เดี๋ยวก่อนฉันจะขุดออกมา (แก้ไข) ... ที่นี่ มันง่ายที่จะทำให้มากขึ้นชุดข้อมูลที่มีคุณสมบัติเดียวกัน ... ฉันอยู่ที่ในคำตอบอื่นที่นี่
Glen_b -Reinstate Monica

2
xy

xy

3
Chatterjee & Firat ( อเมริกันสถิติ 2007)ที่เชื่อมโยงกับในคำตอบนี้ไปคำถามนี้ให้เป็นขั้นตอนวิธีพันธุกรรมค่อนข้างทั่วไปที่คุณควรจะสามารถที่จะปรับตัวในทางที่ตรงไปตรงมากับวัตถุประสงค์ของคุณ
S. Kolassa - Reinstate Monica

1
พล็อตเป็นตัวอย่างของช่วงเวลาของประชากรที่ไม่มีความหมายเมื่อช่วงเวลาการแจกจ่ายถูกละเว้น ค่าเฉลี่ย, ค่าเบี่ยงเบนมาตรฐาน, ความเบ้และช่วงเวลาของประชากรอื่นไม่ตรงกับค่าที่คาดหวังค่าเบี่ยงเบนมาตรฐานความเบ้และช่วงเวลาอื่น ๆ ของการแจกแจงที่อธิบายประชากรเหล่านั้นได้ดีที่สุด เมื่อแปลงข้างต้นถูกมองว่าเป็นการแจกแจงของค่า x และค่า y พวกมันต่างกันทั้งหมดจึงมีช่วงเวลาการแจกแจงที่แตกต่างกัน นี่เป็นสิ่งที่แย่กว่านั้นเพียงแค่ละเว้นโครงสร้างที่เหลือซึ่งอาจเป็นประเด็นหนึ่งก็สามารถเพิกเฉยไม่ได้ด้วยการไม่ต้องรับโทษ
คาร์ล

คำตอบ:


1

เพื่อเป็นรูปธรรมฉันกำลังพิจารณาปัญหาในการสร้างสองชุดข้อมูลแต่ละชุดซึ่งแสดงถึงความสัมพันธ์ แต่ความสัมพันธ์ของแต่ละชุดนั้นแตกต่างกันและยังมีประมาณเดียวกัน:

  • หมายถึงx
  • ค่าเฉลี่ยy
  • SD x
  • SD y
  • ค่ามัธยฐานx
  • ค่าเฉลี่ยy
  • ขั้นต่ำx
  • ขั้นต่ำy
  • สูงสุดx
  • สูงสุดy
  • ค่าเบี่ยงเบนสัมบูรณ์แบบมัธยฐานจากค่ามัธยฐานของx
  • ค่าเบี่ยงเบนสัมบูรณ์สัมบูรณ์จากค่ามัธยฐานของy
  • สัมประสิทธิ์จากการถดถอยเชิงเส้นอย่างง่ายของyบนx

meany=0miny=maxy

ยกตัวอย่างเช่น

x019293949596979891y11201211120121

ซึ่งมีกราฟรูปตัว V ขึ้นดังนี้:

กราฟ

yy


มีส่วนร่วมที่ดี อันที่จริงฉันตกเส้นแนวนอนเป็นบิตของการโกง wrt OLS การพลิกเป็นความคิดที่ดี แต่ถ้าชุดข้อมูลนั้นแตกต่างกัน แต่ฉันคิดว่าคุณมีความคิดที่ดีบางทีรูปร่าง "N" และรูปร่าง "W" ในแบบเดียวกันอาจเป็นจุดเริ่มต้นของเส้นทาง
Laurent Duval
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.