ต่อไปนี้เป็นคำถามเกี่ยวกับการสร้างภาพข้อมูลจำนวนมากที่เสนอเป็น 'พิสูจน์ด้วยภาพ' ของการดำรงอยู่ของบุคคลที่ผิดธรรมดาของ Simpson และอาจเป็นคำถามเกี่ยวกับคำศัพท์
ซิมป์สัน Paradox เป็นปรากฏการณ์ที่ค่อนข้างง่ายที่จะอธิบายและยกตัวอย่างตัวเลขของ (เหตุผลที่ว่าทำไมนี้สามารถเกิดขึ้นได้เป็นลึกและน่าสนใจ) ความขัดแย้งก็คือมีตารางฉุกเฉิน 2x2x2 อยู่ (Agresti, การวิเคราะห์ข้อมูลอย่างมีหมวดหมู่) ซึ่งสมาคมร่อแร่มีทิศทางที่แตกต่างจากความสัมพันธ์ตามเงื่อนไข
นั่นคือการเปรียบเทียบอัตราส่วนในสองประชากรย่อยสามารถไปในทิศทางเดียว แต่การเปรียบเทียบในประชากรที่รวมกันไปในทิศทางอื่น ในสัญลักษณ์:
มีเช่นนั้น a + b
แต่ และ
สิ่งนี้แสดงอย่างถูกต้องในการสร้างภาพข้อมูลต่อไปนี้ (จากWikipedia ):
เศษส่วนเป็นเพียงความชันของเวกเตอร์ที่สอดคล้องกันและมันง่ายที่จะเห็นในตัวอย่างที่เวกเตอร์ B ที่สั้นกว่านั้นมีความชันที่ใหญ่กว่าเวกเตอร์ L ที่สอดคล้องกัน แต่เวกเตอร์ B ที่รวมกันนั้นมีความชันน้อยกว่าเวกเตอร์ L ที่รวมกัน
มีการสร้างภาพข้อมูลที่พบบ่อยมากในหลายรูปแบบโดยเฉพาะที่ด้านหน้าของการอ้างอิงวิกิพีเดียใน Simpson's:
นี่เป็นตัวอย่างที่ดีของการทำให้สับสนว่าตัวแปรที่ซ่อนอยู่ (ซึ่งแยกประชากรย่อยสองคน) สามารถแสดงรูปแบบที่แตกต่างกันได้อย่างไร
อย่างไรก็ตามทางคณิตศาสตร์เช่นภาพในทางที่ไม่มีสอดคล้องกับการแสดงผลของตารางฉุกเฉินที่อยู่ในพื้นฐานของปรากฏการณ์ที่รู้จักกันเป็นความขัดแย้งของซิมป์สัน ก่อนอื่นเส้นถดถอยจะอยู่เหนือข้อมูลชุดค่าที่มีมูลค่าจริงไม่นับข้อมูลจากตารางฉุกเฉิน
นอกจากนี้เราสามารถสร้างชุดข้อมูลที่มีความสัมพันธ์โดยพลการของความชันในเส้นถดถอย แต่ในตารางฉุกเฉินอาจมีข้อ จำกัด ในความแตกต่างของความลาดชัน นั่นคือเส้นการถดถอยของประชากรสามารถตั้งฉากกับการถดถอยทั้งหมดของประชากรย่อยที่ได้รับ แต่ใน Paradox ของซิมป์สันอัตราส่วนของประชากรย่อยแม้ว่าจะไม่ใช่ทางลาดชัน แต่ก็ไม่สามารถหลงทางไกลเกินไปจากประชากรที่รวมกันแม้ว่าจะไปในทิศทางอื่น (อีกครั้งให้ดูภาพเปรียบเทียบอัตราส่วนจากวิกิพีเดีย)
สำหรับฉันแล้วมันก็มากพอที่จะถูกผงะทุกครั้งที่ฉันเห็นภาพหลังเป็นภาพของความขัดแย้งของ Simpson แต่เนื่องจากฉันเห็นตัวอย่าง (สิ่งที่ฉันเรียกผิด) ทุกที่ฉันอยากรู้:
- ฉันขาดการแปลงอย่างละเอียดจากตัวอย่าง Simpson / Yule ดั้งเดิมของตารางฉุกเฉินเป็นค่าจริงที่แสดงให้เห็นถึงการแสดงภาพเส้นถดถอย
- แน่นอนซิมป์สันเป็นตัวอย่างหนึ่งของข้อผิดพลาดที่รบกวน ได้คำว่า 'ซิมป์สัน Paradox' ตอนนี้กลายเป็นบรรจุด้วยรบกวนข้อผิดพลาดเพื่อที่ใดคณิตศาสตร์ใด ๆการเปลี่ยนแปลงในทิศทางที่ผ่านตัวแปรที่ซ่อนอยู่สามารถเรียกว่าซิมป์สัน Paradox?
ภาคผนวก: นี่คือตัวอย่างของการวางนัยทั่วไปไปยังตาราง 2xmxn (หรือ 2 คูณด้วยการต่อเนื่องตามตาราง):
หากรวมกับประเภท shot ดูเหมือนว่าผู้เล่นจะยิงได้มากขึ้นเมื่อกองหลังใกล้เข้ามา จัดกลุ่มตามประเภทของการยิง (ระยะห่างจากตะกร้าจริงๆ) ยิ่งมีสถานการณ์ที่คาดหวังมากเท่าไหร่ก็ยิ่งมีการยิงมากขึ้นเท่านั้น
ภาพนี้เป็นสิ่งที่ฉันคิดว่าเป็นลักษณะทั่วไปของ Simpson ต่อสถานการณ์ที่ต่อเนื่องมากขึ้น (ระยะทางของผู้พิทักษ์) แต่ฉันก็ยังไม่เห็นว่าตัวอย่างบรรทัดการถดถอยเป็นตัวอย่างของ Simpson อย่างไร