หากตัวแปรสองตัวมีค่าสหสัมพันธ์ 0 เหตุใดจึงไม่จำเป็นต้องเป็นอิสระ ตัวแปรที่สัมพันธ์กันเป็นศูนย์ไม่มีอิสระภายใต้สถานการณ์พิเศษหรือไม่? หากเป็นไปได้ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายไม่ใช่คำศัพท์ทางเทคนิคขั้นสูง
หากตัวแปรสองตัวมีค่าสหสัมพันธ์ 0 เหตุใดจึงไม่จำเป็นต้องเป็นอิสระ ตัวแปรที่สัมพันธ์กันเป็นศูนย์ไม่มีอิสระภายใต้สถานการณ์พิเศษหรือไม่? หากเป็นไปได้ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายไม่ใช่คำศัพท์ทางเทคนิคขั้นสูง
คำตอบ:
ความสัมพันธ์วัดการเชื่อมโยงเชิงเส้นระหว่างสองตัวแปรที่กำหนดและมันไม่มีภาระผูกพันในการตรวจสอบความสัมพันธ์ในรูปแบบอื่นใด
ดังนั้นตัวแปรทั้งสองนั้นอาจเกี่ยวข้องในวิธีอื่น ๆ ที่ไม่ใช่เชิงเส้นและสหสัมพันธ์ไม่สามารถแยกความแตกต่างจากกรณีที่เป็นอิสระ
ในฐานะที่เป็นเกี่ยวกับการสอนมากเทียมและตัวอย่างที่ไม่ใช่เหตุผลหนึ่งสามารถพิจารณา ดังกล่าวว่าสำหรับและ 2 ขอให้สังเกตว่าพวกเขาไม่เพียง แต่เกี่ยวข้อง แต่คนหนึ่งเป็นหน้าที่ของคนอื่น อย่างไรก็ตามความสัมพันธ์ของพวกเขาคือ 0 เนื่องจากความสัมพันธ์ของพวกเขาเป็นมุมฉากกับความสัมพันธ์ที่สามารถตรวจพบความสัมพันธ์P ( X = x ) = 1 / 3 x = - 1 , 0 , 1 Y = X 2
มีการขาดความเข้มงวดโดยทั่วไปในการใช้คำว่า "สหสัมพันธ์" ด้วยเหตุผลง่ายๆว่ามันสามารถมีสมมติฐานและความหมายที่แตกต่างกันอย่างกว้างขวาง การใช้งานที่ง่ายที่สุดหลวมและใช้กันมากที่สุดคือความสัมพันธ์ที่คลุมเครือความสัมพันธ์หรือการขาดความเป็นอิสระระหว่างตัวแปรสุ่มคู่คงที่
ที่นี่การวัดเริ่มต้นที่อ้างถึงมักจะเป็นความสัมพันธ์แบบเพียร์สันซึ่งเป็นการวัดที่เป็นมาตรฐานของการเชื่อมโยงแบบคู่กันเป็นเส้นตรงระหว่างตัวแปรทั้งสองที่กระจายอย่างต่อเนื่อง หนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดของ Pearsonคือการรายงานเป็นเปอร์เซ็นต์ ไม่ใช่เปอร์เซ็นต์แน่นอน เพียร์สันสัมพันธ์, R , ช่วงระหว่าง -1.0 และ 1.0 โดยที่ 0 หมายถึงไม่มีการเชิงเส้นสมาคม ปัญหาอื่น ๆ ที่ไม่ได้รับการยอมรับอย่างกว้างขวางเกี่ยวกับการใช้ความสัมพันธ์แบบเพียร์สันเป็นค่าเริ่มต้นคือจริง ๆ แล้วมันค่อนข้างเข้มงวด, การวัดเชิงเส้นที่ไม่แน่นหนาและไม่ต้องการการแปรผันตามช่วงเวลาเป็นอินพุต (ดูกระดาษดีเยี่ยมของความสัมพันธ์และการพึ่งพาในการบริหารความเสี่ยง: คุณสมบัติและข้อผิดพลาดที่นี่: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf )
Embrechts ตั้งข้อสังเกตว่ามีข้อสันนิษฐานที่ผิดพลาดมากมายเกี่ยวกับการพึ่งพาซึ่งเริ่มต้นด้วยสมมติฐานของโครงสร้างพื้นฐานและรูปทรงเรขาคณิตของความสัมพันธ์เหล่านี้:
ความล้มเหลวเหล่านี้เกิดขึ้นจากการสันนิษฐานที่ไร้เดียงสาว่าคุณสมบัติการพึ่งพาอาศัยกันของโลกรูปไข่ก็มีอยู่ในโลกที่ไม่ใช่รูปไข่
Embrechts ชี้ไปที่copulasว่าเป็นตัวชี้วัดระดับการพึ่งพาที่ใช้ในด้านการเงินและการจัดการความเสี่ยงซึ่งความสัมพันธ์ของเพียร์สันเป็นเพียงประเภทเดียว
แผนกสถิติของโคลัมเบียใช้เวลาในปีการศึกษา 2556-2557 โดยมุ่งเน้นที่การพัฒนาความเข้าใจในเชิงลึกของโครงสร้างการพึ่งพา: เช่นแบบเชิงเส้นไม่เชิงเส้นแบบโมโนโทนิกอันดับพาราเมตริกแบบไม่พาราเมตริกซึ่งมีความซับซ้อนสูง ปีสิ้นสุดลงด้วยการประชุมเชิงปฏิบัติการ 3 วันและการประชุมที่รวบรวมผู้มีส่วนร่วมมากที่สุดในสาขานี้ ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may-) 2 )
ร่วมสมทบเหล่านี้รวมถึง Reshef พี่น้องตอนนี้ที่มีชื่อเสียงสำหรับ 2011 วิทยาศาสตร์กระดาษตรวจจับสมาคมนวนิยายชุดข้อมูลขนาดใหญ่ http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdfว่า ได้รับการวิพากษ์วิจารณ์อย่างกว้างขวาง (ดู AndrewGelman.com สำหรับภาพรวมที่ดีเผยแพร่พร้อมกับเหตุการณ์โคลัมเบีย: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ) Reshefs กล่าวถึงการวิพากษ์วิจารณ์เหล่านี้ทั้งหมดในงานนำเสนอของพวกเขา (มีอยู่ในเว็บไซต์การประชุมโคลัมเบีย) รวมถึงอัลกอริทึม MIC ที่มีประสิทธิภาพมากขึ้น
นักสถิติชั้นนำอื่น ๆ อีกมากมายที่นำเสนอในงานนี้รวมถึง Gabor Szekely ตอนนี้ที่ NSF ใน DC Szekely พัฒนาระยะทางและความสัมพันธ์ระยะทางบางส่วนของเขา ลึก Mukhopadhay วัด U, การนำเสนอของเขาทางสถิติขั้นตอนวิธีการแบบครบวงจร - กรอบสำหรับขั้นตอนวิธีการแบบครบวงจรของวิทยาศาสตร์ข้อมูล - บนพื้นฐานของงานที่ทำกับยูจีน Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ และอื่น ๆ อีกมากมาย. สำหรับฉันธีมที่น่าสนใจอีกข้อหนึ่งคือการใช้ประโยชน์อย่างกว้างขวางและใช้ Reproducing Kernel Hilbert Space (RKHS) และไคสแควร์ หากมีวิธีการเป็นกิริยาช่วยในการพึ่งพาโครงสร้างในการประชุมครั้งนี้มันเป็น RKHS
ตำราสถิติแบบอินโทรเบื้องต้นนั้นเป็นเรื่องที่ไม่เป็นทางการในการปฏิบัติงานของการพึ่งพาอาศัยกันโดยทั่วไปจะขึ้นอยู่กับการนำเสนอของการสร้างภาพข้อมูลชุดเดียวกันของความสัมพันธ์แบบวงกลมหรือพาราโบลา ข้อความที่มีความซับซ้อนมากขึ้นจะเจาะลึกเข้าไปในQuartet ของ Anscombeการสร้างภาพของชุดข้อมูลที่แตกต่างกันสี่ชุดที่มีคุณสมบัติทางสถิติที่เรียบง่ายคล้ายกัน แต่มีความสัมพันธ์ที่แตกต่างกันอย่างมหาศาล: https://en.wikipedia.org/wiki/Anscombe
หนึ่งในสิ่งที่ยอดเยี่ยมเกี่ยวกับการประชุมเชิงปฏิบัติการนี้คือโครงสร้างของการพึ่งพาอาศัยกันและความสัมพันธ์ที่มองเห็นและนำเสนอซึ่งไกลเกินกว่ามาตรฐาน ตัวอย่างเช่น Reshefs มีกราฟิกย่อขนาดเล็กหลายสิบที่แสดงเพียงตัวอย่างของ nonlinearities ที่เป็นไปได้ Deep Mukhopadhay มีภาพที่น่าทึ่งของความสัมพันธ์ที่ซับซ้อนสูงซึ่งดูเหมือนภาพดาวเทียมของเทือกเขาหิมาลัย ผู้เขียนตำราสถิติและข้อมูลวิทยาศาสตร์จำเป็นต้องจดบันทึก
ออกมาจากการประชุมโคลัมเบียด้วยการพัฒนาและการสร้างภาพของโครงสร้างการพึ่งพาอาศัยที่ซับซ้อนสูงเหล่านี้ฉันถูกถามถึงความสามารถของตัวแบบสถิติหลายตัวแปรในการจับภาพความไม่เชิงเส้นและความซับซ้อนเหล่านี้
ขึ้นอยู่กับคำจำกัดความที่แน่นอนของคุณว่า "สหสัมพันธ์" แต่มันก็ไม่ยากเกินไปที่จะสร้างกรณีที่เลวร้ายลง "อิสระ" อาจหมายถึงบางสิ่งบางอย่างเช่น "ไม่มีพลังการทำนายเลยแม้แต่น้อย" ก็เท่ากับ "ความสัมพันธ์เชิงเส้น"
โดยพื้นฐานแล้วการพึ่งพา Y ใน X หมายถึงการกระจายค่าของ Y ขึ้นอยู่กับวิธีการบางอย่างของ X การพึ่งพานั้นสามารถขึ้นอยู่กับค่าเฉลี่ยของ Y (กรณีปกติที่นำเสนอในคำตอบส่วนใหญ่) หรือลักษณะอื่นใดของ วาย
ตัวอย่างเช่นให้ X เป็น 0 หรือ 1 ถ้า X = 0 แล้วให้ Y เป็น 0 ถ้า X = 1 ให้ Y เป็น -1, 0 หรือ 1 (ความน่าจะเป็นแบบเดียวกัน) X และ Y ไม่ได้มีความสัมพันธ์กัน โดยเฉลี่ยแล้ว Y ไม่ได้ขึ้นอยู่กับ X เพราะค่าใดก็ตามที่เป็น X ค่าเฉลี่ยของ Y คือ 0 แต่ชัดเจนว่าการกระจายค่าของ Y ขึ้นอยู่กับค่า X ในกรณีนี้เช่นความแปรปรวนของ Y คือ 0 เมื่อ X = 0 และ> 0 เมื่อ X = 1 ดังนั้นอย่างน้อยก็มีการพึ่งพาความแปรปรวนนั่นคือการพึ่งพา
ดังนั้นความสัมพันธ์เชิงเส้นจะแสดงเพียงประเภทของการพึ่งพาค่าเฉลี่ย (การพึ่งพาเชิงเส้น) ซึ่งจะเป็นกรณีพิเศษของการพึ่งพา