ทำไมความสัมพันธ์แบบศูนย์ไม่จำเป็นต้องหมายความถึงความเป็นอิสระ

41

หากตัวแปรสองตัวมีค่าสหสัมพันธ์ 0 เหตุใดจึงไม่จำเป็นต้องเป็นอิสระ ตัวแปรที่สัมพันธ์กันเป็นศูนย์ไม่มีอิสระภายใต้สถานการณ์พิเศษหรือไม่? หากเป็นไปได้ฉันกำลังมองหาคำอธิบายที่เข้าใจง่ายไม่ใช่คำศัพท์ทางเทคนิคขั้นสูง

correlation independence

— ผู้มีชัย
แหล่งที่มา

10

ความสัมพันธ์เป็นตัวชี้วัดของการพึ่งพาเชิงเส้น (สมาคม) มันเป็นไปได้สำหรับตัวแปรสุ่มสองตัวที่จะไม่เกี่ยวข้องกัน แต่ขึ้นอยู่กับแบบไม่เชิงเส้น

— Mark L. Stone

คำอธิบายที่ใช้งานง่าย -> math.stackexchange.com/questions/444408/…

— Siddhesh

6

Zero correlation หมายถึงความเป็นอิสระหากตัวแปรเป็นตัวแปรหลายตัวแปรตามปกติ นี้ไม่ได้เป็นเช่นเดียวกับแต่ละตัวแปรเป็นปกติ - ดูที่นี่สำหรับ scatterplots ของศูนย์มีลักษณะร่วมกัน แต่ขึ้นอยู่กับตัวแปรปกติบางคน (แต่ละตัวแปรเป็นเรื่องปกติที่ไม่ซ้ำกัน)

— Glen_b

1

ความสัมพันธ์ (ไม่มีเงื่อนไข) อาจรวมถึงสหสัมพันธ์อันดับ ฯลฯ ซึ่งการพึ่งพิงแบบโมโนโทนเป็นปัญหาและอื่น ๆ

— Nick Cox

1

สำหรับแนวโน้มฉันขอแนะนำให้คุณดูวิกิพีเดีย "ระยะทางสหสัมพันธ์" เป็นตัวชี้วัดความเป็นอิสระ

— ttnphns

41

ความสัมพันธ์วัดการเชื่อมโยงเชิงเส้นระหว่างสองตัวแปรที่กำหนดและมันไม่มีภาระผูกพันในการตรวจสอบความสัมพันธ์ในรูปแบบอื่นใด

ดังนั้นตัวแปรทั้งสองนั้นอาจเกี่ยวข้องในวิธีอื่น ๆ ที่ไม่ใช่เชิงเส้นและสหสัมพันธ์ไม่สามารถแยกความแตกต่างจากกรณีที่เป็นอิสระ

ในฐานะที่เป็นเกี่ยวกับการสอนมากเทียมและตัวอย่างที่ไม่ใช่เหตุผลหนึ่งสามารถพิจารณา ดังกล่าวว่าสำหรับและ 2 ขอให้สังเกตว่าพวกเขาไม่เพียง แต่เกี่ยวข้อง แต่คนหนึ่งเป็นหน้าที่ของคนอื่น อย่างไรก็ตามความสัมพันธ์ของพวกเขาคือ 0 เนื่องจากความสัมพันธ์ของพวกเขาเป็นมุมฉากกับความสัมพันธ์ที่สามารถตรวจพบความสัมพันธ์ $X$ $P(X=x)=1/3$ $x=-1, 0, 1$ $Y=X^2$

— Marcelo Ventura
แหล่งที่มา

1

ฉันกำลังมองหาหลักฐานของความแปรปรวนแบบสุ่มที่ไม่เกี่ยวข้อง แต่ขึ้นอยู่กับว่าไม่มีคำตอบโดยตรงสำหรับคำถามของฉันเปิดเผยข้อเท็จจริงที่ใช้งานง่าย ในทางกลับกันคำตอบของคุณทำให้ฉันมีมุมที่ดีมากในการคิดเกี่ยวกับมันขอบคุณมาก!

— stucash

1

@stucash ความสุขของฉัน! มันเป็นตัวอย่างเคาน์เตอร์เก่าที่ฉันได้เรียนรู้

— Marcelo Ventura

23

มีการขาดความเข้มงวดโดยทั่วไปในการใช้คำว่า "สหสัมพันธ์" ด้วยเหตุผลง่ายๆว่ามันสามารถมีสมมติฐานและความหมายที่แตกต่างกันอย่างกว้างขวาง การใช้งานที่ง่ายที่สุดหลวมและใช้กันมากที่สุดคือความสัมพันธ์ที่คลุมเครือความสัมพันธ์หรือการขาดความเป็นอิสระระหว่างตัวแปรสุ่มคู่คงที่

ที่นี่การวัดเริ่มต้นที่อ้างถึงมักจะเป็นความสัมพันธ์แบบเพียร์สันซึ่งเป็นการวัดที่เป็นมาตรฐานของการเชื่อมโยงแบบคู่กันเป็นเส้นตรงระหว่างตัวแปรทั้งสองที่กระจายอย่างต่อเนื่อง หนึ่งในข้อผิดพลาดที่พบบ่อยที่สุดของ Pearsonคือการรายงานเป็นเปอร์เซ็นต์ ไม่ใช่เปอร์เซ็นต์แน่นอน เพียร์สันสัมพันธ์, R , ช่วงระหว่าง -1.0 และ 1.0 โดยที่ 0 หมายถึงไม่มีการเชิงเส้นสมาคม ปัญหาอื่น ๆ ที่ไม่ได้รับการยอมรับอย่างกว้างขวางเกี่ยวกับการใช้ความสัมพันธ์แบบเพียร์สันเป็นค่าเริ่มต้นคือจริง ๆ แล้วมันค่อนข้างเข้มงวด, การวัดเชิงเส้นที่ไม่แน่นหนาและไม่ต้องการการแปรผันตามช่วงเวลาเป็นอินพุต (ดูกระดาษดีเยี่ยมของความสัมพันธ์และการพึ่งพาในการบริหารความเสี่ยง: คุณสมบัติและข้อผิดพลาดที่นี่: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf )

Embrechts ตั้งข้อสังเกตว่ามีข้อสันนิษฐานที่ผิดพลาดมากมายเกี่ยวกับการพึ่งพาซึ่งเริ่มต้นด้วยสมมติฐานของโครงสร้างพื้นฐานและรูปทรงเรขาคณิตของความสัมพันธ์เหล่านี้:

ความล้มเหลวเหล่านี้เกิดขึ้นจากการสันนิษฐานที่ไร้เดียงสาว่าคุณสมบัติการพึ่งพาอาศัยกันของโลกรูปไข่ก็มีอยู่ในโลกที่ไม่ใช่รูปไข่

Embrechts ชี้ไปที่copulasว่าเป็นตัวชี้วัดระดับการพึ่งพาที่ใช้ในด้านการเงินและการจัดการความเสี่ยงซึ่งความสัมพันธ์ของเพียร์สันเป็นเพียงประเภทเดียว

แผนกสถิติของโคลัมเบียใช้เวลาในปีการศึกษา 2556-2557 โดยมุ่งเน้นที่การพัฒนาความเข้าใจในเชิงลึกของโครงสร้างการพึ่งพา: เช่นแบบเชิงเส้นไม่เชิงเส้นแบบโมโนโทนิกอันดับพาราเมตริกแบบไม่พาราเมตริกซึ่งมีความซับซ้อนสูง ปีสิ้นสุดลงด้วยการประชุมเชิงปฏิบัติการ 3 วันและการประชุมที่รวบรวมผู้มีส่วนร่วมมากที่สุดในสาขานี้ ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may-) 2 )

ร่วมสมทบเหล่านี้รวมถึง Reshef พี่น้องตอนนี้ที่มีชื่อเสียงสำหรับ 2011 วิทยาศาสตร์กระดาษตรวจจับสมาคมนวนิยายชุดข้อมูลขนาดใหญ่ http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdfว่า ได้รับการวิพากษ์วิจารณ์อย่างกว้างขวาง (ดู AndrewGelman.com สำหรับภาพรวมที่ดีเผยแพร่พร้อมกับเหตุการณ์โคลัมเบีย: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ) Reshefs กล่าวถึงการวิพากษ์วิจารณ์เหล่านี้ทั้งหมดในงานนำเสนอของพวกเขา (มีอยู่ในเว็บไซต์การประชุมโคลัมเบีย) รวมถึงอัลกอริทึม MIC ที่มีประสิทธิภาพมากขึ้น

นักสถิติชั้นนำอื่น ๆ อีกมากมายที่นำเสนอในงานนี้รวมถึง Gabor Szekely ตอนนี้ที่ NSF ใน DC Szekely พัฒนาระยะทางและความสัมพันธ์ระยะทางบางส่วนของเขา ลึก Mukhopadhay วัด U, การนำเสนอของเขาทางสถิติขั้นตอนวิธีการแบบครบวงจร - กรอบสำหรับขั้นตอนวิธีการแบบครบวงจรของวิทยาศาสตร์ข้อมูล - บนพื้นฐานของงานที่ทำกับยูจีน Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ และอื่น ๆ อีกมากมาย. สำหรับฉันธีมที่น่าสนใจอีกข้อหนึ่งคือการใช้ประโยชน์อย่างกว้างขวางและใช้ Reproducing Kernel Hilbert Space (RKHS) และไคสแควร์ หากมีวิธีการเป็นกิริยาช่วยในการพึ่งพาโครงสร้างในการประชุมครั้งนี้มันเป็น RKHS

ตำราสถิติแบบอินโทรเบื้องต้นนั้นเป็นเรื่องที่ไม่เป็นทางการในการปฏิบัติงานของการพึ่งพาอาศัยกันโดยทั่วไปจะขึ้นอยู่กับการนำเสนอของการสร้างภาพข้อมูลชุดเดียวกันของความสัมพันธ์แบบวงกลมหรือพาราโบลา ข้อความที่มีความซับซ้อนมากขึ้นจะเจาะลึกเข้าไปในQuartet ของ Anscombeการสร้างภาพของชุดข้อมูลที่แตกต่างกันสี่ชุดที่มีคุณสมบัติทางสถิติที่เรียบง่ายคล้ายกัน แต่มีความสัมพันธ์ที่แตกต่างกันอย่างมหาศาล: https://en.wikipedia.org/wiki/Anscombe

หนึ่งในสิ่งที่ยอดเยี่ยมเกี่ยวกับการประชุมเชิงปฏิบัติการนี้คือโครงสร้างของการพึ่งพาอาศัยกันและความสัมพันธ์ที่มองเห็นและนำเสนอซึ่งไกลเกินกว่ามาตรฐาน ตัวอย่างเช่น Reshefs มีกราฟิกย่อขนาดเล็กหลายสิบที่แสดงเพียงตัวอย่างของ nonlinearities ที่เป็นไปได้ Deep Mukhopadhay มีภาพที่น่าทึ่งของความสัมพันธ์ที่ซับซ้อนสูงซึ่งดูเหมือนภาพดาวเทียมของเทือกเขาหิมาลัย ผู้เขียนตำราสถิติและข้อมูลวิทยาศาสตร์จำเป็นต้องจดบันทึก

ออกมาจากการประชุมโคลัมเบียด้วยการพัฒนาและการสร้างภาพของโครงสร้างการพึ่งพาอาศัยที่ซับซ้อนสูงเหล่านี้ฉันถูกถามถึงความสามารถของตัวแบบสถิติหลายตัวแปรในการจับภาพความไม่เชิงเส้นและความซับซ้อนเหล่านี้

— ไมค์ฮันเตอร์
แหล่งที่มา

2

ฉันเพิ่งเจอการสนทนาที่ยอดเยี่ยมและละเอียดถี่ถ้วนเกี่ยวกับมาตรการของการสมาคมใน Quora: quora.com/…

— Mike Hunter

6

ขึ้นอยู่กับคำจำกัดความที่แน่นอนของคุณว่า "สหสัมพันธ์" แต่มันก็ไม่ยากเกินไปที่จะสร้างกรณีที่เลวร้ายลง "อิสระ" อาจหมายถึงบางสิ่งบางอย่างเช่น "ไม่มีพลังการทำนายเลยแม้แต่น้อย" ก็เท่ากับ "ความสัมพันธ์เชิงเส้น"

$y= \sin(2000x)$ $x$ $[0,1)$

— Andrew Charneski
แหล่งที่มา

3

โดยพื้นฐานแล้วการพึ่งพา Y ใน X หมายถึงการกระจายค่าของ Y ขึ้นอยู่กับวิธีการบางอย่างของ X การพึ่งพานั้นสามารถขึ้นอยู่กับค่าเฉลี่ยของ Y (กรณีปกติที่นำเสนอในคำตอบส่วนใหญ่) หรือลักษณะอื่นใดของ วาย

ตัวอย่างเช่นให้ X เป็น 0 หรือ 1 ถ้า X = 0 แล้วให้ Y เป็น 0 ถ้า X = 1 ให้ Y เป็น -1, 0 หรือ 1 (ความน่าจะเป็นแบบเดียวกัน) X และ Y ไม่ได้มีความสัมพันธ์กัน โดยเฉลี่ยแล้ว Y ไม่ได้ขึ้นอยู่กับ X เพราะค่าใดก็ตามที่เป็น X ค่าเฉลี่ยของ Y คือ 0 แต่ชัดเจนว่าการกระจายค่าของ Y ขึ้นอยู่กับค่า X ในกรณีนี้เช่นความแปรปรวนของ Y คือ 0 เมื่อ X = 0 และ> 0 เมื่อ X = 1 ดังนั้นอย่างน้อยก็มีการพึ่งพาความแปรปรวนนั่นคือการพึ่งพา

ดังนั้นความสัมพันธ์เชิงเส้นจะแสดงเพียงประเภทของการพึ่งพาค่าเฉลี่ย (การพึ่งพาเชิงเส้น) ซึ่งจะเป็นกรณีพิเศษของการพึ่งพา

— Karpablanca
แหล่งที่มา