หากความสัมพันธ์ไม่ได้หมายความถึงความเป็นเหตุเป็นผลค่าของการทราบความสัมพันธ์ระหว่างตัวแปรสองตัวคืออะไร


11

สมมติว่าในฐานะเจ้าของธุรกิจ (หรือการตลาดหรือใครก็ตามที่เข้าใจพล็อตการกระจาย) จะแสดงพล็อตการกระจายของสองตัวแปร: จำนวนโฆษณาเทียบกับจำนวนการขายผลิตภัณฑ์ต่อเดือนในช่วง 5 ปีที่ผ่านมา (หรืออื่น ๆ มีตัวอย่างมากขึ้นฉันเพิ่งทำสิ่งนี้ขึ้นมา)

ตอนนี้เขา / เธอเห็นพล็อตการกระจายและได้รับการบอกว่าสัมประสิทธิ์สหสัมพันธ์ (corr) คือ:

  1. 1 หรือ
  2. 0.5 หรือ
  3. 0.11 หรือ
  4. 0 หรือ
  5. -0.75 หรือ
  6. -1

โดยทั่วไปค่าที่ถูกต้องสำหรับ corr

คำถาม: สิ่งนี้มีความหมายอย่างไรต่อผู้มีอำนาจตัดสินใจหรือผู้บริโภคในแผนการกระจาย การตัดสินใจแบบใดที่เราสามารถทำได้โดยอาศัยสิ่งนี้

Ie: การเห็นความสัมพันธ์ระหว่างตัวแปรสองตัวกับอะไรคือสิ่งที่เราสามารถทำอะไรกับข้อมูลนั้นได้อย่างโดดเดี่ยว? เป็นเพียงการดูว่าควรพิจารณาสิ่งใดและไม่ควรรวมอยู่ในการวิเคราะห์การถดถอยหรือมีการใช้งานจริงมากขึ้นหรือไม่?

แค่อยากรู้อยากเห็นฉันได้ทำงานกับเทคนิคนี้เสมอ แต่ฉันได้รับการบอกว่าความสัมพันธ์ด้วยตัวมันเองนั้นไม่ได้ใช้ประโยชน์อะไรมาก - ดังนั้นการใช้ "IS" คืออะไร?

คำตอบ:


12

ความคิดเล็กน้อย:

  • คนเฒ่าคนแก่เกี่ยวกับความสัมพันธ์ที่ไม่เป็นสาเหตุเป็นเพียงครึ่งหนึ่งของเรื่องราว ความสัมพันธ์อาจไม่ใช่สาเหตุ แต่ความสัมพันธ์บางรูปแบบระหว่างตัวแปรทั้งสองเป็นขั้นตอนที่จำเป็นตามเส้นทางเพื่อแสดงสาเหตุและความสัมพันธ์สามารถช่วยแสดงให้เห็นว่า
  • ช่วยชี้ให้เห็นแนวโน้ม แสดงต่อเจ้าของธุรกิจและพวกเขาอาจพูดว่า "ใช่นั่นสมเหตุสมผลแล้วคุณเห็น Widget X และ Widget Y ทั้งคู่ถูกใช้งานโดยกลุ่มบุคคลบางกลุ่มถึงแม้ว่าพวกเขาจะไม่เกี่ยวข้องกันจริง ๆ หรือพวกเขาอาจพูดว่า "นั่นคือ ... แปลก" ซึ่งเป็นจุดที่คุณได้รับแจ้งการตรวจสอบเพิ่มเติม
  • ดูมันด้วยวิธีนี้ ความสัมพันธ์เป็นเครื่องมือ ค้อนเองไม่ได้มีประโยชน์อะไรเลย แน่นอนมันจะไม่สร้างบ้านด้วยตัวเอง แต่คุณเคยลองสร้างบ้านโดยไม่มีค้อนไหม?

5
ในสัญลักษณ์แสดงหัวข้อแรกของคุณคุณบอกว่าความสัมพันธ์เป็นเงื่อนไขที่จำเป็นสำหรับสาเหตุ - นั่นไม่เป็นความจริง หากมีความสัมพันธ์ที่ไม่ใช่แบบโมโนโทนิกระหว่างตัวแปรสองตัวตัวแปรเหล่านี้สามารถถูกแยกออกจากกันได้ซึ่งจะไม่เป็นการขัดขวางสาเหตุ
มาโคร

@Macro - จริงและแก้ไขแล้ว
Fomite

@Macro True แต่ในทางปฏิบัติคุณสามารถใช้ฟังก์ชั่นกับตัวแปรของคุณเพื่อสร้างความสัมพันธ์ที่จะถูกทดสอบแบบ monotonic หากคุณไม่รู้จักฟังก์ชั่นนี้ดังนั้น ... คุณไม่รู้อะไรมากเกี่ยวกับสิ่งที่คุณกำลังมองหา
RockScience

@EpiGrad: สมมติว่ากราฟความสัมพันธ์ XY ของตัวแปรสองตัวดูเหมือนกับรอยยิ้มที่มีความสุข (หรือรูปร่างอื่น ๆ ต่อ se) สัมประสิทธิ์สหสัมพันธ์จริง ๆ แล้วจะค่อนข้างเล็ก แต่แน่นอนว่าจะมีความสัมพันธ์ระหว่างกันใช่ไหม? ควรทำอย่างไรในกรณีเช่นนี้?
PhD

@Nupul การสำรวจ XY ค่อนข้างซับซ้อนกว่าเชิงเส้น
Fomite

7

ดูจากมุมมองการพนัน สมมติว่าเรารู้ว่าโดยเฉลี่ยแล้วคนที่สวมใส่เวิร์กช็อตในการทำงานจะมีอาการบาดเจ็บ 1.5 งานและผู้ที่สวมรองเท้าไม่มีส้นจะได้รับบาดเจ็บโดยเฉลี่ย 0.05 หรืออาจมีโอกาสได้รับบาดเจ็บสำหรับผู้ที่สวมใส่ Workboots คือ 0.85 และโอกาสที่จะได้รับบาดเจ็บสำหรับผู้ที่สวมรองเท้าไม่มีส้นคือ. 1

ถ้าฉันสุ่มเลือกบุคคลจากประชากรและบอกคุณว่าบุคคลนั้นใส่เวิร์กช็อตและเสนอเงินเดิมพันให้คุณว่าพวกเขาได้รับบาดเจ็บจากการทำงานหรือไม่เมื่อปีที่แล้วคุณจะพนันหรือไม่? ถ้าคุณสามารถวางเดิมพันด้านที่พวกเขาได้รับบาดเจ็บ .. 85% ของเวลาที่คุณจะชนะและคุณจะได้รับเงิน

ประเด็นก็คือการรู้ว่าข้อมูลชิ้นนั้นให้ข้อมูลแก่เราเกี่ยวกับว่าพวกเขามีแนวโน้มที่จะได้รับบาดเจ็บในที่ทำงานหรือไม่รองเท้าไม่มีอะไรเกี่ยวข้องกับมันจริง ๆ แล้ว workboots ป้องกันการบาดเจ็บ .. แต่ตัวแปรที่ทำให้สับสนที่นี่ เป็นประเภทของงานที่ไปพร้อมกับ workboots .. และบางทีสิ่งอื่น ๆ เช่นคนอาจจะประมาทมากขึ้น


6

วลี "สหสัมพันธ์ไม่ได้บอกเป็นนัยถึงสาเหตุ" (ดังที่โคเฮนเขียนว่า "มันเป็นคำใบ้ที่ยิ่งใหญ่มาก") เราเอาชนะวลีนี้ให้กับนักเรียนเพราะมีอคติที่แท้จริงต่อจิตใจมนุษย์ เมื่อคุณได้ยิน 'อัตราอาชญากรรมมีความสัมพันธ์กับอัตราความยากจน' หรืออะไรทำนองนั้นคุณไม่สามารถช่วยได้ แต่คิดว่านี่หมายถึงความยากจนทำให้เกิดอาชญากรรม เป็นเรื่องธรรมดาที่คนจะคิดเช่นนี้เพราะนั่นเป็นวิธีที่จิตใจทำงาน เราใช้วลีนี้ซ้ำแล้วซ้ำอีกในความหวังที่จะต่อต้านมัน อย่างไรก็ตามเมื่อคุณได้ดูดซับความคิดวลีจะสูญเสียคุณค่าส่วนใหญ่และถึงเวลาที่จะทำความเข้าใจที่ซับซ้อนยิ่งขึ้น

เมื่อมีความสัมพันธ์ระหว่างตัวแปรสองตัวมีความเป็นไปได้สองอย่าง: มันเป็นเรื่องบังเอิญหรือมีรูปแบบเชิงสาเหตุในที่ทำงาน ความบังเอิญเป็นรูปแบบการอธิบายที่แย่มากและน่าจะเป็นทางเลือกสุดท้ายของคุณ นั่นทำให้เกิดเวรกรรม ปัญหาคือเราไม่รู้ธรรมชาติของรูปแบบสาเหตุนั้น อาจเป็นเพราะความยากจนทำให้เกิดอาชญากรรม แต่ก็อาจเป็นได้ว่าอาชญากรรมนั้นทำให้เกิดความยากจน (เช่นผู้คนไม่ต้องการอาศัยอยู่ในพื้นที่ที่มีอาชญากรรมสูงดังนั้นพวกเขาจึงย้ายออกและค่าทรัพย์สินตก ฯลฯ ) อาจเป็นได้ว่ามีตัวแปรที่สามหรือกลุ่มของตัวแปรที่ก่อให้เกิดอาชญากรรมและความยากจน แต่ที่จริงแล้วไม่มี ทางตรงการเชื่อมโยงเชิงสาเหตุระหว่างอาชญากรรมและความยากจน (รู้จักกันในนาม 'โมเดลสาเหตุทั่วไป') นี่เป็นอันตรายโดยเฉพาะอย่างยิ่งเพราะในรูปแบบทางสถิติแหล่งที่มาของการเปลี่ยนแปลงอื่น ๆ ทั้งหมดจะถูกยุบลงในคำผิดพลาดของตัวแปรตาม เป็นผลให้ตัวแปรอิสระมีความสัมพันธ์กับ (ที่เกิดจาก) ระยะข้อผิดพลาดที่นำไปสู่ปัญหาของendogeneity ปัญหาเหล่านี้ยากมากและไม่ควรทำอย่างเบาบาง อย่างไรก็ตามในสถานการณ์นี้เป็นสิ่งสำคัญที่ต้องตระหนักว่ามีเหตุที่แท้จริงในที่ทำงาน

กล่าวโดยย่อเมื่อคุณเห็นความสัมพันธ์คุณควรคิดว่าอาจมีเหตุมีผลบางอย่างเกิดขึ้นที่ใดที่หนึ่งแต่คุณไม่รู้ลักษณะของรูปแบบเชิงสาเหตุนั้น


4

ฉันคิดว่าฉันมีความรู้เกี่ยวกับสิ่งเหล่านี้ แต่เมื่อเดือนที่แล้วที่ฉันค้นหา "นัย" ในพจนานุกรมและพบว่ามีความหมายที่แตกต่างกันสองแบบ 1. แนะนำและ 2. จำเป็น (!) ความสัมพันธ์ไม่ค่อยจำเป็นต้องมีสาเหตุ แต่แน่นอนสามารถแนะนำได้ เป็น @EpiGrad ชี้ให้เห็นว่ามันเป็นสิ่งที่จำเป็น แต่ไม่เพียงพอสำหรับการสร้างสาเหตุ

เมื่อเวลาผ่านไปเราก็หวังว่าจะพบจุดศูนย์กลางระหว่างการมองเห็นความสัมพันธ์ว่าเป็นจุดจบทั้งหมดและไร้ประโยชน์อย่างสมบูรณ์ และหนึ่งในนั้นคำนึงถึงความรู้ที่เฉพาะเจาะจงเกี่ยวกับหัวเรื่อง / โดเมน / / เนื้อหาในการตีความผลลัพธ์ที่สัมพันธ์กัน มีคนเพียงไม่กี่คนที่สงสัยว่ามีลิงก์อย่างเป็นสาเหตุอยู่บ้างเมื่อเห็นผลการขายโฆษณาที่คุณอธิบาย แต่ก็เป็นเรื่องดีเสมอที่จะเปิดรับความเป็นไปได้อื่น ๆ ตัวแปรอื่น ๆ ที่สามารถอธิบายความสัมพันธ์ที่สังเกตได้อย่างน้อยส่วนหนึ่ง อ่านเกี่ยวกับตัวแปรที่ทำให้สับสน, ความถูกต้องและสิ่งที่คล้ายกันกับการจ่ายเงินปันผลครั้งใหญ่ ตัวอย่างเช่นการทดลองกึ่งคลาสสิกเก่าของ Cook and Campbell มีส่วนที่ดีเกี่ยวกับความถูกต้องและภัยคุกคามต่อความถูกต้อง


1
ขณะที่ฉันชี้ไปที่ @EpiGrad ความสัมพันธ์ไม่ได้เป็นเงื่อนไขที่จำเป็นสำหรับสาเหตุ มีความคิดอย่างกว้างขวางในการวิเคราะห์ข้อมูลว่าความสัมพันธ์ระหว่างตัวแปรมักหมายถึงความสัมพันธ์แบบโมโนโทนิกซึ่งสันนิษฐานโดยปริยายโดยการแนะนำว่าความสัมพันธ์เป็นเงื่อนไขที่จำเป็นสำหรับสาเหตุ
มาโคร

1
ยุติธรรมพอสมควร สมมติว่า "ความสัมพันธ์ทางสถิติ" เป็นสิ่งจำเป็น
rolando2

2

สัมประสิทธิ์สหสัมพันธ์เช่นเดียวกับการวัดความสัมพันธ์อื่น ๆ จะมีประโยชน์ถ้าคุณต้องการทราบว่าการรู้คุณค่าของ X นั้นให้ข้อมูลเกี่ยวกับค่าของ Y หรือไม่ซึ่งแตกต่างจากการรู้ว่าถ้าคุณตั้งค่า X เป็นค่าเฉพาะสิ่งใด คุณค่าของ Y ที่คุณจะได้รับ (ซึ่งเป็นสาระสำคัญของการตีความที่เป็นเหตุเป็นผลของการต่อต้าน)

อย่างไรก็ตามในหลายบริบท (เช่นการคาดการณ์) การอนุมานบนพื้นฐานของสหสัมพันธ์จะมีค่าในสิทธิของตนเอง ฟันเหลืองมีความสัมพันธ์กับโรคมะเร็งปอด (เนื่องจากมีสาเหตุมาจากมะเร็ง) ไม่มีสาเหตุระหว่างสองสิ่ง: การฟอกสีฟันจะไม่สามารถรักษาโรคมะเร็งปอดได้ แต่ถ้าคุณต้องการการตรวจคัดกรองอย่างรวดเร็วสำหรับผู้ที่มีโอกาสเป็นมะเร็งปอดการตรวจหาฟันเหลืองอาจเป็นขั้นตอนแรกที่ดี

มันเป็นคำถามที่แตกต่างกันว่าค่าสัมประสิทธิ์สหสัมพันธ์เป็นตัวชี้วัดความสัมพันธ์ที่ดีที่สุดที่มีอยู่หรือไม่ แต่ฉันคิดว่าคำถามนั้นเกี่ยวกับคุณค่าของการรู้จักความสัมพันธ์ที่ไม่ใช่สาเหตุ

Btw ไม่เพียง แต่มีความสัมพันธ์กันไม่เพียงพอที่จะแสดงให้เห็นถึงสาเหตุ แต่มันก็ไม่จำเป็น ตัวแปรสองตัวสามารถมีความสัมพันธ์เชิงสาเหตุ แต่ยังไม่มีความสัมพันธ์ในชุดข้อมูลใด ๆ (เช่นเนื่องจากการเลือกหรืออคติทางเลือก)


1

ความสัมพันธ์ด้วยตัวเองไม่ได้ใช้งานมากนัก - แล้วการใช้งาน "IS" คืออะไร?

ขอให้ฉันไม่เห็นด้วยกับวลีนี้ความสัมพันธ์แจ้งให้ทราบถึงระดับความสัมพันธ์ระหว่าง 2 ตัวแปร จากนั้นจะมีประโยชน์เมื่อพยายามอธิบายความสัมพันธ์ระหว่างตัวแปรดังกล่าว ในทางกลับกันความสัมพันธ์ (ตามที่เขียนในมาโคร) ไม่ได้เป็นเงื่อนไขที่จำเป็นสำหรับสาเหตุ แต่เพียงพอที่จะอธิบายระดับความสัมพันธ์ นอกจากนี้คุณสามารถทดสอบความเป็นอิสระของตัวแปรได้ แต่ความสัมพันธ์สามารถให้ข้อมูลที่เป็นประโยชน์อื่นกับคุณ

อย่างไรก็ตามนักวิเคราะห์จะต้องรู้โดเมนเพื่อให้สามารถอธิบายประเภทของความสัมพันธ์


ฉันไม่แน่ใจว่าคุณหมายถึงอะไร:Furthermore, you can test the independence of the variables, but correlation can give you another useful information, the coefficient of determination
ปริญญาเอก

สิ่งที่ฉันหมายถึงคือ: "คุณสามารถทดสอบความเป็นอิสระของตัวแปร" แต่อย่างไรก็ตามแม้ว่าจะไม่ได้ทดสอบความเป็นอิสระข้อมูลของความสัมพันธ์และ coef ของการกำหนดเป็น "ประโยชน์" เพื่อทำความเข้าใจและอธิบายชนิดของความสัมพันธ์ระหว่างตัวแปร
Jose Zubcoff

1

ฉันคิดว่าการรวบรวมข้อมูลและการออกแบบการศึกษาอาจมีบทบาทในการตอบคำถามนี้ด้วย คุณจะไม่ออกแบบการศึกษาและรวบรวมชุดข้อมูลที่ไม่เกี่ยวข้องกันอย่างสมบูรณ์แม้กระทั่งในการศึกษาเชิงสังเกตการณ์ดังนั้น "ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ" อาจเป็นเหตุผลได้ แม้ว่ามันจะไม่ใช่ความสัมพันธ์เชิงสาเหตุ แต่ก็อาจมีความเกี่ยวข้องกัน

อย่างไรก็ตามหากคุณกำลังพูดถึงชุดข้อมูลสองชุดที่ไม่เกี่ยวข้องอย่างสมบูรณ์ แต่คุณยังคงต้องการใช้สหสัมพันธ์เพื่ออธิบายการเชื่อมโยงและสาเหตุดังนั้นจึงอาจไม่เหมาะสม ตัวอย่างเช่นหากชุดข้อมูลสองชุดมีแนวโน้มลดลงกล่าวว่ายอดขายไอศกรีมและจำนวนการแต่งงานค่าสัมประสิทธิ์สหสัมพันธ์อาจสูงมาก แต่จำเป็นต้องหมายถึงสมาคมหรือไม่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.