คุณจะค้นหาความสัมพันธ์เชิงสาเหตุในข้อมูลได้อย่างไร


11

ให้บอกว่าฉันมีตารางที่มีคอลัมน์ "A", "B"

มีวิธีการทางสถิติเพื่อตรวจสอบว่า "A" ทำให้ "B" เกิดขึ้นหรือไม่? เราไม่สามารถใช้ r ของ Pearson ได้เพราะ:

  • มันเพียงทดสอบความสัมพันธ์ระหว่างค่า
  • สหสัมพันธ์ไม่ใช่สาเหตุ
  • เพียร์สัน r สามารถสัมพันธ์เชิงเส้นสัมพันธ์เท่านั้น

ฉันมีตัวเลือกอื่นที่นี่อีกไหม


1
นั่นไม่ใช่. จากข้อมูลดังกล่าวคุณสามารถแสดงให้เห็นถึงความสัมพันธ์ระดับสูง คุณไม่สามารถแสดงให้เห็นถึงสาเหตุ


1
สาเหตุเป็นเพียงสิ่งที่คุณไม่สามารถบีบจากหมายเลข ... ดังนั้นทำซ้ำหลังจากที่ฉัน: สาเหตุไม่ได้เป็นความสัมพันธ์ , สาเหตุไม่ได้เป็นความสัมพันธ์ ...
JM ไม่ได้เป็นสถิติ

1
ดู "Causality" โดย Judea Pearl (ผู้ชนะรางวัลทัวริง 2011)

คำตอบ:


4

คำตอบและข้อคิดเห็นต่าง ๆ นั้นถูกต้องในระดับที่สามารถนำไปใช้ได้จริง แต่เพื่อความสมบูรณ์มีการวิจัยเกี่ยวกับแบบจำลองเวรกรรมที่เรียกว่าสถิติแบบเบย์และทฤษฎีกราฟ ดังนั้นแม้ว่าโดยทั่วไปแล้วความสัมพันธ์โดยทั่วไปไม่ได้บ่งบอกถึงความเป็นเหตุเป็นผล แต่ก็มีตัวแบบที่ซับซ้อนกว่าที่พยายามจะหยั่งรากออกไป ดูรายละเอียดเพิ่มเติมที่หนังสือCausalityโดย Judea Pearl แต่นี่เป็นคณิตศาสตร์ที่หนักมากและอาจไม่ใช่สิ่งที่คุณต้องการ


2

มีวิธีการทดสอบแบบกึ่งทดลองหลายวิธีที่คุณสามารถโต้เถียงอย่างน่าเชื่อถือเกี่ยวกับสาเหตุได้แม้ว่าข้อมูลของคุณจะเป็นแบบสังเกต โดยทั่วไปวิธีการเหล่านี้ขึ้นอยู่กับการค้นหาแหล่งที่มาของความแปรปรวนภายนอกในตัวแปรที่คุณสนใจ

ฉันคิดว่ามีภาพรวมที่ดีและเข้าถึงได้ในหนังสือ "เศรษฐมิติที่ไม่เป็นอันตรายมากที่สุด" พวกเขาครอบคลุมวิธีการทดลองเสมือนทั้งหมดที่ผู้คน (ความหมาย: นักเศรษฐศาสตร์) เชื่อใน (อย่างน้อยบางครั้ง) พวกเขาไม่ครอบคลุมวิธีการที่กล่าวถึงโดยเช่น trb456 (ด้วยเหตุผลเดียวกัน: ไม่ค่อยมีคนเชื่อในพวกเขา)


1

ในการกำหนดสาเหตุคุณต้องทำการทดสอบแบบสุ่ม คุณทำการทดสอบวิชาของคุณและสุ่มเลือกครึ่งหนึ่งของพวกเขาเพื่อให้มีคุณภาพและอีกครึ่งจะไม่มี จากนั้นคุณจะเห็นว่าคุณภาพ B แตกต่างกันอย่างมีนัยสำคัญหรือไม่ระหว่างสองกลุ่ม

เป็นสิ่งสำคัญที่คุณจะต้องทำการสุ่มก่อนที่จะทำการวัดใด ๆ โดยเฉพาะถ้าคุณได้รับชุดข้อมูลด้วยA และ B วัดได้แล้วจึงไม่สามารถระบุสาเหตุได้

โปรดทราบว่าอาจเป็นไปไม่ได้ที่จะทำการทดสอบการสุ่มที่คุณต้องการ ตัวอย่างเช่นคุณจะทดสอบได้อย่างไรว่าความสูงทำให้คุณมีน้ำหนักมากขึ้น แน่นอนว่ามีความสัมพันธ์กันระหว่างความสูงและน้ำหนัก แต่คุณไม่สามารถสุ่มคนกลุ่มหนึ่งให้กับกลุ่ม 'สูง' และกลุ่มหนึ่งกับกลุ่ม 'สั้น' ในกรณีนี้การทดสอบการสุ่มไม่สามารถทำได้


0

ซอมเมอร์ทำงานเพื่ออธิบายความสัมพันธ์ระหว่างตัวแปรอันดับในแบบที่สัมประสิทธิ์สหสัมพันธ์ของเพียร์สันใช้สำหรับชุดข้อมูล


1
ฉันยอมรับว่าต้องใช้ตัวเลขมากกว่าเพื่อสร้างสาเหตุ การใช้ตัวแปรอันดับจะเข้าสู่คำถามได้อย่างไร
Michael R. Chernick

1
@MichaelChernick ซอมเมอร์ 'D เป็นตัวชี้วัดความสัมพันธ์ที่ไม่สมมาตร มันสามารถแยกแยะความแตกต่างระหว่าง "ถ้ามีฝนตกแล้วมันเป็นเมฆ' จาก 'ถ้ามันเป็นเมฆแล้วก็มีฝนตก' การทำงานสำหรับข้อมูลลำดับหรือสูงกว่ามันไม่ได้สร้างสาเหตุ แต่ก็ไม่สร้างทิศทาง...
Dave Harris
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.