หาก 'ความสัมพันธ์ไม่ได้บ่งบอกถึงสาเหตุ' ถ้าฉันพบความสัมพันธ์ที่มีนัยสำคัญทางสถิติฉันจะพิสูจน์ความเป็นเหตุเป็นผลได้อย่างไร


30

ผมเข้าใจว่าความสัมพันธ์ไม่ได้เป็นสาเหตุ สมมติว่าเรามีความสัมพันธ์สูงระหว่างตัวแปรสองตัว คุณจะตรวจสอบว่าความสัมพันธ์นี้เป็นเพราะสาเหตุได้อย่างไร? หรือภายใต้เงื่อนไขใดที่เราสามารถใช้ข้อมูลทดลองเพื่ออนุมานความสัมพันธ์เชิงสาเหตุระหว่างตัวแปรสองตัวหรือมากกว่าได้


2
มันจะต้องมีข้อมูลการทดลอง โปรดอธิบายการออกแบบการทดลองที่คุณอ้างถึง
Frank Harrell

1
ท่านฉันไม่มีข้อมูลการทดลองใด ๆ ฉันต้องการที่จะเข้าใจว่าการทดลองแบบควบคุมชนิดใดที่ต้องดำเนินการเพื่อสรุปสาเหตุ?
Manish Barnwal

4
มีการออกแบบที่เป็นไปได้มากมาย ในระยะสั้นคุณพยายามควบคุมตัวแปรอื่น ๆ ทั้งหมดและเปลี่ยนแปลงปัจจัยหนึ่งที่น่าสนใจหรือสุ่มแอปพลิเคชันของการทดลองเชิงทดลองซึ่ง "เฉลี่ย" ผลของคำอธิบายอื่น ๆ ที่เป็นไปได้ทั้งหมด
Frank Harrell

2
ในระยะสั้นคุณต้องมีการเปลี่ยนแปลงจากภายนอกบางอย่าง
abaumann

1
ระหว่างสหสัมพันธ์XและYเลือกสิ่งนั้นว่าเป็นสาเหตุของอีกสิ่งหนึ่งซึ่งจะลดความรู้สึกรับผิดชอบและลดความรู้สึกของโชคชะตาให้มากที่สุด
ttnphns

คำตอบ:


16

เหตุผลที่เป็นไปได้มากสำหรับตัวแปร 2 ตัวที่มีความสัมพันธ์กันคือการเปลี่ยนแปลงนั้นเชื่อมโยงกับตัวแปรตัวที่สาม เหตุผลที่เป็นไปได้อื่น ๆ คือโอกาส (ถ้าคุณทดสอบตัวแปรที่ไม่สัมพันธ์กันอย่างเพียงพอสำหรับความสัมพันธ์บางคนจะแสดงความสัมพันธ์) หรือกลไกที่ซับซ้อนมากที่เกี่ยวข้องกับหลายขั้นตอน

ดู http://tylervigen.com/สำหรับตัวอย่างเช่นนี้:

ป้อนคำอธิบายรูปภาพที่นี่

หากต้องการระบุสาเหตุของ A -> B อย่างมั่นใจคุณต้องทำการทดสอบที่คุณสามารถควบคุมตัวแปร A และไม่ส่งผลต่อตัวแปรอื่น ๆ จากนั้นคุณวัดว่าความสัมพันธ์ของ A และ B ยังคงมีอยู่หากคุณเปลี่ยนตัวแปรของคุณ

สำหรับแอปพลิเคชั่นที่ใช้งานได้เกือบทั้งหมดมันเป็นไปไม่ได้เลยที่จะไม่ส่งผลกระทบต่อตัวแปรอื่น ๆ (มักไม่ทราบ) เช่นกันดังนั้นสิ่งที่ดีที่สุดที่เราสามารถทำได้คือ

เพื่อให้สามารถระบุความสัมพันธ์เชิงสาเหตุคุณเริ่มต้นด้วยสมมติฐานที่ว่าตัวแปร 2 ตัวมีความสัมพันธ์เชิงสาเหตุใช้การทดสอบเพื่อพิสูจน์สมมติฐานและหากคุณล้มเหลวคุณสามารถระบุด้วยความมั่นใจในระดับที่สมมติฐานนั้นเป็นจริง ความมั่นใจในระดับสูงของคุณนั้นขึ้นอยู่กับสาขาวิจัยของคุณ

ในหลาย ๆ ช่องมันเป็นเรื่องธรรมดาหรือจำเป็นที่จะต้องเรียกใช้การทดสอบของคุณ 2 ส่วนในแบบคู่ขนานซึ่งมีการเปลี่ยนแปลงตัวแปร A และกลุ่มควบคุมที่ตัวแปร A ไม่เปลี่ยนแปลง แต่การทดสอบนั้นเหมือนกันทุกประการ - เช่นในกรณีของ ยาที่คุณยังคงยึดวิชาด้วยเข็มหรือทำให้พวกเขากลืนยา หากการทดสอบแสดงความสัมพันธ์ระหว่าง A และ B แต่ไม่ใช่ระหว่าง A และ B '(B ของกลุ่มควบคุม) คุณสามารถสันนิษฐานได้ว่าเป็นสาเหตุ

นอกจากนี้ยังมีวิธีอื่น ๆ ในการสรุปความเป็นเหตุเป็นผลหากการทดลองไม่สามารถทำได้หรือไม่สามารถทำได้ด้วยเหตุผลหลายประการ (ศีลธรรมจริยธรรมการประชาสัมพันธ์ค่าใช้จ่ายเวลา) วิธีหนึ่งที่พบบ่อยคือการใช้การหักเงิน ยกตัวอย่างจากความเห็นเพื่อพิสูจน์ว่าการสูบบุหรี่เป็นสาเหตุของมะเร็งในมนุษย์เราสามารถใช้การทดลองเพื่อพิสูจน์ว่าการสูบบุหรี่เป็นสาเหตุของมะเร็งในหนูแล้วพิสูจน์ว่ามีความสัมพันธ์กันระหว่างการสูบบุหรี่กับมะเร็งในมนุษย์และอนุมานว่า มีแนวโน้มว่าการสูบบุหรี่เป็นสาเหตุของมะเร็งในมนุษย์ - หลักฐานนี้สามารถเพิ่มความเข้มแข็งได้หากเราพิสูจน์หักล้างว่ามะเร็งเป็นสาเหตุของการสูบบุหรี่ อีกวิธีหนึ่งในการสรุปความสัมพันธ์เชิงสาเหตุคือการแยกสาเหตุอื่นของความสัมพันธ์ออกจากความสัมพันธ์เชิงเหตุเป็นคำอธิบายที่ดีที่สุดที่เหลืออยู่ของความสัมพันธ์ - วิธีนี้ไม่สามารถใช้ได้เสมอไป เพราะบางครั้งมันเป็นไปไม่ได้ที่จะกำจัดสาเหตุที่เป็นไปได้ทั้งหมดของความสัมพันธ์ (เรียกว่า "เส้นทางหลังประตู" ในคำตอบอื่น) ในตัวอย่างการสูบบุหรี่ / มะเร็งเราอาจใช้วิธีนี้เพื่อพิสูจน์ว่าการสูบบุหรี่มีหน้าที่รับผิดชอบในน้ำมันดินในปอดเพราะมีแหล่งที่เป็นไปได้ไม่มากนัก

วิธีการอื่น ๆ ของ "การพิสูจน์" เวรกรรมไม่เหมาะเสมอไปจากมุมมองทางวิทยาศาสตร์เพราะพวกเขาไม่ได้ข้อสรุปเหมือนการทดลองที่ง่ายกว่า การอภิปรายภาวะโลกร้อนเป็นตัวอย่างที่ดีในการแสดงว่ามันง่ายกว่ามากที่จะยกเลิกสาเหตุที่ยังไม่ได้รับการพิสูจน์โดยสรุปด้วยการทดลองซ้ำ

เพื่อบรรเทาความตลกขบขันนี่เป็นตัวอย่างของการทดลองที่เป็นไปได้ทางเทคนิค แต่ไม่แนะนำให้เลือกเนื่องจากเหตุผลที่ไม่เกี่ยวข้องกับวิทยาศาสตร์ (ศีลธรรม, จริยธรรม, PR, ราคา):

ภาพที่นำมาจาก phroyd.tumblr.com


3
นี่คือเงื่อนไขที่แข็งแกร่งเกินไป ในระบาดวิทยาข้อกำหนดมีความเข้มงวดน้อยลงเนื่องจากการควบคุมการทดลองทำได้ดีที่สุดและผิดจรรยาบรรณที่เลวร้ายที่สุด - "การสูบบุหรี่ทำให้เกิดมะเร็ง"
user295691

2
ตัวอย่างที่เพิร์ลแสดงให้เห็นว่าการสูบบุหรี่เป็นสาเหตุของโรคมะเร็งในมนุษย์เป็นวิธีการที่ประตูหน้าโดยที่กลาสีเรือถูกมองว่าเป็นตัวแปรกลางระหว่างการสูบบุหรี่และมะเร็ง ฉันไม่รู้ว่าคุณหมายถึงอะไรโดย "ไม่เหมาะ" มันเหมาะมากกว่าการบังคับให้คนสูบบุหรี่และดูว่าพวกเขาเป็นมะเร็งหรือเปล่า!
Neil G

1
@ นีล "มันเหมาะกว่าการบังคับให้คนสูบบุหรี่และดูว่าพวกเขาเป็นมะเร็ง" หรือไม่ - ถ้าเป้าหมายคือการพิสูจน์ความสัมพันธ์เชิงสาเหตุฉันไม่เห็นด้วยอย่างยิ่ง ในทางกลับกันถ้าเป้าหมายคือการหลีกเลี่ยงปัญหาด้านจริยธรรมลดการระดมทุนหรือกลุ่มประชาสังคมมันก็เหมาะกว่าใช่
ปีเตอร์

10

ความสัมพันธ์ระหว่างตัวแปร A และผลลัพธ์ Y สะท้อนถึงความสัมพันธ์เชิงสาเหตุระหว่าง A และ Y หากไม่มีเส้นทางลับๆที่เปิดอยู่ระหว่าง A และ Y

ในการออกแบบการทดลองสิ่งนี้สามารถทำได้ง่ายที่สุดโดยการสุ่มการเปิดเผยหรือการมอบหมายการรักษา ยกเว้นการสุ่มในอุดมคติผลการรักษาแบบเชื่อมโยงคือการประมาณค่าแบบไม่เอนเอียงของผลการรักษาเชิงสาเหตุภายใต้สมมติฐานของความสามารถในการแลกเปลี่ยน (การมอบหมายการรักษาไม่ขึ้นอยู่กับผลตอบโต้ที่เป็นจริง) ผลบวก ฯลฯ

อ้างอิง

Hernan, Robins การอนุมานสาเหตุของ
ไข่มุก การอนุมานเชิงสาเหตุในสถิติ: ภาพรวม

ป.ล. คุณสามารถ google สำหรับการอนุมานสาเหตุและชื่อต่อไปนี้ (เริ่มต้นด้วย) สำหรับข้อมูลเพิ่มเติมเกี่ยวกับหัวข้อ: จูเดียเพิร์ล, โดนัลด์รูบิน, Miguil Hernan


ลองดูที่นี่: en.wikipedia.org/wiki/Correlation_does_not_imply_causationฉันขัดแย้งกับคำแถลงของ Ash: ไม่ว่าการออกแบบจะเป็นการทดลองหรือเชิงสังเกตการเชื่อมโยงระหว่างตัวแปร A กับผลลัพธ์ Y สะท้อนถึงความสัมพันธ์เชิงสาเหตุระหว่าง A และ Y หากมี ไม่มีเส้นทางลับๆที่เปิดอยู่ระหว่าง A และ Yตัวอย่างเช่นการขายไอสกรีม, Y เสียชีวิตในสระว่ายน้ำ; มีความสัมพันธ์กัน แต่สาเหตุที่ทำให้พวกเขาเพิ่มหรือลดลงคืออุณหภูมิ บางทีแอชอาจหมายถึงด้วยเส้นทางลับๆที่เปิดอยู่ทั้งสองขึ้นอยู่กับตัวแปรที่สาม แต่สูตรของเขาก็ไม่ชัดเจน
Karl

เส้นทางประตูหลังในตัวอย่างของคุณคือฤดูกาล เส้นทางลับๆหมายถึงตัวแปรตัวที่สาม
Neil G

สำหรับผู้ที่ไม่คุ้นเคยกับการมีส่วนร่วมของจูเดียเพิร์ลในการศึกษาเรื่องเวรกรรมมันอาจเป็นประโยชน์ในการอ่านชีวประวัติของเขาจากเว็บไซต์ของสมาคมเพื่อการคำนวณทางคอมพิวเตอร์ซึ่งได้รับรางวัลทัวริง 2011 เพิร์ลกล่าวถึงความจำเป็นในการรวมทั้งการอภิปรายมากขึ้นของสาเหตุการอนุมานในหลักสูตรของการศึกษาทางสถิติในการให้สัมภาษณ์กับAmstat ข่าว
jthetzel

ความคิดเห็นไม่ได้มีไว้สำหรับการอภิปรายเพิ่มเติม การสนทนานี้ได้รับการย้ายไปแชท
gung - Reinstate Monica

3

พิจารณาการเพิ่มขึ้นของอัตราการหย่าร้างซึ่งสัมพันธ์กับการเพิ่มขึ้นของรายได้ทนายความ

โดยสังหรณ์ใจดูเหมือนว่าตัวชี้วัดเหล่านี้ควรมีความสัมพันธ์กันอย่างชัดเจน คู่รักเพิ่มเติม (อุปสงค์) ยื่นขอหย่าเพิ่ม

ดูเหมือนว่าการเพิ่มขึ้นของอัตราการหย่าร้างทำให้รายได้ของทนายความเพิ่มขึ้นเนื่องจากความต้องการที่เพิ่มขึ้นของคู่รักทำให้ทนายขึ้นราคา

หรือว่าถอยหลัง ถ้าทนายความอย่างจงใจและเป็นอิสระขึ้นราคาของพวกเขาแล้วใช้รายได้ใหม่ของพวกเขาในโฆษณาการหย่าร้าง? นั่นดูเหมือนจะเป็นคำอธิบายที่น่าเชื่อถือ

ภาพจำลองนี้แสดงให้เห็นถึงจำนวนโดยพลการของตัวแปรที่สามที่อธิบายได้ซึ่งการวิเคราะห์ทางสถิติสามารถแสดงได้ พิจารณาสิ่งต่อไปนี้:

  1. คุณไม่สามารถวัดทุกดาต้าพอยน์ได้
  2. คุณต้องการกำจัดดาต้าพอยน์ที่ไม่ใช่คำอธิบายทั้งหมด
  3. คุณสามารถพิสูจน์ได้ว่าเหตุใดจึงต้องกำจัดดาต้าพ้อยท์ถ้าคุณวัด

คุณมีปริศนา คุณไม่สามารถวัดดาต้าพอยน์ทุกตัวได้ถ้าคุณต้องการที่จะพิสูจน์ว่าดาต้าพอยน์ที่ไม่อธิบายนั้นคุณต้องวัดมัน (คุณสามารถกำจัดดาต้าพอยน์บางตัวได้โดยไม่ต้องวัด แต่คุณต้องยืนยันอย่างน้อย)

ไม่มีการพิสูจน์สาเหตุที่สามารถแก้ไขได้ในระบบที่ไม่มีขอบเขต


2

หาก A และ B สัมพันธ์กันและหลังจากที่คุณแยกความบังเอิญเป็นไปได้มากว่า A ทำให้ B หรือ B ทำให้ A หรือบางสาเหตุที่ไม่ทราบอาจทำให้ X ทำให้ทั้ง A และ B

ขั้นตอนแรกคือการตรวจสอบกลไกที่เป็นไปได้ คุณลองคิดดูว่า A สามารถเป็นกรณี B หรือในทางกลับกันหรือสาเหตุอื่นใดของ X ที่ทำให้เกิดทั้งสองอย่าง (นี่คือการสันนิษฐานว่าการสอบนี้ราคาถูกกว่าการทำการทดลองที่พยายามพิสูจน์สาเหตุ) คุณหวังว่าท้ายที่สุดจะอยู่ในตำแหน่งที่การทดสอบเพื่อแสดงสาเหตุที่คุ้มค่า คุณอาจดำเนินการต่อหากคุณไม่สามารถนึกถึงกลไก (สาเหตุ A B แต่เราไม่รู้ว่าทำไมจึงเป็นไปได้)

ในการทดสอบนั้นคุณจะต้องสามารถจัดการกับสาเหตุที่น่าสงสัยได้ตามต้องการ (ตัวอย่างเช่นถ้าสาเหตุคือ "การกินยา A" จากนั้นบางคนจะได้รับยาเม็ด จากนั้นคุณจะต้องระมัดระวังตามปกติเลือกคนที่จะได้รับหรือไม่รับยาเม็ดโดยที่คุณและผู้ที่ผ่านการทดสอบรู้ว่าใครได้รับยาเม็ดและใครที่ไม่ได้รับยา คุณพยายามรักษาส่วนที่เหลือของการทดลองให้เท่ากัน (ให้ยา A ให้กับผู้คนในห้องอุ่น ๆ ที่มีแสงแดดส่องมาทางหน้าต่างในขณะที่อีกกลุ่มหนึ่งได้รับยาปลอมในห้องที่สกปรกและไม่สบายเพียงแค่อาจส่งผลต่อข้อมูลของคุณ) ดังนั้นหากคุณสรุปได้ว่าความแตกต่างเพียงอย่างเดียวคือยาเม็ดนั้นและสาเหตุของการได้รับหรือไม่ได้รับยาเป็นการตัดสินใจแบบสุ่มที่ไม่ส่งผลกระทบต่อสิ่งอื่น


2

ข้อมูล Interventional (ทดลอง) ตามที่อธิบายโดย gnasher และ Peter เป็นวิธีที่ตรงไปตรงมาที่สุดในการสร้างกรณีที่ดีสำหรับความสัมพันธ์เชิงสาเหตุ อย่างไรก็ตามมีเพียงคำตอบของ Ash ที่กล่าวถึงความเป็นไปได้ในการลดความสัมพันธ์เชิงสาเหตุผ่านข้อมูลเชิงสังเกตการณ์ นอกจากวิธีลับๆที่เขากล่าวถึงวิธีประตูหน้าเป็นอีกวิธีหนึ่งในการสร้างเวรกรรมตามข้อมูลเชิงสังเกตการณ์และข้อสันนิษฐานเชิงสาเหตุบางประการ สิ่งเหล่านี้ถูกค้นพบโดยจูเดียเพิร์ล ผมพยายามที่จะสรุปและให้การอ้างอิงเหล่านี้ที่นี่


0

ในการสร้างคำสั่งเชิงสาเหตุคุณต้องมีทั้งการสุ่มตัวอย่างแบบสุ่มและการมอบหมายแบบสุ่ม

  • การสุ่มตัวอย่างแบบสุ่ม: แต่ละคนมีความน่าจะเป็นที่เท่ากันที่จะเลือกสำหรับการศึกษา
  • การมอบหมายแบบสุ่ม: แต่ละคนในการทดสอบแสดงลักษณะที่แตกต่างกันเล็กน้อย

ดังนั้นเมื่อเลือกการรักษาและกลุ่มควบคุมจากกลุ่มตัวอย่างข้างต้นจำนวนคนที่มีลักษณะคล้ายกันควรมีทั้งในการรักษาและกลุ่มควบคุม

กลุ่มการรักษาจะเป็นกลุ่มที่ยาจะได้รับให้กับประชาชน กลุ่มควบคุมเป็นกลุ่มที่ยาที่ไม่ได้รับ คุณยังสามารถกำหนดกลุ่มยาหลอกได้ที่อาสาสมัครไม่ได้รับยา แต่บอกว่าได้รับยา

ในที่สุดหากผลกระทบที่มองเห็นได้ในกลุ่มการรักษา แต่ไม่ได้อยู่ในกลุ่มควบคุมจากนั้นเราสามารถสร้างสาเหตุ


ในความคิดของฉันจำเป็นต้องใช้กลุ่มยาหลอกอย่างแน่นอน นอกจากนี้ผู้รับผิดชอบในการจัดการเรื่องการทดสอบต้องไม่ทราบว่าใครอยู่ในกลุ่มใด ("double blind") อะไรที่น้อยกว่าฉันจะพิจารณาไม่น่าเชื่อถืออย่างแน่นอน การทดสอบไม่ใช่เรื่องง่าย
mafu

การทดลองหลอกแบบควบคุมแบบสุ่มนั้นมีความจริงมากกว่าการทดลองแบบควบคุมแบบสุ่ม แต่งบเชิงสาเหตุสามารถทำได้โดยใช้การทดลองแบบควบคุมแบบสุ่ม
show_stopper

2
"ในการสร้างคำสั่งเชิงสาเหตุคุณจำเป็นต้องมีทั้งการสุ่มตัวอย่างแบบสุ่มและการมอบหมายแบบสุ่ม" - สิ่งนี้ไม่เป็นความจริง ดูวิธีประตูหน้าและประตูหลัง
Neil G
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.