X และ Y ไม่มีความสัมพันธ์ แต่ X เป็นตัวทำนายที่สำคัญของ Y ในการถดถอยหลายครั้ง มันหมายความว่าอะไร?


34

X และ Y ไม่มีความสัมพันธ์ (-.01); อย่างไรก็ตามเมื่อฉันวาง X ลงในการพยากรณ์การถดถอยหลายครั้งพร้อมกับตัวแปร (A, B, C) อื่น (ที่เกี่ยวข้อง) ตัวแปรสามตัว, X และตัวแปรอื่นอีกสองตัว (A, B) เป็นตัวทำนายที่สำคัญของ Y โปรดทราบว่าอีกสอง ( ตัวแปร A, B) มีความสัมพันธ์อย่างมีนัยสำคัญกับ Y นอกการถดถอย

ฉันควรตีความข้อค้นพบเหล่านี้อย่างไร X ทำนายความแปรปรวนที่ไม่ซ้ำกันใน Y แต่เนื่องจากสิ่งเหล่านี้ไม่มีความสัมพันธ์ (Pearson) จึงยากที่จะตีความ

ฉันรู้กรณีตรงกันข้าม (เช่นตัวแปรสองตัวมีความสัมพันธ์กัน แต่การถดถอยไม่สำคัญ) และค่อนข้างง่ายกว่าที่จะเข้าใจจากมุมมองเชิงทฤษฎีและสถิติ โปรดทราบว่าตัวพยากรณ์บางตัวมีความสัมพันธ์กันค่อนข้างมาก (เช่น. 70) แต่ไม่ใช่ในระดับที่ฉันคาดหวังว่าจะมีความหลากหลายทางชีวภาพที่สำคัญ บางทีฉันอาจเข้าใจผิด

หมายเหตุ: ฉันถามคำถามนี้ก่อนหน้านี้และมันถูกปิด เหตุผลก็คือคำถามนี้ซ้ำซ้อนกับคำถามที่ว่า " การถดถอยจะมีความสำคัญได้อย่างไรบางทีฉันไม่เข้าใจคำถามอื่น แต่ฉันเชื่อว่าคำถามเหล่านี้เป็นคำถามที่แยกจากกันทั้งในเชิงคณิตศาสตร์และเชิงทฤษฎีคำถามของฉันไม่ขึ้นอยู่กับว่า "การถดถอยมีความสำคัญ" นอกจากนี้ตัวทำนายหลายตัวก็มีความสำคัญ สร้างความแปรปรวนให้กับตัวแปรที่ไม่สำคัญดังนั้นฉันจึงไม่เห็นการซ้อนทับกันหากคำถามเหล่านี้ซ้ำซ้อนด้วยเหตุผลที่ฉันไม่เข้าใจโปรดใส่ความคิดเห็นก่อนปิดคำถามนี้นอกจากนี้ฉันหวังว่าจะส่งข้อความถึงผู้ดูแลที่ปิดอีก คำถามเพื่อหลีกเลี่ยงคำถามที่เหมือนกัน แต่ฉันไม่พบตัวเลือกให้ทำ


2
ฉันคิดว่านี่คล้ายกับคำถามก่อนหน้านี้มาก ถ้า X และ Y ไม่ได้เกี่ยวข้องกันเป็นหลักดังนั้นในการถดถอยเชิงเส้นอย่างง่ายสัมประสิทธิ์ความชันของ X จะไม่สำคัญ หลังจากการประมาณความชันทั้งหมดจะแปรผันตามความสัมพันธ์ตัวอย่าง การถดถอยแบบหลายจุดอาจแตกต่างกันเนื่องจาก X และ Z ร่วมกันอาจอธิบายความแปรปรวนจำนวนมากใน Y เนื่องจากคำตอบของฉันฟังดูคล้ายกับคำตอบของคำถามก่อนหน้าซึ่งอาจบ่งบอกถึงความคล้ายคลึงกันที่แตกต่างกัน
Michael Chernick

2
ขอบคุณสำหรับการตอบกลับและคำตอบที่ละเอียดมากในชุดข้อความอื่น ๆ ฉันจะต้องอ่านมันสองสามครั้งเพื่อรับวิทยานิพนธ์ของมัน ฉันคิดว่าข้อกังวลอื่นของฉันคือการตีความมันในทางปฏิบัติมากกว่าจะเป็นเชิงสถิติหรือเชิงคณิตศาสตร์ สมมุติว่าตัวอย่างความเร็วในการว่ายน้ำและความวิตกกังวลเรื่องลักษณะไม่สัมพันธ์กัน แต่ความวิตกกังวลเรื่องคุณลักษณะเป็นตัวทำนายที่สำคัญของความเร็วในการว่ายน้ำในการถดถอยหลายครั้งพร้อมกับตัวทำนายอื่น ๆ สิ่งนี้จะสมเหตุสมผลได้อย่างไร? ให้บอกว่าคุณกำลังเขียนสิ่งนี้ในส่วนการอภิปรายของวารสารทางคลินิก!
Behacad

3
@jth เนื่องจากคุณรักษาคำถามสองข้อนั้นแตกต่างกันพอที่จะไม่ถือว่าเป็นคำซ้ำซ้อนโปรดอย่าลังเลที่จะย้ายคำตอบของคุณไปยังอีกคำถามหนึ่งที่นี่ (ฉันขอโทษที่ไม่เห็นด้วยกับความแตกต่างในตอนแรก) ฉันเชื่อว่าโน้ตใหม่นั้นไม่ถูกต้องหากว่าคำถามมีความแตกต่างทางคณิตศาสตร์ - @ Michael Chernick ชี้ให้เห็นว่าพวกเขาเหมือนกัน - แต่เน้นการตีความสร้างเหตุผลที่ถูกต้อง เพื่อแยกเธรด
whuber

1
ฉันย้ายคำตอบไปที่นี่ด้วย ฉันคิดว่าคำถามทั้งสองนั้นแตกต่างกันมาก แต่อาจแบ่งปันคำอธิบายทั่วไป
JDav

1
หน้าเว็บนี้มีการอภิปรายที่ดีอีกครั้งของหัวข้อที่เกี่ยวข้อง ยาว แต่ดีมาก & สามารถช่วยให้คุณเข้าใจปัญหาได้ ฉันขอแนะนำให้อ่านมันอย่างสมบูรณ์
gung - Reinstate Monica

คำตอบ:


39

ทฤษฎีเชิงสาเหตุเสนอคำอธิบายอีกวิธีหนึ่งว่าตัวแปรสองตัวสามารถมีความเป็นอิสระได้อย่างไร ฉันไม่ใช่ผู้เชี่ยวชาญเกี่ยวกับทฤษฎีเชิงสาเหตุและรู้สึกขอบคุณสำหรับคำวิจารณ์ที่จะแก้ไขข้อผิดพลาดใด ๆ ด้านล่าง

เพื่อแสดงให้เห็นว่าฉันจะใช้กราฟ acyclic โดยตรง (DAG) ในกราฟเหล่านี้ edge ( ) ระหว่างตัวแปรแสดงถึงความสัมพันธ์เชิงสาเหตุโดยตรง หัวลูกศร (หรือ ) ระบุทิศทางของความสัมพันธ์เชิงสาเหตุ ดังนั้นอนุมานว่าเป็นสาเหตุโดยตรงและอนุมานว่ามีสาเหตุโดยตรงจากBเป็นเส้นทางเชิงสาเหตุที่ infers ที่ทำให้ถึงทางอ้อมABABABABABCACB. เพื่อให้เข้าใจง่ายสมมติว่าความสัมพันธ์เชิงสาเหตุทั้งหมดเป็นเส้นตรง

ก่อนอื่นให้พิจารณาตัวอย่างง่ายๆของอคติที่สับสน :

ปัจจัยรบกวน

นี่ถดถอย bivariable ง่ายจะแนะนำการพึ่งพาอาศัยกันระหว่างและYแต่ไม่มีความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างและYแต่ทั้งคู่เกิดขึ้นโดยตรงจากและในการถดถอยแบบง่าย bivariable การสังเกตทำให้เกิดความไม่พอใจระหว่างและทำให้เกิดอคติโดยการทำให้สับสน อย่างไรก็ตามเครื่องถดถอยหลายตัวแปรในจะลบอคติและแนะนำการพึ่งพาอาศัยกันระหว่างไม่มีและYXYXYZZXYZXY

ประการที่สองลองพิจารณาตัวอย่างของcollider bias (หรือที่รู้จักกันในชื่อ Berkson bias หรือ berksonian bias ซึ่ง bias ที่เลือกเป็นแบบพิเศษ):

Collider

นี่ถดถอย bivariable ง่ายจะแนะนำการพึ่งพาอาศัยกันระหว่างไม่มีและYนี้เห็นด้วยกับ DAG ซึ่งอนุมานไม่มีความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างและYอย่างไรก็ตามการปรับเงื่อนไขการถดถอยหลายตัวแปรบนจะทำให้เกิดการพึ่งพากันระหว่างและชี้ให้เห็นว่าความสัมพันธ์เชิงสาเหตุโดยตรงระหว่างตัวแปรทั้งสองนั้นอาจมีอยู่ การรวมในผลการถดถอยหลายตัวแปรในอคติคอลไลเดอร์XYXYZXYZ

ประการที่สามพิจารณาตัวอย่างของการยกเลิกโดยไม่ตั้งใจ:

การยกเลิก

ให้เราสมมติว่า ,และมีค่าสัมประสิทธิ์เส้นทางและ- ถดถอย bivariable ง่ายจะแนะนำ depenence ระหว่างไม่มีและYแม้ว่าในความเป็นจริงเป็นสาเหตุโดยตรงของผลรบกวนของในและบังเอิญยกเลิกออกผลกระทบของในYการปรับเงื่อนไขการถดถอยหลายตัวแปรบนจะลบเอฟเฟ็กต์ที่สับสนของบนและαβγβ=αγXYXYZXYXYZZXYทำให้สามารถประมาณผลกระทบโดยตรงของต่อโดยสมมติว่า DAG ของแบบจำลองเชิงสาเหตุนั้นถูกต้องXY

เพื่อสรุป:

ปัจจัยรบกวนเช่น: และจะขึ้นอยู่ในการถดถอย bivariable และเป็นอิสระในการปรับสภาพถดถอยหลายตัวแปรในปัจจัยรบกวนZXYZ

Collider ตัวอย่างเช่น และมีความเป็นอิสระในการถดถอย bivariable และขึ้นอยู่ในเครื่อง regresssion หลายตัวแปรใน Collider ZXYZ

ยกเลิกตัวอย่าง Inicdental: และมีความเป็นอิสระในการถดถอย bivariable และขึ้นอยู่ในเครื่อง regresssion หลายตัวแปรในปัจจัยรบกวนZXYZ

Discussion:

ผลลัพธ์ของการวิเคราะห์ของคุณเข้ากันไม่ได้กับตัวอย่างที่สับสน แต่เข้ากันได้กับทั้งตัวอย่าง collider และตัวอย่างการยกเลิกโดยบังเอิญ ดังนั้นคำอธิบายที่อาจเกิดขึ้นคือการที่คุณมีเงื่อนไขไม่ถูกต้องบนตัวแปร Collider ในการถดถอยหลายตัวแปรของคุณและมีการเหนี่ยวนำให้เกิดการเชื่อมโยงระหว่างและแม้ว่าไม่ได้เป็นสาเหตุของและไม่ได้เป็นสาเหตุของXหรือคุณอาจมีเงื่อนไขถูกต้องใน confounder ในการถดถอยหลายตัวแปรที่มีการยกเลิกผลกระทบที่แท้จริงของกับในการถดถอยแบบ bivariable ของคุณXYXYYXXY

ฉันพบว่าการใช้ความรู้พื้นฐานเพื่อสร้างแบบจำลองเชิงสาเหตุมีประโยชน์เมื่อพิจารณาว่าตัวแปรใดที่จะรวมในตัวแบบสถิติ ตัวอย่างเช่นหากการศึกษาแบบสุ่มที่มีคุณภาพสูงก่อนหน้านี้ได้ข้อสรุปว่าทำให้และเป็นสาเหตุของฉันสามารถสันนิษฐานได้ว่าเป็น collider ของและและไม่มีเงื่อนไขสำหรับมันในแบบจำลองทางสถิติ อย่างไรก็ตามถ้าฉันเพียงแค่มีสัญชาตญาณว่าทำให้และทำให้แต่ไม่มีหลักฐานทางวิทยาศาสตร์ที่แข็งแกร่งที่จะสนับสนุนสัญชาตญาณของฉันฉันจะทำได้เพียงสมมติฐานอ่อนแอที่XZYZZXYXZYZZเป็น collider ของและเนื่องจากสัญชาติญาณของมนุษย์มีประวัติของการเข้าใจผิด ต่อจากนั้นผมจะไม่เชื่อใน infering ความสัมพันธ์เชิงสาเหตุระหว่างและโดยไม่ต้องสืบสวนต่อไปของความสัมพันธ์เชิงสาเหตุของพวกเขาด้วยZแทนหรือนอกเหนือจากความรู้พื้นฐานแล้วยังมีอัลกอริทึมที่ออกแบบมาเพื่ออนุมานโมเดลเชิงสาเหตุจากข้อมูลโดยใช้ชุดการทดสอบความสัมพันธ์ (เช่นอัลกอริทึม PC และอัลกอริทึม FCI ดูTETRADสำหรับการนำ Java, PCalgXYXYZสำหรับการนำไปใช้ R) อัลกอริทึมเหล่านี้น่าสนใจมาก แต่ฉันจะไม่แนะนำอีกต่อไปโดยไม่ต้องพึ่งพาพวกมันหากไม่มีความเข้าใจอย่างถ่องแท้เกี่ยวกับพลังและข้อ จำกัด ของแคลคูลัสเชิงสาเหตุและตัวแบบเชิงสาเหตุในทฤษฎีเชิงสาเหตุ

สรุป:

การไตร่ตรองของแบบจำลองเชิงสาเหตุไม่ได้แก้ตัวผู้ตรวจสอบจากการพิจารณาข้อพิจารณาเชิงสถิติที่กล่าวถึงในคำตอบอื่น ๆ ที่นี่ อย่างไรก็ตามฉันรู้สึกว่าแบบจำลองเชิงสาเหตุสามารถให้กรอบการทำงานที่เป็นประโยชน์เมื่อคิดถึงคำอธิบายที่เป็นไปได้สำหรับการพึ่งพาทางสถิติและความเป็นอิสระในแบบจำลองทางสถิติโดยเฉพาะอย่างยิ่ง

อ่านเพิ่มเติม:

Gelman, Andrew 2554. " เวรกรรมและสถิติการเรียนรู้ " Am J. สังคมวิทยา 117 (3) (พฤศจิกายน): 955–966

กรีนแลนด์, S, J Pearl และ JM Robins 1999. “ แผนภาพสาเหตุสำหรับการวิจัยทางระบาดวิทยา ” ระบาดวิทยา (เคมบริดจ์, แมสซาชูเซตส์) 10 (1) (มกราคม): 37–48

กรีนแลนด์, ซานเดอร์ 2546. “ การหาจำนวนอคติในรูปแบบเชิงสาเหตุ: ความลำเอียงคลาสสิกที่น่ารำคาญเทียบกับการแบ่งชนชั้นแบบ Collider-Stratification ” ระบาดวิทยา 14 (3) (1 พฤษภาคม): 300–306

ไข่มุกจูเดีย 1998 ทำไมไม่มีสถิติการทดสอบสำหรับปัจจัยรบกวนทำไมหลายคนคิดว่ามีและทำไมพวกเขาเกือบจะขวา

ไข่มุกจูเดีย 2009 เวรกรรม: รุ่น, การใช้เหตุผลและการอนุมาน ฉบับที่ 2 สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์

Spirtes, Peter, Clark Glymour และ Richard Scheines 2544. สาเหตุการพยากรณ์และการค้นหารุ่นที่สอง หนังสือแบรดฟอร์ด

ปรับปรุง:แคว้นยูเดียเพิร์ลกล่าวถึงทฤษฎีของสาเหตุการอนุมานและความจำเป็นในการอนุมานสาเหตุรวมเข้าไปในหลักสูตรสถิติเบื้องต้นในที่พฤศจิกายน 2012 ฉบับ Amstat ข่าว เขาบรรยายรางวัลทัวริงชื่อ "เครื่องจักรกลของสาเหตุการอนุมาน: การทดสอบทัวริง 'มินิ' และเกิน" ยังเป็นที่น่าสนใจ


ข้อโต้แย้งเชิงสาเหตุมีผลใช้ได้จริง แต่สำหรับนักวิจัยที่จะสมัครสมาชิกด้วยวิธีการนั้นจำเป็นต้องมีความรู้ที่ดีเกี่ยวกับปรากฏการณ์พื้นฐาน ฉันสงสัยว่าการวิเคราะห์ @Behacad กำลังทำงานอยู่นั้นเป็นเพียงการสำรวจเท่านั้น
JDav

1
@Behacad: ดังที่ได้กล่าวไว้ในคำตอบของฉันฉันขอแนะนำให้คุณลืมเกี่ยวกับเดียวเนื่องจากปัญหาของคุณคือหลายตัวแปรและไม่ใช่ bivariate ในการวัดอิทธิพลของตัวแปรที่คุณสนใจคุณต้องควบคุมแหล่งที่มาของความแปรปรวนอื่น ๆ ที่อาจบิดเบือนอิทธิพลที่วัดได้ของ x ρ
JDav

5
+1 ภาพประกอบและคำอธิบายนั้นชัดเจนและทำได้ดีมาก ขอบคุณสำหรับความพยายามและการวิจัยที่ (ชัดเจน) เข้าไปในคำตอบนี้
whuber

1
นอกจากนี้บางคนอาจให้ตัวอย่างที่เป็นประโยชน์ของ "สามพิจารณาตัวอย่างของการยกเลิกโดยบังเอิญได้หรือไม่" คำถามเกี่ยวกับสาเหตุเกิดขึ้น หาก X และ Y ไม่สัมพันธ์กัน (เช่นการเปลี่ยนแปลง X ไม่เกี่ยวข้องกับการเปลี่ยนแปลงใน Y ") เราจะพิจารณา" สาเหตุ "นี้ได้อย่างไรนี่คือสิ่งที่ฉันสงสัยในคำถามอื่น! stats.stackexchange.com/questions / 33638 / …
Behacad

4
เป็นที่น่าสังเกตว่ามีบางชื่อทางเลือกสำหรับสิ่งเหล่านี้: Confounder -> Common Cause Model; Collider -> โมเดลเอฟเฟกต์ทั่วไป; & การยกเลิกโดยบังเอิญเป็นกรณีพิเศษของการไกล่เกลี่ยบางส่วน
gung - Reinstate Monica

22

ฉันคิดว่าวิธีการของ @ jthetzel เป็นวิธีที่ถูกต้อง (+1) ในการตีความผลลัพธ์เหล่านี้คุณจะต้องคิดถึง / มีทฤษฎีว่าทำไมความสัมพันธ์จึงแสดงออกมา นั่นคือคุณจะต้องคิดเกี่ยวกับรูปแบบของความสัมพันธ์เชิงสาเหตุที่รองรับข้อมูลของคุณ คุณต้องจำไว้ว่า @jthetzel ชี้ให้เห็นว่าผลลัพธ์ของคุณสอดคล้องกับกระบวนการสร้างข้อมูลที่แตกต่างกัน ฉันไม่คิดว่าการทดสอบทางสถิติเพิ่มเติมใด ๆในชุดข้อมูลเดียวกันจะช่วยให้คุณเห็นความแตกต่างระหว่างความเป็นไปได้เหล่านั้น (แม้ว่าการทดลองเพิ่มเติมจะทำได้แน่นอน) ดังนั้นการคิดให้ถี่ถ้วนเกี่ยวกับสิ่งที่ทราบเกี่ยวกับหัวข้อจึงมีความสำคัญที่นี่

ผมอยากจะชี้ให้เห็นอีกสถานการณ์พื้นฐานที่เป็นไปได้ที่อาจสร้างผลเช่นคุณ: ปราบปราม นี่เป็นการยากที่จะแสดงให้เห็นถึงการใช้ไดอะแกรมลูกศร แต่ถ้าฉันสามารถขยายได้เล็กน้อยเราอาจคิดได้ดังนี้:

ป้อนคำอธิบายรูปภาพที่นี่

สิ่งสำคัญเกี่ยวกับสถานการณ์นี้คือประกอบด้วยสองส่วนส่วนที่ไม่เกี่ยวข้อง ( ) และส่วนที่เกี่ยวข้อง ( ) จะ uncorrelated กับแต่ดีมากอาจจะ 'สำคัญ' ในรูปแบบการถดถอยพหุคูณ นอกจากนี้อาจมีความสัมพันธ์กับหรือได้หรือไม่ ยิ่งกว่านั้นตัวแปร X ของคุณอาจเล่นเป็นบทบาทของหรือOther VariableURSuppressorYOther VariableSuppressorYSuppressorOther Variable ในสถานการณ์นี้ (และอีกครั้งคุณต้องคิดเกี่ยวกับรูปแบบพื้นฐานที่อาจจะขึ้นอยู่กับความรู้ของคุณของพื้นที่)

ฉันไม่รู้ว่าคุณสามารถอ่านรหัส R ได้หรือไม่ แต่นี่คือตัวอย่างที่ฉันใช้ (โดยเฉพาะอย่างยิ่งเหมาะกับตัวอย่างที่ดีกับ X เล่นบทบาทของแต่ทั้งสองไม่ได้ 'อย่างมีนัยสำคัญ' ความสัมพันธ์กับนั้นควรจะเป็นไปได้ที่จะได้รับความสัมพันธ์ระหว่างและใกล้กับ 0 และจับคู่คำอธิบายอื่น ๆ ด้วยการตั้งค่าที่เหมาะสม) SuppressorYOther VariableY

set.seed(888)                            # for reproducibility

S  =         rnorm(60, mean=0, sd=1.0)   # the Suppressor is normally distributed
U  = 1.1*S + rnorm(60, mean=0, sd=0.1)   # U (unrelated) is Suppressor plus error
R  =         rnorm(60, mean=0, sd=1.0)   # related part; normally distributed
OV = U + R                               # the Other Variable is U plus R
Y  = R +     rnorm(60, mean=0, sd=2)     # Y is R plus error

cor.test(S, Y)                           # Suppressor uncorrelated w/ Y
# t = 0.0283, df = 58, p-value = 0.9775
# cor 0.003721616 

cor.test(S, OV)                          # Suppressor correlated w/ Other Variable
# t = 8.655, df = 58, p-value = 4.939e-12
# cor 0.7507423

cor.test(OV,Y)                           # Other Var not significantly cor w/ Y
# t = 1.954, df = 58, p-value = 0.05553
# cor 0.2485251

summary(lm(Y~OV+S))                      # both Suppressor & Other Var sig in mult reg
# Coefficients:
#              Estimate Std. Error t value Pr(>|t|)   
# (Intercept)   0.2752     0.2396   1.148  0.25557   
# OV            0.7232     0.2390   3.026  0.00372 **
# S            -0.7690     0.3415  -2.251  0.02823 * 

จุดของฉันที่นี่ไม่ใช่ว่าสถานการณ์นี้เป็นสิ่งที่รองรับข้อมูลของคุณ ฉันไม่รู้ว่านี่น่าจะเป็นตัวเลือกมากกว่าหรือน้อยกว่า @jthetzel แนะนำหรือไม่ ฉันเสนอแค่นี้เพื่อเป็นอาหารสำหรับความคิด ในการตีความผลลัพธ์ปัจจุบันของคุณคุณต้องคิดถึงความเป็นไปได้เหล่านี้และตัดสินใจว่าอะไรเหมาะสมที่สุด เพื่อยืนยันการเลือกของคุณจะต้องทำการทดลองอย่างระมัดระวัง


2
ยอดเยี่ยม ขอขอบคุณ. นี่เป็นอีกตัวอย่างที่ดีของสิ่งที่อาจเกิดขึ้นกับข้อมูลของฉัน ดูเหมือนว่าฉันจะตอบได้เพียงคำตอบเดียวเท่านั้น ...
Behacad

ไม่มีปัญหา @Behacad ฉันคิดว่า jthetzel สมควรได้รับเครื่องหมาย ฉันแค่มีความสุขที่จะช่วย
gung - Reinstate Monica

7

การสร้างภาพข้อมูลบางอย่างที่เป็นไปได้

บนภาพ (a)สถานการณ์การถดถอย "ปกติ" หรือ "ใช้งานง่าย" จะปรากฏขึ้น รูปนี้เป็นเช่นเดียวกับตัวอย่างพบ (และอธิบาย) ที่นี่หรือที่นี่

ตัวแปรถูกวาดเป็นเวกเตอร์ มุมระหว่างพวกเขา (โคไซน์ของพวกเขา) เป็นความสัมพันธ์ของตัวแปร ที่นี่กำหนดตัวแปรของค่าที่คาดการณ์ไว้ (มักระบุเป็น ) พิกัดเอียงของขอบลงบนเวกเตอร์ตัวทำนาย (การฉายภาพเอียงขนานกับตัวทำนายอื่น) - บาก - เป็นสัดส่วนกับสัมประสิทธิ์การถดถอยของตัวทำนายนั้นYY^b

ใน pic (a) ตัวแปรทั้งสามนั้นมีความสัมพันธ์เชิงบวกและทั้งและนั้นเป็นสัมประสิทธิ์การถดถอยเชิงบวกเช่นกัน และ "แข่งขัน" ในการถดถอยโดยมีสัมประสิทธิ์การถดถอยเป็นคะแนนของพวกเขาในการแข่งขันครั้งนั้นb1b2X1X2

ป้อนคำอธิบายรูปภาพที่นี่

ภาพ (ข)แสดงให้เห็นว่าเป็นสถานการณ์ที่ทำนายมีความสัมพันธ์กับบวกยังคงเป็นของค่าสัมประสิทธิ์การถดถอยเป็นศูนย์: ปลายทางของการทำนายโครงการที่จุดกำเนิดของเวกเตอร์X_1โปรดทราบว่านี้เกิดขึ้นจริงกับและซ้อนซึ่งหมายความว่าค่าที่คาดการณ์ไว้อย่างมีความสัมพันธ์กับที่ทำนายอื่น ๆX1YYX1YX2

ภาพ (ค)เป็นสถานการณ์ที่ไม่สัมพันธ์กับ (เวกเตอร์ของพวกเขาจะตั้งฉาก) แต่ค่าสัมประสิทธิ์การถดถอยของการทำนายที่ไม่ได้เป็นศูนย์: มันเป็นลบ (การฉายตรงหลังเวกเตอร์)X1YX1

ข้อมูลและการวิเคราะห์โดยประมาณที่สอดคล้องกับ pic (b):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 1.203146  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955  .100612  .858597
 .970097 2.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192  .587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.310708  .396034
1.462036  .057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -.898084 -.838295

ป้อนคำอธิบายรูปภาพที่นี่

ข้อมูลและการวิเคราะห์โดยประมาณที่สอดคล้องกับ pic (c):

       y       x1       x2
1.644540 1.063845  .351188
1.785204 -1.20315  .200000
-1.36357 -.466514 -.961069
 .314549 1.175054  .800000
 .317955 -.100612  .858597
 .970097 1.438904 1.000000
 .664388 1.204048  .292670
-.870252 -.993857 -1.89018
1.962192 -.587540 -.275352
1.036381 -.110834 -.246448
 .007415 -.069234 1.447422
1.634353  .965370  .467095
 .219813  .553268  .348095
-.285774  .358621  .166708
1.498758 -2.87971 -1.13757
1.671538 -.810708  .396034
1.462036 -.057677 1.401522
-.563266  .904716 -.744522
 .297874  .561898 -.929709
-1.54898 -1.26108 -.838295

ป้อนคำอธิบายรูปภาพที่นี่

สังเกตว่าในตัวอย่างที่ผ่านมาทำหน้าที่เป็นต้าน ความสัมพันธ์เป็นศูนย์การสั่งซื้อของกับเป็นศูนย์จริง แต่ความสัมพันธ์ส่วนของตนมีขนาดใหญ่มากโดยขนาด-.224มันมีความแข็งแกร่งในระดับที่คาดการณ์ของ (จาก.ซึ่งจะเป็นเบต้าในการถดถอยอย่างง่ายด้วยถึงเบต้าในการถดถอยหลายครั้ง)X1Y.224X2.419.538


ขอบคุณ! มันก็ยังคงรู้สึกค่อนข้าง counterintuitive แต่อย่างน้อยภาพของคุณแสดงให้เห็นว่ามันเป็นไปได้ :)
JelenaČuklina

5

ฉันเห็นด้วยกับคำตอบก่อนหน้านี้ แต่หวังว่าฉันจะสามารถให้รายละเอียดเพิ่มเติมได้

ค่าสัมประสิทธิ์สหสัมพันธ์เป็นเพียงการวัดการพึ่งพาเชิงเส้นระหว่างและและมันไม่ได้ควบคุมเพราะความจริงที่ว่าตัวแปรอื่น ๆ อาจเกี่ยวข้องกับความสัมพันธ์เช่นกัน ในความเป็นจริงค่าสัมประสิทธิ์สหสัมพันธ์เท่ากับพารามิเตอร์ความชันของการถดถอยต่อไปนี้ปรับขนาดโดยค่าเบี่ยงเบนมาตรฐานและ :XYxy

Y=a+βx+u

โดยที่ρ^yx=β^σ^x/σ^y

แต่จะเกิดอะไรขึ้นถ้าถูกสร้างขึ้นโดยตัวแปรอื่นเช่นกันดังนั้นโมเดลที่แท้จริงคืออะไร:Y

Y=a+βx+jαjzj+u

ภายใต้แบบจำลองที่แท้จริงนี้จะเห็นได้ชัดว่าการประมาณค่าตัวแรก (เฉพาะกับ x) จะให้ค่าประมาณแบบbiased เนื่องจากตัวแบบนั้นถดถอยของ (นี่ก็หมายความว่ายังลำเอียง!) ดังนั้นผลลัพธ์ของคุณสอดคล้องกับความจริงที่ว่าตัวแปรที่ละเว้นนั้นมีความเกี่ยวข้อง เพื่อจัดการกับปัญหานี้ทฤษฎีในการวิเคราะห์ความสัมพันธ์ให้ค่าสัมประสิทธิ์สหสัมพันธ์บางส่วน (ฉันแน่ใจว่าคุณจะพบการอ้างอิงเกี่ยวกับเรื่องนี้) ซึ่งโดยทั่วไปคำนวณจากสมการประเมินหลังว่าการควบคุมสำหรับz_j βzjρρxy|zzj


ρ biased หมายความว่าค่าของมันไม่น่าเชื่อถือมันอาจเป็นอะไรก็ได้ตั้งแต่ -1 ถึง 1 ถ้าคุณยอมรับที่จะตีความมันคุณก็จะสมมติว่าจักรวาลของคุณมี 2 ตัวแปรที่น่าสนใจเท่านั้น หากคุณสงสัยว่าอาจจะมีคนอื่น ๆ ว่าทำไมการคำนวณ bivariate ? เช่นต้องมีการกำหนดเอกภพก่อนเริ่มการวิเคราะห์และคุณเป็นหลายตัวแปร (> 2) จากมุมมองนั้นการวิเคราะห์ bivariate ต้องทนทุกข์ทรมานจากปัญหาตัวแปรที่ถูกตัดทิ้ง ρ
JDav
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.