การถดถอยเชิงเส้นใน y กับ x กับ x กับ y แตกต่างกันอย่างไร?


97

สัมประสิทธิ์สหสัมพันธ์ของ Pearson ของ x และ y ไม่ว่าคุณจะคำนวณ pearson (x, y) หรือ pearson (y, x) นี่แสดงให้เห็นว่าการทำการถดถอยเชิงเส้นของ y ที่ให้ x หรือ x ที่ให้ y ควรเหมือนกัน แต่ฉันไม่คิดว่าเป็นเช่นนั้น

ใครบางคนสามารถแสดงความคิดเห็นได้เมื่อความสัมพันธ์ไม่สมมาตรและวิธีการที่เกี่ยวข้องกับสัมประสิทธิ์สหสัมพันธ์ของเพียร์สัน (ซึ่งฉันคิดเสมอว่าเป็นการสรุปว่าเหมาะสมที่สุด)


1
สัมพันธ์เมทริกซ์ทุกคนจะสมมาตรเพราะขวา) ฉันแนะนำให้คุณคำนวณคณิตศาสตร์เพื่อดูว่านี่เป็นเรื่องจริง ถ้าคุณรู้ว่าความสัมพันธ์ระหว่างและ (หรือสิ่งที่ตัวแปรที่น่าสนใจที่มี) ไม่สมมาตรเบื้องต้นก็อาจจะเป็นประโยชน์กับคุณที่จะมองในวิธีการอื่น ๆ ของการวิเคราะห์ cov(x,y)=cov(y,x)xy
Phillip Cloud

14
จุดที่น่าสนใจเกิดขึ้นในคำถามที่เกี่ยวข้องกับผลกระทบของการเปลี่ยนการตอบสนองและตัวแปรอธิบายในการถดถอยเชิงเส้นอย่างง่าย
chl

คำตอบ:


159

วิธีที่ดีที่สุดในการคิดเกี่ยวกับสิ่งนี้คือการจินตนาการจุดกระจายด้วยบนแกนตั้งและแทนด้วยแกนนอน ด้วยกรอบการทำงานนี้คุณจะเห็นจุดต่าง ๆ ซึ่งอาจเป็นรูปวงกลมหรืออาจยืดออกเป็นวงรี สิ่งที่คุณพยายามทำในการถดถอยคือค้นหาสิ่งที่อาจเรียกว่า 'เส้นที่เหมาะสมที่สุด' อย่างไรก็ตามในขณะที่สิ่งนี้ดูตรงไปตรงมาเราจำเป็นต้องเข้าใจว่าเราหมายถึงอะไรโดย 'ดีที่สุด' และนั่นหมายความว่าเราจะต้องกำหนดว่ามันจะเป็นอะไรที่ดีหรือสำหรับหนึ่งบรรทัดจะดีกว่าอีก ฯลฯ โดยเฉพาะ เราต้องกำหนดฟังก์ชั่นการสูญเสียxyx. ฟังก์ชั่นการสูญเสียทำให้เรามีวิธีที่จะบอกว่าบางสิ่งที่ 'ไม่ดี' คืออะไรและเมื่อเราย่อให้เล็กสุดนั้นเราจะทำให้สายของเราเป็น 'ดี' ที่สุดเท่าที่จะเป็นไปได้หรือหาบรรทัดที่ดีที่สุด

ตามเนื้อผ้าเมื่อเราดำเนินการวิเคราะห์การถดถอยเราพบประมาณการของความลาดชันและตัดเพื่อลดผลรวมของ squared ข้อผิดพลาด สิ่งเหล่านี้ถูกกำหนดไว้ดังนี้:

SSE=i=1N(yi(β^0+β^1xi))2

ในแง่ของแผนการกระจายของเรานั่นหมายความว่าเราลดระยะทางแนวตั้ง (ผลรวมของกำลังสอง) ให้น้อยที่สุดระหว่างจุดข้อมูลที่สังเกตและเส้น

ป้อนคำอธิบายรูปภาพที่นี่

ในทางกลับกันมันมีเหตุผลอย่างสมบูรณ์แบบที่จะถอยหลังลงบนแต่ในกรณีนี้เราจะวางบนแกนตั้งและอื่น ๆ ถ้าเรารักษาพล็อตของเราตามที่เป็น (โดยบนแกนนอน), ถอยลงบน (อีกครั้งโดยใช้สมการข้างบนที่ดัดแปลงเล็กน้อยด้วยสวิตช์และ ) หมายความว่าเราจะลดผลรวมของระยะทางในแนวนอนy x x x y y x yxyxxxyxyระหว่างจุดข้อมูลที่สังเกตและเส้น ฟังดูคล้ายกันมาก แต่ก็ไม่เหมือนกัน (วิธีการรับรู้นี้จะทำมันทั้งสองวิธีและจากนั้นพีชคณิตแปลงชุดของการประมาณค่าพารามิเตอร์หนึ่งเป็นเงื่อนไขของอื่น ๆ เปรียบเทียบกับรุ่นแรกกับรุ่นที่ปรับปรุงใหม่ของรุ่นที่สองมันกลายเป็นเรื่องง่ายที่จะเห็นว่าพวกเขา ไม่เหมือนกัน.)

ป้อนคำอธิบายรูปภาพที่นี่

โปรดทราบว่าจะไม่มีวิธีใดที่จะสร้างบรรทัดเดียวกันกับเราได้โดยง่ายหากมีคนส่งกระดาษกราฟให้เราโดยมีจุดที่พล็อตอยู่ ในกรณีที่เราจะวาดเส้นตรงผ่านศูนย์ แต่การลดระยะทางแนวตั้งผลตอบแทนถัวเฉลี่ยบรรทัดที่เล็กน้อยอี๋ (คือมีความลาดชันตื้น) ในขณะที่การลดระยะทางแนวนอนผลตอบแทนถัวเฉลี่ยที่เป็นเส้นเล็กน้อยชัน

สหสัมพันธ์นั้นสมมาตร จะเป็นความสัมพันธ์กับเป็นอยู่กับxอย่างไรก็ตามความสัมพันธ์ระหว่างโมเมนต์ของเพียร์สันสามารถเข้าใจได้ในบริบทการถดถอย สัมประสิทธิ์สหสัมพันธ์, , คือความชันของเส้นถดถอยเมื่อตัวแปรทั้งสองได้มาตรฐานก่อน นั่นคือคุณลบค่าเฉลี่ยออกจากการสังเกตแต่ละครั้งก่อนแล้วหารความแตกต่างด้วยค่าเบี่ยงเบนมาตรฐาน คลาวด์ของจุดข้อมูลจะถูกจัดกึ่งกลางที่จุดกำเนิดและความชันจะเหมือนกันไม่ว่าคุณจะถดถอยลงบนหรือบนy y x r y x x yxyyxryxxy

ป้อนคำอธิบายรูปภาพที่นี่

ทีนี้ทำไมเรื่องนี้ถึงมีความหมาย? ใช้ฟังก์ชั่นการสูญเสียแบบดั้งเดิมของเราเรากำลังบอกว่าข้อผิดพลาดทั้งหมดเป็นเพียงหนึ่งในตัวแปร (viz., ) นั่นคือเรากำลังบอกว่าวัดได้โดยไม่มีข้อผิดพลาดและถือเป็นชุดของค่าที่เราสนใจ แต่นั้นมีข้อผิดพลาดในการสุ่มตัวอย่างx yyxy. นี่แตกต่างจากการพูดคุยอย่างมาก นี่เป็นสิ่งสำคัญในตอนประวัติศาสตร์ที่น่าสนใจ: ในช่วงปลายยุค 70 และต้นยุค 80 ในสหรัฐอเมริกาคดีนี้มีการเลือกปฏิบัติต่อสตรีในที่ทำงานและได้รับการสนับสนุนด้วยการวิเคราะห์การถดถอยแสดงให้เห็นว่าผู้หญิงที่มีพื้นฐานเท่าเทียมกัน (เช่น คุณสมบัติประสบการณ์ ฯลฯ ) ได้รับค่าตอบแทนโดยเฉลี่ยน้อยกว่าผู้ชาย นักวิจารณ์ (หรือคนที่มีความละเอียดเป็นพิเศษ) ให้เหตุผลว่าถ้าเรื่องนี้เป็นจริงผู้หญิงที่จ่ายเท่ากันกับผู้ชายจะต้องมีคุณสมบัติสูงกว่า แต่เมื่อตรวจสอบแล้วก็พบว่าถึงแม้ว่าผลลัพธ์จะ 'สำคัญ' เมื่อ ประเมินวิธีการหนึ่งพวกเขาไม่ 'สำคัญ' เมื่อตรวจสอบวิธีอื่นซึ่งทำให้ทุกคนที่เกี่ยวข้องในการ tizzy ดูที่นี่ สำหรับกระดาษที่มีชื่อเสียงที่พยายามจะทำให้ปัญหาชัดเจนขึ้น


(อัปเดตมากในภายหลัง) นี่เป็นอีกวิธีหนึ่งในการคิดเกี่ยวกับสิ่งนี้ที่เข้าใกล้หัวข้อผ่านทางสูตรแทนที่จะมองเห็น:

สูตรสำหรับความชันของเส้นการถดถอยแบบง่าย ๆ เป็นผลมาจากฟังก์ชั่นการสูญเสียที่ถูกนำมาใช้ หากคุณใช้ฟังก์ชั่นการสูญเสียกำลังสองมาตรฐานแบบธรรมดา (ตามที่ระบุไว้ด้านบน) คุณสามารถได้รับสูตรสำหรับความชันที่คุณเห็นในทุกตำราแนะนำ สูตรนี้สามารถนำเสนอในรูปแบบต่าง ๆ ; หนึ่งในนั้นที่ฉันเรียกว่าสูตร 'หยั่งรู้' สำหรับความชัน พิจารณาแบบฟอร์มนี้สำหรับทั้งสถานการณ์ที่คุณกำลังถดถอยบนและที่ที่คุณกำลังถดถอยบน : yxxy

β^1=Cov(x,y)Var(x)y on x                              β^1=Cov(y,x)Var(y)x on y
ตอนนี้ผมหวังว่ามันจะเห็นได้ชัดว่าสิ่งเหล่านี้จะไม่เหมือนกันเว้นแต่เท่ากับ(y) หากแปรปรวนมีความเท่าเทียมกัน (เช่นเพราะคุณมาตรฐานตัวแปรแรก) แล้วเพื่อให้มีค่าเบี่ยงเบนมาตรฐานและทำให้ความแปรปรวนทั้งสองจะยังเท่ากับ(y) ในกรณีนี้จะเท่ากับ Pearson'sซึ่งเป็นวิธีเดียวกันโดยอาศัยหลักการของ commutativity : Var(x)Var(y)SD(x)SD(y)β^1r
r=Cov(x,y)SD(x)SD(y)correlating x with y                           r=Cov(y,x)SD(y)SD(x)correlating y with x

2
+1 เพื่อพูดถึงการลดฟังก์ชั่นการสูญเสีย ทางเลือกสำหรับระยะทางแนวตั้งหรือแนวนอนรวมถึงการใช้ระยะทางตั้งฉากกับเส้นหรือพื้นที่ของสี่เหลี่ยมผืนผ้าซึ่งแต่ละเส้นจะสร้างเส้นถดถอยที่แตกต่างกัน
เฮนรี่

7
ฉันไม่คิดว่าคำแถลงว่า“ ความชันจะเหมือนกันไม่ว่าคุณจะให้ลง , หรือเข้า ” ถูกต้องหากการประชุมคือการวางแผนบนแกนนอนและบนแกนตั้ง ในกรณีนี้ความลาดชันเป็นส่วนกลับของกันและกัน ถ้าเราทำตามแบบแผนของตัวแปรอิสระในแกนนอนและตัวแปรตามบนแกนแนวตั้งใช่แล้วความชันจะเหมือนกัน แต่ด้วยอนุสัญญานี้คำอธิบายระยะทางแนวตั้งกับคำอธิบายระยะทางแนวนอนจะไม่ถูกนำมาใช้ มันมักจะเป็นระยะทางแนวตั้งของคะแนนจากเส้น yxxyxy
Dilip Sarwate

4
@DilipSarwate สิ่งที่คุณพูดเป็นเรื่องจริง จุดของฉันในการใช้คำว่า "แนวตั้ง" & "แนวนอน" คือการทำให้เห็นได้ชัดสายตาความคิดที่ว่าข้อผิดพลาดจะเข้าใจว่าเป็นข้อผิดพลาดการสุ่มตัวอย่างในyหรือสุ่มตัวอย่างข้อผิดพลาดในx xเราควรจะพล็อตบนแกนแนวตั้งและถอยหลังบน , ย่อระยะทางจะเป็นแนวตั้ง แต่ย่อข้อผิดพลาดจะยังคงได้รับการสุ่มตัวอย่างข้อผิดพลาดในxอาจเป็นได้ว่าคำตอบของฉันไม่ชัดเจนเพียงพอ ฉันอาจแก้ไขได้ถ้าฉันสามารถคิดวิธีที่ดีกว่า xxyx
gung

1
คุณสามารถบอกได้ไหมว่าในกรณีที่มีความสัมพันธ์กันระยะห่างมุมฉากระหว่างจุดและเส้นจะลดลง? (ฉันหมายถึงเส้นที่ลากจากจุดหนึ่งไปยังเส้น "การถดถอย" และตั้งฉากกับมัน)
vonjd

1
เพียร์สันมีความสัมพันธ์ที่ไม่เหมาะสมกับเส้น @vonjd มันกลับกลายเป็นว่ามันเทียบเท่ากับความชันของเส้นกำลังสองน้อยที่สุดที่พอดีเมื่อข้อมูลได้มาตรฐานก่อน องค์ประกอบหลักที่ 1 เมื่อมีเพียง 2 ตัวแปร & ข้อมูลที่ได้มาตรฐานก่อนคือเรียงลำดับของเส้นที่ติดตั้งที่ช่วยลดระยะทางมุมฉาก HTH
gung

12

ฉันจะแสดงคำตอบด้วยRรหัสและเอาท์พุท

ก่อนอื่นเราสร้างการแจกแจงแบบปกติแบบสุ่มyด้วยค่าเฉลี่ย 5 และ SD 1:

y <- rnorm(1000, mean=5, sd=1)

ต่อไปฉันจงใจสร้างการแจกแจงแบบปกติแบบที่สองxซึ่งก็คือค่า 5x yสำหรับแต่ละy:

x <- y*5

จากการออกแบบเรามีความสัมพันธ์ที่สมบูรณ์แบบxและy:

cor(x,y)
[1] 1
cor(y,x)
[1] 1

แต่เมื่อเราทำถดถอยที่เรากำลังมองหาฟังก์ชั่นที่โยงxและyเพื่อให้ผลของสัมประสิทธิ์การถดถอยขึ้นอยู่กับที่หนึ่งที่เราใช้เป็นตัวแปรตามและที่เราใช้เป็นตัวแปรอิสระ ในกรณีนี้เราไม่พอดีกับการสกัดกั้นเพราะเราสร้างxฟังก์ชั่นyโดยไม่มีการเปลี่ยนแปลงแบบสุ่ม:

lm(y~x-1)
Call:
lm(formula = y ~ x - 1)

Coefficients:
  x  
0.2

lm(x ~ y-1)
Call:
lm(formula = x ~ y - 1)

Coefficients:
y  
5  

ดังนั้นการถดถอยบอกเราว่าสิ่งใดy=0.2xและx=5yแน่นอนซึ่งเทียบเท่ากัน ค่าสัมประสิทธิ์สหสัมพันธ์นั้นแสดงให้เราเห็นว่ามีการจับคู่ที่ตรงกันในระดับการเปลี่ยนแปลงหน่วยระหว่างxและyเพื่อให้ (ตัวอย่าง) การเพิ่ม 1 หน่วยในการyสร้างการเพิ่มขึ้น 0.2 หน่วยxเสมอ


6

ข้อมูลเชิงลึกที่ว่าความสัมพันธ์ของเพียร์สันนั้นเหมือนกันไม่ว่าเราจะทำการถดถอยของ x กับ y หรือ y ต่อ x เป็นสิ่งที่ดีเราควรได้การถดถอยเชิงเส้นแบบเดียวกันที่ดี มันไม่ถูกต้องเพียงเล็กน้อยและเราสามารถใช้มันเพื่อทำความเข้าใจกับสิ่งที่เกิดขึ้นจริง

นี่คือสมการสำหรับเส้นตรงซึ่งเป็นสิ่งที่เราพยายามได้จากการถดถอย

ป้อนคำอธิบายรูปภาพที่นี่

สมการสำหรับความชันของเส้นนั้นถูกผลักดันโดยสหสัมพันธ์ของเพียร์สัน

ป้อนคำอธิบายรูปภาพที่นี่

นี่คือสมการสำหรับสหสัมพันธ์ของเพียร์สัน มันเหมือนกันไม่ว่าเราจะถดถอย x กับ y หรือ y ต่อ x

ป้อนคำอธิบายรูปภาพที่นี่

อย่างไรก็ตามเมื่อเรามองกลับไปที่สมการที่สองสำหรับความชันเราจะเห็นว่าความสัมพันธ์ของเพียร์สันไม่ได้เป็นเพียงคำศัพท์เดียวในสมการนั้น หากเราคำนวณ y กับ x เราก็จะมีค่าเบี่ยงเบนมาตรฐานตัวอย่าง y หารด้วยค่าเบี่ยงเบนมาตรฐานตัวอย่างของ x ถ้าเราต้องคำนวณการถดถอยของ x เทียบกับ y เราจะต้องกลับคำสองคำนั้น


4

ในคำถามเช่นนี้มันเป็นเรื่องง่ายที่จะติดตามประเด็นทางเทคนิคดังนั้นฉันจึงต้องการเน้นเฉพาะคำถามในชื่อของเธรดที่ถาม: อะไรคือความแตกต่างระหว่างการถดถอยเชิงเส้นใน y กับ x และ x กับ y ?

พิจารณาสักครู่แบบจำลองเศรษฐมิติเชิงเศรษฐศาสตร์จากทฤษฎีทุนมนุษย์ (ลิงก์ไปยังบทความโดย Nobel Laureate Gary Becker) สมมติว่าเราระบุรูปแบบของแบบฟอร์มต่อไปนี้: โมเดลนี้สามารถตีความได้ว่าเป็นความสัมพันธ์เชิงสาเหตุระหว่างค่าจ้างและการศึกษา ที่สำคัญเวรกรรมในบริบทนี้หมายถึงทิศทางของเวรกรรมที่เกิดจากการศึกษาไปสู่ค่าแรงไม่ใช่วิธีอื่น ๆ นี่เป็นนัยในรูปแบบที่ได้รับการกำหนด; ตัวแปรตามคือค่าจ้างและตัวแปรอิสระคือปีของการศึกษา

wages=b0+b1 years of education+error

ทีนี้ถ้าเราทำการเปลี่ยนกลับของสมการเศรษฐมิติ (นั่นคือเปลี่ยน y บน x เป็น x บน y) เช่นนั้นโมเดลจะกลายเป็น จากนั้นโดยนัยในการกำหนดสมการทางเศรษฐมิติคือเรากำลังบอกว่าทิศทางของความเป็นเหตุเป็นผลมาจากค่าจ้างสู่การศึกษา

years of education=b0+b1 wages+error

ฉันแน่ใจว่าคุณสามารถคิดตัวอย่างเพิ่มเติมเช่นนี้ (นอกขอบเขตทางเศรษฐศาสตร์ด้วย) แต่อย่างที่คุณเห็นการตีความของแบบจำลองสามารถเปลี่ยนแปลงได้อย่างมีนัยสำคัญเมื่อเราเปลี่ยนจากการถดถอย y เป็น x เป็น x บน y

ดังนั้นเพื่อตอบคำถาม: อะไรคือความแตกต่างระหว่างการถดถอยเชิงเส้นบน y กับ x และ x กับ y? เราสามารถพูดได้ว่าการตีความของสมการถดถอยนั้นเปลี่ยนไปเมื่อเราถดถอย x บน y แทน y บน x เราไม่ควรมองข้ามประเด็นนี้เพราะแบบจำลองที่มีการตีความเสียงสามารถเปลี่ยนเป็นรูปแบบที่รวดเร็วหรือไม่สมเหตุสมผล


3

มีปรากฏการณ์ที่น่าสนใจมากเกี่ยวกับหัวข้อนี้ หลังจากการแลกเปลี่ยน x และ y แม้ว่าค่าสัมประสิทธิ์การถดถอยจะเปลี่ยนไป แต่ระดับสถิติและค่านัยสำคัญสำหรับสัมประสิทธิ์ t-statistic / F- จะไม่เปลี่ยนแปลง สิ่งนี้ยังเป็นจริงแม้ในการถดถอยหลายครั้งซึ่งเราแลกเปลี่ยน y กับหนึ่งในตัวแปรอิสระ

มันเป็นเพราะความสัมพันธ์ที่ละเอียดอ่อนระหว่างค่าสถิติ F และสัมประสิทธิ์สหสัมพันธ์ (บางส่วน) ความสัมพันธ์นั้นสัมผัสกับแกนหลักของทฤษฎีแบบจำลองเชิงเส้นมีรายละเอียดเพิ่มเติมเกี่ยวกับข้อสรุปนี้ในสมุดบันทึกของฉัน: เหตุใดการแลกเปลี่ยน y และ x จึงไม่มีผลต่อ p


คุณอาจพบว่าหัวข้อที่น่าสนใจดังต่อไปนี้ / รบกวน: แลก X และ Y ในการถดถอยที่มีการทำนายการจัดกลุ่ม
gung

2
บทความ "ทำไมการแลกเปลี่ยน y และ x ไม่มีผลกับ p" จึงไม่อยู่ที่นี่อีกต่อไป คุณจะเพิ่มกลับมาไหม
JetLag

1

การขยายคำตอบที่ยอดเยี่ยมของ @ gung:

ในการถดถอยเชิงเส้นอย่างง่ายค่าสัมบูรณ์ของเพียร์สันสามารถมองเห็นได้เป็นค่าเฉลี่ยทางเรขาคณิตของทั้งสองเนินที่เราได้รับถ้าเราถดถอยบนและบนตามลำดับ: เราสามารถหาได้โดยตรงโดยใช้ หรือ ryxxy

β^1yonxβ^1xony=Cov(x,y)Var(x)Cov(y,x)Var(y)=|Cov(x,y)|SD(x)SD(y)=|r|
r
r=sign(β^1yonx)β^1yonxβ^1xony
r=sign(β^1xony)β^1yonxβ^1xony

ที่น่าสนใจโดยความไม่เท่าเทียมกันของ AM – GMมันจะตามด้วยค่าสัมบูรณ์ของค่าเฉลี่ยเลขคณิตของสัมประสิทธิ์ความชันสองค่ามากกว่า (หรือเท่ากับ) ค่าสัมบูรณ์ของ Pearson's : r

|12(β^1yonx+β^1xony)|β^1yonxβ^1xony=|r|


1

ความสัมพันธ์ไม่สมมาตรเพราะเรากำลังแก้ปัญหาการหาค่าเหมาะที่สุดที่แตกต่างกันสองแบบ สามารถเขียนเป็นการแก้ปัญหาต่อไปนี้:  Doing regression of y given x

minbE(YbX)2

ในขณะที่ : ซึ่งสามารถเขียนใหม่เป็น:doing regression of x given y

minbE(XbY)2

minb1b2E(YbX)2

นอกจากนี้ยังเป็นสิ่งสำคัญที่จะต้องทราบว่าปัญหาที่ดูแตกต่างกันสองปัญหาอาจมีวิธีแก้ไขปัญหาเดียวกัน


1
แม้ว่าสิ่งนี้จะถูกต้อง - และขอขอบคุณสำหรับข้อสังเกตเหล่านี้ - คุณปล่อยให้ผู้อ่านแขวนอยู่: คุณช่วยอธิบายได้หรือไม่ว่าทำไมคำตอบของปัญหาการมองที่แตกต่างกันทั้งสองนี้จึงแตกต่างกัน?
whuber

1
คุณถูก. ที่จริงฉันคิดเกี่ยวกับมัน แต่ไม่สามารถหาวิธีที่ง่าย (และทางคณิตศาสตร์น้อยกว่า) เพื่ออธิบายว่าทำไมทั้งสองวิธีจึงแตกต่างกันนั่นคือเหตุผลที่ฉันพยายามที่จะแก้ไขปัญหาสองข้อนี้ให้ใกล้เคียงที่สุด ที่นี่ฉันแค่พยายามให้มุมมองที่แตกต่าง look
SiXUlm

บรรทัดสุดท้ายเทียบเท่ากับเส้นกลางอย่างไร ถ้าคุณคูณ 1 / b ^ 2 คุณจะได้ E (X - Y / b) ^ 2 ไม่ใช่ E (X - Yb) ^ 2
Austin Shin

@AustinShin จริง ๆ แล้วฉันโกงที่นี่เล็กน้อย ในเส้นตรงกลางฉันเอาออกแล้วเปลี่ยนตัวแปร:ซึ่งให้บรรทัดสุดท้ายกับฉัน bb:=1/b
SiXUlm

+1: คุณทำให้ประเด็นของคุณชัดเจนแล้ว!
whuber

0

มันเป็นความจริงที่ว่าสำหรับการถดถอยแบบ bivariate อย่างง่ายค่าสัมประสิทธิ์สหสัมพันธ์เชิงเส้นและ R-Square จะเท่ากันสำหรับสมการทั้งสอง แต่ความลาดชันจะเป็น r Sy / Sx หรือ r Sx / Sy ซึ่งไม่ใช่การแลกเปลี่ยนซึ่งกันและกันยกเว้น r = 1


1
"... หรือ " ... หรือจะรวบรัดมากกว่านี้ "... เว้นแต่ว่า "r 2 = 11r2=1
Glen_b

-7

แนวคิดพื้นฐานของการถดถอยอาจเป็น 'สาเหตุและผลกระทบ' หรือ 'อิสระและขึ้นอยู่กับ' การปฏิบัติตามปกติของการวางตัวแปรอิสระในแกน X และตัวแปรตามในแกน Y จะถูกแสดงด้วย Y = mX + c ไม่ว่าจะเป็นความชันที่จะเรียกว่าเป็น m (X บน Y) หรือ (Y บน X) และการถดถอยเป็น: (X ​​on Y) หรือ (Y on X) มันถูกจัดการทั้งสองวิธีซึ่งไม่ดีและต้องมีการชี้แจง Modellers มักจะใช้ Scatter Plots เพื่อตัดสินว่า Simulated Series นั้นตรงกับ Obsered Series หรือไม่ และหลีกเลี่ยงการใช้เส้นการถดถอย ที่นี่ไม่มีประโยคเชิงสาเหตุ ด้วยความจำเป็นนี้คำถามใบ้ที่โพสต์โดยกระทู้ หรือพูดง่ายๆโปรดอธิบายวิธีเรียกการวิเคราะห์การถดถอยปกติ: X บน Y; หรือ Y ใน X? ไปเกินคำตอบเชิงสาเหตุ มันไม่ใช่คำตอบของเธรดหลัก แต่เป็นคำถามคู่ขนาน


6
-1 นอกจากความไม่ต่อเนื่องกันแล้วคำตอบนี้ละเว้นความคิดหลักดังนั้นสามารถอธิบายด้วยคำตอบที่ดีที่สุด: รูปแบบความน่าจะเป็นของการเปลี่ยนแปลงในข้อมูลกำหนดว่าการถดถอยนั้นมีความหมายและกำหนดตัวแปรใดที่อาจพิจารณาว่าเป็นตัวแปรตาม
whuber

ผู้ตอบแบบสอบถามนี้อาจจะย้ำถึงการตีความหนึ่งคำถามคำถามที่ค่อนข้างชัดเจนยอมรับในแง่ของการติดฉลากตามธรรมเนียม สำหรับปัญหาของรูปแบบ y = mx + b เรามักจะอธิบายความสัมพันธ์ว่า "y นั้นถดถอยบน x" (ใช่) หรือเป็น "x จะถดถอยบน y" (ไม่) หรือไม่? คำถามคำศัพท์เป็นคำตอบที่stats.stackexchange.com/questions/207425/...
InColorado
โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.