เมื่อใดที่จะเอาการสกัดกั้นในตัวแบบการถดถอยเชิงเส้นเมื่อใด


118

ฉันกำลังใช้ตัวแบบการถดถอยเชิงเส้นและสงสัยว่าเงื่อนไขสำหรับการลบคำดักจับนั้นคืออะไร

ในการเปรียบเทียบผลลัพธ์จากการถดถอยสองแบบที่หนึ่งมีการสกัดกั้นและอื่น ๆ ไม่ได้ฉันสังเกตว่าของฟังก์ชันที่ไม่มีการสกัดกั้นนั้นสูงกว่ามาก มีเงื่อนไขหรือข้อสมมติฐานบางอย่างที่ฉันควรปฏิบัติตามเพื่อให้แน่ใจว่าการลบคำดักฟังนั้นถูกต้องหรือไม่R2


1
@chi ขอบคุณสำหรับการแก้ไขคำถามของฉัน มีสิ่งใดบ้างที่ฉันควรจะชี้แจงหรือเขียนตามคำถามในอนาคต
analyticsPierce

3
คำถามของคุณมีการระบุไว้อย่างดี @chl กรุณาปรับปรุงการจัดรูปแบบบางอย่างนั่นคือทั้งหมด มันเกี่ยวข้องกับ TeXifying "R ^ 2" (กลายเป็น R ^ 2 $ซึ่งแสดงผลเป็นR 2 ) $$R2
whuber

1
การสกัดกั้นหมายถึงอะไรในโมเดลของคุณ จากข้อมูลในคำถามของคุณดูเหมือนว่าจะเป็นค่าที่คาดหวังของการตอบสนองของคุณเมื่อ sqft = 0 และ lotsize = 0 และ bath = 0 นั่นจะเกิดขึ้นจริงหรือไม่?
timbp

1
แทนที่จะเป็น y = a + b1 x1 + b2 x2 + b3x3 ฉันจะตัด a ได้ไหม?
เทรวิส

3
หมายเหตุ : บางส่วนของความเห็นและคำตอบเหล่านี้ตอบคำถามเดียวกันเป็นหลัก (กรอบในบริบทของการถดถอยราคาบ้าน) ซึ่งถูกรวมเข้ากับที่ซ้ำกัน
whuber

คำตอบ:


87

สั้นที่สุดคำตอบ: ไม่เคยจนกว่าคุณจะแน่ใจว่าประมาณเชิงเส้นของคุณของกระบวนการสร้างข้อมูล (แบบการถดถอยเชิงเส้น) อย่างใดอย่างหนึ่งโดยบางทฤษฎีหรือเหตุผลอื่น ๆถูกบังคับให้ไปถึงจุดเริ่มต้น หากไม่ใช่พารามิเตอร์การถดถอยอื่น ๆ จะลำเอียงแม้ว่าการสกัดกั้นจะไม่มีนัยสำคัญทางสถิติ (แปลก แต่ก็เป็นเช่นนั้นให้ปรึกษาเศรษฐมิติเบื้องต้นของBrooks เช่นกัน) ในที่สุดเมื่อฉันมักจะอธิบายให้นักเรียนของฉันโดยการออกจากคำศัพท์ดักจับคุณมั่นใจได้ว่าคำศัพท์ที่เหลือนั้นไม่มีค่าเฉลี่ย

R2

R2


3
-1 สำหรับ "ไม่เคย" ดูตัวอย่างที่ 1 ของคำตอบของ Joshuas
Curious

4
@ จริง "ไม่เคย" ถูกเขียนด้วยตัวอย่าง "เว้นแต่" ด้านล่างเพียงแสดงข้อยกเว้นเมื่อถูกกฎหมายเพื่อลบการสกัดกั้น เมื่อคุณไม่รู้กระบวนการหรือทฤษฎีการสร้างข้อมูลหรือไม่ถูกบังคับให้ต้องผ่านจุดกำเนิดโดยการสร้างมาตรฐานหรือแบบจำลองพิเศษอื่น ๆ การสกัดกั้นเหมือนการใช้ถังขยะเพื่อรวบรวมการบิดเบือนทั้งหมดที่เกิดจากการประมาณเชิงเส้นและการทำให้เข้าใจง่ายอื่น ๆ ป.ล. การตอบสนองที่แสดงให้เห็นว่าคุณอ่านได้สั้นที่สุด :) ขอบคุณมากที่ Joshua (+1) สำหรับตัวอย่างเพิ่มเติม
Dmitrij Celov

3
คุณพลาดจุดที่โจชัวตัวอย่างที่ 1 และดูเหมือนจะยังไม่สนใจทั้งหมด ในรูปแบบที่มีการแปรผันของโควาเรียตการกำจัดของผลการสกัดกั้นในรูปแบบเดียวกันที่มีการเปลี่ยนแปลงที่แตกต่างกันเพียงอย่างเดียว นี่เป็นกรณีที่ถูกกฎหมายเมื่อสามารถลบการสกัดกั้นได้
อยากรู้อยากเห็น

2
@Curious ใน Joshua ตัวอย่างที่ 1 คุณต้องเพิ่มตัวแปรดัมมี่ใหม่สำหรับระดับของตัวแปรเด็ดขาดที่คุณเคยพิจารณาว่าเป็นพื้นฐานและตัวแปรจำลองใหม่นี้จะรับค่าของการสกัดกั้นดังนั้นคุณจึงไม่ลบการสกัดกั้น เพียงแค่เปลี่ยนชื่อและเปลี่ยนพารามิเตอร์ส่วนที่เหลือของ covariate ที่จัดหมวดหมู่ใหม่ ดังนั้นการโต้แย้งของ Dmitrij ถือ
Rufo

59

การลบการสกัดกั้นเป็นรูปแบบที่แตกต่างกัน แต่มีตัวอย่างมากมายที่ถูกต้องตามกฎหมาย คำตอบจนถึงตอนนี้ได้พูดถึงรายละเอียดตัวอย่างแล้วในกรณีที่การสกัดกั้นที่แท้จริงคือ 0 ฉันจะเน้นไปที่ตัวอย่างเล็ก ๆ น้อย ๆ ที่เราอาจสนใจโมเดลที่ผิดปกติ

ตัวอย่างที่ 1: ตัวแบบลักษณะ ANOVA สำหรับตัวแปรเด็ดขาดเรามักจะสร้างการเข้ารหัสสมาชิกกลุ่มเวกเตอร์ไบนารี แบบจำลองการถดถอยมาตรฐานถูกกำหนดให้เป็นตัวแปรสกัดกั้น + k - 1 เวกเตอร์จำลอง รหัสสกัดกั้นค่าที่คาดหวังสำหรับกลุ่ม "อ้างอิง" หรือเวกเตอร์ที่ละเว้นและเวกเตอร์ที่เหลือจะทดสอบความแตกต่างระหว่างแต่ละกลุ่มและการอ้างอิง แต่ในบางกรณีอาจมีประโยชน์หากมีค่าที่คาดหวังของแต่ละกลุ่ม

dat <- mtcars
dat$vs <- factor(dat$vs)

## intercept model: vs coefficient becomes difference
lm(mpg ~ vs + hp, data = dat)

Coefficients:
(Intercept)          vs1           hp  
   26.96300      2.57622     -0.05453  

## no intercept: two vs coefficients, conditional expectations for both groups
lm(mpg ~ 0 + vs + hp, data = dat)

Coefficients:
     vs0       vs1        hp  
26.96300  29.53922  -0.05453  

ตัวอย่างที่ 2: กรณีของข้อมูลมาตรฐาน ในบางกรณีอาจมีข้อมูลที่ได้มาตรฐาน ในกรณีนี้การสกัดกั้นคือ 0 โดยการออกแบบ ฉันคิดว่าตัวอย่างคลาสสิกของสิ่งนี้คือรูปแบบสมการเชิงโครงสร้างแบบเก่าหรือปัจจัยซึ่งดำเนินการกับเมทริกซ์ความแปรปรวนร่วมของข้อมูล ในกรณีด้านล่างอาจเป็นความคิดที่ดีที่จะประเมินการสกัดกั้นต่อไปถ้าเพียงเพื่อลดระดับความเป็นอิสระเพิ่มเติม (ซึ่งคุณควรจะสูญเสียไปจริง ๆ เพราะค่าเฉลี่ยนั้นประมาณไว้) แต่มีสถานการณ์ไม่มาก การก่อสร้างหมายถึงอาจเป็น 0 (เช่นการทดลองบางอย่างที่ผู้เข้าร่วมกำหนดอันดับ แต่ถูก จำกัด ให้ให้ผลบวกและลบเท่ากัน)

dat <- as.data.frame(scale(mtcars))

## intercept is 0 by design
lm(mpg ~ hp + wt, data = dat)

Coefficients:
(Intercept)           hp           wt  
  3.813e-17   -3.615e-01   -6.296e-01  

## leaving the intercept out    
lm(mpg ~ 0 + hp + wt, data = dat)

Coefficients:
     hp       wt  
-0.3615  -0.6296  

ตัวอย่างที่ 3: โมเดลหลายตัวแปรและดักที่ซ่อนอยู่ ตัวอย่างนี้คล้ายกับตัวอย่างแรกในหลาย ๆ วิธี ในกรณีนี้ข้อมูลได้รับการสแต็คเพื่อให้ตัวแปรที่แตกต่างกันสองตัวอยู่ในเวกเตอร์ที่มีความยาวหนึ่งตัว ตัวแปรที่สองเข้ารหัสข้อมูลเกี่ยวกับว่าเวกเตอร์การตอบสนองyเป็นของหรือmpg dispในกรณีนี้หากต้องการรับการสกัดกั้นแยกต่างหากสำหรับแต่ละผลลัพธ์คุณต้องหยุดการดักจับโดยรวมและรวมทั้งเวกเตอร์จำลองทั้งสองสำหรับการวัด นี่คือการวิเคราะห์หลายตัวแปร โดยทั่วไปไม่ได้ใช้งานlm()เพราะคุณมีมาตรการซ้ำแล้วซ้ำอีกและอาจอนุญาตให้มีการไม่ลงมือทำ อย่างไรก็ตามมีบางกรณีที่น่าสนใจที่จำเป็น ตัวอย่างเช่นเมื่อพยายามทำการวิเคราะห์การไกล่เกลี่ยที่มีเอฟเฟกต์แบบสุ่มเพื่อให้ได้เมทริกซ์ความแปรปรวนร่วมแบบเต็มคุณต้องมีแบบจำลองทั้งสองแบบพร้อมกันซึ่งสามารถทำได้โดยการซ้อนข้อมูลและการใช้เวกเตอร์จำลองที่ชาญฉลาด

## stack data for multivariate analysis
dat <- reshape(mtcars, varying = c(1, 3), v.names = "y",
  timevar = "measure", times = c("mpg", "disp"), direction = "long")
dat$measure <- factor(dat$measure)

## two regressions with intercepts only
lm(cbind(mpg, disp) ~ 1, data = mtcars)

Coefficients:
             mpg     disp  
(Intercept)   20.09  230.72

## using the stacked data, measure is difference between outcome means
lm(y ~ measure, data = dat)

Coefficients:
(Intercept)   measurempg  
      230.7       -210.6  

## separate 'intercept' for each outcome
lm(y ~ 0 + measure, data = dat)

Coefficients:
measuredisp   measurempg  
     230.72        20.09  

ฉันไม่ได้โต้แย้งว่าโดยทั่วไปแล้วสิ่งดักฟังควรถูกลบออก แต่มันก็ดีที่จะยืดหยุ่น


7
+1 ฉันไม่ได้ชักจูงคนอื่นให้พูดว่า 'ไม่เคย' แต่ก็เป็นเรื่องดีเสมอที่จะมีมุมมองอื่น & นี่เป็นการตอบสนองที่ชัดเจนและมีน้ำใจ ยินดีต้อนรับสู่ CV มันจะเป็นการดีถ้าคุณเป็นส่วนหนึ่งของชุมชน
gung

3
@ gung ขอบคุณคุณพูดถูก ฉันได้แก้ไขภาษานั้นจากคำตอบของฉันเพราะฉันคิดว่ามันอักเสบและไม่จำเป็น
Joshua

1
@ โจชัว: ขออภัยที่ฉันถามคำถามเกี่ยวกับโพสต์เก่าเกือบ 2 ปี แต่มีการอ้างอิงใด ๆ ในตัวอย่างแรกของคุณ? ฉันคิดว่าจะใช้โมเดลที่ไม่มีการดักจับข้อมูลของฉันซึ่งตัวแปรทำนายนั้นจัดอยู่ในหมวดหมู่และฉันสนใจที่จะรู้ว่าแต่ละระดับนั้นแตกต่างจาก 0 อย่างมากหรือไม่ขอบคุณ!
อเล็กซ์

@Alex ข้อความการถดถอยที่ดีใด ๆ ที่ควรทำ (บทที่ 8 ของการวิเคราะห์การถดถอยหลายครั้ง / การประยุกต์สหสัมพันธ์สำหรับพฤติกรรมศาสตร์ที่ 3 ed. ครอบคลุมเนื้อหานี้) - คุณเพียงแค่ต้องการพูดคุยเกี่ยวกับความแตกต่าง วิธีหนึ่งที่จะคิดเกี่ยวกับเรื่องนี้ก็คือคุณกำลังประเมินการสกัดกั้นแยกกันสำหรับแต่ละกลุ่มแทนที่จะปล่อยให้มีการสกัดกั้น
Joshua

@Joshua ตัวอย่างแรกของคุณทำให้เกิดความสับสนในเว็บไซต์นี้ ความเข้าใจของฉันที่นี่คือคุณแนะนำให้เคล็ดลับที่มีประโยชน์ในการแสดงการประมาณค่าพารามิเตอร์โดยไม่จำเป็นต้องยุ่งกับการเพิ่มค่าสำหรับการสกัดกั้นและคุณไม่แนะนำให้ใช้หลักสูตรปกติคือการใช้แบบจำลอง ใน R ในเกือบทุกกรณีเราจะใช้โมเดลที่มีการสกัดกั้นเพื่อดำเนินการโนวาแบบดั้งเดิม
Sal Mangiafico

29

มีคำตอบที่ดีอยู่ที่นี่ สองสิ่งเล็ก ๆ :

  1. R2R2R2
  2. Xแม้ว่าตัดจริงคือ 0

2
@ AdamO ทำให้ประเด็นคล้ายกับ # 2 ที่นี่: สัมประสิทธิ์การถดถอยเชิงเส้นเชิงบวกแต่พัฒนาความคิดอย่างเต็มที่มากขึ้น
gung

14

คุณไม่ควรตัดจุดตัดโดยไม่คำนึงว่าคุณมีแนวโน้มหรือไม่เคยเห็นตัวแปรอธิบายทั้งหมดที่มีค่าเป็นศูนย์

มีคำตอบที่ดีที่จะเป็นคำถามที่คล้ายกันมากคือที่นี่

หากคุณลบการสกัดกั้นการประมาณการอื่น ๆ ทั้งหมดจะกลายเป็นความลำเอียง แม้ว่าค่าที่แท้จริงของการสกัดกั้นจะอยู่ที่ประมาณศูนย์ (ซึ่งก็คือทั้งหมดที่คุณสามารถสรุปได้จากข้อมูลของคุณ) คุณกำลังยุ่งกับเนินเขาหากคุณบังคับให้มันเป็นศูนย์อย่างแน่นอน

UNLESS - คุณกำลังวัดบางอย่างด้วยแบบจำลองทางกายภาพที่ชัดเจนและชัดเจนซึ่งต้องการการสกัดกั้นเป็นศูนย์ (เช่นคุณมีความสูงความกว้างและความยาวของปริซึมสี่เหลี่ยมเป็นตัวแปรอธิบายและตัวแปรตอบกลับคือปริมาตรพร้อมข้อผิดพลาดในการวัด) หากตัวแปรการตอบสนองของคุณเป็นค่าของบ้านคุณจะต้องหยุดการสกัดกั้นเอาไว้


1
คุณช่วยอธิบายหน่อยได้ไหมว่าทำไมเราถึงต้องมีการสกัดกั้นเพื่อทำนายราคาบ้าน เหตุใด X ทั้งหมดจึงเป็นศูนย์สำหรับบ้านใด ๆ
เอลฟ์

10

ตกลงดังนั้นคุณจึงเปลี่ยนคำถามเป็นล็อต

คุณสามารถหยุดการสกัดกั้นเมื่อคุณรู้ว่ามันคือ 0 นั่นแหล่ะ และไม่คุณไม่สามารถทำได้เพราะไม่มีความแตกต่างอย่างมีนัยสำคัญจาก 0 คุณต้องรู้ว่าเป็น 0 หรือส่วนที่เหลือของคุณจะลำเอียง และในกรณีนี้มันคือ 0 ดังนั้นมันจะไม่สร้างความแตกต่างถ้าคุณปล่อยมันออกไป ... ดังนั้นอย่าปล่อยมันทิ้ง

R2


2
เมื่อเราต้องการทดสอบการใช้ cointegration โดยใช้ Engle / Granger 2 ขั้นตอนล่ะ en.wikipedia.org/wiki/Cointegration
Jase

5

แบบจำลองการถดถอยหลายแบบส่วนใหญ่มีคำที่คงที่ (เช่นการสกัดกั้น) เนื่องจากสิ่งนี้ทำให้มั่นใจได้ว่าแบบจำลองจะไม่เอนเอียง - นั่นคือค่าเฉลี่ยของค่าคงที่จะเท่ากับศูนย์ (ค่าสัมประสิทธิ์ในตัวแบบการถดถอยถูกประมาณอย่างน้อยกำลังสอง - นั่นคือการลดความคลาดเคลื่อนกำลังสองเฉลี่ยขณะนี้ค่าความคลาดเคลื่อนเฉลี่ยกำลังสองเท่ากับความแปรปรวนของข้อผิดพลาดบวกค่ากำลังสองของค่าเฉลี่ย: นี่คืออัตลักษณ์ทางคณิตศาสตร์ ค่าของค่าคงที่ในแบบจำลองจะเปลี่ยนค่าเฉลี่ยของข้อผิดพลาด แต่ไม่ส่งผลกระทบต่อความแปรปรวนดังนั้นหากผลรวมของข้อผิดพลาดกำลังสองลดลงค่าคงที่จะต้องเลือกให้ค่าเฉลี่ยของข้อผิดพลาดนั้นเป็นศูนย์ )

ในรูปแบบการถดถอยอย่างง่ายค่าคงที่แสดงถึงจุดตัดแกน Y ของเส้นการถดถอยในรูปแบบที่ไม่ได้มาตรฐาน ในแบบจำลองการถดถอยหลายค่าคงที่แสดงถึงค่าที่จะทำนายสำหรับตัวแปรตามหากตัวแปรอิสระทั้งหมดพร้อมกันเท่ากับศูนย์ - สถานการณ์ที่อาจไม่มีความหมายทางร่างกายหรือเศรษฐกิจ หากคุณไม่สนใจเป็นพิเศษว่าจะเกิดอะไรขึ้นถ้าตัวแปรอิสระทั้งหมดเป็นศูนย์พร้อมกันคุณจะปล่อยค่าคงที่ในโมเดลโดยไม่คำนึงถึงนัยสำคัญทางสถิติ นอกจากนี้เพื่อให้มั่นใจว่าข้อผิดพลาดในตัวอย่างนั้นไม่เอนเอียงการปรากฏตัวของค่าคงที่ช่วยให้เส้นการถดถอย "ค้นหาระดับของตนเอง" และให้ข้อมูลที่เหมาะสมที่สุดซึ่งอาจเป็นแบบเชิงเส้นในท้องถิ่นเท่านั้น

อย่างไรก็ตามในบางกรณีคุณอาจต้องการยกเว้นค่าคงที่จากโมเดล นี่คือตัวเลือกการปรับแบบจำลองในขั้นตอนการถดถอยในแพ็คเกจซอฟต์แวร์ใด ๆ และบางครั้งเรียกว่าการถดถอยผ่านจุดเริ่มต้นหรือ RTO แบบย่อ โดยปกติสิ่งนี้จะทำได้ก็ต่อเมื่อ:

  1. เป็นไปได้ที่จะจินตนาการว่าตัวแปรอิสระทั้งหมดสมมติว่าค่าเป็นศูนย์พร้อมกันและคุณรู้สึกว่าในกรณีนี้มันควรมีเหตุผลตามว่าตัวแปรตามจะเท่ากับศูนย์ หรืออย่างอื่น
  2. ค่าคงที่จะซ้ำซ้อนกับชุดของตัวแปรอิสระที่คุณต้องการใช้

ตัวอย่างของกรณี (1) จะเป็นรูปแบบที่ตัวแปรทั้งหมด - ขึ้นอยู่กับและเป็นอิสระ - แสดงความแตกต่างครั้งแรกของอนุกรมเวลาอื่น ๆ หากคุณกำลังถอยหลังความแตกต่างแรกของ Y ในความแตกต่างแรกของ X คุณกำลังทำนายการเปลี่ยนแปลงใน Y โดยตรงเป็นฟังก์ชันเชิงเส้นของการเปลี่ยนแปลงใน X โดยไม่มีการอ้างอิงถึงระดับปัจจุบันของตัวแปร ในกรณีนี้อาจเป็นเหตุผล (แม้ว่าไม่จำเป็น) ที่จะสมมติว่า Y ไม่ควรเปลี่ยนแปลงโดยเฉลี่ยเมื่อใดก็ตามที่ X ไม่เปลี่ยนแปลง - กล่าวคือ Y ที่ไม่ควรมีแนวโน้มสูงขึ้นหรือต่ำลงในกรณีที่ไม่มีการเปลี่ยนแปลงใด ๆ ใน ระดับ X

ตัวอย่างของกรณี (2) จะเป็นสถานการณ์ที่คุณต้องการใช้ชุดตัวบ่งชี้ฤดูกาลเต็มรูปแบบเช่นคุณกำลังใช้ข้อมูลรายไตรมาสและคุณต้องการรวมตัวแปร Q1, Q2, Q3 และ Q4 ซึ่งเป็นสารเติมแต่ง ผลตามฤดูกาล ดังนั้น Q1 อาจมีลักษณะเช่น 1 0 0 0 1 0 0 0 ... , Q2 จะมีลักษณะเช่น 0 1 0 0 0 1 1 0 0 ... และอื่น ๆ คุณไม่สามารถใช้ทั้งสี่นี้และค่าคงที่ในรูปแบบเดียวกันตั้งแต่ Q1 + Q2 + Q3 + Q4 = 1 1 1 1 1 1 1 1 1 . . . ซึ่งเหมือนกับเทอมคงที่ นั่นคือตัวแปรห้าตัว Q1, Q2, Q3, Q4, และ CONSTANT ไม่ได้เป็นอิสระเป็นเส้นตรง: หนึ่งในนั้นสามารถแสดงเป็นชุดค่าผสมเชิงเส้นของอีกสี่ตัวแปรได้ ข้อกำหนดเบื้องต้นทางเทคนิคสำหรับการปรับโมเดลการถดถอยเชิงเส้นคือตัวแปรอิสระต้องเป็นอิสระแบบเส้นตรง ไม่เช่นนั้นค่าสัมประสิทธิ์กำลังสองน้อยที่สุดจะไม่สามารถหาได้โดยเฉพาะ

คำเตือน: R-squared และสถิติ F ไม่มีความหมายเหมือนกันในรูปแบบ RTO เหมือนกับที่ทำในรูปแบบการถดถอยปกติและไม่ได้คำนวณด้วยวิธีเดียวกันโดยซอฟต์แวร์ทั้งหมด ดูบทความนี้สำหรับคำเตือนบางอย่าง คุณไม่ควรลองเปรียบเทียบค่า R-squared ระหว่างแบบจำลองที่มีและไม่มีคำว่าค่าคงที่แม้ว่าจะเป็นการตกลงเพื่อเปรียบเทียบข้อผิดพลาดมาตรฐานของการถดถอย

โปรดทราบว่าคำว่า "อิสระ" ถูกใช้ใน (อย่างน้อย) สามวิธีที่แตกต่างกันในศัพท์แสงถดถอย: ตัวแปรเดี่ยวใด ๆ อาจถูกเรียกว่าตัวแปรอิสระถ้ามันถูกใช้เป็นตัวทำนายแทนที่จะเป็นผู้ทำนาย กลุ่มของตัวแปรมีความเป็นอิสระอย่างเป็นเส้นตรงถ้าไม่มีตัวแปรใดที่สามารถแสดงได้อย่างแน่นอนว่าเป็นการรวมเชิงเส้นของตัวแปรอื่น ๆ คู่ของตัวแปรถูกกล่าวว่าเป็นอิสระทางสถิติหากพวกเขาไม่เพียง แต่เป็นอิสระเชิงเส้นตรง แต่ยังไม่รู้อย่างเต็มที่เกี่ยวกับซึ่งกันและกัน ในรูปแบบการถดถอยคุณต้องการให้ตัวแปรตามของคุณจะขึ้นอยู่กับสถิติตัวแปรอิสระซึ่งจะต้องเป็นเชิงเส้น (แต่ไม่จำเป็นต้องเชิงสถิติ) เป็นอิสระในหมู่พวกเขาเอง


2
คุณหมายถึงบทความใด
gung

2

แก้ไขความคิดของฉันอย่างเต็มที่ การตัดการสกัดกั้นจริงจะทำให้เกิดปัญหาอคติ

คุณได้พิจารณาศูนย์กลางข้อมูลของคุณแล้วดังนั้นการสกัดกั้นจะมีความหมายบางอย่างและหลีกเลี่ยงการอธิบายว่าค่า (ไม่มีเหตุผล) บางอย่างสามารถให้ค่าลบได้หรือไม่ หากคุณปรับตัวแปรอธิบายทั้งสามโดยการลบค่าเฉลี่ย sqrft หมายถึงจำนวนมากและค่าเฉลี่ยอาบน้ำตอนนี้การสกัดกั้นจะระบุค่า (ของบ้าน?) ด้วยค่าเฉลี่ย sdrft จำนวนมากและห้องอาบน้ำ

การจัดกึ่งกลางนี้จะไม่เปลี่ยนความสัมพันธ์สัมพัทธ์ของตัวแปรอิสระ ดังนั้นการปรับโมเดลให้เหมาะสมกับข้อมูลที่อยู่ตรงกลางจะยังคงพบว่าการอาบน้ำนั้นไม่มีความสำคัญ รวมโมเดลเข้าด้วยกัน คุณยังอาจได้รับค่า p จำนวนมากสำหรับการสกัดกั้น แต่ควรรวมไว้และคุณจะมีรูปแบบของรูปแบบ y = a + b (sqrft) + c (ขนาดใหญ่)


1

ฉันใช้เวลาตอบคำถามที่คล้ายกันซึ่งโพสต์โดยบุคคลอื่น แต่มันถูกปิด มีคำตอบที่ยอดเยี่ยมอยู่ที่นี่ แต่คำตอบที่ฉันให้นั้นง่ายกว่าเล็กน้อย อาจเหมาะกับผู้ที่มีความเข้าใจในการถดถอยน้อยกว่า

Q1: ฉันจะตีความการสกัดกั้นในแบบจำลองของฉันได้อย่างไร

ในตัวแบบการถดถอยเป้าหมายคือเพื่อลดจำนวนความแปรปรวนที่ไม่ได้อธิบายในตัวแปรผลลัพธ์:

y = b0 + b1⋅x + ϵ

โดยที่ y คือค่าที่ทำนายไว้ของการวัดผลลัพธ์ของคุณ (เช่น log_blood_hg), b0 คือการสกัดกั้น, b1 คือความชัน, x เป็นตัวแปรตัวทำนายและ ϵ คือข้อผิดพลาดที่เหลือ

การสกัดกั้น (b0) คือค่าเฉลี่ยที่คาดการณ์ของ y เมื่อ x ทั้งหมด 0 = อีกนัยหนึ่งคือค่าพื้นฐานของ y ก่อนที่คุณจะใช้ตัวแปรใด ๆ (เช่นสปีชีส์) เพื่อลดหรืออธิบายความแปรปรวนใน log_blood_hg เพิ่มเติม .

โดยการเพิ่มความชัน (ซึ่งประมาณว่าการเปลี่ยนแปลงเพิ่ม / ลดหนึ่งหน่วยใน log_blood_hg เมื่อเพิ่มหนึ่งหน่วยใน x, เช่นสปีชีส์) เราเพิ่มสิ่งที่เรารู้แล้วเกี่ยวกับตัวแปรผลลัพธ์ซึ่งเป็นค่าพื้นฐาน (เช่น สกัดกั้น) ขึ้นอยู่กับการเปลี่ยนแปลงในตัวแปรอื่น

Q2: เมื่อใดจึงเหมาะสมที่จะรวมหรือไม่รวมการสกัดกั้นโดยเฉพาะอย่างยิ่งในส่วนที่เกี่ยวกับข้อเท็จจริงที่ว่าแบบจำลองนั้นให้ผลลัพธ์ที่แตกต่างกันมาก?

สำหรับโมเดลที่เรียบง่ายเช่นนี้มันไม่เหมาะที่จะหยุดการสกัดกั้น

แบบจำลองให้ผลลัพธ์ที่แตกต่างเมื่อคุณตัดจุดตัดเพราะแทนที่จะลงความชันดินในค่าพื้นฐานของ Y มันถูกบังคับให้ผ่านจุดกำเนิดของ y ซึ่งก็คือ 0 ดังนั้นความชันจะชันขึ้น (เช่นมีประสิทธิภาพและมีความสำคัญมากกว่า ) เนื่องจากคุณบังคับให้ใช้เส้นผ่านจุดเริ่มต้นไม่ใช่เพราะมันทำงานได้ดีขึ้นในการลดความแปรปรวนใน y ให้น้อยที่สุด กล่าวอีกนัยหนึ่งคุณได้สร้างแบบจำลองซึ่งจะลดความแปรปรวนใน y ให้เหลือน้อยที่สุดด้วยการลบจุดตัดหรือจุดเริ่มต้นกราวด์สำหรับแบบจำลองของคุณ

มีหลายกรณีที่การลบจุดตัดนั้นเหมาะสม - เช่นเมื่ออธิบายปรากฏการณ์ด้วยจุดตัด 0 คุณสามารถอ่านเกี่ยวกับเรื่องนี้ได้ที่นี่รวมถึงเหตุผลเพิ่มเติมว่าทำไมการลบการสกัดกั้นจึงไม่ใช่ความคิดที่ดี


1

y=α+βx+ϵ
α=0yx=0

R2R2R2

บทสรุป: อย่าปล่อยให้การไม่สนใจโมเดล (ยกเว้นว่าคุณจริง ๆ รู้ว่าคุณกำลังทำอะไรอยู่)

Xs=vt

นอกจากนี้ยังมีรูปแบบพิเศษที่ตัดการสกัด ตัวอย่างหนึ่งคือข้อมูลที่จับคู่การศึกษาคู่

โดยการใช้ไซต์ของเรา หมายความว่าคุณได้อ่านและทำความเข้าใจนโยบายคุกกี้และนโยบายความเป็นส่วนตัวของเราแล้ว
Licensed under cc by-sa 3.0 with attribution required.